Series comparison

-[PULL 00/47] target-arm queue
+[PULL 00/36] target-arm queue
-Just my fp16 work, plus some small stuff for the sbsa-ref board;
+First pullreq for 6.0: mostly my v8.1M work, plus some other
-but my rule of thumb is to send a pullreq once I get over about
+bits and pieces. (I still have a lot of stuff in my to-review
-patches...
+folder, which I may or may not get to before the Christmas break...)
+thanks
 -- PMM
-The following changes since commit 2f4c51c0f384d7888a04b4815861e6d5fd244d75:
+The following changes since commit 5e7b204dbfae9a562fc73684986f936b97f63877:
-  Merge remote-tracking branch 'remotes/kraxel/tags/usb-20200831-pull-request' into staging (2020-08-31 19:39:13 +0100)
+  Merge remote-tracking branch 'remotes/mst/tags/for_upstream' into staging (2020-12-09 20:08:54 +0000)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200901
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20201210
-for you to fetch changes up to 3f462bf0f6ea6382dd1502d4eb1fcd33c8e774f5:
+for you to fetch changes up to 71f916be1c7e9ede0e37d9cabc781b5a9e8638ff:
-  hw/arm/sbsa-ref : Add embedded controller in secure memory (2020-09-01 14:01:34 +0100)
+  hw/arm/armv7m: Correct typo in QOM object name (2020-12-10 11:44:56 +0000)
 ----------------------------------------------------------------
 target-arm queue:
- * Implement fp16 support for AArch32 VFP and Neon
+ * hw/arm/smmuv3: Fix up L1STD_SPAN decoding
- * hw/arm/sbsa-ref: add "reg" property to DT cpu nodes
+ * xlnx-zynqmp: Support Xilinx ZynqMP CAN controllers
- * hw/arm/sbsa-ref : Add embedded controller in secure memory
+ * sbsa-ref: allow to use Cortex-A53/57/72 cpus
  * Various minor code cleanups
  * hw/intc/armv7m_nvic: Make all of system PPB range be RAZWI/BusFault
  * Implement more pieces of ARMv8.1M support
 ----------------------------------------------------------------
-Graeme Gregory (2):
+Alex Chen (4):
-      hw/misc/sbsa_ec : Add an embedded controller for sbsa-ref
+      i.MX25: Fix bad printf format specifiers
-      hw/arm/sbsa-ref : Add embedded controller in secure memory
+      i.MX31: Fix bad printf format specifiers
       i.MX6: Fix bad printf format specifiers
       i.MX6ul: Fix bad printf format specifiers
-Leif Lindholm (1):
+Havard Skinnemoen (1):
-      hw/arm/sbsa-ref: add "reg" property to DT cpu nodes
+      tests/qtest/npcm7xx_rng-test: dump random data on failure
-Peter Maydell (44):
+Kunkun Jiang (1):
-      target/arm: Remove local definitions of float constants
+      hw/arm/smmuv3: Fix up L1STD_SPAN decoding
       target/arm: Use correct ID register check for aa32_fp16_arith
       target/arm: Implement VFP fp16 for VFP_BINOP operations
       target/arm: Implement VFP fp16 VMLA, VMLS, VNMLS, VNMLA, VNMUL
       target/arm: Macroify trans functions for VFMA, VFMS, VFNMA, VFNMS
       target/arm: Implement VFP fp16 for fused-multiply-add
       target/arm: Macroify uses of do_vfp_2op_sp() and do_vfp_2op_dp()
       target/arm: Implement VFP fp16 for VABS, VNEG, VSQRT
       target/arm: Implement VFP fp16 for VMOV immediate
       target/arm: Implement VFP fp16 VCMP
       target/arm: Implement VFP fp16 VLDR and VSTR
       target/arm: Implement VFP fp16 VCVT between float and integer
       target/arm: Make VFP_CONV_FIX macros take separate float type and float size
       target/arm: Use macros instead of open-coding fp16 conversion helpers
       target/arm: Implement VFP fp16 VCVT between float and fixed-point
       target/arm: Implement VFP vp16 VCVT-with-specified-rounding-mode
       target/arm: Implement VFP fp16 VSEL
       target/arm: Implement VFP fp16 VRINT*
       target/arm: Implement new VFP fp16 insn VINS
       target/arm: Implement new VFP fp16 insn VMOVX
       target/arm: Implement VFP fp16 VMOV between gp and halfprec registers
       target/arm: Implement FP16 for Neon VADD, VSUB, VABD, VMUL
       target/arm: Implement fp16 for Neon VRECPE, VRSQRTE using gvec
       target/arm: Implement fp16 for Neon VABS, VNEG of floats
       target/arm: Implement fp16 for VCEQ, VCGE, VCGT comparisons
       target/arm: Implement fp16 for VACGE, VACGT
       target/arm: Implement fp16 for Neon VMAX, VMIN
       target/arm: Implement fp16 for Neon VMAXNM, VMINNM
       target/arm: Implement fp16 for Neon VMLA, VMLS operations
       target/arm: Implement fp16 for Neon VFMA, VMFS
       target/arm: Implement fp16 for Neon fp compare-vs-0
       target/arm: Implement fp16 for Neon VRECPS
       target/arm: Implement fp16 for Neon VRSQRTS
       target/arm: Implement fp16 for Neon pairwise fp ops
       target/arm: Implement fp16 for Neon float-integer VCVT
       target/arm: Convert Neon VCVT fixed-point to gvec
       target/arm: Implement fp16 for Neon VCVT fixed-point
       target/arm: Implement fp16 for Neon VCVT with rounding modes
       target/arm: Implement fp16 for Neon VRINT-with-specified-rounding-mode
       target/arm: Implement fp16 for Neon VRINTX
       target/arm/vec_helper: Handle oprsz less than 16 bytes in indexed operations
       target/arm/vec_helper: Add gvec fp indexed multiply-and-add operations
       target/arm: Implement fp16 for Neon VMUL, VMLA, VMLS
       target/arm: Enable FP16 in '-cpu max'
- target/arm/cpu.h                |   7 +-
+Marcin Juszkiewicz (1):
- target/arm/helper.h             | 133 ++++++-
+      sbsa-ref: allow to use Cortex-A53/57/72 cpus
  target/arm/neon-dp.decode       |   8 +-
  target/arm/vfp-uncond.decode    |  27 +-
  target/arm/vfp.decode           |  34 +-
  hw/arm/sbsa-ref.c               |  43 ++-
  hw/misc/sbsa_ec.c               |  98 +++++
  target/arm/cpu.c                |   3 +-
  target/arm/cpu64.c              |  10 +-
  target/arm/helper-a64.c         |  11 -
  target/arm/translate-sve.c      |   4 -
  target/arm/vec_helper.c         | 431 ++++++++++++++++++++-
  target/arm/vfp_helper.c         | 244 +++++-------
  hw/misc/meson.build             |   2 +
  target/arm/translate-neon.c.inc | 755 +++++++++++++------------------------
  target/arm/translate-vfp.c.inc  | 810 ++++++++++++++++++++++++++++++++++++----
 files changed, 1819 insertions(+), 801 deletions(-)
  create mode 100644 hw/misc/sbsa_ec.c
+Peter Maydell (25):
+      hw/intc/armv7m_nvic: Make all of system PPB range be RAZWI/BusFault
+      target/arm: Implement v8.1M PXN extension
+      target/arm: Don't clobber ID_PFR1.Security on M-profile cores
+      target/arm: Implement VSCCLRM insn
+      target/arm: Implement CLRM instruction
+      target/arm: Enforce M-profile VMRS/VMSR register restrictions
+      target/arm: Refactor M-profile VMSR/VMRS handling
+      target/arm: Move general-use constant expanders up in translate.c
+      target/arm: Implement VLDR/VSTR system register
+      target/arm: Implement M-profile FPSCR_nzcvqc
+      target/arm: Use new FPCR_NZCV_MASK constant
+      target/arm: Factor out preserve-fp-state from full_vfp_access_check()
+      target/arm: Implement FPCXT_S fp system register
+      hw/intc/armv7m_nvic: Update FPDSCR masking for v8.1M
+      target/arm: For v8.1M, always clear R0-R3, R12, APSR, EPSR on exception entry
+      target/arm: In v8.1M, don't set HFSR.FORCED on vector table fetch failures
+      target/arm: Implement v8.1M REVIDR register
+      target/arm: Implement new v8.1M NOCP check for exception return
+      target/arm: Implement new v8.1M VLLDM and VLSTM encodings
+      hw/intc/armv7m_nvic: Support v8.1M CCR.TRD bit
+      target/arm: Implement CCR_S.TRD behaviour for SG insns
+      hw/intc/armv7m_nvic: Fix "return from inactive handler" check
+      target/arm: Implement M-profile "minimal RAS implementation"
+      hw/intc/armv7m_nvic: Implement read/write for RAS register block
+      hw/arm/armv7m: Correct typo in QOM object name
+Vikram Garhwal (4):
+      hw/net/can: Introduce Xilinx ZynqMP CAN controller
+      xlnx-zynqmp: Connect Xilinx ZynqMP CAN controllers
+      tests/qtest: Introduce tests for Xilinx ZynqMP CAN controller
+      MAINTAINERS: Add maintainer entry for Xilinx ZynqMP CAN controller
+ meson.build                      |    1 +
+ hw/arm/smmuv3-internal.h         |    2 +-
+ hw/net/can/trace.h               |    1 +
+ include/hw/arm/xlnx-zynqmp.h     |    8 +
+ include/hw/intc/armv7m_nvic.h    |    2 +
+ include/hw/net/xlnx-zynqmp-can.h |   78 +++
+ target/arm/cpu.h                 |   46 ++
+ target/arm/m-nocp.decode         |   10 +-
+ target/arm/t32.decode            |   10 +-
+ target/arm/vfp.decode            |   14 +
+ hw/arm/armv7m.c                  |    4 +-
+ hw/arm/sbsa-ref.c                |   23 +-
+ hw/arm/xlnx-zcu102.c             |   20 +
+ hw/arm/xlnx-zynqmp.c             |   34 ++
+ hw/intc/armv7m_nvic.c            |  246 ++++++--
+ hw/misc/imx25_ccm.c              |   12 +-
+ hw/misc/imx31_ccm.c              |   14 +-
+ hw/misc/imx6_ccm.c               |   20 +-
+ hw/misc/imx6_src.c               |    2 +-
+ hw/misc/imx6ul_ccm.c             |    4 +-
+ hw/misc/imx_ccm.c                |    4 +-
+ hw/net/can/xlnx-zynqmp-can.c     | 1161 ++++++++++++++++++++++++++++++++++++++
+ target/arm/cpu.c                 |    5 +-
+ target/arm/helper.c              |    7 +-
+ target/arm/m_helper.c            |  130 ++++-
+ target/arm/translate.c           |  105 +++-
+ tests/qtest/npcm7xx_rng-test.c   |   12 +
+ tests/qtest/xlnx-can-test.c      |  360 ++++++++++++
+ MAINTAINERS                      |    8 +
+ hw/Kconfig                       |    1 +
+ hw/net/can/meson.build           |    1 +
+ hw/net/can/trace-events          |    9 +
+ target/arm/translate-vfp.c.inc   |  511 ++++++++++++++++-
+ tests/qtest/meson.build          |    1 +
+files changed, 2713 insertions(+), 153 deletions(-)
+ create mode 100644 hw/net/can/trace.h
+ create mode 100644 include/hw/net/xlnx-zynqmp-can.h
+ create mode 100644 hw/net/can/xlnx-zynqmp-can.c
+ create mode 100644 tests/qtest/xlnx-can-test.c
+ create mode 100644 hw/net/can/trace-events

-[PULL 01/47] target/arm: Remove local definitions of float constants
+Deleted patch
-In several places the target/arm code defines local float constants
-for 2, 3 and 1.5, which are also provided by include/fpu/softfloat.h.
-Remove the unnecessary local duplicate versions.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-2-peter.maydell@linaro.org
----
- target/arm/helper-a64.c    | 11 -----------
- target/arm/translate-sve.c |  4 ----
- target/arm/vfp_helper.c    |  4 ----
-files changed, 19 deletions(-)
-diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.c
-+++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
-  * versions, these do a fully fused multiply-add or
-  * multiply-add-and-halve.
-  */
--#define float16_two make_float16(0x4000)
--#define float16_three make_float16(0x4200)
--#define float16_one_point_five make_float16(0x3e00)
--
--#define float32_two make_float32(0x40000000)
--#define float32_three make_float32(0x40400000)
--#define float32_one_point_five make_float32(0x3fc00000)
--
--#define float64_two make_float64(0x4000000000000000ULL)
--#define float64_three make_float64(0x4008000000000000ULL)
--#define float64_one_point_five make_float64(0x3FF8000000000000ULL)
- uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
- {
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_##NAME##_zpzi(DisasContext *s, arg_rpri_esz *a)         \
-     return true;                                                          \
- }
--#define float16_two  make_float16(0x4000)
--#define float32_two  make_float32(0x40000000)
--#define float64_two  make_float64(0x4000000000000000ULL)
--
- DO_FP_IMM(FADD, fadds, half, one)
- DO_FP_IMM(FSUB, fsubs, half, one)
- DO_FP_IMM(FMUL, fmuls, half, two)
-diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp_helper.c
-+++ b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
-     return r;
- }
--#define float32_two make_float32(0x40000000)
--#define float32_three make_float32(0x40400000)
--#define float32_one_point_five make_float32(0x3fc00000)
--
- float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
- {
-     float_status *s = &env->vfp.standard_fp_status;
---
-.20.1

-[PULL 43/47] target/arm: Implement fp16 for Neon VMUL, VMLA, VMLS
+[PULL 01/36] hw/arm/smmuv3: Fix up L1STD_SPAN decoding
-Convert the Neon floating-point VMUL, VMLA and VMLS to use gvec,
+From: Kunkun Jiang <jiangkunkun@huawei.com>
 and use this to implement fp16 support.
+Accroding to the SMMUv3 spec, the SPAN field of Level1 Stream Table
+Descriptor is 5 bits([4:0]).
+Fixes: 9bde7f0674f(hw/arm/smmuv3: Implement translate callback)
+Signed-off-by: Kunkun Jiang <jiangkunkun@huawei.com>
+Message-id: 20201124023711.1184-1-jiangkunkun@huawei.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Acked-by: Eric Auger <eric.auger@redhat.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-45-peter.maydell@linaro.org
 ---
- target/arm/translate-neon.c.inc | 114 ++++++++++++++++----------------
+ hw/arm/smmuv3-internal.h | 2 +-
-file changed, 57 insertions(+), 57 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+diff --git a/hw/arm/smmuv3-internal.h b/hw/arm/smmuv3-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+--- a/hw/arm/smmuv3-internal.h
-+++ b/target/arm/translate-neon.c.inc
++++ b/hw/arm/smmuv3-internal.h
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMLS_2sc(DisasContext *s, arg_2scalar *a)
+@@ -XXX,XX +XXX,XX @@ static inline uint64_t l1std_l2ptr(STEDesc *desc)
-     return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
+     return hi << 32 | lo;
  }
--/*
+-#define L1STD_SPAN(stm) (extract32((stm)->word[0], 0, 4))
-- * Rather than have a float-specific version of do_2scalar just for
++#define L1STD_SPAN(stm) (extract32((stm)->word[0], 0, 5))
-- * three insns, we wrap a NeonGenTwoSingleOpFn to turn it into
-- * a NeonGenTwoOpFn.
+ #endif
 - */
 -#define WRAP_FP_FN(WRAPNAME, FUNC)                              \
 -    static void WRAPNAME(TCGv_i32 rd, TCGv_i32 rn, TCGv_i32 rm) \
 -    {                                                           \
 -        TCGv_ptr fpstatus = fpstatus_ptr(FPST_STD);             \
 -        FUNC(rd, rn, rm, fpstatus);                             \
 -        tcg_temp_free_ptr(fpstatus);                            \
 +static bool do_2scalar_fp_vec(DisasContext *s, arg_2scalar *a,
 +                              gen_helper_gvec_3_ptr *fn)
 +{
 +    /* Two registers and a scalar, using gvec */
 +    int vec_size = a->q ? 16 : 8;
 +    int rd_ofs = neon_reg_offset(a->vd, 0);
 +    int rn_ofs = neon_reg_offset(a->vn, 0);
 +    int rm_ofs;
 +    int idx;
 +    TCGv_ptr fpstatus;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
      }
 -WRAP_FP_FN(gen_VMUL_F_mul, gen_helper_vfp_muls)
 -WRAP_FP_FN(gen_VMUL_F_add, gen_helper_vfp_adds)
 -WRAP_FP_FN(gen_VMUL_F_sub, gen_helper_vfp_subs)
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 -static bool trans_VMUL_F_2sc(DisasContext *s, arg_2scalar *a)
 -{
 -    static NeonGenTwoOpFn * const opfn[] = {
 -        NULL,
 -        NULL, /* TODO: fp16 support */
 -        gen_VMUL_F_mul,
 -        NULL,
 -    };
 +    if (!fn) {
 +        /* Bad size (including size == 3, which is a different insn group) */
 +        return false;
 +    }
 -    return do_2scalar(s, a, opfn[a->size], NULL);
 +    if (a->q && ((a->vd | a->vn) & 1)) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    /* a->vm is M:Vm, which encodes both register and index */
 +    idx = extract32(a->vm, a->size + 2, 2);
 +    a->vm = extract32(a->vm, 0, a->size + 2);
 +    rm_ofs = neon_reg_offset(a->vm, 0);
 +
 +    fpstatus = fpstatus_ptr(a->size == 1 ? FPST_STD_F16 : FPST_STD);
 +    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpstatus,
 +                       vec_size, vec_size, idx, fn);
 +    tcg_temp_free_ptr(fpstatus);
 +    return true;
  }
 -static bool trans_VMLA_F_2sc(DisasContext *s, arg_2scalar *a)
 -{
 -    static NeonGenTwoOpFn * const opfn[] = {
 -        NULL,
 -        NULL, /* TODO: fp16 support */
 -        gen_VMUL_F_mul,
 -        NULL,
 -    };
 -    static NeonGenTwoOpFn * const accfn[] = {
 -        NULL,
 -        NULL, /* TODO: fp16 support */
 -        gen_VMUL_F_add,
 -        NULL,
 -    };
 +#define DO_VMUL_F_2sc(NAME, FUNC)                                       \
 +    static bool trans_##NAME##_F_2sc(DisasContext *s, arg_2scalar *a)   \
 +    {                                                                   \
 +        static gen_helper_gvec_3_ptr * const opfn[] = {                 \
 +            NULL,                                                       \
 +            gen_helper_##FUNC##_h,                                      \
 +            gen_helper_##FUNC##_s,                                      \
 +            NULL,                                                       \
 +        };                                                              \
 +        if (a->size == MO_16 && !dc_isar_feature(aa32_fp16_arith, s)) { \
 +            return false;                                               \
 +        }                                                               \
 +        return do_2scalar_fp_vec(s, a, opfn[a->size]);                  \
 +    }
 -    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 -}
 -
 -static bool trans_VMLS_F_2sc(DisasContext *s, arg_2scalar *a)
 -{
 -    static NeonGenTwoOpFn * const opfn[] = {
 -        NULL,
 -        NULL, /* TODO: fp16 support */
 -        gen_VMUL_F_mul,
 -        NULL,
 -    };
 -    static NeonGenTwoOpFn * const accfn[] = {
 -        NULL,
 -        NULL, /* TODO: fp16 support */
 -        gen_VMUL_F_sub,
 -        NULL,
 -    };
 -
 -    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 -}
 +DO_VMUL_F_2sc(VMUL, gvec_fmul_idx)
 +DO_VMUL_F_2sc(VMLA, gvec_fmla_nf_idx)
 +DO_VMUL_F_2sc(VMLS, gvec_fmls_nf_idx)
  WRAP_ENV_FN(gen_VQDMULH_16, gen_helper_neon_qdmulh_s16)
  WRAP_ENV_FN(gen_VQDMULH_32, gen_helper_neon_qdmulh_s32)
 --
 .20.1

-[PULL 46/47] hw/misc/sbsa_ec : Add an embedded controller for sbsa-ref
+[PULL 02/36] hw/net/can: Introduce Xilinx ZynqMP CAN controller
-From: Graeme Gregory <graeme@nuviainc.com>
+From: Vikram Garhwal <fnu.vikram@xilinx.com>
-A difference between sbsa platform and the virt platform is PSCI is
+The Xilinx ZynqMP CAN controller is developed based on SocketCAN, QEMU CAN bus
-handled by ARM-TF in the sbsa platform. This means that the PSCI code
+implementation. Bus connection and socketCAN connection for each CAN module
-there needs to communicate some of the platform power changes down
+can be set through command lines.
 to the qemu code for things like shutdown/reset control.
-Space has been left to extend the EC if we find other use cases in
+Example for using single CAN:
-future where ARM-TF and qemu need to communicate.
+    -object can-bus,id=canbus0 \
     -machine xlnx-zcu102.canbus0=canbus0 \
     -object can-host-socketcan,id=socketcan0,if=vcan0,canbus=canbus0
-Signed-off-by: Graeme Gregory <graeme@nuviainc.com>
+Example for connecting both CAN to same virtual CAN on host machine:
-Reviewed-by: Leif Lindholm <leif@nuviainc.com>
+    -object can-bus,id=canbus0 -object can-bus,id=canbus1 \
-Tested-by: Leif Lindholm <leif@nuviainc.com>
+    -machine xlnx-zcu102.canbus0=canbus0 \
-Message-id: 20200826141952.136164-2-graeme@nuviainc.com
+    -machine xlnx-zcu102.canbus1=canbus1 \
     -object can-host-socketcan,id=socketcan0,if=vcan0,canbus=canbus0 \
     -object can-host-socketcan,id=socketcan1,if=vcan0,canbus=canbus1
 To create virtual CAN on the host machine, please check the QEMU CAN docs:
 https://github.com/qemu/qemu/blob/master/docs/can.txt
 Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
 Message-id: 1605728926-352690-2-git-send-email-fnu.vikram@xilinx.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/misc/sbsa_ec.c   | 98 +++++++++++++++++++++++++++++++++++++++++++++
+ meson.build                      |    1 +
- hw/misc/meson.build |  2 +
+ hw/net/can/trace.h               |    1 +
-files changed, 100 insertions(+)
+ include/hw/net/xlnx-zynqmp-can.h |   78 ++
- create mode 100644 hw/misc/sbsa_ec.c
+ hw/net/can/xlnx-zynqmp-can.c     | 1161 ++++++++++++++++++++++++++++++
  hw/Kconfig                       |    1 +
  hw/net/can/meson.build           |    1 +
  hw/net/can/trace-events          |    9 +
 files changed, 1252 insertions(+)
  create mode 100644 hw/net/can/trace.h
  create mode 100644 include/hw/net/xlnx-zynqmp-can.h
  create mode 100644 hw/net/can/xlnx-zynqmp-can.c
  create mode 100644 hw/net/can/trace-events
-diff --git a/hw/misc/sbsa_ec.c b/hw/misc/sbsa_ec.c
+diff --git a/meson.build b/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/meson.build
 +++ b/meson.build
@@ -XXX,XX +XXX,XX @@ if have_system
      'hw/misc',
      'hw/misc/macio',
      'hw/net',
 +    'hw/net/can',
      'hw/nvram',
      'hw/pci',
      'hw/pci-host',
 diff --git a/hw/net/can/trace.h b/hw/net/can/trace.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/hw/misc/sbsa_ec.c
++++ b/hw/net/can/trace.h
@@ -0,0 +1 @@
 +#include "trace/trace-hw_net_can.h"
 diff --git a/include/hw/net/xlnx-zynqmp-can.h b/include/hw/net/xlnx-zynqmp-can.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/include/hw/net/xlnx-zynqmp-can.h
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * ARM SBSA Reference Platform Embedded Controller
++ * QEMU model of the Xilinx ZynqMP CAN controller.
 + *
-+ * A device to allow PSCI running in the secure side of sbsa-ref machine
++ * Copyright (c) 2020 Xilinx Inc.
 + * to communicate platform power states to qemu.
 + *
-+ * Copyright (c) 2020 Nuvia Inc
++ * Written-by: Vikram Garhwal<fnu.vikram@xilinx.com>
 + * Written by Graeme Gregory <graeme@nuviainc.com>
 + *
-+ * SPDX-License-Identifer: GPL-2.0-or-later
++ * Based on QEMU CAN Device emulation implemented by Jin Yang, Deniz Eren and
 + * Pavel Pisa.
 + *
 + * Permission is hereby granted, free of charge, to any person obtaining a copy
 + * of this software and associated documentation files (the "Software"), to deal
 + * in the Software without restriction, including without limitation the rights
 + * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 + * copies of the Software, and to permit persons to whom the Software is
 + * furnished to do so, subject to the following conditions:
 + *
 + * The above copyright notice and this permission notice shall be included in
 + * all copies or substantial portions of the Software.
 + *
 + * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
 + * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
 + * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
 + * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
 + * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
 + * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
 + * THE SOFTWARE.
 + */
 +
++#ifndef XLNX_ZYNQMP_CAN_H
++#define XLNX_ZYNQMP_CAN_H
++
++#include "hw/register.h"
++#include "net/can_emu.h"
++#include "net/can_host.h"
++#include "qemu/fifo32.h"
++#include "hw/ptimer.h"
++#include "hw/qdev-clock.h"
++
++#define TYPE_XLNX_ZYNQMP_CAN "xlnx.zynqmp-can"
++
++#define XLNX_ZYNQMP_CAN(obj) \
++     OBJECT_CHECK(XlnxZynqMPCANState, (obj), TYPE_XLNX_ZYNQMP_CAN)
++
++#define MAX_CAN_CTRLS      2
++#define XLNX_ZYNQMP_CAN_R_MAX     (0x84 / 4)
++#define MAILBOX_CAPACITY   64
++#define CAN_TIMER_MAX  0XFFFFUL
++#define CAN_DEFAULT_CLOCK (24 * 1000 * 1000)
++
++/* Each CAN_FRAME will have 4 * 32bit size. */
++#define CAN_FRAME_SIZE     4
++#define RXFIFO_SIZE        (MAILBOX_CAPACITY * CAN_FRAME_SIZE)
++
++typedef struct XlnxZynqMPCANState {
++    SysBusDevice        parent_obj;
++    MemoryRegion        iomem;
++
++    qemu_irq            irq;
++
++    CanBusClientState   bus_client;
++    CanBusState         *canbus;
++
++    struct {
++        uint32_t        ext_clk_freq;
++    } cfg;
++
++    RegisterInfo        reg_info[XLNX_ZYNQMP_CAN_R_MAX];
++    uint32_t            regs[XLNX_ZYNQMP_CAN_R_MAX];
++
++    Fifo32              rx_fifo;
++    Fifo32              tx_fifo;
++    Fifo32              txhpb_fifo;
++
++    ptimer_state        *can_timer;
++} XlnxZynqMPCANState;
++
++#endif
+diff --git a/hw/net/can/xlnx-zynqmp-can.c b/hw/net/can/xlnx-zynqmp-can.c
+new file mode 100644
+index XXXXXXX..XXXXXXX
+--- /dev/null
++++ b/hw/net/can/xlnx-zynqmp-can.c
+@@ -XXX,XX +XXX,XX @@
++/*
++ * QEMU model of the Xilinx ZynqMP CAN controller.
++ * This implementation is based on the following datasheet:
++ * https://www.xilinx.com/support/documentation/user_guides/ug1085-zynq-ultrascale-trm.pdf
++ *
++ * Copyright (c) 2020 Xilinx Inc.
++ *
++ * Written-by: Vikram Garhwal<fnu.vikram@xilinx.com>
++ *
++ * Based on QEMU CAN Device emulation implemented by Jin Yang, Deniz Eren and
++ * Pavel Pisa
++ *
++ * Permission is hereby granted, free of charge, to any person obtaining a copy
++ * of this software and associated documentation files (the "Software"), to deal
++ * in the Software without restriction, including without limitation the rights
++ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++ * copies of the Software, and to permit persons to whom the Software is
++ * furnished to do so, subject to the following conditions:
++ *
++ * The above copyright notice and this permission notice shall be included in
++ * all copies or substantial portions of the Software.
++ *
++ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
++ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++ * THE SOFTWARE.
++ */
++
 +#include "qemu/osdep.h"
-+#include "qemu-common.h"
++#include "hw/sysbus.h"
 +#include "hw/register.h"
 +#include "hw/irq.h"
 +#include "qapi/error.h"
 +#include "qemu/bitops.h"
 +#include "qemu/log.h"
-+#include "hw/sysbus.h"
++#include "qemu/cutils.h"
-+#include "sysemu/runstate.h"
++#include "sysemu/sysemu.h"
-+
++#include "migration/vmstate.h"
-+typedef struct {
++#include "hw/qdev-properties.h"
-+    SysBusDevice parent_obj;
++#include "net/can_emu.h"
-+    MemoryRegion iomem;
++#include "net/can_host.h"
-+} SECUREECState;
++#include "qemu/event_notifier.h"
-+
++#include "qom/object_interfaces.h"
-+#define TYPE_SBSA_EC      "sbsa-ec"
++#include "hw/net/xlnx-zynqmp-can.h"
-+#define SECURE_EC(obj) OBJECT_CHECK(SECUREECState, (obj), TYPE_SBSA_EC)
++#include "trace.h"
 +
-+enum sbsa_ec_powerstates {
++#ifndef XLNX_ZYNQMP_CAN_ERR_DEBUG
-+    SBSA_EC_CMD_POWEROFF = 0x01,
++#define XLNX_ZYNQMP_CAN_ERR_DEBUG 0
-+    SBSA_EC_CMD_REBOOT = 0x02,
++#endif
 +
 +#define MAX_DLC            8
 +#undef ERROR
 +
 +REG32(SOFTWARE_RESET_REGISTER, 0x0)
 +    FIELD(SOFTWARE_RESET_REGISTER, CEN, 1, 1)
 +    FIELD(SOFTWARE_RESET_REGISTER, SRST, 0, 1)
 +REG32(MODE_SELECT_REGISTER, 0x4)
 +    FIELD(MODE_SELECT_REGISTER, SNOOP, 2, 1)
 +    FIELD(MODE_SELECT_REGISTER, LBACK, 1, 1)
 +    FIELD(MODE_SELECT_REGISTER, SLEEP, 0, 1)
 +REG32(ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER, 0x8)
 +    FIELD(ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER, BRP, 0, 8)
 +REG32(ARBITRATION_PHASE_BIT_TIMING_REGISTER, 0xc)
 +    FIELD(ARBITRATION_PHASE_BIT_TIMING_REGISTER, SJW, 7, 2)
 +    FIELD(ARBITRATION_PHASE_BIT_TIMING_REGISTER, TS2, 4, 3)
 +    FIELD(ARBITRATION_PHASE_BIT_TIMING_REGISTER, TS1, 0, 4)
 +REG32(ERROR_COUNTER_REGISTER, 0x10)
 +    FIELD(ERROR_COUNTER_REGISTER, REC, 8, 8)
 +    FIELD(ERROR_COUNTER_REGISTER, TEC, 0, 8)
 +REG32(ERROR_STATUS_REGISTER, 0x14)
 +    FIELD(ERROR_STATUS_REGISTER, ACKER, 4, 1)
 +    FIELD(ERROR_STATUS_REGISTER, BERR, 3, 1)
 +    FIELD(ERROR_STATUS_REGISTER, STER, 2, 1)
 +    FIELD(ERROR_STATUS_REGISTER, FMER, 1, 1)
 +    FIELD(ERROR_STATUS_REGISTER, CRCER, 0, 1)
 +REG32(STATUS_REGISTER, 0x18)
 +    FIELD(STATUS_REGISTER, SNOOP, 12, 1)
 +    FIELD(STATUS_REGISTER, ACFBSY, 11, 1)
 +    FIELD(STATUS_REGISTER, TXFLL, 10, 1)
 +    FIELD(STATUS_REGISTER, TXBFLL, 9, 1)
 +    FIELD(STATUS_REGISTER, ESTAT, 7, 2)
 +    FIELD(STATUS_REGISTER, ERRWRN, 6, 1)
 +    FIELD(STATUS_REGISTER, BBSY, 5, 1)
 +    FIELD(STATUS_REGISTER, BIDLE, 4, 1)
 +    FIELD(STATUS_REGISTER, NORMAL, 3, 1)
 +    FIELD(STATUS_REGISTER, SLEEP, 2, 1)
 +    FIELD(STATUS_REGISTER, LBACK, 1, 1)
 +    FIELD(STATUS_REGISTER, CONFIG, 0, 1)
 +REG32(INTERRUPT_STATUS_REGISTER, 0x1c)
 +    FIELD(INTERRUPT_STATUS_REGISTER, TXFEMP, 14, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, TXFWMEMP, 13, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, RXFWMFLL, 12, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, WKUP, 11, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, SLP, 10, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, BSOFF, 9, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, ERROR, 8, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, RXNEMP, 7, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, RXOFLW, 6, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, RXUFLW, 5, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, RXOK, 4, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, TXBFLL, 3, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, TXFLL, 2, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, TXOK, 1, 1)
 +    FIELD(INTERRUPT_STATUS_REGISTER, ARBLST, 0, 1)
 +REG32(INTERRUPT_ENABLE_REGISTER, 0x20)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ETXFEMP, 14, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ETXFWMEMP, 13, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ERXFWMFLL, 12, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, EWKUP, 11, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ESLP, 10, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, EBSOFF, 9, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, EERROR, 8, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ERXNEMP, 7, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ERXOFLW, 6, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ERXUFLW, 5, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ERXOK, 4, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ETXBFLL, 3, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ETXFLL, 2, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, ETXOK, 1, 1)
 +    FIELD(INTERRUPT_ENABLE_REGISTER, EARBLST, 0, 1)
 +REG32(INTERRUPT_CLEAR_REGISTER, 0x24)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CTXFEMP, 14, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CTXFWMEMP, 13, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CRXFWMFLL, 12, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CWKUP, 11, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CSLP, 10, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CBSOFF, 9, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CERROR, 8, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CRXNEMP, 7, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CRXOFLW, 6, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CRXUFLW, 5, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CRXOK, 4, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CTXBFLL, 3, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CTXFLL, 2, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CTXOK, 1, 1)
 +    FIELD(INTERRUPT_CLEAR_REGISTER, CARBLST, 0, 1)
 +REG32(TIMESTAMP_REGISTER, 0x28)
 +    FIELD(TIMESTAMP_REGISTER, CTS, 0, 1)
 +REG32(WIR, 0x2c)
 +    FIELD(WIR, EW, 8, 8)
 +    FIELD(WIR, FW, 0, 8)
 +REG32(TXFIFO_ID, 0x30)
 +    FIELD(TXFIFO_ID, IDH, 21, 11)
 +    FIELD(TXFIFO_ID, SRRRTR, 20, 1)
 +    FIELD(TXFIFO_ID, IDE, 19, 1)
 +    FIELD(TXFIFO_ID, IDL, 1, 18)
 +    FIELD(TXFIFO_ID, RTR, 0, 1)
 +REG32(TXFIFO_DLC, 0x34)
 +    FIELD(TXFIFO_DLC, DLC, 28, 4)
 +REG32(TXFIFO_DATA1, 0x38)
 +    FIELD(TXFIFO_DATA1, DB0, 24, 8)
 +    FIELD(TXFIFO_DATA1, DB1, 16, 8)
 +    FIELD(TXFIFO_DATA1, DB2, 8, 8)
 +    FIELD(TXFIFO_DATA1, DB3, 0, 8)
 +REG32(TXFIFO_DATA2, 0x3c)
 +    FIELD(TXFIFO_DATA2, DB4, 24, 8)
 +    FIELD(TXFIFO_DATA2, DB5, 16, 8)
 +    FIELD(TXFIFO_DATA2, DB6, 8, 8)
 +    FIELD(TXFIFO_DATA2, DB7, 0, 8)
 +REG32(TXHPB_ID, 0x40)
 +    FIELD(TXHPB_ID, IDH, 21, 11)
 +    FIELD(TXHPB_ID, SRRRTR, 20, 1)
 +    FIELD(TXHPB_ID, IDE, 19, 1)
 +    FIELD(TXHPB_ID, IDL, 1, 18)
 +    FIELD(TXHPB_ID, RTR, 0, 1)
 +REG32(TXHPB_DLC, 0x44)
 +    FIELD(TXHPB_DLC, DLC, 28, 4)
 +REG32(TXHPB_DATA1, 0x48)
 +    FIELD(TXHPB_DATA1, DB0, 24, 8)
 +    FIELD(TXHPB_DATA1, DB1, 16, 8)
 +    FIELD(TXHPB_DATA1, DB2, 8, 8)
 +    FIELD(TXHPB_DATA1, DB3, 0, 8)
 +REG32(TXHPB_DATA2, 0x4c)
 +    FIELD(TXHPB_DATA2, DB4, 24, 8)
 +    FIELD(TXHPB_DATA2, DB5, 16, 8)
 +    FIELD(TXHPB_DATA2, DB6, 8, 8)
 +    FIELD(TXHPB_DATA2, DB7, 0, 8)
 +REG32(RXFIFO_ID, 0x50)
 +    FIELD(RXFIFO_ID, IDH, 21, 11)
 +    FIELD(RXFIFO_ID, SRRRTR, 20, 1)
 +    FIELD(RXFIFO_ID, IDE, 19, 1)
 +    FIELD(RXFIFO_ID, IDL, 1, 18)
 +    FIELD(RXFIFO_ID, RTR, 0, 1)
 +REG32(RXFIFO_DLC, 0x54)
 +    FIELD(RXFIFO_DLC, DLC, 28, 4)
 +    FIELD(RXFIFO_DLC, RXT, 0, 16)
 +REG32(RXFIFO_DATA1, 0x58)
 +    FIELD(RXFIFO_DATA1, DB0, 24, 8)
 +    FIELD(RXFIFO_DATA1, DB1, 16, 8)
 +    FIELD(RXFIFO_DATA1, DB2, 8, 8)
 +    FIELD(RXFIFO_DATA1, DB3, 0, 8)
 +REG32(RXFIFO_DATA2, 0x5c)
 +    FIELD(RXFIFO_DATA2, DB4, 24, 8)
 +    FIELD(RXFIFO_DATA2, DB5, 16, 8)
 +    FIELD(RXFIFO_DATA2, DB6, 8, 8)
 +    FIELD(RXFIFO_DATA2, DB7, 0, 8)
 +REG32(AFR, 0x60)
 +    FIELD(AFR, UAF4, 3, 1)
 +    FIELD(AFR, UAF3, 2, 1)
 +    FIELD(AFR, UAF2, 1, 1)
 +    FIELD(AFR, UAF1, 0, 1)
 +REG32(AFMR1, 0x64)
 +    FIELD(AFMR1, AMIDH, 21, 11)
 +    FIELD(AFMR1, AMSRR, 20, 1)
 +    FIELD(AFMR1, AMIDE, 19, 1)
 +    FIELD(AFMR1, AMIDL, 1, 18)
 +    FIELD(AFMR1, AMRTR, 0, 1)
 +REG32(AFIR1, 0x68)
 +    FIELD(AFIR1, AIIDH, 21, 11)
 +    FIELD(AFIR1, AISRR, 20, 1)
 +    FIELD(AFIR1, AIIDE, 19, 1)
 +    FIELD(AFIR1, AIIDL, 1, 18)
 +    FIELD(AFIR1, AIRTR, 0, 1)
 +REG32(AFMR2, 0x6c)
 +    FIELD(AFMR2, AMIDH, 21, 11)
 +    FIELD(AFMR2, AMSRR, 20, 1)
 +    FIELD(AFMR2, AMIDE, 19, 1)
 +    FIELD(AFMR2, AMIDL, 1, 18)
 +    FIELD(AFMR2, AMRTR, 0, 1)
 +REG32(AFIR2, 0x70)
 +    FIELD(AFIR2, AIIDH, 21, 11)
 +    FIELD(AFIR2, AISRR, 20, 1)
 +    FIELD(AFIR2, AIIDE, 19, 1)
 +    FIELD(AFIR2, AIIDL, 1, 18)
 +    FIELD(AFIR2, AIRTR, 0, 1)
 +REG32(AFMR3, 0x74)
 +    FIELD(AFMR3, AMIDH, 21, 11)
 +    FIELD(AFMR3, AMSRR, 20, 1)
 +    FIELD(AFMR3, AMIDE, 19, 1)
 +    FIELD(AFMR3, AMIDL, 1, 18)
 +    FIELD(AFMR3, AMRTR, 0, 1)
 +REG32(AFIR3, 0x78)
 +    FIELD(AFIR3, AIIDH, 21, 11)
 +    FIELD(AFIR3, AISRR, 20, 1)
 +    FIELD(AFIR3, AIIDE, 19, 1)
 +    FIELD(AFIR3, AIIDL, 1, 18)
 +    FIELD(AFIR3, AIRTR, 0, 1)
 +REG32(AFMR4, 0x7c)
 +    FIELD(AFMR4, AMIDH, 21, 11)
 +    FIELD(AFMR4, AMSRR, 20, 1)
 +    FIELD(AFMR4, AMIDE, 19, 1)
 +    FIELD(AFMR4, AMIDL, 1, 18)
 +    FIELD(AFMR4, AMRTR, 0, 1)
 +REG32(AFIR4, 0x80)
 +    FIELD(AFIR4, AIIDH, 21, 11)
 +    FIELD(AFIR4, AISRR, 20, 1)
 +    FIELD(AFIR4, AIIDE, 19, 1)
 +    FIELD(AFIR4, AIIDL, 1, 18)
 +    FIELD(AFIR4, AIRTR, 0, 1)
 +
 +static void can_update_irq(XlnxZynqMPCANState *s)
 +{
 +    uint32_t irq;
 +
 +    /* Watermark register interrupts. */
 +    if ((fifo32_num_free(&s->tx_fifo) / CAN_FRAME_SIZE) >
 +            ARRAY_FIELD_EX32(s->regs, WIR, EW)) {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXFWMEMP, 1);
 +    }
 +
 +    if ((fifo32_num_used(&s->rx_fifo) / CAN_FRAME_SIZE) >
 +            ARRAY_FIELD_EX32(s->regs, WIR, FW)) {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXFWMFLL, 1);
 +    }
 +
 +    /* RX Interrupts. */
 +    if (fifo32_num_used(&s->rx_fifo) >= CAN_FRAME_SIZE) {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXNEMP, 1);
 +    }
 +
 +    /* TX interrupts. */
 +    if (fifo32_is_empty(&s->tx_fifo)) {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXFEMP, 1);
 +    }
 +
 +    if (fifo32_is_full(&s->tx_fifo)) {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXFLL, 1);
 +    }
 +
 +    if (fifo32_is_full(&s->txhpb_fifo)) {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXBFLL, 1);
 +    }
 +
 +    irq = s->regs[R_INTERRUPT_STATUS_REGISTER];
 +    irq &= s->regs[R_INTERRUPT_ENABLE_REGISTER];
 +
 +    trace_xlnx_can_update_irq(s->regs[R_INTERRUPT_STATUS_REGISTER],
 +                              s->regs[R_INTERRUPT_ENABLE_REGISTER], irq);
 +    qemu_set_irq(s->irq, irq);
 +}
 +
 +static void can_ier_post_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    can_update_irq(s);
 +}
 +
 +static uint64_t can_icr_pre_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    s->regs[R_INTERRUPT_STATUS_REGISTER] &= ~val;
 +    can_update_irq(s);
 +
 +    return 0;
 +}
 +
 +static void can_config_reset(XlnxZynqMPCANState *s)
 +{
 +    /* Reset all the configuration registers. */
 +    register_reset(&s->reg_info[R_SOFTWARE_RESET_REGISTER]);
 +    register_reset(&s->reg_info[R_MODE_SELECT_REGISTER]);
 +    register_reset(
 +              &s->reg_info[R_ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER]);
 +    register_reset(&s->reg_info[R_ARBITRATION_PHASE_BIT_TIMING_REGISTER]);
 +    register_reset(&s->reg_info[R_STATUS_REGISTER]);
 +    register_reset(&s->reg_info[R_INTERRUPT_STATUS_REGISTER]);
 +    register_reset(&s->reg_info[R_INTERRUPT_ENABLE_REGISTER]);
 +    register_reset(&s->reg_info[R_INTERRUPT_CLEAR_REGISTER]);
 +    register_reset(&s->reg_info[R_WIR]);
 +}
 +
 +static void can_config_mode(XlnxZynqMPCANState *s)
 +{
 +    register_reset(&s->reg_info[R_ERROR_COUNTER_REGISTER]);
 +    register_reset(&s->reg_info[R_ERROR_STATUS_REGISTER]);
 +
 +    /* Put XlnxZynqMPCAN in configuration mode. */
 +    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, CONFIG, 1);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, WKUP, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, SLP, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, BSOFF, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, ERROR, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOFLW, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOK, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXOK, 0);
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, ARBLST, 0);
 +
 +    can_update_irq(s);
 +}
 +
 +static void update_status_register_mode_bits(XlnxZynqMPCANState *s)
 +{
 +    bool sleep_status = ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP);
 +    bool sleep_mode = ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, SLEEP);
 +    /* Wake up interrupt bit. */
 +    bool wakeup_irq_val = sleep_status && (sleep_mode == 0);
 +    /* Sleep interrupt bit. */
 +    bool sleep_irq_val = sleep_mode && (sleep_status == 0);
 +
 +    /* Clear previous core mode status bits. */
 +    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, LBACK, 0);
 +    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SLEEP, 0);
 +    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SNOOP, 0);
 +    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, NORMAL, 0);
 +
 +    /* set current mode bit and generate irqs accordingly. */
 +    if (ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, LBACK)) {
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, LBACK, 1);
 +    } else if (ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, SLEEP)) {
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SLEEP, 1);
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, SLP,
 +                         sleep_irq_val);
 +    } else if (ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, SNOOP)) {
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SNOOP, 1);
 +    } else {
 +        /*
 +         * If all bits are zero then XlnxZynqMPCAN is set in normal mode.
 +         */
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, NORMAL, 1);
 +        /* Set wakeup interrupt bit. */
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, WKUP,
 +                         wakeup_irq_val);
 +    }
 +
 +    can_update_irq(s);
 +}
 +
 +static void can_exit_sleep_mode(XlnxZynqMPCANState *s)
 +{
 +    ARRAY_FIELD_DP32(s->regs, MODE_SELECT_REGISTER, SLEEP, 0);
 +    update_status_register_mode_bits(s);
 +}
 +
 +static void generate_frame(qemu_can_frame *frame, uint32_t *data)
 +{
 +    frame->can_id = data[0];
 +    frame->can_dlc = FIELD_EX32(data[1], TXFIFO_DLC, DLC);
 +
 +    frame->data[0] = FIELD_EX32(data[2], TXFIFO_DATA1, DB3);
 +    frame->data[1] = FIELD_EX32(data[2], TXFIFO_DATA1, DB2);
 +    frame->data[2] = FIELD_EX32(data[2], TXFIFO_DATA1, DB1);
 +    frame->data[3] = FIELD_EX32(data[2], TXFIFO_DATA1, DB0);
 +
 +    frame->data[4] = FIELD_EX32(data[3], TXFIFO_DATA2, DB7);
 +    frame->data[5] = FIELD_EX32(data[3], TXFIFO_DATA2, DB6);
 +    frame->data[6] = FIELD_EX32(data[3], TXFIFO_DATA2, DB5);
 +    frame->data[7] = FIELD_EX32(data[3], TXFIFO_DATA2, DB4);
 +}
 +
 +static bool tx_ready_check(XlnxZynqMPCANState *s)
 +{
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, SRST)) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to transfer data while"
 +                      " data while controller is in reset mode.\n",
 +                      path);
 +        return false;
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN) == 0) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to transfer"
 +                      " data while controller is in configuration mode. Reset"
 +                      " the core so operations can start fresh.\n",
 +                      path);
 +        return false;
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SNOOP)) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to transfer"
 +                      " data while controller is in SNOOP MODE.\n",
 +                      path);
 +        return false;
 +    }
 +
 +    return true;
 +}
 +
 +static void transfer_fifo(XlnxZynqMPCANState *s, Fifo32 *fifo)
 +{
 +    qemu_can_frame frame;
 +    uint32_t data[CAN_FRAME_SIZE];
 +    int i;
 +    bool can_tx = tx_ready_check(s);
 +
 +    if (!can_tx) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Controller is not enabled for data"
 +                      " transfer.\n", path);
 +        can_update_irq(s);
 +        return;
 +    }
 +
 +    while (!fifo32_is_empty(fifo)) {
 +        for (i = 0; i < CAN_FRAME_SIZE; i++) {
 +            data[i] = fifo32_pop(fifo);
 +        }
 +
 +        if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, LBACK)) {
 +            /*
 +             * Controller is in loopback. In Loopback mode, the CAN core
 +             * transmits a recessive bitstream on to the XlnxZynqMPCAN Bus.
 +             * Any message transmitted is looped back to the RX line and
 +             * acknowledged. The XlnxZynqMPCAN core receives any message
 +             * that it transmits.
 +             */
 +            if (fifo32_is_full(&s->rx_fifo)) {
 +                ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOFLW, 1);
 +            } else {
 +                for (i = 0; i < CAN_FRAME_SIZE; i++) {
 +                    fifo32_push(&s->rx_fifo, data[i]);
 +                }
 +
 +                ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOK, 1);
 +            }
 +        } else {
 +            /* Normal mode Tx. */
 +            generate_frame(&frame, data);
 +
 +            trace_xlnx_can_tx_data(frame.can_id, frame.can_dlc,
 +                                   frame.data[0], frame.data[1],
 +                                   frame.data[2], frame.data[3],
 +                                   frame.data[4], frame.data[5],
 +                                   frame.data[6], frame.data[7]);
 +            can_bus_client_send(&s->bus_client, &frame, 1);
 +        }
 +    }
 +
 +    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXOK, 1);
 +    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, TXBFLL, 0);
 +
 +    if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP)) {
 +        can_exit_sleep_mode(s);
 +    }
 +
 +    can_update_irq(s);
 +}
 +
 +static uint64_t can_srr_pre_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    ARRAY_FIELD_DP32(s->regs, SOFTWARE_RESET_REGISTER, CEN,
 +                     FIELD_EX32(val, SOFTWARE_RESET_REGISTER, CEN));
 +
 +    if (FIELD_EX32(val, SOFTWARE_RESET_REGISTER, SRST)) {
 +        trace_xlnx_can_reset(val);
 +
 +        /* First, core will do software reset then will enter in config mode. */
 +        can_config_reset(s);
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN) == 0) {
 +        can_config_mode(s);
 +    } else {
 +        /*
 +         * Leave config mode. Now XlnxZynqMPCAN core will enter normal,
 +         * sleep, snoop or loopback mode depending upon LBACK, SLEEP, SNOOP
 +         * register states.
 +         */
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, CONFIG, 0);
 +
 +        ptimer_transaction_begin(s->can_timer);
 +        ptimer_set_count(s->can_timer, 0);
 +        ptimer_transaction_commit(s->can_timer);
 +
 +        /* XlnxZynqMPCAN is out of config mode. It will send pending data. */
 +        transfer_fifo(s, &s->txhpb_fifo);
 +        transfer_fifo(s, &s->tx_fifo);
 +    }
 +
 +    update_status_register_mode_bits(s);
 +
 +    return s->regs[R_SOFTWARE_RESET_REGISTER];
 +}
 +
 +static uint64_t can_msr_pre_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +    uint8_t multi_mode;
 +
 +    /*
 +     * Multiple mode set check. This is done to make sure user doesn't set
 +     * multiple modes.
 +     */
 +    multi_mode = FIELD_EX32(val, MODE_SELECT_REGISTER, LBACK) +
 +                 FIELD_EX32(val, MODE_SELECT_REGISTER, SLEEP) +
 +                 FIELD_EX32(val, MODE_SELECT_REGISTER, SNOOP);
 +
 +    if (multi_mode > 1) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to config"
 +                      " several modes simultaneously. One mode will be selected"
 +                      " according to their priority: LBACK > SLEEP > SNOOP.\n",
 +                      path);
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN) == 0) {
 +        /* We are in configuration mode, any mode can be selected. */
 +        s->regs[R_MODE_SELECT_REGISTER] = val;
 +    } else {
 +        bool sleep_mode_bit = FIELD_EX32(val, MODE_SELECT_REGISTER, SLEEP);
 +
 +        ARRAY_FIELD_DP32(s->regs, MODE_SELECT_REGISTER, SLEEP, sleep_mode_bit);
 +
 +        if (FIELD_EX32(val, MODE_SELECT_REGISTER, LBACK)) {
 +            g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +            qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to set"
 +                          " LBACK mode without setting CEN bit as 0.\n",
 +                          path);
 +        } else if (FIELD_EX32(val, MODE_SELECT_REGISTER, SNOOP)) {
 +            g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +            qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to set"
 +                          " SNOOP mode without setting CEN bit as 0.\n",
 +                          path);
 +        }
 +
 +        update_status_register_mode_bits(s);
 +    }
 +
 +    return s->regs[R_MODE_SELECT_REGISTER];
 +}
 +
 +static uint64_t can_brpr_pre_write(RegisterInfo  *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    /* Only allow writes when in config mode. */
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) {
 +        return s->regs[R_ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER];
 +    }
 +
 +    return val;
 +}
 +
 +static uint64_t can_btr_pre_write(RegisterInfo  *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    /* Only allow writes when in config mode. */
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) {
 +        return s->regs[R_ARBITRATION_PHASE_BIT_TIMING_REGISTER];
 +    }
 +
 +    return val;
 +}
 +
 +static uint64_t can_tcr_pre_write(RegisterInfo  *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    if (FIELD_EX32(val, TIMESTAMP_REGISTER, CTS)) {
 +        ptimer_transaction_begin(s->can_timer);
 +        ptimer_set_count(s->can_timer, 0);
 +        ptimer_transaction_commit(s->can_timer);
 +    }
 +
 +    return 0;
 +}
 +
 +static void update_rx_fifo(XlnxZynqMPCANState *s, const qemu_can_frame *frame)
 +{
 +    bool filter_pass = false;
 +    uint16_t timestamp = 0;
 +
 +    /* If no filter is enabled. Message will be stored in FIFO. */
 +    if (!((ARRAY_FIELD_EX32(s->regs, AFR, UAF1)) |
 +       (ARRAY_FIELD_EX32(s->regs, AFR, UAF2)) |
 +       (ARRAY_FIELD_EX32(s->regs, AFR, UAF3)) |
 +       (ARRAY_FIELD_EX32(s->regs, AFR, UAF4)))) {
 +        filter_pass = true;
 +    }
 +
 +    /*
 +     * Messages that pass any of the acceptance filters will be stored in
 +     * the RX FIFO.
 +     */
 +    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF1)) {
 +        uint32_t id_masked = s->regs[R_AFMR1] & frame->can_id;
 +        uint32_t filter_id_masked = s->regs[R_AFMR1] & s->regs[R_AFIR1];
 +
 +        if (filter_id_masked == id_masked) {
 +            filter_pass = true;
 +        }
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF2)) {
 +        uint32_t id_masked = s->regs[R_AFMR2] & frame->can_id;
 +        uint32_t filter_id_masked = s->regs[R_AFMR2] & s->regs[R_AFIR2];
 +
 +        if (filter_id_masked == id_masked) {
 +            filter_pass = true;
 +        }
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF3)) {
 +        uint32_t id_masked = s->regs[R_AFMR3] & frame->can_id;
 +        uint32_t filter_id_masked = s->regs[R_AFMR3] & s->regs[R_AFIR3];
 +
 +        if (filter_id_masked == id_masked) {
 +            filter_pass = true;
 +        }
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF4)) {
 +        uint32_t id_masked = s->regs[R_AFMR4] & frame->can_id;
 +        uint32_t filter_id_masked = s->regs[R_AFMR4] & s->regs[R_AFIR4];
 +
 +        if (filter_id_masked == id_masked) {
 +            filter_pass = true;
 +        }
 +    }
 +
 +    if (!filter_pass) {
 +        trace_xlnx_can_rx_fifo_filter_reject(frame->can_id, frame->can_dlc);
 +        return;
 +    }
 +
 +    /* Store the message in fifo if it passed through any of the filters. */
 +    if (filter_pass && frame->can_dlc <= MAX_DLC) {
 +
 +        if (fifo32_is_full(&s->rx_fifo)) {
 +            ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOFLW, 1);
 +        } else {
 +            timestamp = CAN_TIMER_MAX - ptimer_get_count(s->can_timer);
 +
 +            fifo32_push(&s->rx_fifo, frame->can_id);
 +
 +            fifo32_push(&s->rx_fifo, deposit32(0, R_RXFIFO_DLC_DLC_SHIFT,
 +                                               R_RXFIFO_DLC_DLC_LENGTH,
 +                                               frame->can_dlc) |
 +                                     deposit32(0, R_RXFIFO_DLC_RXT_SHIFT,
 +                                               R_RXFIFO_DLC_RXT_LENGTH,
 +                                               timestamp));
 +
 +            /* First 32 bit of the data. */
 +            fifo32_push(&s->rx_fifo, deposit32(0, R_TXFIFO_DATA1_DB3_SHIFT,
 +                                               R_TXFIFO_DATA1_DB3_LENGTH,
 +                                               frame->data[0]) |
 +                                     deposit32(0, R_TXFIFO_DATA1_DB2_SHIFT,
 +                                               R_TXFIFO_DATA1_DB2_LENGTH,
 +                                               frame->data[1]) |
 +                                     deposit32(0, R_TXFIFO_DATA1_DB1_SHIFT,
 +                                               R_TXFIFO_DATA1_DB1_LENGTH,
 +                                               frame->data[2]) |
 +                                     deposit32(0, R_TXFIFO_DATA1_DB0_SHIFT,
 +                                               R_TXFIFO_DATA1_DB0_LENGTH,
 +                                               frame->data[3]));
 +            /* Last 32 bit of the data. */
 +            fifo32_push(&s->rx_fifo, deposit32(0, R_TXFIFO_DATA2_DB7_SHIFT,
 +                                               R_TXFIFO_DATA2_DB7_LENGTH,
 +                                               frame->data[4]) |
 +                                     deposit32(0, R_TXFIFO_DATA2_DB6_SHIFT,
 +                                               R_TXFIFO_DATA2_DB6_LENGTH,
 +                                               frame->data[5]) |
 +                                     deposit32(0, R_TXFIFO_DATA2_DB5_SHIFT,
 +                                               R_TXFIFO_DATA2_DB5_LENGTH,
 +                                               frame->data[6]) |
 +                                     deposit32(0, R_TXFIFO_DATA2_DB4_SHIFT,
 +                                               R_TXFIFO_DATA2_DB4_LENGTH,
 +                                               frame->data[7]));
 +
 +            ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOK, 1);
 +            trace_xlnx_can_rx_data(frame->can_id, frame->can_dlc,
 +                                   frame->data[0], frame->data[1],
 +                                   frame->data[2], frame->data[3],
 +                                   frame->data[4], frame->data[5],
 +                                   frame->data[6], frame->data[7]);
 +        }
 +
 +        can_update_irq(s);
 +    }
 +}
 +
 +static uint64_t can_rxfifo_pre_read(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    if (!fifo32_is_empty(&s->rx_fifo)) {
 +        val = fifo32_pop(&s->rx_fifo);
 +    } else {
 +        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXUFLW, 1);
 +    }
 +
 +    can_update_irq(s);
 +    return val;
 +}
 +
 +static void can_filter_enable_post_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF1) &&
 +        ARRAY_FIELD_EX32(s->regs, AFR, UAF2) &&
 +        ARRAY_FIELD_EX32(s->regs, AFR, UAF3) &&
 +        ARRAY_FIELD_EX32(s->regs, AFR, UAF4)) {
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, ACFBSY, 1);
 +    } else {
 +        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, ACFBSY, 0);
 +    }
 +}
 +
 +static uint64_t can_filter_mask_pre_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +    uint32_t reg_idx = (reg->access->addr) / 4;
 +    uint32_t filter_number = (reg_idx - R_AFMR1) / 2;
 +
 +    /* modify an acceptance filter, the corresponding UAF bit should be '0'. */
 +    if (!(s->regs[R_AFR] & (1 << filter_number))) {
 +        s->regs[reg_idx] = val;
 +
 +        trace_xlnx_can_filter_mask_pre_write(filter_number, s->regs[reg_idx]);
 +    } else {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Acceptance filter %d"
 +                      " mask is not set as corresponding UAF bit is not 0.\n",
 +                      path, filter_number + 1);
 +    }
 +
 +    return s->regs[reg_idx];
 +}
 +
 +static uint64_t can_filter_id_pre_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +    uint32_t reg_idx = (reg->access->addr) / 4;
 +    uint32_t filter_number = (reg_idx - R_AFIR1) / 2;
 +
 +    if (!(s->regs[R_AFR] & (1 << filter_number))) {
 +        s->regs[reg_idx] = val;
 +
 +        trace_xlnx_can_filter_id_pre_write(filter_number, s->regs[reg_idx]);
 +    } else {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Acceptance filter %d"
 +                      " id is not set as corresponding UAF bit is not 0.\n",
 +                      path, filter_number + 1);
 +    }
 +
 +    return s->regs[reg_idx];
 +}
 +
 +static void can_tx_post_write(RegisterInfo *reg, uint64_t val)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
 +
 +    bool is_txhpb = reg->access->addr > A_TXFIFO_DATA2;
 +
 +    bool initiate_transfer = (reg->access->addr == A_TXFIFO_DATA2) ||
 +                             (reg->access->addr == A_TXHPB_DATA2);
 +
 +    Fifo32 *f = is_txhpb ? &s->txhpb_fifo : &s->tx_fifo;
 +
 +    if (!fifo32_is_full(f)) {
 +        fifo32_push(f, val);
 +    } else {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: TX FIFO is full.\n", path);
 +    }
 +
 +    /* Initiate the message send if TX register is written. */
 +    if (initiate_transfer &&
 +        ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) {
 +        transfer_fifo(s, f);
 +    }
 +
 +    can_update_irq(s);
 +}
 +
 +static const RegisterAccessInfo can_regs_info[] = {
 +    {   .name = "SOFTWARE_RESET_REGISTER",
 +        .addr = A_SOFTWARE_RESET_REGISTER,
 +        .rsvd = 0xfffffffc,
 +        .pre_write = can_srr_pre_write,
 +    },{ .name = "MODE_SELECT_REGISTER",
 +        .addr = A_MODE_SELECT_REGISTER,
 +        .rsvd = 0xfffffff8,
 +        .pre_write = can_msr_pre_write,
 +    },{ .name = "ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER",
 +        .addr = A_ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER,
 +        .rsvd = 0xffffff00,
 +        .pre_write = can_brpr_pre_write,
 +    },{ .name = "ARBITRATION_PHASE_BIT_TIMING_REGISTER",
 +        .addr = A_ARBITRATION_PHASE_BIT_TIMING_REGISTER,
 +        .rsvd = 0xfffffe00,
 +        .pre_write = can_btr_pre_write,
 +    },{ .name = "ERROR_COUNTER_REGISTER",
 +        .addr = A_ERROR_COUNTER_REGISTER,
 +        .rsvd = 0xffff0000,
 +        .ro = 0xffffffff,
 +    },{ .name = "ERROR_STATUS_REGISTER",
 +        .addr = A_ERROR_STATUS_REGISTER,
 +        .rsvd = 0xffffffe0,
 +        .w1c = 0x1f,
 +    },{ .name = "STATUS_REGISTER",  .addr = A_STATUS_REGISTER,
 +        .reset = 0x1,
 +        .rsvd = 0xffffe000,
 +        .ro = 0x1fff,
 +    },{ .name = "INTERRUPT_STATUS_REGISTER",
 +        .addr = A_INTERRUPT_STATUS_REGISTER,
 +        .reset = 0x6000,
 +        .rsvd = 0xffff8000,
 +        .ro = 0x7fff,
 +    },{ .name = "INTERRUPT_ENABLE_REGISTER",
 +        .addr = A_INTERRUPT_ENABLE_REGISTER,
 +        .rsvd = 0xffff8000,
 +        .post_write = can_ier_post_write,
 +    },{ .name = "INTERRUPT_CLEAR_REGISTER",
 +        .addr = A_INTERRUPT_CLEAR_REGISTER,
 +        .rsvd = 0xffff8000,
 +        .pre_write = can_icr_pre_write,
 +    },{ .name = "TIMESTAMP_REGISTER",
 +        .addr = A_TIMESTAMP_REGISTER,
 +        .rsvd = 0xfffffffe,
 +        .pre_write = can_tcr_pre_write,
 +    },{ .name = "WIR",  .addr = A_WIR,
 +        .reset = 0x3f3f,
 +        .rsvd = 0xffff0000,
 +    },{ .name = "TXFIFO_ID",  .addr = A_TXFIFO_ID,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXFIFO_DLC",  .addr = A_TXFIFO_DLC,
 +        .rsvd = 0xfffffff,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXFIFO_DATA1",  .addr = A_TXFIFO_DATA1,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXFIFO_DATA2",  .addr = A_TXFIFO_DATA2,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXHPB_ID",  .addr = A_TXHPB_ID,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXHPB_DLC",  .addr = A_TXHPB_DLC,
 +        .rsvd = 0xfffffff,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXHPB_DATA1",  .addr = A_TXHPB_DATA1,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "TXHPB_DATA2",  .addr = A_TXHPB_DATA2,
 +        .post_write = can_tx_post_write,
 +    },{ .name = "RXFIFO_ID",  .addr = A_RXFIFO_ID,
 +        .ro = 0xffffffff,
 +        .post_read = can_rxfifo_pre_read,
 +    },{ .name = "RXFIFO_DLC",  .addr = A_RXFIFO_DLC,
 +        .rsvd = 0xfff0000,
 +        .post_read = can_rxfifo_pre_read,
 +    },{ .name = "RXFIFO_DATA1",  .addr = A_RXFIFO_DATA1,
 +        .post_read = can_rxfifo_pre_read,
 +    },{ .name = "RXFIFO_DATA2",  .addr = A_RXFIFO_DATA2,
 +        .post_read = can_rxfifo_pre_read,
 +    },{ .name = "AFR",  .addr = A_AFR,
 +        .rsvd = 0xfffffff0,
 +        .post_write = can_filter_enable_post_write,
 +    },{ .name = "AFMR1",  .addr = A_AFMR1,
 +        .pre_write = can_filter_mask_pre_write,
 +    },{ .name = "AFIR1",  .addr = A_AFIR1,
 +        .pre_write = can_filter_id_pre_write,
 +    },{ .name = "AFMR2",  .addr = A_AFMR2,
 +        .pre_write = can_filter_mask_pre_write,
 +    },{ .name = "AFIR2",  .addr = A_AFIR2,
 +        .pre_write = can_filter_id_pre_write,
 +    },{ .name = "AFMR3",  .addr = A_AFMR3,
 +        .pre_write = can_filter_mask_pre_write,
 +    },{ .name = "AFIR3",  .addr = A_AFIR3,
 +        .pre_write = can_filter_id_pre_write,
 +    },{ .name = "AFMR4",  .addr = A_AFMR4,
 +        .pre_write = can_filter_mask_pre_write,
 +    },{ .name = "AFIR4",  .addr = A_AFIR4,
 +        .pre_write = can_filter_id_pre_write,
 +    }
 +};
 +
-+static uint64_t sbsa_ec_read(void *opaque, hwaddr offset, unsigned size)
++static void xlnx_zynqmp_can_ptimer_cb(void *opaque)
 +{
-+    /* No use for this currently */
++    /* No action required on the timer rollover. */
-+    qemu_log_mask(LOG_GUEST_ERROR, "sbsa-ec: no readable registers");
++}
 +
 +static const MemoryRegionOps can_ops = {
 +    .read = register_read_memory,
 +    .write = register_write_memory,
 +    .endianness = DEVICE_LITTLE_ENDIAN,
 +    .valid = {
 +        .min_access_size = 4,
 +        .max_access_size = 4,
 +    },
 +};
 +
 +static void xlnx_zynqmp_can_reset_init(Object *obj, ResetType type)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(obj);
 +    unsigned int i;
 +
 +    for (i = R_RXFIFO_ID; i < ARRAY_SIZE(s->reg_info); ++i) {
 +        register_reset(&s->reg_info[i]);
 +    }
 +
 +    ptimer_transaction_begin(s->can_timer);
 +    ptimer_set_count(s->can_timer, 0);
 +    ptimer_transaction_commit(s->can_timer);
 +}
 +
 +static void xlnx_zynqmp_can_reset_hold(Object *obj)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(obj);
 +    unsigned int i;
 +
 +    for (i = 0; i < R_RXFIFO_ID; ++i) {
 +        register_reset(&s->reg_info[i]);
 +    }
 +
 +    /*
 +     * Reset FIFOs when CAN model is reset. This will clear the fifo writes
 +     * done by post_write which gets called from register_reset function,
 +     * post_write handle will not be able to trigger tx because CAN will be
 +     * disabled when software_reset_register is cleared first.
 +     */
 +    fifo32_reset(&s->rx_fifo);
 +    fifo32_reset(&s->tx_fifo);
 +    fifo32_reset(&s->txhpb_fifo);
 +}
 +
 +static bool xlnx_zynqmp_can_can_receive(CanBusClientState *client)
 +{
 +    XlnxZynqMPCANState *s = container_of(client, XlnxZynqMPCANState,
 +                                         bus_client);
 +
 +    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, SRST)) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Controller is in reset state.\n",
 +                      path);
 +        return false;
 +    }
 +
 +    if ((ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) == 0) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Controller is disabled. Incoming"
 +                      " messages will be discarded.\n", path);
 +        return false;
 +    }
 +
 +    return true;
 +}
 +
 +static ssize_t xlnx_zynqmp_can_receive(CanBusClientState *client,
 +                               const qemu_can_frame *buf, size_t buf_size) {
 +    XlnxZynqMPCANState *s = container_of(client, XlnxZynqMPCANState,
 +                                         bus_client);
 +    const qemu_can_frame *frame = buf;
 +
 +    if (buf_size <= 0) {
 +        g_autofree char *path = object_get_canonical_path(OBJECT(s));
 +
 +        qemu_log_mask(LOG_GUEST_ERROR, "%s: Error in the data received.\n",
 +                      path);
 +        return 0;
 +    }
 +
 +    if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SNOOP)) {
 +        /* Snoop Mode: Just keep the data. no response back. */
 +        update_rx_fifo(s, frame);
 +    } else if ((ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP))) {
 +        /*
 +         * XlnxZynqMPCAN is in sleep mode. Any data on bus will bring it to wake
 +         * up state.
 +         */
 +        can_exit_sleep_mode(s);
 +        update_rx_fifo(s, frame);
 +    } else if ((ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP)) == 0) {
 +        update_rx_fifo(s, frame);
 +    } else {
 +        /*
 +         * XlnxZynqMPCAN will not participate in normal bus communication
 +         * and will not receive any messages transmitted by other CAN nodes.
 +         */
 +        trace_xlnx_can_rx_discard(s->regs[R_STATUS_REGISTER]);
 +    }
 +
 +    return 1;
 +}
 +
 +static CanBusClientInfo can_xilinx_bus_client_info = {
 +    .can_receive = xlnx_zynqmp_can_can_receive,
 +    .receive = xlnx_zynqmp_can_receive,
 +};
 +
 +static int xlnx_zynqmp_can_connect_to_bus(XlnxZynqMPCANState *s,
 +                                          CanBusState *bus)
 +{
 +    s->bus_client.info = &can_xilinx_bus_client_info;
 +
 +    if (can_bus_insert_client(bus, &s->bus_client) < 0) {
 +        return -1;
 +    }
 +    return 0;
 +}
 +
-+static void sbsa_ec_write(void *opaque, hwaddr offset,
++static void xlnx_zynqmp_can_realize(DeviceState *dev, Error **errp)
-+                     uint64_t value, unsigned size)
++{
-+{
++    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(dev);
-+    if (offset == 0) { /* PSCI machine power command register */
++
-+        switch (value) {
++    if (s->canbus) {
-+        case SBSA_EC_CMD_POWEROFF:
++        if (xlnx_zynqmp_can_connect_to_bus(s, s->canbus) < 0) {
-+            qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
++            g_autofree char *path = object_get_canonical_path(OBJECT(s));
-+            break;
++
-+        case SBSA_EC_CMD_REBOOT:
++            error_setg(errp, "%s: xlnx_zynqmp_can_connect_to_bus"
-+            qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_RESET);
++                       " failed.", path);
-+            break;
++            return;
 +        default:
 +            qemu_log_mask(LOG_GUEST_ERROR,
 +                          "sbsa-ec: unknown power command");
 +        }
-+    } else {
++    }
-+        qemu_log_mask(LOG_GUEST_ERROR, "sbsa-ec: unknown EC register");
++
-+    }
++    /* Create RX FIFO, TXFIFO, TXHPB storage. */
-+}
++    fifo32_create(&s->rx_fifo, RXFIFO_SIZE);
-+
++    fifo32_create(&s->tx_fifo, RXFIFO_SIZE);
-+static const MemoryRegionOps sbsa_ec_ops = {
++    fifo32_create(&s->txhpb_fifo, CAN_FRAME_SIZE);
-+    .read = sbsa_ec_read,
++
-+    .write = sbsa_ec_write,
++    /* Allocate a new timer. */
-+    .endianness = DEVICE_NATIVE_ENDIAN,
++    s->can_timer = ptimer_init(xlnx_zynqmp_can_ptimer_cb, s,
-+    .valid.min_access_size = 4,
++                               PTIMER_POLICY_DEFAULT);
-+    .valid.max_access_size = 4,
++
 +    ptimer_transaction_begin(s->can_timer);
 +
 +    ptimer_set_freq(s->can_timer, s->cfg.ext_clk_freq);
 +    ptimer_set_limit(s->can_timer, CAN_TIMER_MAX, 1);
 +    ptimer_run(s->can_timer, 0);
 +    ptimer_transaction_commit(s->can_timer);
 +}
 +
 +static void xlnx_zynqmp_can_init(Object *obj)
 +{
 +    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(obj);
 +    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
 +
 +    RegisterInfoArray *reg_array;
 +
 +    memory_region_init(&s->iomem, obj, TYPE_XLNX_ZYNQMP_CAN,
 +                        XLNX_ZYNQMP_CAN_R_MAX * 4);
 +    reg_array = register_init_block32(DEVICE(obj), can_regs_info,
 +                               ARRAY_SIZE(can_regs_info),
 +                               s->reg_info, s->regs,
 +                               &can_ops,
 +                               XLNX_ZYNQMP_CAN_ERR_DEBUG,
 +                               XLNX_ZYNQMP_CAN_R_MAX * 4);
 +
 +    memory_region_add_subregion(&s->iomem, 0x00, &reg_array->mem);
 +    sysbus_init_mmio(sbd, &s->iomem);
 +    sysbus_init_irq(SYS_BUS_DEVICE(obj), &s->irq);
 +}
 +
 +static const VMStateDescription vmstate_can = {
 +    .name = TYPE_XLNX_ZYNQMP_CAN,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_FIFO32(rx_fifo, XlnxZynqMPCANState),
 +        VMSTATE_FIFO32(tx_fifo, XlnxZynqMPCANState),
 +        VMSTATE_FIFO32(txhpb_fifo, XlnxZynqMPCANState),
 +        VMSTATE_UINT32_ARRAY(regs, XlnxZynqMPCANState, XLNX_ZYNQMP_CAN_R_MAX),
 +        VMSTATE_PTIMER(can_timer, XlnxZynqMPCANState),
 +        VMSTATE_END_OF_LIST(),
 +    }
 +};
 +
-+static void sbsa_ec_init(Object *obj)
++static Property xlnx_zynqmp_can_properties[] = {
-+{
++    DEFINE_PROP_UINT32("ext_clk_freq", XlnxZynqMPCANState, cfg.ext_clk_freq,
-+    SECUREECState *s = SECURE_EC(obj);
++                       CAN_DEFAULT_CLOCK),
-+    SysBusDevice *dev = SYS_BUS_DEVICE(obj);
++    DEFINE_PROP_LINK("canbus", XlnxZynqMPCANState, canbus, TYPE_CAN_BUS,
-+
++                     CanBusState *),
-+    memory_region_init_io(&s->iomem, obj, &sbsa_ec_ops, s, "sbsa-ec",
++    DEFINE_PROP_END_OF_LIST(),
-+                          0x1000);
++};
-+    sysbus_init_mmio(dev, &s->iomem);
++
-+}
++static void xlnx_zynqmp_can_class_init(ObjectClass *klass, void *data)
 +
 +static void sbsa_ec_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
-+
++    ResettableClass *rc = RESETTABLE_CLASS(klass);
-+    /* No vmstate or reset required: device has no internal state */
++
-+    dc->user_creatable = false;
++    rc->phases.enter = xlnx_zynqmp_can_reset_init;
-+}
++    rc->phases.hold = xlnx_zynqmp_can_reset_hold;
-+
++    dc->realize = xlnx_zynqmp_can_realize;
-+static const TypeInfo sbsa_ec_info = {
++    device_class_set_props(dc, xlnx_zynqmp_can_properties);
-+    .name          = TYPE_SBSA_EC,
++    dc->vmsd = &vmstate_can;
 +}
 +
 +static const TypeInfo can_info = {
 +    .name          = TYPE_XLNX_ZYNQMP_CAN,
 +    .parent        = TYPE_SYS_BUS_DEVICE,
-+    .instance_size = sizeof(SECUREECState),
++    .instance_size = sizeof(XlnxZynqMPCANState),
-+    .instance_init = sbsa_ec_init,
++    .class_init    = xlnx_zynqmp_can_class_init,
-+    .class_init    = sbsa_ec_class_init,
++    .instance_init = xlnx_zynqmp_can_init,
 +};
 +
-+static void sbsa_ec_register_type(void)
++static void can_register_types(void)
 +{
-+    type_register_static(&sbsa_ec_info);
++    type_register_static(&can_info);
 +}
 +
-+type_init(sbsa_ec_register_type);
++type_init(can_register_types)
-diff --git a/hw/misc/meson.build b/hw/misc/meson.build
+diff --git a/hw/Kconfig b/hw/Kconfig
 index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/meson.build
+--- a/hw/Kconfig
-+++ b/hw/misc/meson.build
++++ b/hw/Kconfig
-@@ -XXX,XX +XXX,XX @@ specific_ss.add(when: 'CONFIG_MAC_VIA', if_true: files('mac_via.c'))
+@@ -XXX,XX +XXX,XX @@ config XILINX_AXI
+ config XLNX_ZYNQMP
- specific_ss.add(when: 'CONFIG_MIPS_CPS', if_true: files('mips_cmgcr.c', 'mips_cpc.c'))
+     bool
- specific_ss.add(when: 'CONFIG_MIPS_ITU', if_true: files('mips_itu.c'))
+     select REGISTER
-+
++    select CAN_BUS
-+specific_ss.add(when: 'CONFIG_SBSA_REF', if_true: files('sbsa_ec.c'))
+diff --git a/hw/net/can/meson.build b/hw/net/can/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/net/can/meson.build
 +++ b/hw/net/can/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_CAN_PCI', if_true: files('can_pcm3680_pci.c'))
  softmmu_ss.add(when: 'CONFIG_CAN_PCI', if_true: files('can_mioe3680_pci.c'))
  softmmu_ss.add(when: 'CONFIG_CAN_CTUCANFD', if_true: files('ctucan_core.c'))
  softmmu_ss.add(when: 'CONFIG_CAN_CTUCANFD_PCI', if_true: files('ctucan_pci.c'))
 +softmmu_ss.add(when: 'CONFIG_XLNX_ZYNQMP', if_true: files('xlnx-zynqmp-can.c'))
 diff --git a/hw/net/can/trace-events b/hw/net/can/trace-events
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/net/can/trace-events
@@ -XXX,XX +XXX,XX @@
 +# xlnx-zynqmp-can.c
 +xlnx_can_update_irq(uint32_t isr, uint32_t ier, uint32_t irq) "ISR: 0x%08x IER: 0x%08x IRQ: 0x%08x"
 +xlnx_can_reset(uint32_t val) "Resetting controller with value = 0x%08x"
 +xlnx_can_rx_fifo_filter_reject(uint32_t id, uint8_t dlc) "Frame: ID: 0x%08x DLC: 0x%02x"
 +xlnx_can_filter_id_pre_write(uint8_t filter_num, uint32_t value) "Filter%d ID: 0x%08x"
 +xlnx_can_filter_mask_pre_write(uint8_t filter_num, uint32_t value) "Filter%d MASK: 0x%08x"
 +xlnx_can_tx_data(uint32_t id, uint8_t dlc, uint8_t db0, uint8_t db1, uint8_t db2, uint8_t db3, uint8_t db4, uint8_t db5, uint8_t db6, uint8_t db7) "Frame: ID: 0x%08x DLC: 0x%02x DATA: 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x"
 +xlnx_can_rx_data(uint32_t id, uint32_t dlc, uint8_t db0, uint8_t db1, uint8_t db2, uint8_t db3, uint8_t db4, uint8_t db5, uint8_t db6, uint8_t db7) "Frame: ID: 0x%08x DLC: 0x%02x DATA: 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x"
 +xlnx_can_rx_discard(uint32_t status) "Controller is not enabled for bus communication. Status Register: 0x%08x"
 --
 .20.1

-[PULL 36/47] target/arm: Convert Neon VCVT fixed-point to gvec
+[PULL 03/36] xlnx-zynqmp: Connect Xilinx ZynqMP CAN controllers
-Convert the Neon VCVT float<->fixed-point insns to a
+From: Vikram Garhwal <fnu.vikram@xilinx.com>
 gvec style, in preparation for adding fp16 support.
+Connect CAN0 and CAN1 on the ZynqMP.
+Reviewed-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
+Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
+Message-id: 1605728926-352690-3-git-send-email-fnu.vikram@xilinx.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-38-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  5 +++++
+ include/hw/arm/xlnx-zynqmp.h |  8 ++++++++
- target/arm/vec_helper.c         | 20 +++++++++++++++++++
+ hw/arm/xlnx-zcu102.c         | 20 ++++++++++++++++++++
- target/arm/translate-neon.c.inc | 35 +++++++++++++++++----------------
+ hw/arm/xlnx-zynqmp.c         | 34 ++++++++++++++++++++++++++++++++++
-files changed, 43 insertions(+), 17 deletions(-)
+files changed, 62 insertions(+)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/include/hw/arm/xlnx-zynqmp.h b/include/hw/arm/xlnx-zynqmp.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/include/hw/arm/xlnx-zynqmp.h
-+++ b/target/arm/helper.h
++++ b/include/hw/arm/xlnx-zynqmp.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@
- DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #include "hw/intc/arm_gic.h"
- DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #include "hw/net/cadence_gem.h"
+ #include "hw/char/cadence_uart.h"
-+DEF_HELPER_FLAGS_4(gvec_vcvt_sf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++#include "hw/net/xlnx-zynqmp-can.h"
-+DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #include "hw/ide/ahci.h"
-+DEF_HELPER_FLAGS_4(gvec_vcvt_fs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #include "hw/sd/sdhci.h"
-+DEF_HELPER_FLAGS_4(gvec_vcvt_fu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #include "hw/ssi/xilinx_spips.h"
@@ -XXX,XX +XXX,XX @@
  #include "hw/cpu/cluster.h"
  #include "target/arm/cpu.h"
  #include "qom/object.h"
 +#include "net/can_emu.h"
  #define TYPE_XLNX_ZYNQMP "xlnx,zynqmp"
  OBJECT_DECLARE_SIMPLE_TYPE(XlnxZynqMPState, XLNX_ZYNQMP)
@@ -XXX,XX +XXX,XX @@ OBJECT_DECLARE_SIMPLE_TYPE(XlnxZynqMPState, XLNX_ZYNQMP)
  #define XLNX_ZYNQMP_NUM_RPU_CPUS 2
  #define XLNX_ZYNQMP_NUM_GEMS 4
  #define XLNX_ZYNQMP_NUM_UARTS 2
 +#define XLNX_ZYNQMP_NUM_CAN 2
 +#define XLNX_ZYNQMP_CAN_REF_CLK (24 * 1000 * 1000)
  #define XLNX_ZYNQMP_NUM_SDHCI 2
  #define XLNX_ZYNQMP_NUM_SPIS 2
  #define XLNX_ZYNQMP_NUM_GDMA_CH 8
@@ -XXX,XX +XXX,XX @@ struct XlnxZynqMPState {
      CadenceGEMState gem[XLNX_ZYNQMP_NUM_GEMS];
      CadenceUARTState uart[XLNX_ZYNQMP_NUM_UARTS];
 +    XlnxZynqMPCANState can[XLNX_ZYNQMP_NUM_CAN];
      SysbusAHCIState sata;
      SDHCIState sdhci[XLNX_ZYNQMP_NUM_SDHCI];
      XilinxSPIPS spi[XLNX_ZYNQMP_NUM_SPIS];
@@ -XXX,XX +XXX,XX @@ struct XlnxZynqMPState {
      bool virt;
      /* Has the RPU subsystem?  */
      bool has_rpu;
 +
- DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    /* CAN bus. */
- DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    CanBusState *canbus[XLNX_ZYNQMP_NUM_CAN];
- DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ };
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
  #endif
 diff --git a/hw/arm/xlnx-zcu102.c b/hw/arm/xlnx-zcu102.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/hw/arm/xlnx-zcu102.c
-+++ b/target/arm/vec_helper.c
++++ b/hw/arm/xlnx-zcu102.c
-@@ -XXX,XX +XXX,XX @@ DO_NEON_PAIRWISE(neon_pmax, max)
+@@ -XXX,XX +XXX,XX @@
- DO_NEON_PAIRWISE(neon_pmin, min)
+ #include "sysemu/qtest.h"
+ #include "sysemu/device_tree.h"
- #undef DO_NEON_PAIRWISE
+ #include "qom/object.h"
 +#include "net/can_emu.h"
  struct XlnxZCU102 {
      MachineState parent_obj;
@@ -XXX,XX +XXX,XX @@ struct XlnxZCU102 {
      bool secure;
      bool virt;
 +    CanBusState *canbus[XLNX_ZYNQMP_NUM_CAN];
 +
-+#define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
+     struct arm_boot_info binfo;
-+    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+ };
-+    {                                                                   \
-+        intptr_t i, oprsz = simd_oprsz(desc);                           \
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zcu102_init(MachineState *machine)
-+        int shift = simd_data(desc);                                    \
+     object_property_set_bool(OBJECT(&s->soc), "virtualization", s->virt,
-+        TYPE *d = vd, *n = vn;                                          \
+                              &error_fatal);
-+        float_status *fpst = stat;                                      \
-+        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
++    for (i = 0; i < XLNX_ZYNQMP_NUM_CAN; i++) {
-+            d[i] = FUNC(n[i], shift, fpst);                             \
++        gchar *bus_name = g_strdup_printf("canbus%d", i);
-+        }                                                               \
++
-+        clear_tail(d, oprsz, simd_maxsz(desc));                         \
++        object_property_set_link(OBJECT(&s->soc), bus_name,
 +                                 OBJECT(s->canbus[i]), &error_fatal);
 +        g_free(bus_name);
 +    }
 +
-+DO_VCVT_FIXED(gvec_vcvt_sf, helper_vfp_sltos, uint32_t)
+     qdev_realize(DEVICE(&s->soc), NULL, &error_fatal);
-+DO_VCVT_FIXED(gvec_vcvt_uf, helper_vfp_ultos, uint32_t)
-+DO_VCVT_FIXED(gvec_vcvt_fs, helper_vfp_tosls_round_to_zero, uint32_t)
+     /* Create and plug in the SD cards */
-+DO_VCVT_FIXED(gvec_vcvt_fu, helper_vfp_touls_round_to_zero, uint32_t)
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zcu102_machine_instance_init(Object *obj)
      s->secure = false;
      /* Default to virt (EL2) being disabled */
      s->virt = false;
 +    object_property_add_link(obj, "xlnx-zcu102.canbus0", TYPE_CAN_BUS,
 +                             (Object **)&s->canbus[0],
 +                             object_property_allow_set_link,
 +                             0);
 +
-+#undef DO_VCVT_FIXED
++    object_property_add_link(obj, "xlnx-zcu102.canbus1", TYPE_CAN_BUS,
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
++                             (Object **)&s->canbus[1],
 +                             object_property_allow_set_link,
 +                             0);
  }
  static void xlnx_zcu102_machine_class_init(ObjectClass *oc, void *data)
 diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+--- a/hw/arm/xlnx-zynqmp.c
-+++ b/target/arm/translate-neon.c.inc
++++ b/hw/arm/xlnx-zynqmp.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VSHLL_U_2sh(DisasContext *s, arg_2reg_shift *a)
+@@ -XXX,XX +XXX,XX @@ static const int uart_intr[XLNX_ZYNQMP_NUM_UARTS] = {
- }
+, 22,
+ };
- static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
--                      NeonGenTwoSingleOpFn *fn)
++static const uint64_t can_addr[XLNX_ZYNQMP_NUM_CAN] = {
-+                      gen_helper_gvec_2_ptr *fn)
++    0xFF060000, 0xFF070000,
- {
++};
-     /* FP operations in 2-reg-and-shift group */
++
--    TCGv_i32 tmp, shiftv;
++static const int can_intr[XLNX_ZYNQMP_NUM_CAN] = {
--    TCGv_ptr fpstatus;
++    23, 24,
--    int pass;
++};
-+    int vec_size = a->q ? 16 : 8;
++
-+    int rd_ofs = neon_reg_offset(a->vd, 0);
+ static const uint64_t sdhci_addr[XLNX_ZYNQMP_NUM_SDHCI] = {
-+    int rm_ofs = neon_reg_offset(a->vm, 0);
+xFF160000, 0xFF170000,
-+    TCGv_ptr fpst;
+ };
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_init(Object *obj)
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+                                 TYPE_CADENCE_UART);
          return false;
      }
-+    if (a->size != 0) {
++    for (i = 0; i < XLNX_ZYNQMP_NUM_CAN; i++) {
-+        if (!dc_isar_feature(aa32_fp16_arith, s)) {
++        object_initialize_child(obj, "can[*]", &s->can[i],
-+            return false;
++                                TYPE_XLNX_ZYNQMP_CAN);
 +        }
 +    }
 +
-     /* UNDEF accesses to D16-D31 if they don't exist. */
+     object_initialize_child(obj, "sata", &s->sata, TYPE_SYSBUS_AHCI);
-     if (!dc_isar_feature(aa32_simd_r32, s) &&
-         ((a->vd | a->vm) & 0x10)) {
+     for (i = 0; i < XLNX_ZYNQMP_NUM_SDHCI; i++) {
-@@ -XXX,XX +XXX,XX @@ static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
-         return true;
+                            gic_spi[uart_intr[i]]);
      }
--    fpstatus = fpstatus_ptr(FPST_STD);
++    for (i = 0; i < XLNX_ZYNQMP_NUM_CAN; i++) {
--    shiftv = tcg_const_i32(a->shift);
++        object_property_set_int(OBJECT(&s->can[i]), "ext_clk_freq",
--    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
++                                XLNX_ZYNQMP_CAN_REF_CLK, &error_abort);
--        tmp = neon_load_reg(a->vm, pass);
++
--        fn(tmp, tmp, shiftv, fpstatus);
++        object_property_set_link(OBJECT(&s->can[i]), "canbus",
--        neon_store_reg(a->vd, pass, tmp);
++                                 OBJECT(s->canbus[i]), &error_fatal);
--    }
++
--    tcg_temp_free_ptr(fpstatus);
++        sysbus_realize(SYS_BUS_DEVICE(&s->can[i]), &err);
--    tcg_temp_free_i32(shiftv);
++        if (err) {
-+    fpst = fpstatus_ptr(a->size ? FPST_STD_F16 : FPST_STD);
++            error_propagate(errp, err);
-+    tcg_gen_gvec_2_ptr(rd_ofs, rm_ofs, fpst, vec_size, vec_size, a->shift, fn);
++            return;
-+    tcg_temp_free_ptr(fpst);
++        }
-     return true;
++        sysbus_mmio_map(SYS_BUS_DEVICE(&s->can[i]), 0, can_addr[i]);
- }
++        sysbus_connect_irq(SYS_BUS_DEVICE(&s->can[i]), 0,
++                           gic_spi[can_intr[i]]);
-@@ -XXX,XX +XXX,XX @@ static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
++    }
-         return do_fp_2sh(s, a, FUNC);                                   \
++
-     }
+     object_property_set_int(OBJECT(&s->sata), "num-ports", SATA_NUM_PORTS,
+                             &error_abort);
--DO_FP_2SH(VCVT_SF, gen_helper_vfp_sltos)
+     if (!sysbus_realize(SYS_BUS_DEVICE(&s->sata), errp)) {
--DO_FP_2SH(VCVT_UF, gen_helper_vfp_ultos)
+@@ -XXX,XX +XXX,XX @@ static Property xlnx_zynqmp_props[] = {
--DO_FP_2SH(VCVT_FS, gen_helper_vfp_tosls_round_to_zero)
+     DEFINE_PROP_BOOL("has_rpu", XlnxZynqMPState, has_rpu, false),
--DO_FP_2SH(VCVT_FU, gen_helper_vfp_touls_round_to_zero)
+     DEFINE_PROP_LINK("ddr-ram", XlnxZynqMPState, ddr_ram, TYPE_MEMORY_REGION,
-+DO_FP_2SH(VCVT_SF, gen_helper_gvec_vcvt_sf)
+                      MemoryRegion *),
-+DO_FP_2SH(VCVT_UF, gen_helper_gvec_vcvt_uf)
++    DEFINE_PROP_LINK("canbus0", XlnxZynqMPState, canbus[0], TYPE_CAN_BUS,
-+DO_FP_2SH(VCVT_FS, gen_helper_gvec_vcvt_fs)
++                     CanBusState *),
-+DO_FP_2SH(VCVT_FU, gen_helper_gvec_vcvt_fu)
++    DEFINE_PROP_LINK("canbus1", XlnxZynqMPState, canbus[1], TYPE_CAN_BUS,
++                     CanBusState *),
- static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
+     DEFINE_PROP_END_OF_LIST()
- {
+ };
 --
 .20.1

-[PULL 42/47] target/arm/vec_helper: Add gvec fp indexed multiply-and-add operations
+[PULL 04/36] tests/qtest: Introduce tests for Xilinx ZynqMP CAN controller
-Add gvec helpers for doing Neon-style indexed non-fused fp
+From: Vikram Garhwal <fnu.vikram@xilinx.com>
-multiply-and-accumulate operations.
+The QTests perform five tests on the Xilinx ZynqMP CAN controller:
     Tests the CAN controller in loopback, sleep and snoop mode.
     Tests filtering of incoming CAN messages.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
 Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
 Message-id: 1605728926-352690-4-git-send-email-fnu.vikram@xilinx.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20200828183354.27913-44-peter.maydell@linaro.org
 ---
- target/arm/helper.h     | 10 ++++++++++
+ tests/qtest/xlnx-can-test.c | 360 ++++++++++++++++++++++++++++++++++++
- target/arm/vec_helper.c | 27 ++++++++++++++++++++++-----
+ tests/qtest/meson.build     |   1 +
-files changed, 32 insertions(+), 5 deletions(-)
+files changed, 361 insertions(+)
+ create mode 100644 tests/qtest/xlnx-can-test.c
-diff --git a/target/arm/helper.h b/target/arm/helper.h
 diff --git a/tests/qtest/xlnx-can-test.c b/tests/qtest/xlnx-can-test.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/qtest/xlnx-can-test.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QTests for the Xilinx ZynqMP CAN controller.
 + *
 + * Copyright (c) 2020 Xilinx Inc.
 + *
 + * Written-by: Vikram Garhwal<fnu.vikram@xilinx.com>
 + *
 + * Permission is hereby granted, free of charge, to any person obtaining a copy
 + * of this software and associated documentation files (the "Software"), to deal
 + * in the Software without restriction, including without limitation the rights
 + * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 + * copies of the Software, and to permit persons to whom the Software is
 + * furnished to do so, subject to the following conditions:
 + *
 + * The above copyright notice and this permission notice shall be included in
 + * all copies or substantial portions of the Software.
 + *
 + * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
 + * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
 + * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
 + * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
 + * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
 + * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
 + * THE SOFTWARE.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "libqos/libqtest.h"
 +
 +/* Base address. */
 +#define CAN0_BASE_ADDR          0xFF060000
 +#define CAN1_BASE_ADDR          0xFF070000
 +
 +/* Register addresses. */
 +#define R_SRR_OFFSET            0x00
 +#define R_MSR_OFFSET            0x04
 +#define R_SR_OFFSET             0x18
 +#define R_ISR_OFFSET            0x1C
 +#define R_ICR_OFFSET            0x24
 +#define R_TXID_OFFSET           0x30
 +#define R_TXDLC_OFFSET          0x34
 +#define R_TXDATA1_OFFSET        0x38
 +#define R_TXDATA2_OFFSET        0x3C
 +#define R_RXID_OFFSET           0x50
 +#define R_RXDLC_OFFSET          0x54
 +#define R_RXDATA1_OFFSET        0x58
 +#define R_RXDATA2_OFFSET        0x5C
 +#define R_AFR                   0x60
 +#define R_AFMR1                 0x64
 +#define R_AFIR1                 0x68
 +#define R_AFMR2                 0x6C
 +#define R_AFIR2                 0x70
 +#define R_AFMR3                 0x74
 +#define R_AFIR3                 0x78
 +#define R_AFMR4                 0x7C
 +#define R_AFIR4                 0x80
 +
 +/* CAN modes. */
 +#define CONFIG_MODE             0x00
 +#define NORMAL_MODE             0x00
 +#define LOOPBACK_MODE           0x02
 +#define SNOOP_MODE              0x04
 +#define SLEEP_MODE              0x01
 +#define ENABLE_CAN              (1 << 1)
 +#define STATUS_NORMAL_MODE      (1 << 3)
 +#define STATUS_LOOPBACK_MODE    (1 << 1)
 +#define STATUS_SNOOP_MODE       (1 << 12)
 +#define STATUS_SLEEP_MODE       (1 << 2)
 +#define ISR_TXOK                (1 << 1)
 +#define ISR_RXOK                (1 << 4)
 +
 +static void match_rx_tx_data(const uint32_t *buf_tx, const uint32_t *buf_rx,
 +                             uint8_t can_timestamp)
 +{
 +    uint16_t size = 0;
 +    uint8_t len = 4;
 +
 +    while (size < len) {
 +        if (R_RXID_OFFSET + 4 * size == R_RXDLC_OFFSET)  {
 +            g_assert_cmpint(buf_rx[size], ==, buf_tx[size] + can_timestamp);
 +        } else {
 +            g_assert_cmpint(buf_rx[size], ==, buf_tx[size]);
 +        }
 +
 +        size++;
 +    }
 +}
 +
 +static void read_data(QTestState *qts, uint64_t can_base_addr, uint32_t *buf_rx)
 +{
 +    uint32_t int_status;
 +
 +    /* Read the interrupt on CAN rx. */
 +    int_status = qtest_readl(qts, can_base_addr + R_ISR_OFFSET) & ISR_RXOK;
 +
 +    g_assert_cmpint(int_status, ==, ISR_RXOK);
 +
 +    /* Read the RX register data for CAN. */
 +    buf_rx[0] = qtest_readl(qts, can_base_addr + R_RXID_OFFSET);
 +    buf_rx[1] = qtest_readl(qts, can_base_addr + R_RXDLC_OFFSET);
 +    buf_rx[2] = qtest_readl(qts, can_base_addr + R_RXDATA1_OFFSET);
 +    buf_rx[3] = qtest_readl(qts, can_base_addr + R_RXDATA2_OFFSET);
 +
 +    /* Clear the RX interrupt. */
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_ICR_OFFSET, ISR_RXOK);
 +}
 +
 +static void send_data(QTestState *qts, uint64_t can_base_addr,
 +                      const uint32_t *buf_tx)
 +{
 +    uint32_t int_status;
 +
 +    /* Write the TX register data for CAN. */
 +    qtest_writel(qts, can_base_addr + R_TXID_OFFSET, buf_tx[0]);
 +    qtest_writel(qts, can_base_addr + R_TXDLC_OFFSET, buf_tx[1]);
 +    qtest_writel(qts, can_base_addr + R_TXDATA1_OFFSET, buf_tx[2]);
 +    qtest_writel(qts, can_base_addr + R_TXDATA2_OFFSET, buf_tx[3]);
 +
 +    /* Read the interrupt on CAN for tx. */
 +    int_status = qtest_readl(qts, can_base_addr + R_ISR_OFFSET) & ISR_TXOK;
 +
 +    g_assert_cmpint(int_status, ==, ISR_TXOK);
 +
 +    /* Clear the interrupt for tx. */
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_ICR_OFFSET, ISR_TXOK);
 +}
 +
 +/*
 + * This test will be transferring data from CAN0 and CAN1 through canbus. CAN0
 + * initiate the data transfer to can-bus, CAN1 receives the data. Test compares
 + * the data sent from CAN0 with received on CAN1.
 + */
 +static void test_can_bus(void)
 +{
 +    const uint32_t buf_tx[4] = { 0xFF, 0x80000000, 0x12345678, 0x87654321 };
 +    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
 +    uint32_t status = 0;
 +    uint8_t can_timestamp = 1;
 +
 +    QTestState *qts = qtest_init("-machine xlnx-zcu102"
 +                " -object can-bus,id=canbus0"
 +                " -machine xlnx-zcu102.canbus0=canbus0"
 +                " -machine xlnx-zcu102.canbus1=canbus0"
 +                );
 +
 +    /* Configure the CAN0 and CAN1. */
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
 +
 +    /* Check here if CAN0 and CAN1 are in normal mode. */
 +    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    send_data(qts, CAN0_BASE_ADDR, buf_tx);
 +
 +    read_data(qts, CAN1_BASE_ADDR, buf_rx);
 +    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
 +
 +    qtest_quit(qts);
 +}
 +
 +/*
 + * This test is performing loopback mode on CAN0 and CAN1. Data sent from TX of
 + * each CAN0 and CAN1 are compared with RX register data for respective CAN.
 + */
 +static void test_can_loopback(void)
 +{
 +    uint32_t buf_tx[4] = { 0xFF, 0x80000000, 0x12345678, 0x87654321 };
 +    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
 +    uint32_t status = 0;
 +
 +    QTestState *qts = qtest_init("-machine xlnx-zcu102"
 +                " -object can-bus,id=canbus0"
 +                " -machine xlnx-zcu102.canbus0=canbus0"
 +                " -machine xlnx-zcu102.canbus1=canbus0"
 +                );
 +
 +    /* Configure the CAN0 in loopback mode. */
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, LOOPBACK_MODE);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +
 +    /* Check here if CAN0 is set in loopback mode. */
 +    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
 +
 +    g_assert_cmpint(status, ==, STATUS_LOOPBACK_MODE);
 +
 +    send_data(qts, CAN0_BASE_ADDR, buf_tx);
 +    read_data(qts, CAN0_BASE_ADDR, buf_rx);
 +    match_rx_tx_data(buf_tx, buf_rx, 0);
 +
 +    /* Configure the CAN1 in loopback mode. */
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, LOOPBACK_MODE);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +
 +    /* Check here if CAN1 is set in loopback mode. */
 +    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
 +
 +    g_assert_cmpint(status, ==, STATUS_LOOPBACK_MODE);
 +
 +    send_data(qts, CAN1_BASE_ADDR, buf_tx);
 +    read_data(qts, CAN1_BASE_ADDR, buf_rx);
 +    match_rx_tx_data(buf_tx, buf_rx, 0);
 +
 +    qtest_quit(qts);
 +}
 +
 +/*
 + * Enable filters for CAN1. This will filter incoming messages with ID. In this
 + * test message will pass through filter 2.
 + */
 +static void test_can_filter(void)
 +{
 +    uint32_t buf_tx[4] = { 0x14, 0x80000000, 0x12345678, 0x87654321 };
 +    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
 +    uint32_t status = 0;
 +    uint8_t can_timestamp = 1;
 +
 +    QTestState *qts = qtest_init("-machine xlnx-zcu102"
 +                " -object can-bus,id=canbus0"
 +                " -machine xlnx-zcu102.canbus0=canbus0"
 +                " -machine xlnx-zcu102.canbus1=canbus0"
 +                );
 +
 +    /* Configure the CAN0 and CAN1. */
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
 +
 +    /* Check here if CAN0 and CAN1 are in normal mode. */
 +    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    /* Set filter for CAN1 for incoming messages. */
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFR, 0x0);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR1, 0xF7);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR1, 0x121F);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR2, 0x5431);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR2, 0x14);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR3, 0x1234);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR3, 0x5431);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR4, 0xFFF);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR4, 0x1234);
 +
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_AFR, 0xF);
 +
 +    send_data(qts, CAN0_BASE_ADDR, buf_tx);
 +
 +    read_data(qts, CAN1_BASE_ADDR, buf_rx);
 +    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
 +
 +    qtest_quit(qts);
 +}
 +
 +/* Testing sleep mode on CAN0 while CAN1 is in normal mode. */
 +static void test_can_sleepmode(void)
 +{
 +    uint32_t buf_tx[4] = { 0x14, 0x80000000, 0x12345678, 0x87654321 };
 +    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
 +    uint32_t status = 0;
 +    uint8_t can_timestamp = 1;
 +
 +    QTestState *qts = qtest_init("-machine xlnx-zcu102"
 +                " -object can-bus,id=canbus0"
 +                " -machine xlnx-zcu102.canbus0=canbus0"
 +                " -machine xlnx-zcu102.canbus1=canbus0"
 +                );
 +
 +    /* Configure the CAN0. */
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, SLEEP_MODE);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
 +
 +    /* Check here if CAN0 is in SLEEP mode and CAN1 in normal mode. */
 +    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_SLEEP_MODE);
 +
 +    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    send_data(qts, CAN1_BASE_ADDR, buf_tx);
 +
 +    /*
 +     * Once CAN1 sends data on can-bus. CAN0 should exit sleep mode.
 +     * Check the CAN0 status now. It should exit the sleep mode and receive the
 +     * incoming data.
 +     */
 +    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    read_data(qts, CAN0_BASE_ADDR, buf_rx);
 +
 +    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
 +
 +    qtest_quit(qts);
 +}
 +
 +/* Testing Snoop mode on CAN0 while CAN1 is in normal mode. */
 +static void test_can_snoopmode(void)
 +{
 +    uint32_t buf_tx[4] = { 0x14, 0x80000000, 0x12345678, 0x87654321 };
 +    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
 +    uint32_t status = 0;
 +    uint8_t can_timestamp = 1;
 +
 +    QTestState *qts = qtest_init("-machine xlnx-zcu102"
 +                " -object can-bus,id=canbus0"
 +                " -machine xlnx-zcu102.canbus0=canbus0"
 +                " -machine xlnx-zcu102.canbus1=canbus0"
 +                );
 +
 +    /* Configure the CAN0. */
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, SNOOP_MODE);
 +    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
 +    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
 +
 +    /* Check here if CAN0 is in SNOOP mode and CAN1 in normal mode. */
 +    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_SNOOP_MODE);
 +
 +    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
 +    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
 +
 +    send_data(qts, CAN1_BASE_ADDR, buf_tx);
 +
 +    read_data(qts, CAN0_BASE_ADDR, buf_rx);
 +
 +    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
 +
 +    qtest_quit(qts);
 +}
 +
 +int main(int argc, char **argv)
 +{
 +    g_test_init(&argc, &argv, NULL);
 +
 +    qtest_add_func("/net/can/can_bus", test_can_bus);
 +    qtest_add_func("/net/can/can_loopback", test_can_loopback);
 +    qtest_add_func("/net/can/can_filter", test_can_filter);
 +    qtest_add_func("/net/can/can_test_snoopmode", test_can_snoopmode);
 +    qtest_add_func("/net/can/can_test_sleepmode", test_can_sleepmode);
 +
 +    return g_test_run();
 +}
 diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/tests/qtest/meson.build
-+++ b/target/arm/helper.h
++++ b/tests/qtest/meson.build
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_idx_s, TCG_CALL_NO_RWG,
+@@ -XXX,XX +XXX,XX @@ qtests_aarch64 = \
- DEF_HELPER_FLAGS_5(gvec_fmul_idx_d, TCG_CALL_NO_RWG,
+   ['arm-cpu-features',
-                    void, ptr, ptr, ptr, ptr, i32)
+    'numa-test',
+    'boot-serial-test',
-+DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_h, TCG_CALL_NO_RWG,
++   'xlnx-can-test',
-+                   void, ptr, ptr, ptr, ptr, i32)
+    'migration-test']
-+DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
+ qtests_s390x = \
 +
 +DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_h, TCG_CALL_NO_RWG,
 +                   void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_s, TCG_CALL_NO_RWG,
 +                   void, ptr, ptr, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_6(gvec_fmla_idx_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_6(gvec_fmla_idx_s, TCG_CALL_NO_RWG,
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -,   )
  #undef DO_MLA_IDX
 -#define DO_FMUL_IDX(NAME, TYPE, H) \
 +#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
      intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
      for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
          TYPE mm = m[H(i + idx)];                                           \
          for (j = 0; j < segment; j++) {                                    \
 -            d[i + j] = TYPE##_mul(n[i + j], mm, stat);                     \
 +            d[i + j] = TYPE##_##ADD(d[i + j],                              \
 +                                    TYPE##_mul(n[i + j], mm, stat), stat); \
          }                                                                  \
      }                                                                      \
      clear_tail(d, oprsz, simd_maxsz(desc));                                \
  }
 -DO_FMUL_IDX(gvec_fmul_idx_h, float16, H2)
 -DO_FMUL_IDX(gvec_fmul_idx_s, float32, H4)
 -DO_FMUL_IDX(gvec_fmul_idx_d, float64, )
 +#define float16_nop(N, M, S) (M)
 +#define float32_nop(N, M, S) (M)
 +#define float64_nop(N, M, S) (M)
 +DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
 +DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
 +DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, )
 +
 +/*
 + * Non-fused multiply-accumulate operations, for Neon. NB that unlike
 + * the fused ops below they assume accumulate both from and into Vd.
 + */
 +DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
 +
 +#undef float16_nop
 +#undef float32_nop
 +#undef float64_nop
  #undef DO_FMUL_IDX
  #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
 --
 .20.1

-[PULL 41/47] target/arm/vec_helper: Handle oprsz less than 16 bytes in indexed operations
+[PULL 05/36] MAINTAINERS: Add maintainer entry for Xilinx ZynqMP CAN controller
-In the gvec helper functions for indexed operations, for AArch32
+From: Vikram Garhwal <fnu.vikram@xilinx.com>
 Neon the oprsz (total size of the vector) can be less than 16 bytes
 if the operation is on a D reg. Since the inner loop in these
 helpers always goes from 0 to segment, we must clamp it based
 on oprsz to avoid processing a full 16 byte segment when asked to
 handle an 8 byte wide vector.
+Reviewed-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
+Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
+Message-id: 1605728926-352690-5-git-send-email-fnu.vikram@xilinx.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-43-peter.maydell@linaro.org
 ---
- target/arm/vec_helper.c | 12 ++++++++----
+ MAINTAINERS | 8 ++++++++
-file changed, 8 insertions(+), 4 deletions(-)
+file changed, 8 insertions(+)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
+diff --git a/MAINTAINERS b/MAINTAINERS
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/MAINTAINERS
-+++ b/target/arm/vec_helper.c
++++ b/MAINTAINERS
-@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
+@@ -XXX,XX +XXX,XX @@ F: hw/net/opencores_eth.c
- #define DO_MUL_IDX(NAME, TYPE, H) \
- void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc) \
+ Devices
- {                                                                          \
+ -------
--    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
++Xilinx CAN
-+    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
++M: Vikram Garhwal <fnu.vikram@xilinx.com>
-+    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
++M: Francisco Iglesias <francisco.iglesias@xilinx.com>
-     intptr_t idx = simd_data(desc);                                        \
++S: Maintained
-     TYPE *d = vd, *n = vn, *m = vm;                                        \
++F: hw/net/can/xlnx-*
-     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
++F: include/hw/net/xlnx-*
-@@ -XXX,XX +XXX,XX @@ DO_MUL_IDX(gvec_mul_idx_d, uint64_t, )
++F: tests/qtest/xlnx-can-test*
- #define DO_MLA_IDX(NAME, TYPE, OP, H) \
++
- void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)   \
+ EDU
- {                                                                          \
+ M: Jiri Slaby <jslaby@suse.cz>
--    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
+ S: Maintained
 +    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
 +    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
      intptr_t idx = simd_data(desc);                                        \
      TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
      for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -,   )
  #define DO_FMUL_IDX(NAME, TYPE, H) \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
 -    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
 +    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
 +    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
      intptr_t idx = simd_data(desc);                                        \
      TYPE *d = vd, *n = vn, *m = vm;                                        \
      for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
@@ -XXX,XX +XXX,XX @@ DO_FMUL_IDX(gvec_fmul_idx_d, float64, )
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
                    void *stat, uint32_t desc)                               \
  {                                                                          \
 -    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
 +    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
 +    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
      TYPE op1_neg = extract32(desc, SIMD_DATA_SHIFT, 1);                    \
      intptr_t idx = desc >> (SIMD_DATA_SHIFT + 1);                          \
      TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
 --
 .20.1

-[PULL 45/47] hw/arm/sbsa-ref: add "reg" property to DT cpu nodes
+[PULL 06/36] sbsa-ref: allow to use Cortex-A53/57/72 cpus
-From: Leif Lindholm <leif@nuviainc.com>
+From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-The sbsa-ref platform uses a minimal device tree to pass amount of memory
+Trusted Firmware now supports A72 on sbsa-ref by default [1] so enable
-as well as number of cpus to the firmware. However, when dumping that
+it for QEMU as well. A53 was already enabled there.
 minimal dtb (with -M sbsa-virt,dumpdtb=<file>), the resulting blob
 generates a warning when decompiled by dtc due to lack of reg property.
-Add a simple reg property per cpu, representing a 64-bit MPIDR_EL1.
+. https://review.trustedfirmware.org/c/TF-A/trusted-firmware-a/+/7117
-This also ends up being cleaner than having the firmware calculating its
+Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-own IDs for generating APCI.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20201120141705.246690-1-marcin.juszkiewicz@linaro.org
-Signed-off-by: Leif Lindholm <leif@nuviainc.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20200827124335.30586-1-leif@nuviainc.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/sbsa-ref.c | 29 +++++++++++++++++++++++------
+ hw/arm/sbsa-ref.c | 23 ++++++++++++++++++++---
-file changed, 23 insertions(+), 6 deletions(-)
+file changed, 20 insertions(+), 3 deletions(-)
 diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/sbsa-ref.c
 +++ b/hw/arm/sbsa-ref.c
 @@ -XXX,XX +XXX,XX @@ static const int sbsa_ref_irqmap[] = {
-     [SBSA_EHCI] = 11,
+     [SBSA_GWDT] = 16,
  };
-+static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
++static const char * const valid_cpus[] = {
 +    ARM_CPU_TYPE_NAME("cortex-a53"),
 +    ARM_CPU_TYPE_NAME("cortex-a57"),
 +    ARM_CPU_TYPE_NAME("cortex-a72"),
 +};
 +
 +static bool cpu_type_valid(const char *cpu)
 +{
-+    uint8_t clustersz = ARM_DEFAULT_CPUS_PER_CLUSTER;
++    int i;
-+    return arm_cpu_mp_affinity(idx, clustersz);
++
 +    for (i = 0; i < ARRAY_SIZE(valid_cpus); i++) {
 +        if (strcmp(cpu, valid_cpus[i]) == 0) {
 +            return true;
 +        }
 +    }
 +    return false;
 +}
 +
- /*
+ static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
-  * Firmware on this machine only uses ACPI table to load OS, these limited
+ {
-  * device tree nodes are just to let firmware know the info which varies from
+     uint8_t clustersz = ARM_DEFAULT_CPUS_PER_CLUSTER;
-@@ -XXX,XX +XXX,XX @@ static void create_fdt(SBSAMachineState *sms)
+@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
-         g_free(matrix);
+     const CPUArchIdList *possible_cpus;
      int n, sbsa_max_cpus;
 -    if (strcmp(machine->cpu_type, ARM_CPU_TYPE_NAME("cortex-a57"))) {
 -        error_report("sbsa-ref: CPU type other than the built-in "
 -                     "cortex-a57 not supported");
 +    if (!cpu_type_valid(machine->cpu_type)) {
 +        error_report("mach-virt: CPU type %s not supported", machine->cpu_type);
          exit(1);
      }
-+    /*
-+     * From Documentation/devicetree/bindings/arm/cpus.yaml
-+     *  On ARM v8 64-bit systems this property is required
-+     *    and matches the MPIDR_EL1 register affinity bits.
-+     *
-+     *    * If cpus node's #address-cells property is set to 2
-+     *
-+     *      The first reg cell bits [7:0] must be set to
-+     *      bits [39:32] of MPIDR_EL1.
-+     *
-+     *      The second reg cell bits [23:0] must be set to
-+     *      bits [23:0] of MPIDR_EL1.
-+     */
-     qemu_fdt_add_subnode(sms->fdt, "/cpus");
-+    qemu_fdt_setprop_cell(sms->fdt, "/cpus", "#address-cells", 2);
-+    qemu_fdt_setprop_cell(sms->fdt, "/cpus", "#size-cells", 0x0);
-     for (cpu = sms->smp_cpus - 1; cpu >= 0; cpu--) {
-         char *nodename = g_strdup_printf("/cpus/cpu@%d", cpu);
-         ARMCPU *armcpu = ARM_CPU(qemu_get_cpu(cpu));
-         CPUState *cs = CPU(armcpu);
-+        uint64_t mpidr = sbsa_ref_cpu_mp_affinity(sms, cpu);
-         qemu_fdt_add_subnode(sms->fdt, nodename);
-+        qemu_fdt_setprop_u64(sms->fdt, nodename, "reg", mpidr);
-         if (ms->possible_cpus->cpus[cs->cpu_index].props.has_node_id) {
-             qemu_fdt_setprop_cell(sms->fdt, nodename, "numa-node-id",
-@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
-     arm_load_kernel(ARM_CPU(first_cpu), machine, &sms->bootinfo);
- }
--static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
--{
--    uint8_t clustersz = ARM_DEFAULT_CPUS_PER_CLUSTER;
--    return arm_cpu_mp_affinity(idx, clustersz);
--}
--
- static const CPUArchIdList *sbsa_ref_possible_cpu_arch_ids(MachineState *ms)
- {
-     unsigned int max_cpus = ms->smp.max_cpus;
 --
 .20.1

-[PULL 04/47] target/arm: Implement VFP fp16 VMLA, VMLS, VNMLS, VNMLA, VNMUL
+[PULL 07/36] tests/qtest/npcm7xx_rng-test: dump random data on failure
-Implement fp16 versions of the VFP VMLA, VMLS, VNMLS, VNMLA, VNMUL
+From: Havard Skinnemoen <hskinnemoen@google.com>
 instructions. (These are all the remaining ones which we implement
 via do_vfp_3op_[hsd]p().)
+Dump the collected random data after a randomness test failure.
+Note that this relies on the test having called
+g_test_set_nonfatal_assertions() so we don't abort immediately on the
+assertion failure.
+Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+[PMM: minor commit message tweak]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-5-peter.maydell@linaro.org
 ---
- target/arm/helper.h            |  1 +
+ tests/qtest/npcm7xx_rng-test.c | 12 ++++++++++++
- target/arm/vfp.decode          |  5 ++
+file changed, 12 insertions(+)
  target/arm/vfp_helper.c        |  5 ++
  target/arm/translate-vfp.c.inc | 84 ++++++++++++++++++++++++++++++++++
 files changed, 95 insertions(+)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/tests/qtest/npcm7xx_rng-test.c b/tests/qtest/npcm7xx_rng-test.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/tests/qtest/npcm7xx_rng-test.c
-+++ b/target/arm/helper.h
++++ b/tests/qtest/npcm7xx_rng-test.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
+@@ -XXX,XX +XXX,XX @@
- DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
+ #include "libqtest-single.h"
- DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
+ #include "qemu/bitops.h"
-+DEF_HELPER_1(vfp_negh, f16, f16)
++#include "qemu-common.h"
- DEF_HELPER_1(vfp_negs, f32, f32)
- DEF_HELPER_1(vfp_negd, f64, f64)
+ #define RNG_BASE_ADDR   0xf000b000
- DEF_HELPER_1(vfp_abss, f32, f32)
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
+@@ -XXX,XX +XXX,XX @@
-index XXXXXXX..XXXXXXX 100644
+ /* Number of bits to collect for randomness tests. */
---- a/target/arm/vfp.decode
+ #define TEST_INPUT_BITS  (128)
-+++ b/target/arm/vfp.decode
-@@ -XXX,XX +XXX,XX @@ VLDM_VSTM_dp ---- 1101 0.1 l:1 rn:4 .... 1011 imm:8 \
++static void dump_buf_if_failed(const uint8_t *buf, size_t size)
               vd=%vd_dp p=1 u=0 w=1
  # 3-register VFP data-processing; bits [23,21:20,6] identify the operation.
 +VMLA_hp      ---- 1110 0.00 .... .... 1001 .0.0 ....        @vfp_dnm_s
  VMLA_sp      ---- 1110 0.00 .... .... 1010 .0.0 ....        @vfp_dnm_s
  VMLA_dp      ---- 1110 0.00 .... .... 1011 .0.0 ....        @vfp_dnm_d
 +VMLS_hp      ---- 1110 0.00 .... .... 1001 .1.0 ....        @vfp_dnm_s
  VMLS_sp      ---- 1110 0.00 .... .... 1010 .1.0 ....        @vfp_dnm_s
  VMLS_dp      ---- 1110 0.00 .... .... 1011 .1.0 ....        @vfp_dnm_d
 +VNMLS_hp     ---- 1110 0.01 .... .... 1001 .0.0 ....        @vfp_dnm_s
  VNMLS_sp     ---- 1110 0.01 .... .... 1010 .0.0 ....        @vfp_dnm_s
  VNMLS_dp     ---- 1110 0.01 .... .... 1011 .0.0 ....        @vfp_dnm_d
 +VNMLA_hp     ---- 1110 0.01 .... .... 1001 .1.0 ....        @vfp_dnm_s
  VNMLA_sp     ---- 1110 0.01 .... .... 1010 .1.0 ....        @vfp_dnm_s
  VNMLA_dp     ---- 1110 0.01 .... .... 1011 .1.0 ....        @vfp_dnm_d
@@ -XXX,XX +XXX,XX @@ VMUL_hp      ---- 1110 0.10 .... .... 1001 .0.0 ....        @vfp_dnm_s
  VMUL_sp      ---- 1110 0.10 .... .... 1010 .0.0 ....        @vfp_dnm_s
  VMUL_dp      ---- 1110 0.10 .... .... 1011 .0.0 ....        @vfp_dnm_d
 +VNMUL_hp     ---- 1110 0.10 .... .... 1001 .1.0 ....        @vfp_dnm_s
  VNMUL_sp     ---- 1110 0.10 .... .... 1010 .1.0 ....        @vfp_dnm_s
  VNMUL_dp     ---- 1110 0.10 .... .... 1011 .1.0 ....        @vfp_dnm_d
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
  VFP_BINOP(maxnum)
  #undef VFP_BINOP
 +dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
 +{
-+    return float16_chs(a);
++    if (g_test_failed()) {
 +        qemu_hexdump(stderr, "", buf, size);
 +    }
 +}
 +
- float32 VFP_HELPER(neg, s)(float32 a)
+ static void rng_writeb(unsigned int offset, uint8_t value)
  {
-     return float32_chs(a);
+     writeb(RNG_BASE_ADDR + offset, value);
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
+@@ -XXX,XX +XXX,XX @@ static void test_continuous_monobit(void)
-index XXXXXXX..XXXXXXX 100644
+     }
---- a/target/arm/translate-vfp.c.inc
-+++ b/target/arm/translate-vfp.c.inc
+     g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
-@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
++    dump_buf_if_failed(buf, sizeof(buf));
      return true;
  }
-+static void gen_VMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ /*
-+{
+@@ -XXX,XX +XXX,XX @@ static void test_continuous_runs(void)
-+    /* Note that order of inputs to the add matters for NaNs */
+     }
-+    TCGv_i32 tmp = tcg_temp_new_i32();
-+
+     g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
-+    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
++    dump_buf_if_failed(buf.c, sizeof(buf));
 +    gen_helper_vfp_addh(vd, vd, tmp, fpst);
 +    tcg_temp_free_i32(tmp);
 +}
 +
 +static bool trans_VMLA_hp(DisasContext *s, arg_VMLA_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_VMLA_hp, a->vd, a->vn, a->vm, true);
 +}
 +
  static void gen_VMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
      /* Note that order of inputs to the add matters for NaNs */
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLA_dp(DisasContext *s, arg_VMLA_dp *a)
      return do_vfp_3op_dp(s, gen_VMLA_dp, a->vd, a->vn, a->vm, true);
  }
-+static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ /*
-+{
+@@ -XXX,XX +XXX,XX @@ static void test_first_byte_monobit(void)
-+    /*
+     }
-+     * VMLS: vd = vd + -(vn * vm)
-+     * Note that order of inputs to the add matters for NaNs.
+     g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
-+     */
++    dump_buf_if_failed(buf, sizeof(buf));
 +    TCGv_i32 tmp = tcg_temp_new_i32();
 +
 +    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 +    gen_helper_vfp_negh(tmp, tmp);
 +    gen_helper_vfp_addh(vd, vd, tmp, fpst);
 +    tcg_temp_free_i32(tmp);
 +}
 +
 +static bool trans_VMLS_hp(DisasContext *s, arg_VMLS_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_VMLS_hp, a->vd, a->vn, a->vm, true);
 +}
 +
  static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
      /*
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLS_dp(DisasContext *s, arg_VMLS_dp *a)
      return do_vfp_3op_dp(s, gen_VMLS_dp, a->vd, a->vn, a->vm, true);
  }
-+static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ /*
-+{
+@@ -XXX,XX +XXX,XX @@ static void test_first_byte_runs(void)
-+    /*
+     }
-+     * VNMLS: -fd + (fn * fm)
-+     * Note that it isn't valid to replace (-A + B) with (B - A) or similar
+     g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
-+     * plausible looking simplifications because this will give wrong results
++    dump_buf_if_failed(buf.c, sizeof(buf));
 +     * for NaNs.
 +     */
 +    TCGv_i32 tmp = tcg_temp_new_i32();
 +
 +    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 +    gen_helper_vfp_negh(vd, vd);
 +    gen_helper_vfp_addh(vd, vd, tmp, fpst);
 +    tcg_temp_free_i32(tmp);
 +}
 +
 +static bool trans_VNMLS_hp(DisasContext *s, arg_VNMLS_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_VNMLS_hp, a->vd, a->vn, a->vm, true);
 +}
 +
  static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
      /*
@@ -XXX,XX +XXX,XX @@ static bool trans_VNMLS_dp(DisasContext *s, arg_VNMLS_dp *a)
      return do_vfp_3op_dp(s, gen_VNMLS_dp, a->vd, a->vn, a->vm, true);
  }
-+static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ int main(int argc, char **argv)
 +{
 +    /* VNMLA: -fd + -(fn * fm) */
 +    TCGv_i32 tmp = tcg_temp_new_i32();
 +
 +    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 +    gen_helper_vfp_negh(tmp, tmp);
 +    gen_helper_vfp_negh(vd, vd);
 +    gen_helper_vfp_addh(vd, vd, tmp, fpst);
 +    tcg_temp_free_i32(tmp);
 +}
 +
 +static bool trans_VNMLA_hp(DisasContext *s, arg_VNMLA_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_VNMLA_hp, a->vd, a->vn, a->vm, true);
 +}
 +
  static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
      /* VNMLA: -fd + -(fn * fm) */
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_dp(DisasContext *s, arg_VMUL_dp *a)
      return do_vfp_3op_dp(s, gen_helper_vfp_muld, a->vd, a->vn, a->vm, false);
  }
 +static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 +{
 +    /* VNMUL: -(fn * fm) */
 +    gen_helper_vfp_mulh(vd, vn, vm, fpst);
 +    gen_helper_vfp_negh(vd, vd);
 +}
 +
 +static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_VNMUL_hp, a->vd, a->vn, a->vm, false);
 +}
 +
  static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
      /* VNMUL: -(fn * fm) */
 --
 .20.1

-[PULL 16/47] target/arm: Implement VFP vp16 VCVT-with-specified-rounding-mode
+[PULL 08/36] i.MX25: Fix bad printf format specifiers
-Implement the fp16 versions of the VFP VCVT instruction forms
+From: Alex Chen <alex.chen@huawei.com>
 which convert between floating point and integer with a specified
 rounding mode.
+We should use printf format specifier "%u" instead of "%d" for
+argument of type "unsigned int".
+Reported-by: Euler Robot <euler.robot@huawei.com>
+Signed-off-by: Alex Chen <alex.chen@huawei.com>
+Message-id: 20201126111109.112238-2-alex.chen@huawei.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-17-peter.maydell@linaro.org
 ---
- target/arm/vfp-uncond.decode   |  6 ++++--
+ hw/misc/imx25_ccm.c | 12 ++++++------
- target/arm/translate-vfp.c.inc | 32 ++++++++++++++++++++++++--------
+file changed, 6 insertions(+), 6 deletions(-)
 files changed, 28 insertions(+), 10 deletions(-)
-diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
+diff --git a/hw/misc/imx25_ccm.c b/hw/misc/imx25_ccm.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp-uncond.decode
+--- a/hw/misc/imx25_ccm.c
-+++ b/target/arm/vfp-uncond.decode
++++ b/hw/misc/imx25_ccm.c
-@@ -XXX,XX +XXX,XX @@ VRINT       1111 1110 1.11 10 rm:2 .... 1011 01.0 .... \
+@@ -XXX,XX +XXX,XX @@ static const char *imx25_ccm_reg_name(uint32_t reg)
-             vm=%vm_dp vd=%vd_dp dp=1
+     case IMX25_CCM_LPIMR1_REG:
+         return "lpimr1";
- # VCVT float to int with specified rounding mode; Vd is always single-precision
+     default:
-+VCVT        1111 1110 1.11 11 rm:2 .... 1001 op:1 1.0 .... \
+-        sprintf(unknown, "[%d ?]", reg);
-+            vm=%vm_sp vd=%vd_sp sz=1
++        sprintf(unknown, "[%u ?]", reg);
- VCVT        1111 1110 1.11 11 rm:2 .... 1010 op:1 1.0 .... \
+         return unknown;
 -            vm=%vm_sp vd=%vd_sp dp=0
 +            vm=%vm_sp vd=%vd_sp sz=2
  VCVT        1111 1110 1.11 11 rm:2 .... 1011 op:1 1.0 .... \
 -            vm=%vm_dp vd=%vd_sp dp=1
 +            vm=%vm_dp vd=%vd_sp sz=3
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
  static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
  {
      uint32_t rd, rm;
 -    bool dp = a->dp;
 +    int sz = a->sz;
      TCGv_ptr fpst;
      TCGv_i32 tcg_rmode, tcg_shift;
      int rounding = fp_decode_rm[a->rm];
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
          return false;
      }
+ }
--    if (dp && !dc_isar_feature(aa32_fpdp_v2, s)) {
+@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_mpll_clk(IMXCCMState *dev)
-+    if (sz == 3 && !dc_isar_feature(aa32_fpdp_v2, s)) {
+         freq = imx_ccm_calc_pll(s->reg[IMX25_CCM_MPCTL_REG], CKIH_FREQ);
 +        return false;
 +    }
 +
 +    if (sz == 1 && !dc_isar_feature(aa32_fp16_arith, s)) {
          return false;
      }
-     /* UNDEF accesses to D16-D31 if they don't exist */
+-    DPRINTF("freq = %d\n", freq);
--    if (dp && !dc_isar_feature(aa32_simd_r32, s) && (a->vm & 0x10)) {
++    DPRINTF("freq = %u\n", freq);
-+    if (sz == 3 && !dc_isar_feature(aa32_simd_r32, s) && (a->vm & 0x10)) {
-         return false;
+     return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_mcu_clk(IMXCCMState *dev)
      freq = freq / (1 + EXTRACT(s->reg[IMX25_CCM_CCTL_REG], ARM_CLK_DIV));
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_ahb_clk(IMXCCMState *dev)
      freq = imx25_ccm_get_mcu_clk(dev)
             / (1 + EXTRACT(s->reg[IMX25_CCM_CCTL_REG], AHB_CLK_DIV));
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_ipg_clk(IMXCCMState *dev)
      freq = imx25_ccm_get_ahb_clk(dev) / 2;
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
          break;
      }
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
+-    DPRINTF("Clock = %d) = %d\n", clock, freq);
-         return true;
++    DPRINTF("Clock = %d) = %u\n", clock, freq);
-     }
+     return freq;
--    fpst = fpstatus_ptr(FPST_FPCR);
+ }
 +    if (sz == 1) {
 +        fpst = fpstatus_ptr(FPST_FPCR_F16);
 +    } else {
 +        fpst = fpstatus_ptr(FPST_FPCR);
 +    }
      tcg_shift = tcg_const_i32(0);
      tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rounding));
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 -    if (dp) {
 +    if (sz == 3) {
          TCGv_i64 tcg_double, tcg_res;
          TCGv_i32 tcg_tmp;
          tcg_double = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
          tcg_single = tcg_temp_new_i32();
          tcg_res = tcg_temp_new_i32();
          neon_load_reg32(tcg_single, rm);
 -        if (is_signed) {
 -            gen_helper_vfp_tosls(tcg_res, tcg_single, tcg_shift, fpst);
 +        if (sz == 1) {
 +            if (is_signed) {
 +                gen_helper_vfp_toslh(tcg_res, tcg_single, tcg_shift, fpst);
 +            } else {
 +                gen_helper_vfp_toulh(tcg_res, tcg_single, tcg_shift, fpst);
 +            }
          } else {
 -            gen_helper_vfp_touls(tcg_res, tcg_single, tcg_shift, fpst);
 +            if (is_signed) {
 +                gen_helper_vfp_tosls(tcg_res, tcg_single, tcg_shift, fpst);
 +            } else {
 +                gen_helper_vfp_touls(tcg_res, tcg_single, tcg_shift, fpst);
 +            }
          }
          neon_store_reg32(tcg_res, rd);
          tcg_temp_free_i32(tcg_res);
 --
 .20.1

-[PULL 38/47] target/arm: Implement fp16 for Neon VCVT with rounding modes
+[PULL 09/36] i.MX31: Fix bad printf format specifiers
-Convert the Neon VCVT with-specified-rounding-mode instructions
+From: Alex Chen <alex.chen@huawei.com>
 to gvec, and use this to implement fp16 support for them.
+We should use printf format specifier "%u" instead of "%d" for
+argument of type "unsigned int".
+Reported-by: Euler Robot <euler.robot@huawei.com>
+Signed-off-by: Alex Chen <alex.chen@huawei.com>
+Message-id: 20201126111109.112238-3-alex.chen@huawei.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-40-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |   5 ++
+ hw/misc/imx31_ccm.c | 14 +++++++-------
- target/arm/vec_helper.c         |  23 +++++++
+ hw/misc/imx_ccm.c   |  4 ++--
- target/arm/translate-neon.c.inc | 105 ++++++++++++--------------------
+files changed, 9 insertions(+), 9 deletions(-)
 files changed, 66 insertions(+), 67 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/misc/imx31_ccm.c b/hw/misc/imx31_ccm.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/misc/imx31_ccm.c
-+++ b/target/arm/helper.h
++++ b/hw/misc/imx31_ccm.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static const char *imx31_ccm_reg_name(uint32_t reg)
- DEF_HELPER_FLAGS_4(gvec_vcvt_hs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     case IMX31_CCM_PDR2_REG:
- DEF_HELPER_FLAGS_4(gvec_vcvt_hu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+         return "PDR2";
+     default:
-+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ss, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-        sprintf(unknown, "[%d ?]", reg);
-+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        sprintf(unknown, "[%u ?]", reg);
-+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+         return unknown;
-+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     }
-+
+ }
- DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_pll_ref_clk(IMXCCMState *dev)
- DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+         freq = CKIH_FREQ;
- DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     }
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_mpll_clk(IMXCCMState *dev)
      freq = imx_ccm_calc_pll(s->reg[IMX31_CCM_MPCTL_REG],
                              imx31_ccm_get_pll_ref_clk(dev));
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_mcu_main_clk(IMXCCMState *dev)
          freq = imx31_ccm_get_mpll_clk(dev);
      }
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_hclk_clk(IMXCCMState *dev)
      freq = imx31_ccm_get_mcu_main_clk(dev)
             / (1 + EXTRACT(s->reg[IMX31_CCM_PDR0_REG], MAX));
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_ipg_clk(IMXCCMState *dev)
      freq = imx31_ccm_get_hclk_clk(dev)
             / (1 + EXTRACT(s->reg[IMX31_CCM_PDR0_REG], IPG));
 -    DPRINTF("freq = %d\n", freq);
 +    DPRINTF("freq = %u\n", freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
          break;
      }
 -    DPRINTF("Clock = %d) = %d\n", clock, freq);
 +    DPRINTF("Clock = %d) = %u\n", clock, freq);
      return freq;
  }
 diff --git a/hw/misc/imx_ccm.c b/hw/misc/imx_ccm.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/hw/misc/imx_ccm.c
-+++ b/target/arm/vec_helper.c
++++ b/hw/misc/imx_ccm.c
-@@ -XXX,XX +XXX,XX @@ DO_VCVT_FIXED(gvec_vcvt_hs, helper_vfp_toshh_round_to_zero, uint16_t)
+@@ -XXX,XX +XXX,XX @@ uint32_t imx_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
- DO_VCVT_FIXED(gvec_vcvt_hu, helper_vfp_touhh_round_to_zero, uint16_t)
+         freq = klass->get_clock_frequency(dev, clock);
  #undef DO_VCVT_FIXED
 +
 +#define DO_VCVT_RMODE(NAME, FUNC, TYPE)                                 \
 +    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
 +    {                                                                   \
 +        float_status *fpst = stat;                                      \
 +        intptr_t i, oprsz = simd_oprsz(desc);                           \
 +        uint32_t rmode = simd_data(desc);                               \
 +        uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
 +        TYPE *d = vd, *n = vn;                                          \
 +        set_float_rounding_mode(rmode, fpst);                           \
 +        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
 +            d[i] = FUNC(n[i], 0, fpst);                                 \
 +        }                                                               \
 +        set_float_rounding_mode(prev_rmode, fpst);                      \
 +        clear_tail(d, oprsz, simd_maxsz(desc));                         \
 +    }
 +
 +DO_VCVT_RMODE(gvec_vcvt_rm_ss, helper_vfp_tosls, uint32_t)
 +DO_VCVT_RMODE(gvec_vcvt_rm_us, helper_vfp_touls, uint32_t)
 +DO_VCVT_RMODE(gvec_vcvt_rm_sh, helper_vfp_toshh, uint16_t)
 +DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
 +
 +#undef DO_VCVT_RMODE
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_VRINT(VRINTZ, FPROUNDING_ZERO)
  DO_VRINT(VRINTM, FPROUNDING_NEGINF)
  DO_VRINT(VRINTP, FPROUNDING_POSINF)
 -static bool do_vcvt(DisasContext *s, arg_2misc *a, int rmode, bool is_signed)
 -{
 -    /*
 -     * Handle a VCVT* operation by iterating 32 bits at a time,
 -     * with a specified rounding mode in operation.
 -     */
 -    int pass;
 -    TCGv_ptr fpst;
 -    TCGv_i32 tcg_rmode, tcg_shift;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 -        !arm_dc_feature(s, ARM_FEATURE_V8)) {
 -        return false;
 +#define DO_VEC_RMODE(INSN, RMODE, OP)                                   \
 +    static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
 +                           uint32_t rm_ofs,                             \
 +                           uint32_t oprsz, uint32_t maxsz)              \
 +    {                                                                   \
 +        static gen_helper_gvec_2_ptr * const fns[4] = {                 \
 +            NULL,                                                       \
 +            gen_helper_gvec_##OP##h,                                    \
 +            gen_helper_gvec_##OP##s,                                    \
 +            NULL,                                                       \
 +        };                                                              \
 +        TCGv_ptr fpst;                                                  \
 +        fpst = fpstatus_ptr(vece == 1 ? FPST_STD_F16 : FPST_STD);       \
 +        tcg_gen_gvec_2_ptr(rd_ofs, rm_ofs, fpst, oprsz, maxsz,          \
 +                           arm_rmode_to_sf(RMODE), fns[vece]);          \
 +        tcg_temp_free_ptr(fpst);                                        \
 +    }                                                                   \
 +    static bool trans_##INSN(DisasContext *s, arg_2misc *a)             \
 +    {                                                                   \
 +        if (!arm_dc_feature(s, ARM_FEATURE_V8)) {                       \
 +            return false;                                               \
 +        }                                                               \
 +        if (a->size == MO_16) {                                         \
 +            if (!dc_isar_feature(aa32_fp16_arith, s)) {                 \
 +                return false;                                           \
 +            }                                                           \
 +        } else if (a->size != MO_32) {                                  \
 +            return false;                                               \
 +        }                                                               \
 +        return do_2misc_vec(s, a, gen_##INSN);                          \
      }
--    /* UNDEF accesses to D16-D31 if they don't exist. */
+-    DPRINTF("(clock = %d) = %d\n", clock, freq);
--    if (!dc_isar_feature(aa32_simd_r32, s) &&
++    DPRINTF("(clock = %d) = %u\n", clock, freq);
--        ((a->vd | a->vm) & 0x10)) {
--        return false;
+     return freq;
--    }
+ }
--
+@@ -XXX,XX +XXX,XX @@ uint32_t imx_ccm_calc_pll(uint32_t pllreg, uint32_t base_freq)
--    if (a->size != 2) {
+     freq = ((2 * (base_freq >> 10) * (mfi * mfd + mfn)) /
--        /* TODO: FP16 will be the size == 1 case */
+             (mfd * pd)) << 10;
--        return false;
--    }
+-    DPRINTF("(pllreg = 0x%08x, base_freq = %d) = %d\n", pllreg, base_freq,
--
++    DPRINTF("(pllreg = 0x%08x, base_freq = %u) = %d\n", pllreg, base_freq,
--    if ((a->vd | a->vm) & a->q) {
+             freq);
--        return false;
--    }
+     return freq;
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_STD);
 -    tcg_shift = tcg_const_i32(0);
 -    tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
 -    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
 -    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
 -        if (is_signed) {
 -            gen_helper_vfp_tosls(tmp, tmp, tcg_shift, fpst);
 -        } else {
 -            gen_helper_vfp_touls(tmp, tmp, tcg_shift, fpst);
 -        }
 -        neon_store_reg(a->vd, pass, tmp);
 -    }
 -    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
 -    tcg_temp_free_i32(tcg_rmode);
 -    tcg_temp_free_i32(tcg_shift);
 -    tcg_temp_free_ptr(fpst);
 -
 -    return true;
 -}
 -
 -#define DO_VCVT(INSN, RMODE, SIGNED)                            \
 -    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
 -    {                                                           \
 -        return do_vcvt(s, a, RMODE, SIGNED);                    \
 -    }
 -
 -DO_VCVT(VCVTAU, FPROUNDING_TIEAWAY, false)
 -DO_VCVT(VCVTAS, FPROUNDING_TIEAWAY, true)
 -DO_VCVT(VCVTNU, FPROUNDING_TIEEVEN, false)
 -DO_VCVT(VCVTNS, FPROUNDING_TIEEVEN, true)
 -DO_VCVT(VCVTPU, FPROUNDING_POSINF, false)
 -DO_VCVT(VCVTPS, FPROUNDING_POSINF, true)
 -DO_VCVT(VCVTMU, FPROUNDING_NEGINF, false)
 -DO_VCVT(VCVTMS, FPROUNDING_NEGINF, true)
 +DO_VEC_RMODE(VCVTAU, FPROUNDING_TIEAWAY, vcvt_rm_u)
 +DO_VEC_RMODE(VCVTAS, FPROUNDING_TIEAWAY, vcvt_rm_s)
 +DO_VEC_RMODE(VCVTNU, FPROUNDING_TIEEVEN, vcvt_rm_u)
 +DO_VEC_RMODE(VCVTNS, FPROUNDING_TIEEVEN, vcvt_rm_s)
 +DO_VEC_RMODE(VCVTPU, FPROUNDING_POSINF, vcvt_rm_u)
 +DO_VEC_RMODE(VCVTPS, FPROUNDING_POSINF, vcvt_rm_s)
 +DO_VEC_RMODE(VCVTMU, FPROUNDING_NEGINF, vcvt_rm_u)
 +DO_VEC_RMODE(VCVTMS, FPROUNDING_NEGINF, vcvt_rm_s)
  static bool trans_VSWP(DisasContext *s, arg_2misc *a)
  {
 --
 .20.1

-[PULL 40/47] target/arm: Implement fp16 for Neon VRINTX
+[PULL 10/36] i.MX6: Fix bad printf format specifiers
-Convert the Neon VRINTX insn to use gvec, and use this to implement
+From: Alex Chen <alex.chen@huawei.com>
 fp16 support for it.
+We should use printf format specifier "%u" instead of "%d" for
+argument of type "unsigned int".
+Reported-by: Euler Robot <euler.robot@huawei.com>
+Signed-off-by: Alex Chen <alex.chen@huawei.com>
+Message-id: 20201126111109.112238-4-alex.chen@huawei.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-42-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  3 +++
+ hw/misc/imx6_ccm.c | 20 ++++++++++----------
- target/arm/vec_helper.c         |  3 +++
+ hw/misc/imx6_src.c |  2 +-
- target/arm/translate-neon.c.inc | 45 +++------------------------------
+files changed, 11 insertions(+), 11 deletions(-)
 files changed, 9 insertions(+), 42 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/misc/imx6_ccm.c b/hw/misc/imx6_ccm.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/misc/imx6_ccm.c
-+++ b/target/arm/helper.h
++++ b/hw/misc/imx6_ccm.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static const char *imx6_ccm_reg_name(uint32_t reg)
- DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     case CCM_CMEOR:
- DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+         return "CMEOR";
+     default:
-+DEF_HELPER_FLAGS_4(gvec_vrintx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-        sprintf(unknown, "%d ?", reg);
-+DEF_HELPER_FLAGS_4(gvec_vrintx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        sprintf(unknown, "%u ?", reg);
-+
+         return unknown;
- DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     }
- DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ }
- DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static const char *imx6_analog_reg_name(uint32_t reg)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
+     case USB_ANALOG_DIGPROG:
          return "USB_ANALOG_DIGPROG";
      default:
 -        sprintf(unknown, "%d ?", reg);
 +        sprintf(unknown, "%u ?", reg);
          return unknown;
      }
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_pll2_clk(IMX6CCMState *dev)
          freq *= 20;
      }
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_pll2_pfd0_clk(IMX6CCMState *dev)
      freq = imx6_analog_get_pll2_clk(dev) * 18
             / EXTRACT(dev->analog[CCM_ANALOG_PFD_528], PFD0_FRAC);
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_pll2_pfd2_clk(IMX6CCMState *dev)
      freq = imx6_analog_get_pll2_clk(dev) * 18
             / EXTRACT(dev->analog[CCM_ANALOG_PFD_528], PFD2_FRAC);
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_periph_clk(IMX6CCMState *dev)
          break;
      }
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_ccm_get_ahb_clk(IMX6CCMState *dev)
      freq = imx6_analog_get_periph_clk(dev)
             / (1 + EXTRACT(dev->ccm[CCM_CBCDR], AHB_PODF));
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_ccm_get_ipg_clk(IMX6CCMState *dev)
      freq = imx6_ccm_get_ahb_clk(dev)
             / (1 + EXTRACT(dev->ccm[CCM_CBCDR], IPG_PODF));
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_ccm_get_per_clk(IMX6CCMState *dev)
      freq = imx6_ccm_get_ipg_clk(dev)
             / (1 + EXTRACT(dev->ccm[CCM_CSCMR1], PERCLK_PODF));
 -    DPRINTF("freq = %d\n", (uint32_t)freq);
 +    DPRINTF("freq = %u\n", (uint32_t)freq);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx6_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
          break;
      }
 -    DPRINTF("Clock = %d) = %d\n", clock, freq);
 +    DPRINTF("Clock = %d) = %u\n", clock, freq);
      return freq;
  }
 diff --git a/hw/misc/imx6_src.c b/hw/misc/imx6_src.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/hw/misc/imx6_src.c
-+++ b/target/arm/vec_helper.c
++++ b/hw/misc/imx6_src.c
-@@ -XXX,XX +XXX,XX @@ DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
+@@ -XXX,XX +XXX,XX @@ static const char *imx6_src_reg_name(uint32_t reg)
- DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
+     case SRC_GPR10:
- DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
+         return "SRC_GPR10";
+     default:
-+DO_2OP(gvec_vrintx_h, float16_round_to_int, float16)
+-        sprintf(unknown, "%d ?", reg);
-+DO_2OP(gvec_vrintx_s, float32_round_to_int, float32)
++        sprintf(unknown, "%u ?", reg);
-+
+         return unknown;
- DO_2OP(gvec_sitos, helper_vfp_sitos, int32_t)
+     }
  DO_2OP(gvec_uitos, helper_vfp_uitos, uint32_t)
  DO_2OP(gvec_tosizs, helper_vfp_tosizs, float32)
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VQNEG(DisasContext *s, arg_2misc *a)
      return do_2misc(s, a, fn[a->size]);
  }
--static bool do_2misc_fp(DisasContext *s, arg_2misc *a,
--                        NeonGenOneSingleOpFn *fn)
--{
--    int pass;
--    TCGv_ptr fpst;
--
--    /* Handle a 2-reg-misc operation by iterating 32 bits at a time */
--    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
--        return false;
--    }
--
--    /* UNDEF accesses to D16-D31 if they don't exist. */
--    if (!dc_isar_feature(aa32_simd_r32, s) &&
--        ((a->vd | a->vm) & 0x10)) {
--        return false;
--    }
--
--    if (a->size != 2) {
--        /* TODO: FP16 will be the size == 1 case */
--        return false;
--    }
--
--    if ((a->vd | a->vm) & a->q) {
--        return false;
--    }
--
--    if (!vfp_access_check(s)) {
--        return true;
--    }
--
--    fpst = fpstatus_ptr(FPST_STD);
--    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
--        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
--        fn(tmp, tmp, fpst);
--        neon_store_reg(a->vd, pass, tmp);
--    }
--    tcg_temp_free_ptr(fpst);
--
--    return true;
--}
--
- #define DO_2MISC_FP_VEC(INSN, HFUNC, SFUNC)                             \
-     static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
-                            uint32_t rm_ofs,                             \
-@@ -XXX,XX +XXX,XX @@ DO_2MISC_FP_VEC(VCVT_FU, gen_helper_gvec_ustoh, gen_helper_gvec_uitos)
- DO_2MISC_FP_VEC(VCVT_SF, gen_helper_gvec_tosszh, gen_helper_gvec_tosizs)
- DO_2MISC_FP_VEC(VCVT_UF, gen_helper_gvec_touszh, gen_helper_gvec_touizs)
-+DO_2MISC_FP_VEC(VRINTX_impl, gen_helper_gvec_vrintx_h, gen_helper_gvec_vrintx_s)
-+
- static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
- {
-     if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
-         return false;
-     }
--    return do_2misc_fp(s, a, gen_helper_rints_exact);
-+    return trans_VRINTX_impl(s, a);
- }
- #define DO_VEC_RMODE(INSN, RMODE, OP)                                   \
 --
 .20.1

-[PULL 47/47] hw/arm/sbsa-ref : Add embedded controller in secure memory
+[PULL 11/36] i.MX6ul: Fix bad printf format specifiers
-From: Graeme Gregory <graeme@nuviainc.com>
+From: Alex Chen <alex.chen@huawei.com>
-Add the previously created sbsa-ec device to the sbsa-ref machine in
+We should use printf format specifier "%u" instead of "%d" for
-secure memory so the PSCI implementation in ARM-TF can access it, but
+argument of type "unsigned int".
 not expose it to non secure firmware or OS except by via ARM-TF.
-Signed-off-by: Graeme Gregory <graeme@nuviainc.com>
+Reported-by: Euler Robot <euler.robot@huawei.com>
-Reviewed-by: Leif Lindholm <leif@nuviainc.com>
+Signed-off-by: Alex Chen <alex.chen@huawei.com>
-Tested-by: Leif Lindholm <leif@nuviainc.com>
+Message-id: 20201126111109.112238-5-alex.chen@huawei.com
 Message-id: 20200826141952.136164-3-graeme@nuviainc.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/sbsa-ref.c | 14 ++++++++++++++
+ hw/misc/imx6ul_ccm.c | 4 ++--
-file changed, 14 insertions(+)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
+diff --git a/hw/misc/imx6ul_ccm.c b/hw/misc/imx6ul_ccm.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/sbsa-ref.c
+--- a/hw/misc/imx6ul_ccm.c
-+++ b/hw/arm/sbsa-ref.c
++++ b/hw/misc/imx6ul_ccm.c
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ static const char *imx6ul_ccm_reg_name(uint32_t reg)
-     SBSA_CPUPERIPHS,
+     case CCM_CMEOR:
-     SBSA_GIC_DIST,
+         return "CMEOR";
-     SBSA_GIC_REDIST,
+     default:
-+    SBSA_SECURE_EC,
+-        sprintf(unknown, "%d ?", reg);
-     SBSA_SMMU,
++        sprintf(unknown, "%u ?", reg);
-     SBSA_UART,
+         return unknown;
-     SBSA_RTC,
+     }
@@ -XXX,XX +XXX,XX @@ static const MemMapEntry sbsa_ref_memmap[] = {
      [SBSA_CPUPERIPHS] =         { 0x40000000, 0x00040000 },
      [SBSA_GIC_DIST] =           { 0x40060000, 0x00010000 },
      [SBSA_GIC_REDIST] =         { 0x40080000, 0x04000000 },
 +    [SBSA_SECURE_EC] =          { 0x50000000, 0x00001000 },
      [SBSA_UART] =               { 0x60000000, 0x00001000 },
      [SBSA_RTC] =                { 0x60010000, 0x00001000 },
      [SBSA_GPIO] =               { 0x60020000, 0x00001000 },
@@ -XXX,XX +XXX,XX @@ static void *sbsa_ref_dtb(const struct arm_boot_info *binfo, int *fdt_size)
      return board->fdt;
  }
+@@ -XXX,XX +XXX,XX @@ static const char *imx6ul_analog_reg_name(uint32_t reg)
-+static void create_secure_ec(MemoryRegion *mem)
+     case USB_ANALOG_DIGPROG:
-+{
+         return "USB_ANALOG_DIGPROG";
-+    hwaddr base = sbsa_ref_memmap[SBSA_SECURE_EC].base;
+     default:
-+    DeviceState *dev = qdev_new("sbsa-ec");
+-        sprintf(unknown, "%d ?", reg);
-+    SysBusDevice *s = SYS_BUS_DEVICE(dev);
++        sprintf(unknown, "%u ?", reg);
-+
+         return unknown;
-+    memory_region_add_subregion(mem, base,
+     }
-+                                sysbus_mmio_get_region(s, 0));
+ }
 +}
 +
  static void sbsa_ref_init(MachineState *machine)
  {
      unsigned int smp_cpus = machine->smp.cpus;
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
      create_pcie(sms);
 +    create_secure_ec(secure_sysmem);
 +
      sms->bootinfo.ram_size = machine->ram_size;
      sms->bootinfo.nb_cpus = smp_cpus;
      sms->bootinfo.board_id = -1;
 --
 .20.1

-[PULL 26/47] target/arm: Implement fp16 for VACGE, VACGT
+[PULL 12/36] hw/intc/armv7m_nvic: Make all of system PPB range be RAZWI/BusFault
-Convert the neon floating-point vector absolute comparison ops
+For M-profile CPUs, the range from 0xe0000000 to 0xe00fffff is the
-VACGE and VACGT over to using a gvec hepler and use this to
+Private Peripheral Bus range, which includes all of the memory mapped
-implement the fp16 case.
+devices and registers that are part of the CPU itself, including the
 NVIC, systick timer, and debug and trace components like the Data
 Watchpoint and Trace unit (DWT).  Within this large region, the range
 xe000e000 to 0xe000efff is the System Control Space (NVIC, system
 registers, systick) and 0xe002e000 to 0exe002efff is its Non-secure
 alias.
 The architecture is clear that within the SCS unimplemented registers
 should be RES0 for privileged accesses and generate BusFault for
 unprivileged accesses, and we currently implement this.
 It is less clear about how to handle accesses to unimplemented
 regions of the wider PPB.  Unprivileged accesses should definitely
 cause BusFaults (R_DQQS), but the behaviour of privileged accesses is
 not given as a general rule.  However, the register definitions of
 individual registers for components like the DWT all state that they
 are RES0 if the relevant component is not implemented, so the
 simplest way to provide that is to provide RAZ/WI for the whole range
 for privileged accesses.  (The v7M Arm ARM does say that reserved
 registers should be UNK/SBZP.)
 Expand the container MemoryRegion that the NVIC exposes so that
 it covers the whole PPB space. This means:
  * moving the address that the ARMV7M device maps it to down by
 xe000 bytes
  * moving the off and the offsets within the container of all the
    subregions forward by 0xe000 bytes
  * adding a new default MemoryRegion that covers the whole container
    at a lower priority than anything else and which provides the
    RAZWI/BusFault behaviour
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-28-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-2-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  6 ++++++
+ include/hw/intc/armv7m_nvic.h |  1 +
- target/arm/vec_helper.c         | 26 ++++++++++++++++++++++++++
+ hw/arm/armv7m.c               |  2 +-
- target/arm/translate-neon.c.inc |  4 ++--
+ hw/intc/armv7m_nvic.c         | 78 ++++++++++++++++++++++++++++++-----
-files changed, 34 insertions(+), 2 deletions(-)
+files changed, 69 insertions(+), 12 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/include/hw/intc/armv7m_nvic.h b/include/hw/intc/armv7m_nvic.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/include/hw/intc/armv7m_nvic.h
-+++ b/target/arm/helper.h
++++ b/include/hw/intc/armv7m_nvic.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ struct NVICState {
- DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+     MemoryRegion systickmem;
- DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+     MemoryRegion systick_ns_mem;
+     MemoryRegion container;
-+DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    MemoryRegion defaultmem;
-+DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
+     uint32_t num_irq;
-+DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+     qemu_irq excpout;
-+DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+diff --git a/hw/arm/armv7m.c b/hw/arm/armv7m.c
 +
  DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/hw/arm/armv7m.c
-+++ b/target/arm/vec_helper.c
++++ b/hw/arm/armv7m.c
-@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
+@@ -XXX,XX +XXX,XX @@ static void armv7m_realize(DeviceState *dev, Error **errp)
-     return -float32_lt(op2, op1, stat);
+     sysbus_connect_irq(sbd, 0,
- }
+                        qdev_get_gpio_in(DEVICE(s->cpu), ARM_CPU_IRQ));
-+static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
+-    memory_region_add_subregion(&s->container, 0xe000e000,
 +    memory_region_add_subregion(&s->container, 0xe0000000,
                                  sysbus_mmio_get_region(sbd, 0));
      for (i = 0; i < ARRAY_SIZE(s->bitband); i++) {
 diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/intc/armv7m_nvic.c
 +++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps nvic_systick_ops = {
      .endianness = DEVICE_NATIVE_ENDIAN,
  };
 +/*
 + * Unassigned portions of the PPB space are RAZ/WI for privileged
 + * accesses, and fault for non-privileged accesses.
 + */
 +static MemTxResult ppb_default_read(void *opaque, hwaddr addr,
 +                                    uint64_t *data, unsigned size,
 +                                    MemTxAttrs attrs)
 +{
-+    return -float16_le(float16_abs(op2), float16_abs(op1), stat);
++    qemu_log_mask(LOG_UNIMP, "Read of unassigned area of PPB: offset 0x%x\n",
 +                  (uint32_t)addr);
 +    if (attrs.user) {
 +        return MEMTX_ERROR;
 +    }
 +    *data = 0;
 +    return MEMTX_OK;
 +}
 +
-+static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
++static MemTxResult ppb_default_write(void *opaque, hwaddr addr,
 +                                     uint64_t value, unsigned size,
 +                                     MemTxAttrs attrs)
 +{
-+    return -float32_le(float32_abs(op2), float32_abs(op1), stat);
++    qemu_log_mask(LOG_UNIMP, "Write of unassigned area of PPB: offset 0x%x\n",
 +                  (uint32_t)addr);
 +    if (attrs.user) {
 +        return MEMTX_ERROR;
 +    }
 +    return MEMTX_OK;
 +}
 +
-+static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
++static const MemoryRegionOps ppb_default_ops = {
-+{
++    .read_with_attrs = ppb_default_read,
-+    return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
++    .write_with_attrs = ppb_default_write,
-+}
++    .endianness = DEVICE_NATIVE_ENDIAN,
 +    .valid.min_access_size = 1,
 +    .valid.max_access_size = 8,
 +};
 +
-+static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
+ static int nvic_post_load(void *opaque, int version_id)
-+{
+ {
-+    return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
+     NVICState *s = opaque;
-+}
+@@ -XXX,XX +XXX,XX @@ static void nvic_systick_trigger(void *opaque, int n, int level)
-+
+ static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
- #define DO_2OP(NAME, FUNC, TYPE) \
+ {
- void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
+     NVICState *s = NVIC(dev);
- {                                                                 \
+-    int regionlen;
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fcge_s, float32_cge, float32)
- DO_3OP(gvec_fcgt_h, float16_cgt, float16)
+     /* The armv7m container object will have set our CPU pointer */
- DO_3OP(gvec_fcgt_s, float32_cgt, float32)
+     if (!s->cpu || !arm_feature(&s->cpu->env, ARM_FEATURE_M)) {
+@@ -XXX,XX +XXX,XX @@ static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
-+DO_3OP(gvec_facge_h, float16_acge, float16)
+                                                   M_REG_S));
 +DO_3OP(gvec_facge_s, float32_acge, float32)
 +
 +DO_3OP(gvec_facgt_h, float16_acgt, float16)
 +DO_3OP(gvec_facgt_s, float32_acgt, float32)
 +
  #ifdef TARGET_AARCH64
  DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
  DO_3S_FP_GVEC(VCEQ, gen_helper_gvec_fceq_s, gen_helper_gvec_fceq_h)
  DO_3S_FP_GVEC(VCGE, gen_helper_gvec_fcge_s, gen_helper_gvec_fcge_h)
  DO_3S_FP_GVEC(VCGT, gen_helper_gvec_fcgt_s, gen_helper_gvec_fcgt_h)
 +DO_3S_FP_GVEC(VACGE, gen_helper_gvec_facge_s, gen_helper_gvec_facge_h)
 +DO_3S_FP_GVEC(VACGT, gen_helper_gvec_facgt_s, gen_helper_gvec_facgt_h)
  /*
   * For all the functions using this macro, size == 1 means fp16,
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VCGT, gen_helper_gvec_fcgt_s, gen_helper_gvec_fcgt_h)
          return do_3same_fp(s, a, FUNC, READS_VD);                   \
      }
--DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
+-    /* The NVIC and System Control Space (SCS) starts at 0xe000e000
--DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
++    /*
- DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
++     * This device provides a single sysbus memory region which
- DO_3S_FP(VMIN, gen_helper_vfp_mins, false)
++     * represents the whole of the "System PPB" space. This is the
 +     * range from 0xe0000000 to 0xe00fffff and includes the NVIC,
 +     * the System Control Space (system registers), the systick timer,
 +     * and for CPUs with the Security extension an NS banked version
 +     * of all of these.
 +     *
 +     * The default behaviour for unimplemented registers/ranges
 +     * (for instance the Data Watchpoint and Trace unit at 0xe0001000)
 +     * is to RAZ/WI for privileged access and BusFault for non-privileged
 +     * access.
 +     *
 +     * The NVIC and System Control Space (SCS) starts at 0xe000e000
       * and looks like this:
       *  0x004 - ICTR
       *  0x010 - 0xff - systick
@@ -XXX,XX +XXX,XX @@ static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
       * generally code determining which banked register to use should
       * use attrs.secure; code determining actual behaviour of the system
       * should use env->v7m.secure.
 +     *
 +     * The container covers the whole PPB space. Within it the priority
 +     * of overlapping regions is:
 +     *  - default region (for RAZ/WI and BusFault) : -1
 +     *  - system register regions : 0
 +     *  - systick : 1
 +     * This is because the systick device is a small block of registers
 +     * in the middle of the other system control registers.
       */
 -    regionlen = arm_feature(&s->cpu->env, ARM_FEATURE_V8) ? 0x21000 : 0x1000;
 -    memory_region_init(&s->container, OBJECT(s), "nvic", regionlen);
 -    /* The system register region goes at the bottom of the priority
 -     * stack as it covers the whole page.
 -     */
 +    memory_region_init(&s->container, OBJECT(s), "nvic", 0x100000);
 +    memory_region_init_io(&s->defaultmem, OBJECT(s), &ppb_default_ops, s,
 +                          "nvic-default", 0x100000);
 +    memory_region_add_subregion_overlap(&s->container, 0, &s->defaultmem, -1);
      memory_region_init_io(&s->sysregmem, OBJECT(s), &nvic_sysreg_ops, s,
                            "nvic_sysregs", 0x1000);
 -    memory_region_add_subregion(&s->container, 0, &s->sysregmem);
 +    memory_region_add_subregion(&s->container, 0xe000, &s->sysregmem);
      memory_region_init_io(&s->systickmem, OBJECT(s),
                            &nvic_systick_ops, s,
                            "nvic_systick", 0xe0);
 -    memory_region_add_subregion_overlap(&s->container, 0x10,
 +    memory_region_add_subregion_overlap(&s->container, 0xe010,
                                          &s->systickmem, 1);
      if (arm_feature(&s->cpu->env, ARM_FEATURE_V8)) {
          memory_region_init_io(&s->sysreg_ns_mem, OBJECT(s),
                                &nvic_sysreg_ns_ops, &s->sysregmem,
                                "nvic_sysregs_ns", 0x1000);
 -        memory_region_add_subregion(&s->container, 0x20000, &s->sysreg_ns_mem);
 +        memory_region_add_subregion(&s->container, 0x2e000, &s->sysreg_ns_mem);
          memory_region_init_io(&s->systick_ns_mem, OBJECT(s),
                                &nvic_sysreg_ns_ops, &s->systickmem,
                                "nvic_systick_ns", 0xe0);
 -        memory_region_add_subregion_overlap(&s->container, 0x20010,
 +        memory_region_add_subregion_overlap(&s->container, 0x2e010,
                                              &s->systick_ns_mem, 1);
      }
 --
 .20.1

-[PULL 39/47] target/arm: Implement fp16 for Neon VRINT-with-specified-rounding-mode
+[PULL 13/36] target/arm: Implement v8.1M PXN extension
-Convert the Neon VRINT-with-specified-rounding-mode insns to gvec,
+In v8.1M the PXN architecture extension adds a new PXN bit to the
-and use this to implement the fp16 versions.
+MPU_RLAR registers, which forbids execution of code in the region
 from a privileged mode.
 This is another feature which is just in the generic "in v8.1M" set
 and has no ID register field indicating its presence.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-41-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-3-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  4 +-
+ target/arm/helper.c | 7 ++++++-
- target/arm/vec_helper.c         | 21 +++++++++++
+file changed, 6 insertions(+), 1 deletion(-)
  target/arm/vfp_helper.c         | 17 ---------
  target/arm/translate-neon.c.inc | 67 +++------------------------------
 files changed, 30 insertions(+), 79 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper.c
-+++ b/target/arm/helper.h
++++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, ptr)
+@@ -XXX,XX +XXX,XX @@ bool pmsav8_mpu_lookup(CPUARMState *env, uint32_t address,
- DEF_HELPER_3(vfp_uqtoh, f16, i64, i32, ptr)
+     } else {
+         uint32_t ap = extract32(env->pmsav8.rbar[secure][matchregion], 1, 2);
- DEF_HELPER_FLAGS_2(set_rmode, TCG_CALL_NO_RWG, i32, i32, ptr)
+         uint32_t xn = extract32(env->pmsav8.rbar[secure][matchregion], 0, 1);
--DEF_HELPER_FLAGS_2(set_neon_rmode, TCG_CALL_NO_RWG, i32, i32, env)
++        bool pxn = false;
  DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f32, TCG_CALL_NO_RWG, f32, f16, ptr, i32)
  DEF_HELPER_FLAGS_3(vfp_fcvt_f32_to_f16, TCG_CALL_NO_RWG, f16, f32, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        if (arm_feature(env, ARM_FEATURE_V8_1M)) {
- DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++            pxn = extract32(env->pmsav8.rlar[secure][matchregion], 4, 1);
- DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        }
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
+         if (m_is_system_region(env, address)) {
---- a/target/arm/vec_helper.c
+             /* System space is always execute never */
-+++ b/target/arm/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ bool pmsav8_mpu_lookup(CPUARMState *env, uint32_t address,
-@@ -XXX,XX +XXX,XX @@ DO_VCVT_RMODE(gvec_vcvt_rm_sh, helper_vfp_toshh, uint16_t)
+         }
- DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
+         *prot = simple_ap_to_rw_prot(env, mmu_idx, ap);
- #undef DO_VCVT_RMODE
+-        if (*prot && !xn) {
-+
++        if (*prot && !xn && !(pxn && !is_user)) {
-+#define DO_VRINT_RMODE(NAME, FUNC, TYPE)                                \
+             *prot |= PAGE_EXEC;
-+    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+         }
-+    {                                                                   \
+         /* We don't need to look the attribute up in the MAIR0/MAIR1
 +        float_status *fpst = stat;                                      \
 +        intptr_t i, oprsz = simd_oprsz(desc);                           \
 +        uint32_t rmode = simd_data(desc);                               \
 +        uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
 +        TYPE *d = vd, *n = vn;                                          \
 +        set_float_rounding_mode(rmode, fpst);                           \
 +        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
 +            d[i] = FUNC(n[i], fpst);                                    \
 +        }                                                               \
 +        set_float_rounding_mode(prev_rmode, fpst);                      \
 +        clear_tail(d, oprsz, simd_maxsz(desc));                         \
 +    }
 +
 +DO_VRINT_RMODE(gvec_vrint_rm_h, helper_rinth, uint16_t)
 +DO_VRINT_RMODE(gvec_vrint_rm_s, helper_rints, uint32_t)
 +
 +#undef DO_VRINT_RMODE
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(set_rmode)(uint32_t rmode, void *fpstp)
      return prev_rmode;
  }
 -/* Set the current fp rounding mode in the standard fp status and return
 - * the old one. This is for NEON instructions that need to change the
 - * rounding mode but wish to use the standard FPSCR values for everything
 - * else. Always set the rounding mode back to the correct value after
 - * modifying it.
 - * The argument is a softfloat float_round_ value.
 - */
 -uint32_t HELPER(set_neon_rmode)(uint32_t rmode, CPUARMState *env)
 -{
 -    float_status *fp_status = &env->vfp.standard_fp_status;
 -
 -    uint32_t prev_rmode = get_float_rounding_mode(fp_status);
 -    set_float_rounding_mode(rmode, fp_status);
 -
 -    return prev_rmode;
 -}
 -
  /* Half precision conversions.  */
  float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
  {
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
      return do_2misc_fp(s, a, gen_helper_rints_exact);
  }
 -static bool do_vrint(DisasContext *s, arg_2misc *a, int rmode)
 -{
 -    /*
 -     * Handle a VRINT* operation by iterating 32 bits at a time,
 -     * with a specified rounding mode in operation.
 -     */
 -    int pass;
 -    TCGv_ptr fpst;
 -    TCGv_i32 tcg_rmode;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 -        !arm_dc_feature(s, ARM_FEATURE_V8)) {
 -        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if (a->size != 2) {
 -        /* TODO: FP16 will be the size == 1 case */
 -        return false;
 -    }
 -
 -    if ((a->vd | a->vm) & a->q) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_STD);
 -    tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
 -    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
 -    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
 -        gen_helper_rints(tmp, tmp, fpst);
 -        neon_store_reg(a->vd, pass, tmp);
 -    }
 -    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
 -    tcg_temp_free_i32(tcg_rmode);
 -    tcg_temp_free_ptr(fpst);
 -
 -    return true;
 -}
 -
 -#define DO_VRINT(INSN, RMODE)                                   \
 -    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
 -    {                                                           \
 -        return do_vrint(s, a, RMODE);                           \
 -    }
 -
 -DO_VRINT(VRINTN, FPROUNDING_TIEEVEN)
 -DO_VRINT(VRINTA, FPROUNDING_TIEAWAY)
 -DO_VRINT(VRINTZ, FPROUNDING_ZERO)
 -DO_VRINT(VRINTM, FPROUNDING_NEGINF)
 -DO_VRINT(VRINTP, FPROUNDING_POSINF)
 -
  #define DO_VEC_RMODE(INSN, RMODE, OP)                                   \
      static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
                             uint32_t rm_ofs,                             \
@@ -XXX,XX +XXX,XX @@ DO_VEC_RMODE(VCVTPS, FPROUNDING_POSINF, vcvt_rm_s)
  DO_VEC_RMODE(VCVTMU, FPROUNDING_NEGINF, vcvt_rm_u)
  DO_VEC_RMODE(VCVTMS, FPROUNDING_NEGINF, vcvt_rm_s)
 +DO_VEC_RMODE(VRINTN, FPROUNDING_TIEEVEN, vrint_rm_)
 +DO_VEC_RMODE(VRINTA, FPROUNDING_TIEAWAY, vrint_rm_)
 +DO_VEC_RMODE(VRINTZ, FPROUNDING_ZERO, vrint_rm_)
 +DO_VEC_RMODE(VRINTM, FPROUNDING_NEGINF, vrint_rm_)
 +DO_VEC_RMODE(VRINTP, FPROUNDING_POSINF, vrint_rm_)
 +
  static bool trans_VSWP(DisasContext *s, arg_2misc *a)
  {
      TCGv_i64 rm, rd;
 --
 .20.1

-[PULL 34/47] target/arm: Implement fp16 for Neon pairwise fp ops
+[PULL 14/36] target/arm: Don't clobber ID_PFR1.Security on M-profile cores
-Convert the Neon pairwise fp ops to use a single gvic-style
+In arm_cpu_realizefn() we check whether the board code disabled EL3
-helper to do the full operation instead of one helper call
+via the has_el3 CPU object property, which we create if the CPU
-for each 32-bit part. This allows us to use the same
+starts with the ARM_FEATURE_EL3 feature bit.  If it is disabled, then
-framework to implement the fp16.
+we turn off ARM_FEATURE_EL3 and also zero out the relevant fields in
 the ID_PFR1 and ID_AA64PFR0 registers.
 This codepath was incorrectly being taken for M-profile CPUs, which
 do not have an EL3 and don't set ARM_FEATURE_EL3, but which may have
 the M-profile Security extension and so should have non-zero values
 in the ID_PFR1.Security field.
 Restrict the handling of the feature flag to A/R-profile cores.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-36-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-4-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  7 +++++
+ target/arm/cpu.c | 2 +-
- target/arm/vec_helper.c         | 45 +++++++++++++++++++++++++++++++++
+file changed, 1 insertion(+), 1 deletion(-)
  target/arm/translate-neon.c.inc | 42 ++++++++++++------------------
 files changed, 68 insertions(+), 26 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/cpu.c
-+++ b/target/arm/helper.h
++++ b/target/arm/cpu.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
- DEF_HELPER_FLAGS_5(gvec_fcmlad, TCG_CALL_NO_RWG,
+         }
                     void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_paddh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_pmaxh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_pminh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_s, uint32_t)
  DO_ABA(gvec_uaba_d, uint64_t)
  #undef DO_ABA
 +
 +#define DO_NEON_PAIRWISE(NAME, OP)                                      \
 +    void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
 +                         void *stat, uint32_t oprsz)                    \
 +    {                                                                   \
 +        float_status *fpst = stat;                                      \
 +        float32 *d = vd;                                                \
 +        float32 *n = vn;                                                \
 +        float32 *m = vm;                                                \
 +        float32 r0, r1;                                                 \
 +                                                                        \
 +        /* Read all inputs before writing outputs in case vm == vd */   \
 +        r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
 +        r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
 +                                                                        \
 +        d[H4(0)] = r0;                                                  \
 +        d[H4(1)] = r1;                                                  \
 +    }                                                                   \
 +                                                                        \
 +    void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
 +                         void *stat, uint32_t oprsz)                    \
 +    {                                                                   \
 +        float_status *fpst = stat;                                      \
 +        float16 *d = vd;                                                \
 +        float16 *n = vn;                                                \
 +        float16 *m = vm;                                                \
 +        float16 r0, r1, r2, r3;                                         \
 +                                                                        \
 +        /* Read all inputs before writing outputs in case vm == vd */   \
 +        r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
 +        r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
 +        r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
 +        r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
 +                                                                        \
 +        d[H4(0)] = r0;                                                  \
 +        d[H4(1)] = r1;                                                  \
 +        d[H4(2)] = r2;                                                  \
 +        d[H4(3)] = r3;                                                  \
 +    }
 +
 +DO_NEON_PAIRWISE(neon_padd, add)
 +DO_NEON_PAIRWISE(neon_pmax, max)
 +DO_NEON_PAIRWISE(neon_pmin, min)
 +
 +#undef DO_NEON_PAIRWISE
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VMINNM_fp32_3s);
  }
 -static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 +static bool do_3same_fp_pair(DisasContext *s, arg_3same *a,
 +                             gen_helper_gvec_3_ptr *fn)
  {
 -    /* FP operations handled pairwise 32 bits at a time */
 -    TCGv_i32 tmp, tmp2, tmp3;
 +    /* FP pairwise operations */
      TCGv_ptr fpstatus;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
      assert(a->q == 0); /* enforced by decode patterns */
 -    /*
 -     * Note that we have to be careful not to clobber the source operands
 -     * in the "vm == vd" case by storing the result of the first pass too
 -     * early. Since Q is 0 there are always just two passes, so instead
 -     * of a complicated loop over each pass we just unroll.
 -     */
 -    fpstatus = fpstatus_ptr(FPST_STD);
 -    tmp = neon_load_reg(a->vn, 0);
 -    tmp2 = neon_load_reg(a->vn, 1);
 -    fn(tmp, tmp, tmp2, fpstatus);
 -    tcg_temp_free_i32(tmp2);
 -    tmp3 = neon_load_reg(a->vm, 0);
 -    tmp2 = neon_load_reg(a->vm, 1);
 -    fn(tmp3, tmp3, tmp2, fpstatus);
 -    tcg_temp_free_i32(tmp2);
 +    fpstatus = fpstatus_ptr(a->size != 0 ? FPST_STD_F16 : FPST_STD);
 +    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
 +                       vfp_reg_offset(1, a->vn),
 +                       vfp_reg_offset(1, a->vm),
 +                       fpstatus, 8, 8, 0, fn);
      tcg_temp_free_ptr(fpstatus);
 -    neon_store_reg(a->vd, 0, tmp);
 -    neon_store_reg(a->vd, 1, tmp3);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
      static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
      {                                                               \
          if (a->size != 0) {                                         \
 -            /* TODO fp16 support */                                 \
 -            return false;                                           \
 +            if (!dc_isar_feature(aa32_fp16_arith, s)) {             \
 +                return false;                                       \
 +            }                                                       \
 +            return do_3same_fp_pair(s, a, FUNC##h);                 \
          }                                                           \
 -        return do_3same_fp_pair(s, a, FUNC);                        \
 +        return do_3same_fp_pair(s, a, FUNC##s);                     \
      }
--DO_3S_FP_PAIR(VPADD, gen_helper_vfp_adds)
+-    if (!cpu->has_el3) {
--DO_3S_FP_PAIR(VPMAX, gen_helper_vfp_maxs)
++    if (!arm_feature(env, ARM_FEATURE_M) && !cpu->has_el3) {
--DO_3S_FP_PAIR(VPMIN, gen_helper_vfp_mins)
+         /* If the has_el3 CPU property is disabled then we need to disable the
-+DO_3S_FP_PAIR(VPADD, gen_helper_neon_padd)
+          * feature.
-+DO_3S_FP_PAIR(VPMAX, gen_helper_neon_pmax)
+          */
 +DO_3S_FP_PAIR(VPMIN, gen_helper_neon_pmin)
  static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
  {
 --
 .20.1

-[PULL 08/47] target/arm: Implement VFP fp16 for VABS, VNEG, VSQRT
+[PULL 15/36] target/arm: Implement VSCCLRM insn
-Implement VFP fp16 for VABS, VNEG and VSQRT. This is all
+Implement the v8.1M VSCCLRM insn, which zeros floating point
-the fp16 insns that use the DO_VFP_2OP macro, because there
+registers if there is an active floating point context.
-is no fp16 version of VMOV_reg.
+This requires support in write_neon_element32() for the MO_32
+element size, so add it.
-Notes:
- * the gen_helper_vfp_negh already exists as we needed to create
+Because we want to use arm_gen_condlabel(), we need to move
-   it for the fp16 multiply-add insns
+the definition of that function up in translate.c so it is
- * as usual we need to use the f16 version of the fp_status;
+before the #include of translate-vfp.c.inc.
    this is only relevant for VSQRT
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-9-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-5-peter.maydell@linaro.org
 ---
- target/arm/helper.h            |  2 ++
+ target/arm/cpu.h               |  9 ++++
- target/arm/vfp.decode          |  3 +++
+ target/arm/m-nocp.decode       |  8 +++-
- target/arm/vfp_helper.c        | 10 +++++++++
+ target/arm/translate.c         | 21 +++++----
- target/arm/translate-vfp.c.inc | 40 ++++++++++++++++++++++++++++++++++
+ target/arm/translate-vfp.c.inc | 84 ++++++++++++++++++++++++++++++++++
-files changed, 55 insertions(+)
+files changed, 111 insertions(+), 11 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/cpu.h
-+++ b/target/arm/helper.h
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
+@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_mprofile(const ARMISARegisters *id)
- DEF_HELPER_1(vfp_negh, f16, f16)
+     return FIELD_EX32(id->id_pfr1, ID_PFR1, MPROGMOD) != 0;
- DEF_HELPER_1(vfp_negs, f32, f32)
+ }
- DEF_HELPER_1(vfp_negd, f64, f64)
-+DEF_HELPER_1(vfp_absh, f16, f16)
++static inline bool isar_feature_aa32_m_sec_state(const ARMISARegisters *id)
  DEF_HELPER_1(vfp_abss, f32, f32)
  DEF_HELPER_1(vfp_absd, f64, f64)
 +DEF_HELPER_2(vfp_sqrth, f16, f16, env)
  DEF_HELPER_2(vfp_sqrts, f32, f32, env)
  DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
  DEF_HELPER_3(vfp_cmps, void, f32, f32, env)
 diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp.decode
 +++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VMOV_imm_dp  ---- 1110 1.11 .... .... 1011 0000 .... \
  VMOV_reg_sp  ---- 1110 1.11 0000 .... 1010 01.0 ....        @vfp_dm_ss
  VMOV_reg_dp  ---- 1110 1.11 0000 .... 1011 01.0 ....        @vfp_dm_dd
 +VABS_hp      ---- 1110 1.11 0000 .... 1001 11.0 ....        @vfp_dm_ss
  VABS_sp      ---- 1110 1.11 0000 .... 1010 11.0 ....        @vfp_dm_ss
  VABS_dp      ---- 1110 1.11 0000 .... 1011 11.0 ....        @vfp_dm_dd
 +VNEG_hp      ---- 1110 1.11 0001 .... 1001 01.0 ....        @vfp_dm_ss
  VNEG_sp      ---- 1110 1.11 0001 .... 1010 01.0 ....        @vfp_dm_ss
  VNEG_dp      ---- 1110 1.11 0001 .... 1011 01.0 ....        @vfp_dm_dd
 +VSQRT_hp     ---- 1110 1.11 0001 .... 1001 11.0 ....        @vfp_dm_ss
  VSQRT_sp     ---- 1110 1.11 0001 .... 1010 11.0 ....        @vfp_dm_ss
  VSQRT_dp     ---- 1110 1.11 0001 .... 1011 11.0 ....        @vfp_dm_dd
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float64 VFP_HELPER(neg, d)(float64 a)
      return float64_chs(a);
  }
 +dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
 +{
-+    return float16_abs(a);
++    /*
 +     * Return true if M-profile state handling insns
 +     * (VSCCLRM, CLRM, FPCTX access insns) are implemented
 +     */
 +    return FIELD_EX32(id->id_pfr1, ID_PFR1, SECURITY) >= 3;
 +}
 +
- float32 VFP_HELPER(abs, s)(float32 a)
+ static inline bool isar_feature_aa32_fp16_arith(const ARMISARegisters *id)
  {
-     return float32_abs(a);
+     /* Sadly this is encoded differently for A-profile and M-profile */
-@@ -XXX,XX +XXX,XX @@ float64 VFP_HELPER(abs, d)(float64 a)
+diff --git a/target/arm/m-nocp.decode b/target/arm/m-nocp.decode
-     return float64_abs(a);
+index XXXXXXX..XXXXXXX 100644
- }
+--- a/target/arm/m-nocp.decode
++++ b/target/arm/m-nocp.decode
-+dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@
  # If the coprocessor is not present or disabled then we will generate
  # the NOCP exception; otherwise we let the insn through to the main decode.
 +%vd_dp  22:1 12:4
 +%vd_sp  12:4 22:1
 +
  &nocp cp
  {
    # Special cases which do not take an early NOCP: VLLDM and VLSTM
    VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 0000 0000
 -  # TODO: VSCCLRM (new in v8.1M) is similar:
 -  #VSCCLRM      1110 1100 1-01 1111 ---- 1011 ---- ---0
 +  # VSCCLRM (new in v8.1M) is similar:
 +  VSCCLRM      1110 1100 1.01 1111 .... 1011 imm:7 0   vd=%vd_dp size=3
 +  VSCCLRM      1110 1100 1.01 1111 .... 1010 imm:8     vd=%vd_sp size=2
    NOCP         111- 1110 ---- ---- ---- cp:4 ---- ---- &nocp
    NOCP         111- 110- ---- ---- ---- cp:4 ---- ---- &nocp
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void arm_translate_init(void)
      a64_translate_init();
  }
 +/* Generate a label used for skipping this instruction */
 +static void arm_gen_condlabel(DisasContext *s)
 +{
-+    return float16_sqrt(a, &env->vfp.fp_status_f16);
++    if (!s->condjmp) {
 +        s->condlabel = gen_new_label();
 +        s->condjmp = 1;
 +    }
 +}
 +
- float32 VFP_HELPER(sqrt, s)(float32 a, CPUARMState *env)
+ /* Flags for the disas_set_da_iss info argument:
- {
+  * lower bits hold the Rt register number, higher bits are flags.
-     return float32_sqrt(a, &env->vfp.fp_status);
+  */
@@ -XXX,XX +XXX,XX @@ static void write_neon_element64(TCGv_i64 src, int reg, int ele, MemOp memop)
      long off = neon_element_offset(reg, ele, memop);
      switch (memop) {
 +    case MO_32:
 +        tcg_gen_st32_i64(src, cpu_env, off);
 +        break;
      case MO_64:
          tcg_gen_st_i64(src, cpu_env, off);
          break;
@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
      s->base.is_jmp = DISAS_UPDATE_EXIT;
  }
 -/* Generate a label used for skipping this instruction */
 -static void arm_gen_condlabel(DisasContext *s)
 -{
 -    if (!s->condjmp) {
 -        s->condlabel = gen_new_label();
 -        s->condjmp = 1;
 -    }
 -}
 -
  /* Skip this instruction if the ARM condition is false */
  static void arm_skip_unless(DisasContext *s, uint32_t cond)
  {
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_sp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLLDM_VLSTM(DisasContext *s, arg_VLLDM_VLSTM *a)
      return true;
  }
-+static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
++static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
 +{
++    int btmreg, topreg;
++    TCGv_i64 zero;
++    TCGv_i32 aspen, sfpa;
++
++    if (!dc_isar_feature(aa32_m_sec_state, s)) {
++        /* Before v8.1M, fall through in decode to NOCP check */
++        return false;
++    }
++
++    /* Explicitly UNDEF because this takes precedence over NOCP */
++    if (!arm_dc_feature(s, ARM_FEATURE_M_MAIN) || !s->v8m_secure) {
++        unallocated_encoding(s);
++        return true;
++    }
++
++    if (!dc_isar_feature(aa32_vfp_simd, s)) {
++        /* NOP if we have neither FP nor MVE */
++        return true;
++    }
++
 +    /*
-+     * Do a half-precision operation. Functionally this is
++     * If FPCCR.ASPEN != 0 && CONTROL_S.SFPA == 0 then there is no
-+     * the same as do_vfp_2op_sp(), except:
++     * active floating point context so we must NOP (without doing
-+     *  - it doesn't need the VFP vector handling (fp16 is a
++     * any lazy state preservation or the NOCP check).
 +     *    v8 feature, and in v8 VFP vectors don't exist)
 +     *  - it does the aa32_fp16_arith feature test
 +     */
-+    TCGv_i32 f0;
++    aspen = load_cpu_field(v7m.fpccr[M_REG_S]);
-+
++    sfpa = load_cpu_field(v7m.control[M_REG_S]);
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++    tcg_gen_andi_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
-+        return false;
++    tcg_gen_xori_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
-+    }
++    tcg_gen_andi_i32(sfpa, sfpa, R_V7M_CONTROL_SFPA_MASK);
-+
++    tcg_gen_or_i32(sfpa, sfpa, aspen);
-+    if (s->vec_len != 0 || s->vec_stride != 0) {
++    arm_gen_condlabel(s);
-+        return false;
++    tcg_gen_brcondi_i32(TCG_COND_EQ, sfpa, 0, s->condlabel);
 +
 +    if (s->fp_excp_el != 0) {
 +        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 +                           syn_uncategorized(), s->fp_excp_el);
 +        return true;
 +    }
 +
 +    topreg = a->vd + a->imm - 1;
 +    btmreg = a->vd;
 +
 +    /* Convert to Sreg numbers if the insn specified in Dregs */
 +    if (a->size == 3) {
 +        topreg = topreg * 2 + 1;
 +        btmreg *= 2;
 +    }
 +
 +    if (topreg > 63 || (topreg > 31 && !(topreg & 1))) {
 +        /* UNPREDICTABLE: we choose to undef */
 +        unallocated_encoding(s);
 +        return true;
 +    }
 +
 +    /* Silently ignore requests to clear D16-D31 if they don't exist */
 +    if (topreg > 31 && !dc_isar_feature(aa32_simd_r32, s)) {
 +        topreg = 31;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    f0 = tcg_temp_new_i32();
++    /* Zero the Sregs from btmreg to topreg inclusive. */
-+    neon_load_reg32(f0, vm);
++    zero = tcg_const_i64(0);
-+    fn(f0, f0);
++    if (btmreg & 1) {
-+    neon_store_reg32(f0, vd);
++        write_neon_element64(zero, btmreg >> 1, 1, MO_32);
-+    tcg_temp_free_i32(f0);
++        btmreg++;
-+
++    }
 +    for (; btmreg + 1 <= topreg; btmreg += 2) {
 +        write_neon_element64(zero, btmreg >> 1, 0, MO_64);
 +    }
 +    if (btmreg == topreg) {
 +        write_neon_element64(zero, btmreg >> 1, 0, MO_32);
 +        btmreg++;
 +    }
 +    assert(btmreg == topreg + 1);
 +    /* TODO: when MVE is implemented, zero VPR here */
 +    return true;
 +}
 +
- static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
+ static bool trans_NOCP(DisasContext *s, arg_nocp *a)
  {
-     uint32_t delta_m = 0;
+     /*
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
  DO_VFP_2OP(VMOV_reg, sp, tcg_gen_mov_i32)
  DO_VFP_2OP(VMOV_reg, dp, tcg_gen_mov_i64)
 +DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh)
  DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss)
  DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd)
 +DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh)
  DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs)
  DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd)
 +static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
 +{
 +    gen_helper_vfp_sqrth(vd, vm, cpu_env);
 +}
 +
  static void gen_VSQRT_sp(TCGv_i32 vd, TCGv_i32 vm)
  {
      gen_helper_vfp_sqrts(vd, vm, cpu_env);
@@ -XXX,XX +XXX,XX @@ static void gen_VSQRT_dp(TCGv_i64 vd, TCGv_i64 vm)
      gen_helper_vfp_sqrtd(vd, vm, cpu_env);
  }
 +DO_VFP_2OP(VSQRT, hp, gen_VSQRT_hp)
  DO_VFP_2OP(VSQRT, sp, gen_VSQRT_sp)
  DO_VFP_2OP(VSQRT, dp, gen_VSQRT_dp)
 --
 .20.1

-[PULL 10/47] target/arm: Implement VFP fp16 VCMP
+[PULL 16/36] target/arm: Implement CLRM instruction
-Implement fp16 version of VCMP.
+In v8.1M the new CLRM instruction allows zeroing an arbitrary set of
 the general-purpose registers and APSR.  Implement this.
 The encoding is a subset of the LDMIA T2 encoding, using what would
 be Rn=0b1111 (which UNDEFs for LDMIA).
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-11-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-6-peter.maydell@linaro.org
 ---
- target/arm/helper.h            |  2 ++
+ target/arm/t32.decode  |  6 +++++-
- target/arm/vfp.decode          |  2 ++
+ target/arm/translate.c | 38 ++++++++++++++++++++++++++++++++++++++
- target/arm/vfp_helper.c        | 15 +++++++------
+files changed, 43 insertions(+), 1 deletion(-)
  target/arm/translate-vfp.c.inc | 39 ++++++++++++++++++++++++++++++++++
 files changed, 51 insertions(+), 7 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/t32.decode
-+++ b/target/arm/helper.h
++++ b/target/arm/t32.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_1(vfp_absd, f64, f64)
+@@ -XXX,XX +XXX,XX @@ UXTAB            1111 1010 0101 .... 1111 .... 10.. ....      @rrr_rot
- DEF_HELPER_2(vfp_sqrth, f16, f16, env)
- DEF_HELPER_2(vfp_sqrts, f32, f32, env)
+ STM_t32          1110 1000 10.0 .... ................         @ldstm i=1 b=0
- DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
+ STM_t32          1110 1001 00.0 .... ................         @ldstm i=0 b=1
-+DEF_HELPER_3(vfp_cmph, void, f16, f16, env)
+-LDM_t32          1110 1000 10.1 .... ................         @ldstm i=1 b=0
- DEF_HELPER_3(vfp_cmps, void, f32, f32, env)
++{
- DEF_HELPER_3(vfp_cmpd, void, f64, f64, env)
++  # Rn=15 UNDEFs for LDM; M-profile CLRM uses that encoding
-+DEF_HELPER_3(vfp_cmpeh, void, f16, f16, env)
++  CLRM           1110 1000 1001 1111 list:16
- DEF_HELPER_3(vfp_cmpes, void, f32, f32, env)
++  LDM_t32        1110 1000 10.1 .... ................         @ldstm i=1 b=0
- DEF_HELPER_3(vfp_cmped, void, f64, f64, env)
++}
+ LDM_t32          1110 1001 00.1 .... ................         @ldstm i=0 b=1
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
  &rfe             !extern rn w pu
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/vfp.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ VSQRT_hp     ---- 1110 1.11 0001 .... 1001 11.0 ....        @vfp_dm_ss
+@@ -XXX,XX +XXX,XX @@ static bool trans_LDM_t16(DisasContext *s, arg_ldst_block *a)
- VSQRT_sp     ---- 1110 1.11 0001 .... 1010 11.0 ....        @vfp_dm_ss
+     return do_ldm(s, a, 1);
  VSQRT_dp     ---- 1110 1.11 0001 .... 1011 11.0 ....        @vfp_dm_dd
 +VCMP_hp      ---- 1110 1.11 010 z:1 .... 1001 e:1 1.0 .... \
 +             vd=%vd_sp vm=%vm_sp
  VCMP_sp      ---- 1110 1.11 010 z:1 .... 1010 e:1 1.0 .... \
               vd=%vd_sp vm=%vm_sp
  VCMP_dp      ---- 1110 1.11 010 z:1 .... 1011 e:1 1.0 .... \
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ static void softfloat_to_vfp_compare(CPUARMState *env, FloatRelation cmp)
  }
- /* XXX: check quiet/signaling case */
++static bool trans_CLRM(DisasContext *s, arg_CLRM *a)
 -#define DO_VFP_cmp(p, type) \
 -void VFP_HELPER(cmp, p)(type a, type b, CPUARMState *env)  \
 +#define DO_VFP_cmp(P, FLOATTYPE, ARGTYPE, FPST) \
 +void VFP_HELPER(cmp, P)(ARGTYPE a, ARGTYPE b, CPUARMState *env)  \
  { \
      softfloat_to_vfp_compare(env, \
 -        type ## _compare_quiet(a, b, &env->vfp.fp_status)); \
 +        FLOATTYPE ## _compare_quiet(a, b, &env->vfp.FPST)); \
  } \
 -void VFP_HELPER(cmpe, p)(type a, type b, CPUARMState *env) \
 +void VFP_HELPER(cmpe, P)(ARGTYPE a, ARGTYPE b, CPUARMState *env) \
  { \
      softfloat_to_vfp_compare(env, \
 -        type ## _compare(a, b, &env->vfp.fp_status)); \
 +        FLOATTYPE ## _compare(a, b, &env->vfp.FPST)); \
  }
 -DO_VFP_cmp(s, float32)
 -DO_VFP_cmp(d, float64)
 +DO_VFP_cmp(h, float16, dh_ctype_f16, fp_status_f16)
 +DO_VFP_cmp(s, float32, float32, fp_status)
 +DO_VFP_cmp(d, float64, float64, fp_status)
  #undef DO_VFP_cmp
  /* Integer to float and float to integer conversions */
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ DO_VFP_2OP(VSQRT, hp, gen_VSQRT_hp)
  DO_VFP_2OP(VSQRT, sp, gen_VSQRT_sp)
  DO_VFP_2OP(VSQRT, dp, gen_VSQRT_dp)
 +static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
 +{
-+    TCGv_i32 vd, vm;
++    int i;
 +    TCGv_i32 zero;
 +
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++    if (!dc_isar_feature(aa32_m_sec_state, s)) {
 +        return false;
 +    }
 +
-+    /* Vm/M bits must be zero for the Z variant */
++    if (extract32(a->list, 13, 1)) {
 +    if (a->z && a->vm != 0) {
 +        return false;
 +    }
 +
-+    if (!vfp_access_check(s)) {
++    if (!a->list) {
-+        return true;
++        /* UNPREDICTABLE; we choose to UNDEF */
 +        return false;
 +    }
 +
-+    vd = tcg_temp_new_i32();
++    zero = tcg_const_i32(0);
-+    vm = tcg_temp_new_i32();
++    for (i = 0; i < 15; i++) {
-+
++        if (extract32(a->list, i, 1)) {
-+    neon_load_reg32(vd, a->vd);
++            /* Clear R[i] */
-+    if (a->z) {
++            tcg_gen_mov_i32(cpu_R[i], zero);
-+        tcg_gen_movi_i32(vm, 0);
++        }
 +    } else {
 +        neon_load_reg32(vm, a->vm);
 +    }
-+
++    if (extract32(a->list, 15, 1)) {
-+    if (a->e) {
++        /*
-+        gen_helper_vfp_cmpeh(vd, vm, cpu_env);
++         * Clear APSR (by calling the MSR helper with the same argument
-+    } else {
++         * as for "MSR APSR_nzcvqg, Rn": mask = 0b1100, SYSM=0)
-+        gen_helper_vfp_cmph(vd, vm, cpu_env);
++         */
 +        TCGv_i32 maskreg = tcg_const_i32(0xc << 8);
 +        gen_helper_v7m_msr(cpu_env, maskreg, zero);
 +        tcg_temp_free_i32(maskreg);
 +    }
-+
++    tcg_temp_free_i32(zero);
 +    tcg_temp_free_i32(vd);
 +    tcg_temp_free_i32(vm);
 +
 +    return true;
 +}
 +
- static bool trans_VCMP_sp(DisasContext *s, arg_VCMP_sp *a)
+ /*
- {
+  * Branch, branch with link
-     TCGv_i32 vd, vm;
+  */
 --
 .20.1

-[PULL 09/47] target/arm: Implement VFP fp16 for VMOV immediate
+[PULL 17/36] target/arm: Enforce M-profile VMRS/VMSR register restrictions
-Implement VFP fp16 support for the VMOV immediate insn.
+For M-profile before v8.1M, the only valid register for VMSR/VMRS is
 the FPSCR.  We have a comment that states this, but the actual logic
 to forbid accesses for any other register value is missing, so we
 would end up with A-profile style behaviour.  Add the missing check.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-10-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-7-peter.maydell@linaro.org
 ---
- target/arm/vfp.decode          |  2 ++
+ target/arm/translate-vfp.c.inc | 5 ++++-
- target/arm/translate-vfp.c.inc | 22 ++++++++++++++++++++++
+file changed, 4 insertions(+), 1 deletion(-)
 files changed, 24 insertions(+)
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp.decode
-+++ b/target/arm/vfp.decode
-@@ -XXX,XX +XXX,XX @@ VFMS_dp      ---- 1110 1.10 .... .... 1011 .1.0 ....        @vfp_dnm_d
- VFNMA_dp     ---- 1110 1.01 .... .... 1011 .0.0 ....        @vfp_dnm_d
- VFNMS_dp     ---- 1110 1.01 .... .... 1011 .1.0 ....        @vfp_dnm_d
-+VMOV_imm_hp  ---- 1110 1.11 .... .... 1001 0000 .... \
-+             vd=%vd_sp imm=%vmov_imm
- VMOV_imm_sp  ---- 1110 1.11 .... .... 1010 0000 .... \
-              vd=%vd_sp imm=%vmov_imm
- VMOV_imm_dp  ---- 1110 1.11 .... .... 1011 0000 .... \
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ MAKE_VFM_TRANS_FNS(hp)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
- MAKE_VFM_TRANS_FNS(sp)
+          * Accesses to R15 are UNPREDICTABLE; we choose to undef.
- MAKE_VFM_TRANS_FNS(dp)
+          * (FPSCR -> r15 is a special case which writes to the PSR flags.)
+          */
-+static bool trans_VMOV_imm_hp(DisasContext *s, arg_VMOV_imm_sp *a)
+-        if (a->rt == 15 && (!a->l || a->reg != ARM_VFP_FPSCR)) {
-+{
++        if (a->reg != ARM_VFP_FPSCR) {
-+    TCGv_i32 fd;
++            return false;
-+
++        }
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++        if (a->rt == 15 && !a->l) {
-+        return false;
+             return false;
-+    }
+         }
-+
+     }
 +    if (s->vec_len != 0 || s->vec_stride != 0) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    fd = tcg_const_i32(vfp_expand_imm(MO_16, a->imm));
 +    neon_store_reg32(fd, a->vd);
 +    tcg_temp_free_i32(fd);
 +    return true;
 +}
 +
  static bool trans_VMOV_imm_sp(DisasContext *s, arg_VMOV_imm_sp *a)
  {
      uint32_t delta_d = 0;
 --
 .20.1

-[PULL 15/47] target/arm: Implement VFP fp16 VCVT between float and fixed-point
+[PULL 18/36] target/arm: Refactor M-profile VMSR/VMRS handling
-Implement the fp16 versions of the VFP VCVT instruction forms which
+Currently M-profile borrows the A-profile code for VMSR and VMRS
-convert between floating point and fixed-point.
+(access to the FP system registers), because all it needs to support
 is the FPSCR.  In v8.1M things become significantly more complicated
 in two ways:
  * there are several new FP system registers; some have side effects
    on read, and one (FPCXT_NS) needs to avoid the usual
    vfp_access_check() and the "only if FPU implemented" check
  * all sysregs are now accessible both by VMRS/VMSR (which
    reads/writes a general purpose register) and also by VLDR/VSTR
    (which reads/writes them directly to memory)
 Refactor the structure of how we handle VMSR/VMRS to cope with this:
  * keep the M-profile code entirely separate from the A-profile code
  * abstract out the "read or write the general purpose register" part
    of the code into a loadfn or storefn function pointer, so we can
    reuse it for VLDR/VSTR.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-16-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-8-peter.maydell@linaro.org
 ---
- target/arm/vfp.decode          |  2 ++
+ target/arm/cpu.h               |   3 +
- target/arm/translate-vfp.c.inc | 59 ++++++++++++++++++++++++++++++++++
+ target/arm/translate-vfp.c.inc | 182 ++++++++++++++++++++++++++++++---
-files changed, 61 insertions(+)
+files changed, 171 insertions(+), 14 deletions(-)
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp.decode
+--- a/target/arm/cpu.h
-+++ b/target/arm/vfp.decode
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ VJCVT        ---- 1110 1.11 1001 .... 1011 11.0 ....        @vfp_dm_sd
+@@ -XXX,XX +XXX,XX @@ enum arm_cpu_mode {
- # We assemble bits 18 (op), 16 (u) and 7 (sx) into a single opc field
+ #define ARM_VFP_FPINST  9
- # for the convenience of the trans_VCVT_fix functions.
+ #define ARM_VFP_FPINST2 10
- %vcvt_fix_op 18:1 16:1 7:1
-+VCVT_fix_hp  ---- 1110 1.11 1.1. .... 1001 .1.0 .... \
++/* QEMU-internal value meaning "FPSCR, but we care only about NZCV" */
-+             vd=%vd_sp imm=%vm_sp opc=%vcvt_fix_op
++#define QEMU_VFP_FPSCR_NZCV 0xffff
- VCVT_fix_sp  ---- 1110 1.11 1.1. .... 1010 .1.0 .... \
++
-              vd=%vd_sp imm=%vm_sp opc=%vcvt_fix_op
+ /* iwMMXt coprocessor control registers.  */
- VCVT_fix_dp  ---- 1110 1.11 1.1. .... 1011 .1.0 .... \
+ #define ARM_IWMMXT_wCID  0
  #define ARM_IWMMXT_wCon  1
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VJCVT(DisasContext *s, arg_VJCVT *a)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
      return true;
  }
-+static bool trans_VCVT_fix_hp(DisasContext *s, arg_VCVT_fix_sp *a)
++/*
-+{
++ * M-profile provides two different sets of instructions that can
-+    TCGv_i32 vd, shift;
++ * access floating point system registers: VMSR/VMRS (which move
-+    TCGv_ptr fpst;
++ * to/from a general purpose register) and VLDR/VSTR sysreg (which
-+    int frac_bits;
++ * move directly to/from memory). In some cases there are also side
-+
++ * effects which must happen after any write to memory (which could
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++ * cause an exception). So we implement the common logic for the
 + * sysreg access in gen_M_fp_sysreg_write() and gen_M_fp_sysreg_read(),
 + * which take pointers to callback functions which will perform the
 + * actual "read/write general purpose register" and "read/write
 + * memory" operations.
 + */
 +
 +/*
 + * Emit code to store the sysreg to its final destination; frees the
 + * TCG temp 'value' it is passed.
 + */
 +typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
 +/*
 + * Emit code to load the value to be copied to the sysreg; returns
 + * a new TCG temporary
 + */
 +typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
 +
 +/* Common decode/access checks for fp sysreg read/write */
 +typedef enum FPSysRegCheckResult {
 +    FPSysRegCheckFailed, /* caller should return false */
 +    FPSysRegCheckDone, /* caller should return true */
 +    FPSysRegCheckContinue, /* caller should continue generating code */
 +} FPSysRegCheckResult;
 +
 +static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
 +{
 +    if (!dc_isar_feature(aa32_fpsp_v2, s)) {
 +        return FPSysRegCheckFailed;
 +    }
 +
 +    switch (regno) {
 +    case ARM_VFP_FPSCR:
 +    case QEMU_VFP_FPSCR_NZCV:
 +        break;
 +    default:
 +        return FPSysRegCheckFailed;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return FPSysRegCheckDone;
 +    }
 +
 +    return FPSysRegCheckContinue;
 +}
 +
 +static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
 +
 +                                  fp_sysreg_loadfn *loadfn,
 +                                 void *opaque)
 +{
 +    /* Do a write to an M-profile floating point system register */
 +    TCGv_i32 tmp;
 +
 +    switch (fp_sysreg_checks(s, regno)) {
 +    case FPSysRegCheckFailed:
 +        return false;
-+    }
++    case FPSysRegCheckDone:
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
-+    }
++    case FPSysRegCheckContinue:
-+
++        break;
-+    frac_bits = (a->opc & 1) ? (32 - a->imm) : (16 - a->imm);
++    }
 +
-+    vd = tcg_temp_new_i32();
++    switch (regno) {
-+    neon_load_reg32(vd, a->vd);
++    case ARM_VFP_FPSCR:
-+
++        tmp = loadfn(s, opaque);
-+    fpst = fpstatus_ptr(FPST_FPCR_F16);
++        gen_helper_vfp_set_fpscr(cpu_env, tmp);
-+    shift = tcg_const_i32(frac_bits);
++        tcg_temp_free_i32(tmp);
-+
++        gen_lookup_tb(s);
 +    /* Switch on op:U:sx bits */
 +    switch (a->opc) {
 +    case 0:
 +        gen_helper_vfp_shtoh(vd, vd, shift, fpst);
 +        break;
 +    case 1:
 +        gen_helper_vfp_sltoh(vd, vd, shift, fpst);
 +        break;
 +    case 2:
 +        gen_helper_vfp_uhtoh(vd, vd, shift, fpst);
 +        break;
 +    case 3:
 +        gen_helper_vfp_ultoh(vd, vd, shift, fpst);
 +        break;
 +    case 4:
 +        gen_helper_vfp_toshh_round_to_zero(vd, vd, shift, fpst);
 +        break;
 +    case 5:
 +        gen_helper_vfp_toslh_round_to_zero(vd, vd, shift, fpst);
 +        break;
 +    case 6:
 +        gen_helper_vfp_touhh_round_to_zero(vd, vd, shift, fpst);
 +        break;
 +    case 7:
 +        gen_helper_vfp_toulh_round_to_zero(vd, vd, shift, fpst);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
-+
-+    neon_store_reg32(vd, a->vd);
-+    tcg_temp_free_i32(vd);
-+    tcg_temp_free_i32(shift);
-+    tcg_temp_free_ptr(fpst);
 +    return true;
 +}
 +
- static bool trans_VCVT_fix_sp(DisasContext *s, arg_VCVT_fix_sp *a)
++static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
 +                                fp_sysreg_storefn *storefn,
 +                                void *opaque)
 +{
 +    /* Do a read from an M-profile floating point system register */
 +    TCGv_i32 tmp;
 +
 +    switch (fp_sysreg_checks(s, regno)) {
 +    case FPSysRegCheckFailed:
 +        return false;
 +    case FPSysRegCheckDone:
 +        return true;
 +    case FPSysRegCheckContinue:
 +        break;
 +    }
 +
 +    switch (regno) {
 +    case ARM_VFP_FPSCR:
 +        tmp = tcg_temp_new_i32();
 +        gen_helper_vfp_get_fpscr(tmp, cpu_env);
 +        storefn(s, opaque, tmp);
 +        break;
 +    case QEMU_VFP_FPSCR_NZCV:
 +        /*
 +         * Read just NZCV; this is a special case to avoid the
 +         * helper call for the "VMRS to CPSR.NZCV" insn.
 +         */
 +        tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
 +        tcg_gen_andi_i32(tmp, tmp, 0xf0000000);
 +        storefn(s, opaque, tmp);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
 +static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
 +{
 +    arg_VMSR_VMRS *a = opaque;
 +
 +    if (a->rt == 15) {
 +        /* Set the 4 flag bits in the CPSR */
 +        gen_set_nzcv(value);
 +        tcg_temp_free_i32(value);
 +    } else {
 +        store_reg(s, a->rt, value);
 +    }
 +}
 +
 +static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
 +{
 +    arg_VMSR_VMRS *a = opaque;
 +
 +    return load_reg(s, a->rt);
 +}
 +
 +static bool gen_M_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
 +{
 +    /*
 +     * Accesses to R15 are UNPREDICTABLE; we choose to undef.
 +     * FPSCR -> r15 is a special case which writes to the PSR flags;
 +     * set a->reg to a special value to tell gen_M_fp_sysreg_read()
 +     * we only care about the top 4 bits of FPSCR there.
 +     */
 +    if (a->rt == 15) {
 +        if (a->l && a->reg == ARM_VFP_FPSCR) {
 +            a->reg = QEMU_VFP_FPSCR_NZCV;
 +        } else {
 +            return false;
 +        }
 +    }
 +
 +    if (a->l) {
 +        /* VMRS, move FP system register to gp register */
 +        return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_gpr, a);
 +    } else {
 +        /* VMSR, move gp register to FP system register */
 +        return gen_M_fp_sysreg_write(s, a->reg, gpr_to_fp_sysreg, a);
 +    }
 +}
 +
  static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
  {
-     TCGv_i32 vd, shift;
+     TCGv_i32 tmp;
      bool ignore_vfp_enabled = false;
 -    if (!dc_isar_feature(aa32_fpsp_v2, s)) {
 -        return false;
 +    if (arm_dc_feature(s, ARM_FEATURE_M)) {
 +        return gen_M_VMSR_VMRS(s, a);
      }
 -    if (arm_dc_feature(s, ARM_FEATURE_M)) {
 -        /*
 -         * The only M-profile VFP vmrs/vmsr sysreg is FPSCR.
 -         * Accesses to R15 are UNPREDICTABLE; we choose to undef.
 -         * (FPSCR -> r15 is a special case which writes to the PSR flags.)
 -         */
 -        if (a->reg != ARM_VFP_FPSCR) {
 -            return false;
 -        }
 -        if (a->rt == 15 && !a->l) {
 -            return false;
 -        }
 +    if (!dc_isar_feature(aa32_fpsp_v2, s)) {
 +        return false;
      }
      switch (a->reg) {
 --
 .20.1

-[PULL 30/47] target/arm: Implement fp16 for Neon VFMA, VMFS
+[PULL 19/36] target/arm: Move general-use constant expanders up in translate.c
-Convert the neon floating-point vector operations VFMA and VFMS
+The constant-expander functions like negate, plus_2, etc, are
-to use a gvec helper, and use this to implement the fp16 case.
+generally useful; move them up in translate.c so we can use them in
+the VFP/Neon decoders as well as in the A32/T32/T16 decoders.
 This is the last use of do_3same_fp() so we can now delete
 that function.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-32-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-9-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  6 +++
+ target/arm/translate.c | 46 +++++++++++++++++++++++-------------------
- target/arm/vec_helper.c         | 33 +++++++++++-
+file changed, 25 insertions(+), 21 deletions(-)
  target/arm/translate-neon.c.inc | 92 +--------------------------------
 files changed, 40 insertions(+), 91 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/translate.c
-+++ b/target/arm/helper.h
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static void arm_gen_condlabel(DisasContext *s)
- DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+     }
- DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ }
-+DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++/*
-+DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++ * Constant expanders for the decoders.
 + */
 +
-+DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++static int negate(DisasContext *s, int x)
 +DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_nf(float32 dest, float32 op1, float32 op2,
      return float32_sub(dest, float32_mul(op1, op2, stat), stat);
  }
 -#define DO_MULADD(NAME, FUNC, TYPE) \
 +/* Fused versions; these have the semantics Neon VFMA/VFMS want */
 +static float16 float16_muladd_f(float16 dest, float16 op1, float16 op2,
 +                                float_status *stat)
 +{
-+    return float16_muladd(op1, op2, dest, 0, stat);
++    return -x;
 +}
 +
-+static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
++static int plus_2(DisasContext *s, int x)
 +                                 float_status *stat)
 +{
-+    return float32_muladd(op1, op2, dest, 0, stat);
++    return x + 2;
 +}
 +
-+static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
++static int times_2(DisasContext *s, int x)
 +                                 float_status *stat)
 +{
-+    return float16_muladd(float16_chs(op1), op2, dest, 0, stat);
++    return x * 2;
 +}
 +
-+static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
++static int times_4(DisasContext *s, int x)
 +                                 float_status *stat)
 +{
-+    return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
++    return x * 4;
 +}
 +
-+#define DO_MULADD(NAME, FUNC, TYPE)                                     \
+ /* Flags for the disas_set_da_iss info argument:
- void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+  * lower bits hold the Rt register number, higher bits are flags.
  {                                                                          \
      intptr_t i, oprsz = simd_oprsz(desc);                                  \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmla_s, float32_muladd_nf, float32)
  DO_MULADD(gvec_fmls_h, float16_mulsub_nf, float16)
  DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
 +DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
 +DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
 +
 +DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
 +DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
 +
  /* For the indexed ops, SVE applies the index per 128-bit vector segment.
   * For AdvSIMD, there is of course only one such vector segment.
   */
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+@@ -XXX,XX +XXX,XX @@ static void arm_skip_unless(DisasContext *s, uint32_t cond)
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
+ /*
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPADD, padd_u)
+- * Constant expanders for the decoders.
- DO_3SAME_VQDMULH(VQDMULH, qdmulh)
++ * Constant expanders used by T16/T32 decode
- DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
+  */
--static bool do_3same_fp(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn,
+-static int negate(DisasContext *s, int x)
 -                        bool reads_vd)
 -{
--    /*
+-    return -x;
 -     * FP operations handled elementwise 32 bits at a time.
 -     * If reads_vd is true then the old value of Vd will be
 -     * loaded before calling the callback function. This is
 -     * used for multiply-accumulate type operations.
 -     */
 -    TCGv_i32 tmp, tmp2;
 -    int pass;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if ((a->vn | a->vm | a->vd) & a->q) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    TCGv_ptr fpstatus = fpstatus_ptr(FPST_STD);
 -    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        tmp = neon_load_reg(a->vn, pass);
 -        tmp2 = neon_load_reg(a->vm, pass);
 -        if (reads_vd) {
 -            TCGv_i32 tmp_rd = neon_load_reg(a->vd, pass);
 -            fn(tmp_rd, tmp, tmp2, fpstatus);
 -            neon_store_reg(a->vd, pass, tmp_rd);
 -            tcg_temp_free_i32(tmp);
 -        } else {
 -            fn(tmp, tmp, tmp2, fpstatus);
 -            neon_store_reg(a->vd, pass, tmp);
 -        }
 -        tcg_temp_free_i32(tmp2);
 -    }
 -    tcg_temp_free_ptr(fpstatus);
 -    return true;
 -}
 -
- #define WRAP_FP_GVEC(WRAPNAME, FPST, FUNC)                              \
+-static int plus_2(DisasContext *s, int x)
      static void WRAPNAME(unsigned vece, uint32_t rd_ofs,                \
                           uint32_t rn_ofs, uint32_t rm_ofs,              \
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMAX, gen_helper_gvec_fmax_s, gen_helper_gvec_fmax_h)
  DO_3S_FP_GVEC(VMIN, gen_helper_gvec_fmin_s, gen_helper_gvec_fmin_h)
  DO_3S_FP_GVEC(VMLA, gen_helper_gvec_fmla_s, gen_helper_gvec_fmla_h)
  DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
 +DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
 +DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
  WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
  WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VRSQRTS_fp_3s);
  }
 -static void gen_VFMA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
 -                            TCGv_ptr fpstatus)
 -{
--    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
+-    return x + 2;
 -}
 -
--static bool trans_VFMA_fp_3s(DisasContext *s, arg_3same *a)
+-static int times_2(DisasContext *s, int x)
 -{
--    if (!dc_isar_feature(aa32_simdfmac, s)) {
+-    return x * 2;
 -        return false;
 -    }
 -
 -    if (a->size != 0) {
 -        /* TODO fp16 support */
 -        return false;
 -    }
 -
 -    return do_3same_fp(s, a, gen_VFMA_fp_3s, true);
 -}
 -
--static void gen_VFMS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
+-static int times_4(DisasContext *s, int x)
 -                            TCGv_ptr fpstatus)
 -{
--    gen_helper_vfp_negs(vn, vn);
+-    return x * 4;
 -    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
 -}
 -
--static bool trans_VFMS_fp_3s(DisasContext *s, arg_3same *a)
+ /* Return only the rotation part of T32ExpandImm.  */
--{
+ static int t32_expandimm_rot(DisasContext *s, int x)
 -    if (!dc_isar_feature(aa32_simdfmac, s)) {
 -        return false;
 -    }
 -
 -    if (a->size != 0) {
 -        /* TODO fp16 support */
 -        return false;
 -    }
 -
 -    return do_3same_fp(s, a, gen_VFMS_fp_3s, true);
 -}
 -
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
-     /* FP operations handled pairwise 32 bits at a time */
 --
 .20.1

-[PULL 21/47] target/arm: Implement VFP fp16 VMOV between gp and halfprec registers
+[PULL 20/36] target/arm: Implement VLDR/VSTR system register
-Implement the VFP fp16 variant of VMOV that transfers a 16-bit
+Implement the new-in-v8.1M VLDR/VSTR variants which directly
-value between a general purpose register and a VFP register.
+read or write FP system registers to memory.
 Note that Rt == 15 is UNPREDICTABLE; since this insn is v8 and later
 only we have no need to replicate the old "updates CPSR.NZCV"
 behaviour that the singleprec version of this insn does.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-22-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-10-peter.maydell@linaro.org
 ---
- target/arm/vfp.decode          |  1 +
+ target/arm/vfp.decode          | 14 ++++++
- target/arm/translate-vfp.c.inc | 34 ++++++++++++++++++++++++++++++++++
+ target/arm/translate-vfp.c.inc | 91 ++++++++++++++++++++++++++++++++++
-files changed, 35 insertions(+)
+files changed, 105 insertions(+)
 diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp.decode
 +++ b/target/arm/vfp.decode
-@@ -XXX,XX +XXX,XX @@ VDUP         ---- 1110 1 b:1 q:1 0 .... rt:4 1011 . 0 e:1 1 0000 \
+@@ -XXX,XX +XXX,XX @@ VLDR_VSTR_hp ---- 1101 u:1 .0 l:1 rn:4 .... 1001 imm:8      vd=%vd_sp
-              vn=%vn_dp
+ VLDR_VSTR_sp ---- 1101 u:1 .0 l:1 rn:4 .... 1010 imm:8      vd=%vd_sp
+ VLDR_VSTR_dp ---- 1101 u:1 .0 l:1 rn:4 .... 1011 imm:8      vd=%vd_dp
- VMSR_VMRS    ---- 1110 111 l:1 reg:4 rt:4 1010 0001 0000
-+VMOV_half    ---- 1110 000 l:1 .... rt:4 1001 . 001 0000    vn=%vn_sp
++# M-profile VLDR/VSTR to sysreg
- VMOV_single  ---- 1110 000 l:1 .... rt:4 1010 . 001 0000    vn=%vn_sp
++%vldr_sysreg 22:1 13:3
++%imm7_0x4 0:7 !function=times_4
- VMOV_64_sp   ---- 1100 010 op:1 rt2:4 rt:4 1010 00.1 ....   vm=%vm_sp
++
 +&vldr_sysreg rn reg imm a w p
 +@vldr_sysreg .... ... . a:1 . . . rn:4 ... . ... .. ....... \
 +             reg=%vldr_sysreg imm=%imm7_0x4 &vldr_sysreg
 +
 +# P=0 W=0 is SEE "Related encodings", so split into two patterns
 +VLDR_sysreg  ---- 110 1 . . w:1 1 .... ... 0 111 11 ....... @vldr_sysreg p=1
 +VLDR_sysreg  ---- 110 0 . . 1   1 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
 +VSTR_sysreg  ---- 110 1 . . w:1 0 .... ... 0 111 11 ....... @vldr_sysreg p=1
 +VSTR_sysreg  ---- 110 0 . . 1   0 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
 +
  # We split the load/store multiple up into two patterns to avoid
  # overlap with other insns in the "Advanced SIMD load/store and 64-bit move"
  # grouping:
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
 @@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
      return true;
  }
-+static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
++static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
 +{
-+    TCGv_i32 tmp;
++    arg_vldr_sysreg *a = opaque;
 +    uint32_t offset = a->imm;
 +    TCGv_i32 addr;
 +
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++    if (!a->a) {
 +        offset = - offset;
 +    }
 +
 +    addr = load_reg(s, a->rn);
 +    if (a->p) {
 +        tcg_gen_addi_i32(addr, addr, offset);
 +    }
 +
 +    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
 +        gen_helper_v8m_stackcheck(cpu_env, addr);
 +    }
 +
 +    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
 +                    MO_UL | MO_ALIGN | s->be_data);
 +    tcg_temp_free_i32(value);
 +
 +    if (a->w) {
 +        /* writeback */
 +        if (!a->p) {
 +            tcg_gen_addi_i32(addr, addr, offset);
 +        }
 +        store_reg(s, a->rn, addr);
 +    } else {
 +        tcg_temp_free_i32(addr);
 +    }
 +}
 +
 +static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
 +{
 +    arg_vldr_sysreg *a = opaque;
 +    uint32_t offset = a->imm;
 +    TCGv_i32 addr;
 +    TCGv_i32 value = tcg_temp_new_i32();
 +
 +    if (!a->a) {
 +        offset = - offset;
 +    }
 +
 +    addr = load_reg(s, a->rn);
 +    if (a->p) {
 +        tcg_gen_addi_i32(addr, addr, offset);
 +    }
 +
 +    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
 +        gen_helper_v8m_stackcheck(cpu_env, addr);
 +    }
 +
 +    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
 +                    MO_UL | MO_ALIGN | s->be_data);
 +
 +    if (a->w) {
 +        /* writeback */
 +        if (!a->p) {
 +            tcg_gen_addi_i32(addr, addr, offset);
 +        }
 +        store_reg(s, a->rn, addr);
 +    } else {
 +        tcg_temp_free_i32(addr);
 +    }
 +    return value;
 +}
 +
 +static bool trans_VLDR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
 +{
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +        return false;
 +    }
-+
++    if (a->rn == 15) {
 +    if (a->rt == 15) {
 +        /* UNPREDICTABLE; we choose to UNDEF */
 +        return false;
 +    }
-+
++    return gen_M_fp_sysreg_write(s, a->reg, memory_to_fp_sysreg, a);
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    if (a->l) {
 +        /* VFP to general purpose register */
 +        tmp = tcg_temp_new_i32();
 +        neon_load_reg32(tmp, a->vn);
 +        tcg_gen_andi_i32(tmp, tmp, 0xffff);
 +        store_reg(s, a->rt, tmp);
 +    } else {
 +        /* general purpose register to VFP */
 +        tmp = load_reg(s, a->rt);
 +        tcg_gen_andi_i32(tmp, tmp, 0xffff);
 +        neon_store_reg32(tmp, a->vn);
 +        tcg_temp_free_i32(tmp);
 +    }
 +
 +    return true;
 +}
 +
- static bool trans_VMOV_single(DisasContext *s, arg_VMOV_single *a)
++static bool trans_VSTR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
 +{
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +        return false;
 +    }
 +    if (a->rn == 15) {
 +        return false;
 +    }
 +    return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_memory, a);
 +}
 +
  static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
  {
      TCGv_i32 tmp;
 --
 .20.1

-[PULL 20/47] target/arm: Implement new VFP fp16 insn VMOVX
+[PULL 21/36] target/arm: Implement M-profile FPSCR_nzcvqc
-The fp16 extension includes a new instruction VMOVX, which copies the
+v8.1M defines a new FP system register FPSCR_nzcvqc; this behaves
-upper 16 bits of a 32-bit source VFP register into the lower 16
+like the existing FPSCR, except that it reads and writes only bits
-bits of the destination and zeroes the high half of the destination.
+[31:27] of the FPSCR (the N, Z, C, V and QC flag bits).  (Unlike the
-Implement it.
+FPSCR, the special case for Rt=15 of writing the CPSR.NZCV is not
 permitted.)
 Implement the register.  Since we don't yet implement MVE, we handle
 the QC bit as RES0, with todo comments for where we will need to add
 support later.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-21-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-11-peter.maydell@linaro.org
 ---
- target/arm/vfp-uncond.decode   |  3 +++
+ target/arm/cpu.h               | 13 +++++++++++++
- target/arm/translate-vfp.c.inc | 25 +++++++++++++++++++++++++
+ target/arm/translate-vfp.c.inc | 27 +++++++++++++++++++++++++++
-files changed, 28 insertions(+)
+files changed, 40 insertions(+)
-diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp-uncond.decode
+--- a/target/arm/cpu.h
-+++ b/target/arm/vfp-uncond.decode
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ VCVT        1111 1110 1.11 11 rm:2 .... 1010 op:1 1.0 .... \
+@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val);
- VCVT        1111 1110 1.11 11 rm:2 .... 1011 op:1 1.0 .... \
+ #define FPCR_FZ     (1 << 24)   /* Flush-to-zero enable bit */
-             vm=%vm_dp vd=%vd_sp sz=3
+ #define FPCR_DN     (1 << 25)   /* Default NaN enable bit */
+ #define FPCR_QC     (1 << 27)   /* Cumulative saturation bit */
-+VMOVX       1111 1110 1.11 0000 .... 1010 01 . 0 .... \
++#define FPCR_V      (1 << 28)   /* FP overflow flag */
-+            vd=%vd_sp vm=%vm_sp
++#define FPCR_C      (1 << 29)   /* FP carry flag */
 +#define FPCR_Z      (1 << 30)   /* FP zero flag */
 +#define FPCR_N      (1 << 31)   /* FP negative flag */
 +
- VINS        1111 1110 1.11 0000 .... 1010 11 . 0 .... \
++#define FPCR_NZCV_MASK (FPCR_N | FPCR_Z | FPCR_C | FPCR_V)
-             vd=%vd_sp vm=%vm_sp
++#define FPCR_NZCVQC_MASK (FPCR_NZCV_MASK | FPCR_QC)
  static inline uint32_t vfp_get_fpsr(CPUARMState *env)
  {
@@ -XXX,XX +XXX,XX @@ enum arm_cpu_mode {
  #define ARM_VFP_FPEXC   8
  #define ARM_VFP_FPINST  9
  #define ARM_VFP_FPINST2 10
 +/* These ones are M-profile only */
 +#define ARM_VFP_FPSCR_NZCVQC 2
 +#define ARM_VFP_VPR 12
 +#define ARM_VFP_P0 13
 +#define ARM_VFP_FPCXT_NS 14
 +#define ARM_VFP_FPCXT_S 15
  /* QEMU-internal value meaning "FPSCR, but we care only about NZCV" */
  #define QEMU_VFP_FPSCR_NZCV 0xffff
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
+@@ -XXX,XX +XXX,XX @@ static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
-     tcg_temp_free_i32(rd);
+     case ARM_VFP_FPSCR:
-     return true;
+     case QEMU_VFP_FPSCR_NZCV:
- }
+         break;
-+
++    case ARM_VFP_FPSCR_NZCVQC:
-+static bool trans_VMOVX(DisasContext *s, arg_VINS *a)
++        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+{
++            return false;
-+    TCGv_i32 rm;
++        }
-+
++        break;
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+     default:
-+        return false;
+         return FPSysRegCheckFailed;
      }
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
          tcg_temp_free_i32(tmp);
          gen_lookup_tb(s);
          break;
 +    case ARM_VFP_FPSCR_NZCVQC:
 +    {
 +        TCGv_i32 fpscr;
 +        tmp = loadfn(s, opaque);
 +        /*
 +         * TODO: when we implement MVE, write the QC bit.
 +         * For non-MVE, QC is RES0.
 +         */
 +        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
 +        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
 +        tcg_gen_andi_i32(fpscr, fpscr, ~FPCR_NZCV_MASK);
 +        tcg_gen_or_i32(fpscr, fpscr, tmp);
 +        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
 +        tcg_temp_free_i32(tmp);
 +        break;
 +    }
-+
+     default:
-+    if (s->vec_len != 0 || s->vec_stride != 0) {
+         g_assert_not_reached();
-+        return false;
+     }
-+    }
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
-+
+         gen_helper_vfp_get_fpscr(tmp, cpu_env);
-+    if (!vfp_access_check(s)) {
+         storefn(s, opaque, tmp);
-+        return true;
+         break;
-+    }
++    case ARM_VFP_FPSCR_NZCVQC:
-+
++        /*
-+    /* Set Vd to high half of Vm */
++         * TODO: MVE has a QC bit, which we probably won't store
-+    rm = tcg_temp_new_i32();
++         * in the xregs[] field. For non-MVE, where QC is RES0,
-+    neon_load_reg32(rm, a->vm);
++         * we can just fall through to the FPSCR_NZCV case.
-+    tcg_gen_shri_i32(rm, rm, 16);
++         */
-+    neon_store_reg32(rm, a->vd);
+     case QEMU_VFP_FPSCR_NZCV:
-+    tcg_temp_free_i32(rm);
+         /*
-+    return true;
+          * Read just NZCV; this is a special case to avoid the
 +}
 --
 .20.1

-[PULL 07/47] target/arm: Macroify uses of do_vfp_2op_sp() and do_vfp_2op_dp()
+[PULL 22/36] target/arm: Use new FPCR_NZCV_MASK constant
-Macroify the uses of do_vfp_2op_sp() and do_vfp_2op_dp(); this will
+We defined a constant name for the mask of NZCV bits in the FPCR/FPSCR
-make it easier to add the halfprec support.
+in the previous commit; use it in a couple of places in existing code,
 where we're masking out everything except NZCV for the "load to Rt=15
 sets CPSR.NZCV" special case.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-8-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-12-peter.maydell@linaro.org
 ---
- target/arm/translate-vfp.c.inc | 49 ++++++++++------------------------
+ target/arm/translate-vfp.c.inc | 4 ++--
-file changed, 14 insertions(+), 35 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
-     return true;
+          * helper call for the "VMRS to CPSR.NZCV" insn.
- }
+          */
+         tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
--static bool trans_VMOV_reg_sp(DisasContext *s, arg_VMOV_reg_sp *a)
+-        tcg_gen_andi_i32(tmp, tmp, 0xf0000000);
--{
++        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
--    return do_vfp_2op_sp(s, tcg_gen_mov_i32, a->vd, a->vm);
+         storefn(s, opaque, tmp);
--}
+         break;
-+#define DO_VFP_2OP(INSN, PREC, FN)                              \
+     default:
-+    static bool trans_##INSN##_##PREC(DisasContext *s,          \
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
-+                                      arg_##INSN##_##PREC *a)   \
+         case ARM_VFP_FPSCR:
-+    {                                                           \
+             if (a->rt == 15) {
-+        return do_vfp_2op_##PREC(s, FN, a->vd, a->vm);          \
+                 tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
-+    }
+-                tcg_gen_andi_i32(tmp, tmp, 0xf0000000);
++                tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
--static bool trans_VMOV_reg_dp(DisasContext *s, arg_VMOV_reg_dp *a)
+             } else {
--{
+                 tmp = tcg_temp_new_i32();
--    return do_vfp_2op_dp(s, tcg_gen_mov_i64, a->vd, a->vm);
+                 gen_helper_vfp_get_fpscr(tmp, cpu_env);
 -}
 +DO_VFP_2OP(VMOV_reg, sp, tcg_gen_mov_i32)
 +DO_VFP_2OP(VMOV_reg, dp, tcg_gen_mov_i64)
 -static bool trans_VABS_sp(DisasContext *s, arg_VABS_sp *a)
 -{
 -    return do_vfp_2op_sp(s, gen_helper_vfp_abss, a->vd, a->vm);
 -}
 +DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss)
 +DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd)
 -static bool trans_VABS_dp(DisasContext *s, arg_VABS_dp *a)
 -{
 -    return do_vfp_2op_dp(s, gen_helper_vfp_absd, a->vd, a->vm);
 -}
 -
 -static bool trans_VNEG_sp(DisasContext *s, arg_VNEG_sp *a)
 -{
 -    return do_vfp_2op_sp(s, gen_helper_vfp_negs, a->vd, a->vm);
 -}
 -
 -static bool trans_VNEG_dp(DisasContext *s, arg_VNEG_dp *a)
 -{
 -    return do_vfp_2op_dp(s, gen_helper_vfp_negd, a->vd, a->vm);
 -}
 +DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs)
 +DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd)
  static void gen_VSQRT_sp(TCGv_i32 vd, TCGv_i32 vm)
  {
      gen_helper_vfp_sqrts(vd, vm, cpu_env);
  }
 -static bool trans_VSQRT_sp(DisasContext *s, arg_VSQRT_sp *a)
 -{
 -    return do_vfp_2op_sp(s, gen_VSQRT_sp, a->vd, a->vm);
 -}
 -
  static void gen_VSQRT_dp(TCGv_i64 vd, TCGv_i64 vm)
  {
      gen_helper_vfp_sqrtd(vd, vm, cpu_env);
  }
 -static bool trans_VSQRT_dp(DisasContext *s, arg_VSQRT_dp *a)
 -{
 -    return do_vfp_2op_dp(s, gen_VSQRT_dp, a->vd, a->vm);
 -}
 +DO_VFP_2OP(VSQRT, sp, gen_VSQRT_sp)
 +DO_VFP_2OP(VSQRT, dp, gen_VSQRT_dp)
  static bool trans_VCMP_sp(DisasContext *s, arg_VCMP_sp *a)
  {
 --
 .20.1

-[PULL 03/47] target/arm: Implement VFP fp16 for VFP_BINOP operations
+[PULL 23/36] target/arm: Factor out preserve-fp-state from full_vfp_access_check()
-Implmeent VFP fp16 support for simple binary-operator VFP insns VADD,
+Factor out the code which handles M-profile lazy FP state preservation
-VSUB, VMUL, VDIV, VMINNM and VMAXNM:
+from full_vfp_access_check(); accesses to the FPCXT_NS register are
+a special case which need to do just this part (corresponding in the
- * make the VFP_BINOP() macro generate float16 helpers as well as
+pseudocode to the PreserveFPState() function), and not the full
-   float32 and float64
+set of actions matching the pseudocode ExecuteFPCheck() which
- * implement a do_vfp_3op_hp() function similar to the existing
+normal FP instructions need to do.
    do_vfp_3op_sp()
  * add decode for the half-precision insn patterns
 Note that the VFP_BINOP macro use creates a couple of unused helper
 functions vfp_maxh and vfp_minh, but they're small so it's not worth
 splitting the BINOP operations into "needs halfprec" and "no
 halfprec" groups.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-4-peter.maydell@linaro.org
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201119215617.29887-13-peter.maydell@linaro.org
 ---
- target/arm/helper.h            |  8 ++++
+ target/arm/translate-vfp.c.inc | 45 ++++++++++++++++++++--------------
- target/arm/vfp-uncond.decode   |  3 ++
+file changed, 27 insertions(+), 18 deletions(-)
  target/arm/vfp.decode          |  4 ++
  target/arm/vfp_helper.c        |  5 ++
  target/arm/translate-vfp.c.inc | 86 ++++++++++++++++++++++++++++++++++
 files changed, 106 insertions(+)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(probe_access, TCG_CALL_NO_WG, void, env, tl, i32, i32, i32)
- DEF_HELPER_1(vfp_get_fpscr, i32, env)
- DEF_HELPER_2(vfp_set_fpscr, void, env, i32)
-+DEF_HELPER_3(vfp_addh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_adds, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_addd, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_subh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_subs, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_subd, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_mulh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_muls, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_muld, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_divh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_divs, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_divd, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_maxh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_maxs, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_maxd, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_minh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_mins, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_mind, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_maxnumh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_maxnums, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
-+DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
- DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
- DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
- DEF_HELPER_1(vfp_negs, f32, f32)
-diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp-uncond.decode
-+++ b/target/arm/vfp-uncond.decode
-@@ -XXX,XX +XXX,XX @@ VSEL        1111 1110 0. cc:2 .... .... 1010 .0.0 .... \
- VSEL        1111 1110 0. cc:2 .... .... 1011 .0.0 .... \
-             vm=%vm_dp vn=%vn_dp vd=%vd_dp dp=1
-+VMAXNM_hp   1111 1110 1.00 .... .... 1001 .0.0 ....         @vfp_dnm_s
-+VMINNM_hp   1111 1110 1.00 .... .... 1001 .1.0 ....         @vfp_dnm_s
-+
- VMAXNM_sp   1111 1110 1.00 .... .... 1010 .0.0 ....         @vfp_dnm_s
- VMINNM_sp   1111 1110 1.00 .... .... 1010 .1.0 ....         @vfp_dnm_s
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp.decode
-+++ b/target/arm/vfp.decode
-@@ -XXX,XX +XXX,XX @@ VNMLS_dp     ---- 1110 0.01 .... .... 1011 .0.0 ....        @vfp_dnm_d
- VNMLA_sp     ---- 1110 0.01 .... .... 1010 .1.0 ....        @vfp_dnm_s
- VNMLA_dp     ---- 1110 0.01 .... .... 1011 .1.0 ....        @vfp_dnm_d
-+VMUL_hp      ---- 1110 0.10 .... .... 1001 .0.0 ....        @vfp_dnm_s
- VMUL_sp      ---- 1110 0.10 .... .... 1010 .0.0 ....        @vfp_dnm_s
- VMUL_dp      ---- 1110 0.10 .... .... 1011 .0.0 ....        @vfp_dnm_d
- VNMUL_sp     ---- 1110 0.10 .... .... 1010 .1.0 ....        @vfp_dnm_s
- VNMUL_dp     ---- 1110 0.10 .... .... 1011 .1.0 ....        @vfp_dnm_d
-+VADD_hp      ---- 1110 0.11 .... .... 1001 .0.0 ....        @vfp_dnm_s
- VADD_sp      ---- 1110 0.11 .... .... 1010 .0.0 ....        @vfp_dnm_s
- VADD_dp      ---- 1110 0.11 .... .... 1011 .0.0 ....        @vfp_dnm_d
-+VSUB_hp      ---- 1110 0.11 .... .... 1001 .1.0 ....        @vfp_dnm_s
- VSUB_sp      ---- 1110 0.11 .... .... 1010 .1.0 ....        @vfp_dnm_s
- VSUB_dp      ---- 1110 0.11 .... .... 1011 .1.0 ....        @vfp_dnm_d
-+VDIV_hp      ---- 1110 1.00 .... .... 1001 .0.0 ....        @vfp_dnm_s
- VDIV_sp      ---- 1110 1.00 .... .... 1010 .0.0 ....        @vfp_dnm_s
- VDIV_dp      ---- 1110 1.00 .... .... 1011 .0.0 ....        @vfp_dnm_d
-diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp_helper.c
-+++ b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val)
- #define VFP_HELPER(name, p) HELPER(glue(glue(vfp_,name),p))
- #define VFP_BINOP(name) \
-+dh_ctype_f16 VFP_HELPER(name, h)(dh_ctype_f16 a, dh_ctype_f16 b, void *fpstp) \
-+{ \
-+    float_status *fpst = fpstp; \
-+    return float16_ ## name(a, b, fpst); \
-+} \
- float32 VFP_HELPER(name, s)(float32 a, float32 b, void *fpstp) \
- { \
-     float_status *fpst = fpstp; \
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_sp(DisasContext *s, VFPGen3OpSPFn *fn,
+@@ -XXX,XX +XXX,XX @@ static inline long vfp_f16_offset(unsigned reg, bool top)
-     return true;
+     return offs;
  }
-+static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
++/*
-+                          int vd, int vn, int vm, bool reads_vd)
++ * Generate code for M-profile lazy FP state preservation if needed;
 + * this corresponds to the pseudocode PreserveFPState() function.
 + */
 +static void gen_preserve_fp_state(DisasContext *s)
 +{
-+    /*
++    if (s->v7m_lspact) {
-+     * Do a half-precision operation. Functionally this is
++        /*
-+     * the same as do_vfp_3op_sp(), except:
++         * Lazy state saving affects external memory and also the NVIC,
-+     *  - it uses the FPST_FPCR_F16
++         * so we must mark it as an IO operation for icount (and cause
-+     *  - it doesn't need the VFP vector handling (fp16 is a
++         * this to be the last insn in the TB).
-+     *    v8 feature, and in v8 VFP vectors don't exist)
++         */
-+     *  - it does the aa32_fp16_arith feature test
++        if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
-+     */
++            s->base.is_jmp = DISAS_UPDATE_EXIT;
-+    TCGv_i32 f0, f1, fd;
++            gen_io_start();
-+    TCGv_ptr fpst;
++        }
-+
++        gen_helper_v7m_preserve_fp_state(cpu_env);
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++        /*
-+        return false;
++         * If the preserve_fp_state helper doesn't throw an exception
 +         * then it will clear LSPACT; we don't need to repeat this for
 +         * any further FP insns in this TB.
 +         */
 +        s->v7m_lspact = false;
 +    }
-+
-+    if (s->vec_len != 0 || s->vec_stride != 0) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    f0 = tcg_temp_new_i32();
-+    f1 = tcg_temp_new_i32();
-+    fd = tcg_temp_new_i32();
-+    fpst = fpstatus_ptr(FPST_FPCR_F16);
-+
-+    neon_load_reg32(f0, vn);
-+    neon_load_reg32(f1, vm);
-+
-+    if (reads_vd) {
-+        neon_load_reg32(fd, vd);
-+    }
-+    fn(fd, f0, f1, fpst);
-+    neon_store_reg32(fd, vd);
-+
-+    tcg_temp_free_i32(f0);
-+    tcg_temp_free_i32(f1);
-+    tcg_temp_free_i32(fd);
-+    tcg_temp_free_ptr(fpst);
-+
-+    return true;
 +}
 +
- static bool do_vfp_3op_dp(DisasContext *s, VFPGen3OpDPFn *fn,
+ /*
-                           int vd, int vn, int vm, bool reads_vd)
+  * Check that VFP access is enabled. If it is, do the necessary
- {
+  * M-profile lazy-FP handling and then return true.
-@@ -XXX,XX +XXX,XX @@ static bool trans_VNMLA_dp(DisasContext *s, arg_VNMLA_dp *a)
+@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
-     return do_vfp_3op_dp(s, gen_VNMLA_dp, a->vd, a->vn, a->vm, true);
+         /* Handle M-profile lazy FP state mechanics */
- }
+         /* Trigger lazy-state preservation if necessary */
-+static bool trans_VMUL_hp(DisasContext *s, arg_VMUL_sp *a)
+-        if (s->v7m_lspact) {
-+{
+-            /*
-+    return do_vfp_3op_hp(s, gen_helper_vfp_mulh, a->vd, a->vn, a->vm, false);
+-             * Lazy state saving affects external memory and also the NVIC,
-+}
+-             * so we must mark it as an IO operation for icount (and cause
-+
+-             * this to be the last insn in the TB).
- static bool trans_VMUL_sp(DisasContext *s, arg_VMUL_sp *a)
+-             */
- {
+-            if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
-     return do_vfp_3op_sp(s, gen_helper_vfp_muls, a->vd, a->vn, a->vm, false);
+-                s->base.is_jmp = DISAS_UPDATE_EXIT;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
+-                gen_io_start();
-     return do_vfp_3op_dp(s, gen_VNMUL_dp, a->vd, a->vn, a->vm, false);
+-            }
- }
+-            gen_helper_v7m_preserve_fp_state(cpu_env);
+-            /*
-+static bool trans_VADD_hp(DisasContext *s, arg_VADD_sp *a)
+-             * If the preserve_fp_state helper doesn't throw an exception
-+{
+-             * then it will clear LSPACT; we don't need to repeat this for
-+    return do_vfp_3op_hp(s, gen_helper_vfp_addh, a->vd, a->vn, a->vm, false);
+-             * any further FP insns in this TB.
-+}
+-             */
-+
+-            s->v7m_lspact = false;
- static bool trans_VADD_sp(DisasContext *s, arg_VADD_sp *a)
+-        }
- {
++        gen_preserve_fp_state(s);
-     return do_vfp_3op_sp(s, gen_helper_vfp_adds, a->vd, a->vn, a->vm, false);
-@@ -XXX,XX +XXX,XX @@ static bool trans_VADD_dp(DisasContext *s, arg_VADD_dp *a)
+         /* Update ownership of FP context: set FPCCR.S to match current state */
-     return do_vfp_3op_dp(s, gen_helper_vfp_addd, a->vd, a->vn, a->vm, false);
+         if (s->v8m_fpccr_s_wrong) {
  }
 +static bool trans_VSUB_hp(DisasContext *s, arg_VSUB_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_helper_vfp_subh, a->vd, a->vn, a->vm, false);
 +}
 +
  static bool trans_VSUB_sp(DisasContext *s, arg_VSUB_sp *a)
  {
      return do_vfp_3op_sp(s, gen_helper_vfp_subs, a->vd, a->vn, a->vm, false);
@@ -XXX,XX +XXX,XX @@ static bool trans_VSUB_dp(DisasContext *s, arg_VSUB_dp *a)
      return do_vfp_3op_dp(s, gen_helper_vfp_subd, a->vd, a->vn, a->vm, false);
  }
 +static bool trans_VDIV_hp(DisasContext *s, arg_VDIV_sp *a)
 +{
 +    return do_vfp_3op_hp(s, gen_helper_vfp_divh, a->vd, a->vn, a->vm, false);
 +}
 +
  static bool trans_VDIV_sp(DisasContext *s, arg_VDIV_sp *a)
  {
      return do_vfp_3op_sp(s, gen_helper_vfp_divs, a->vd, a->vn, a->vm, false);
@@ -XXX,XX +XXX,XX @@ static bool trans_VDIV_dp(DisasContext *s, arg_VDIV_dp *a)
      return do_vfp_3op_dp(s, gen_helper_vfp_divd, a->vd, a->vn, a->vm, false);
  }
 +static bool trans_VMINNM_hp(DisasContext *s, arg_VMINNM_sp *a)
 +{
 +    if (!dc_isar_feature(aa32_vminmaxnm, s)) {
 +        return false;
 +    }
 +    return do_vfp_3op_hp(s, gen_helper_vfp_minnumh,
 +                         a->vd, a->vn, a->vm, false);
 +}
 +
 +static bool trans_VMAXNM_hp(DisasContext *s, arg_VMAXNM_sp *a)
 +{
 +    if (!dc_isar_feature(aa32_vminmaxnm, s)) {
 +        return false;
 +    }
 +    return do_vfp_3op_hp(s, gen_helper_vfp_maxnumh,
 +                         a->vd, a->vn, a->vm, false);
 +}
 +
  static bool trans_VMINNM_sp(DisasContext *s, arg_VMINNM_sp *a)
  {
      if (!dc_isar_feature(aa32_vminmaxnm, s)) {
 --
 .20.1

-[PULL 05/47] target/arm: Macroify trans functions for VFMA, VFMS, VFNMA, VFNMS
+[PULL 24/36] target/arm: Implement FPCXT_S fp system register
-Macroify creation of the trans functions for single and double
+Implement the new-in-v8.1M FPCXT_S floating point system register.
-precision VFMA, VFMS, VFNMA, VFNMS. The repetition was OK for
+This is for saving and restoring the secure floating point context,
-two sizes, but we're about to add halfprec and it will get a bit
+and it reads and writes bits [27:0] from the FPSCR and the
-more than seems reasonable.
+CONTROL.SFPA bit in bit [31].
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-6-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-14-peter.maydell@linaro.org
 ---
- target/arm/translate-vfp.c.inc | 50 +++++++++-------------------------
+ target/arm/translate-vfp.c.inc | 58 ++++++++++++++++++++++++++++++++++
-file changed, 13 insertions(+), 37 deletions(-)
+file changed, 58 insertions(+)
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+@@ -XXX,XX +XXX,XX @@ static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
-     return true;
+             return false;
- }
+         }
+         break;
--static bool trans_VFMA_sp(DisasContext *s, arg_VFMA_sp *a)
++    case ARM_VFP_FPCXT_S:
--{
++        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
--    return do_vfm_sp(s, a, false, false);
++            return false;
--}
++        }
--
++        if (!s->v8m_secure) {
--static bool trans_VFMS_sp(DisasContext *s, arg_VFMS_sp *a)
++            return false;
--{
++        }
--    return do_vfm_sp(s, a, true, false);
++        break;
--}
+     default:
--
+         return FPSysRegCheckFailed;
--static bool trans_VFNMA_sp(DisasContext *s, arg_VFNMA_sp *a)
+     }
--{
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
--    return do_vfm_sp(s, a, false, true);
+         tcg_temp_free_i32(tmp);
--}
+         break;
--
+     }
--static bool trans_VFNMS_sp(DisasContext *s, arg_VFNMS_sp *a)
++    case ARM_VFP_FPCXT_S:
--{
++    {
--    return do_vfm_sp(s, a, true, true);
++        TCGv_i32 sfpa, control, fpscr;
--}
++        /* Set FPSCR[27:0] and CONTROL.SFPA from value */
--
++        tmp = loadfn(s, opaque);
- static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
++        sfpa = tcg_temp_new_i32();
- {
++        tcg_gen_shri_i32(sfpa, tmp, 31);
-     /*
++        control = load_cpu_field(v7m.control[M_REG_S]);
-@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
++        tcg_gen_deposit_i32(control, control, sfpa,
-     return true;
++                            R_V7M_CONTROL_SFPA_SHIFT, 1);
- }
++        store_cpu_field(control, v7m.control[M_REG_S]);
++        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
--static bool trans_VFMA_dp(DisasContext *s, arg_VFMA_dp *a)
++        tcg_gen_andi_i32(fpscr, fpscr, FPCR_NZCV_MASK);
--{
++        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
--    return do_vfm_dp(s, a, false, false);
++        tcg_gen_or_i32(fpscr, fpscr, tmp);
--}
++        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
-+#define MAKE_ONE_VFM_TRANS_FN(INSN, PREC, NEGN, NEGD)                   \
++        tcg_temp_free_i32(tmp);
-+    static bool trans_##INSN##_##PREC(DisasContext *s,                  \
++        tcg_temp_free_i32(sfpa);
-+                                      arg_##INSN##_##PREC *a)           \
++        break;
 +    {                                                                   \
 +        return do_vfm_##PREC(s, a, NEGN, NEGD);                         \
 +    }
+     default:
--static bool trans_VFMS_dp(DisasContext *s, arg_VFMS_dp *a)
+         g_assert_not_reached();
--{
+     }
--    return do_vfm_dp(s, a, true, false);
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
--}
+         tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
-+#define MAKE_VFM_TRANS_FNS(PREC) \
+         storefn(s, opaque, tmp);
-+    MAKE_ONE_VFM_TRANS_FN(VFMA, PREC, false, false) \
+         break;
-+    MAKE_ONE_VFM_TRANS_FN(VFMS, PREC, true, false) \
++    case ARM_VFP_FPCXT_S:
-+    MAKE_ONE_VFM_TRANS_FN(VFNMA, PREC, false, true) \
++    {
-+    MAKE_ONE_VFM_TRANS_FN(VFNMS, PREC, true, true)
++        TCGv_i32 control, sfpa, fpscr;
++        /* Bits [27:0] from FPSCR, bit [31] from CONTROL.SFPA */
--static bool trans_VFNMA_dp(DisasContext *s, arg_VFNMA_dp *a)
++        tmp = tcg_temp_new_i32();
--{
++        sfpa = tcg_temp_new_i32();
--    return do_vfm_dp(s, a, false, true);
++        gen_helper_vfp_get_fpscr(tmp, cpu_env);
--}
++        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
--
++        control = load_cpu_field(v7m.control[M_REG_S]);
--static bool trans_VFNMS_dp(DisasContext *s, arg_VFNMS_dp *a)
++        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
--{
++        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
--    return do_vfm_dp(s, a, true, true);
++        tcg_gen_or_i32(tmp, tmp, sfpa);
--}
++        tcg_temp_free_i32(sfpa);
-+MAKE_VFM_TRANS_FNS(sp)
++        /*
-+MAKE_VFM_TRANS_FNS(dp)
++         * Store result before updating FPSCR etc, in case
++         * it is a memory write which causes an exception.
- static bool trans_VMOV_imm_sp(DisasContext *s, arg_VMOV_imm_sp *a)
++         */
- {
++        storefn(s, opaque, tmp);
 +        /*
 +         * Now we must reset FPSCR from FPDSCR_NS, and clear
 +         * CONTROL.SFPA; so we'll end the TB here.
 +         */
 +        tcg_gen_andi_i32(control, control, ~R_V7M_CONTROL_SFPA_MASK);
 +        store_cpu_field(control, v7m.control[M_REG_S]);
 +        fpscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
 +        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
 +        tcg_temp_free_i32(fpscr);
 +        gen_lookup_tb(s);
 +        break;
 +    }
      default:
          g_assert_not_reached();
      }
 --
 .20.1

-[PULL 44/47] target/arm: Enable FP16 in '-cpu max'
+[PULL 25/36] hw/intc/armv7m_nvic: Update FPDSCR masking for v8.1M
-Set the MVFR1 ID register FPHP and SIMDHP fields to indicate
+The FPDSCR register has a similar layout to the FPSCR.  In v8.1M it
-that our "-cpu max" has v8.2-FP16.
+gains new fields FZ16 (if half-precision floating point is supported)
 and LTPSIZE (always reads as 4).  Update the reset value and the code
 that handles writes to this register accordingly.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-46-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-16-peter.maydell@linaro.org
 ---
- target/arm/cpu.c   |  3 ++-
+ target/arm/cpu.h      | 5 +++++
- target/arm/cpu64.c | 10 ++++------
+ hw/intc/armv7m_nvic.c | 9 ++++++++-
-files changed, 6 insertions(+), 7 deletions(-)
+ target/arm/cpu.c      | 3 +++
 files changed, 16 insertions(+), 1 deletion(-)
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.h
++++ b/target/arm/cpu.h
+@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val);
+ #define FPCR_IXE    (1 << 12)   /* Inexact exception trap enable */
+ #define FPCR_IDE    (1 << 15)   /* Input Denormal exception trap enable */
+ #define FPCR_FZ16   (1 << 19)   /* ARMv8.2+, FP16 flush-to-zero */
++#define FPCR_RMODE_MASK (3 << 22) /* Rounding mode */
+ #define FPCR_FZ     (1 << 24)   /* Flush-to-zero enable bit */
+ #define FPCR_DN     (1 << 25)   /* Default NaN enable bit */
++#define FPCR_AHP    (1 << 26)   /* Alternative half-precision */
+ #define FPCR_QC     (1 << 27)   /* Cumulative saturation bit */
+ #define FPCR_V      (1 << 28)   /* FP overflow flag */
+ #define FPCR_C      (1 << 29)   /* FP carry flag */
+ #define FPCR_Z      (1 << 30)   /* FP zero flag */
+ #define FPCR_N      (1 << 31)   /* FP negative flag */
++#define FPCR_LTPSIZE_SHIFT 16   /* LTPSIZE, M-profile only */
++#define FPCR_LTPSIZE_MASK (7 << FPCR_LTPSIZE_SHIFT)
++
+ #define FPCR_NZCV_MASK (FPCR_N | FPCR_Z | FPCR_C | FPCR_V)
+ #define FPCR_NZCVQC_MASK (FPCR_NZCV_MASK | FPCR_QC)
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/intc/armv7m_nvic.c
++++ b/hw/intc/armv7m_nvic.c
+@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
+         break;
+     case 0xf3c: /* FPDSCR */
+         if (cpu_isar_feature(aa32_vfp_simd, cpu)) {
+-            value &= 0x07c00000;
++            uint32_t mask = FPCR_AHP | FPCR_DN | FPCR_FZ | FPCR_RMODE_MASK;
++            if (cpu_isar_feature(any_fp16, cpu)) {
++                mask |= FPCR_FZ16;
++            }
++            value &= mask;
++            if (cpu_isar_feature(aa32_lob, cpu)) {
++                value |= 4 << FPCR_LTPSIZE_SHIFT;
++            }
+             cpu->env.v7m.fpdscr[attrs.secure] = value;
+         }
+         break;
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
-@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(DeviceState *dev)
-             cpu->isar.id_isar6 = t;
+              * always reset to 4.
+              */
-             t = cpu->isar.mvfr1;
+             env->v7m.ltpsize = 4;
--            t = FIELD_DP32(t, MVFR1, FPHP, 2);     /* v8.0 FP support */
++            /* The LTPSIZE field in FPDSCR is constant and reads as 4. */
-+            t = FIELD_DP32(t, MVFR1, FPHP, 3);     /* v8.2-FP16 */
++            env->v7m.fpdscr[M_REG_NS] = 4 << FPCR_LTPSIZE_SHIFT;
-+            t = FIELD_DP32(t, MVFR1, SIMDHP, 2);   /* v8.2-FP16 */
++            env->v7m.fpdscr[M_REG_S] = 4 << FPCR_LTPSIZE_SHIFT;
-             cpu->isar.mvfr1 = t;
+         }
-             t = cpu->isar.mvfr2;
+         if (arm_feature(env, ARM_FEATURE_M_SECURITY)) {
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          u = FIELD_DP32(u, ID_DFR0, PERFMON, 5); /* v8.4-PMU */
          cpu->isar.id_dfr0 = u;
 -        /*
 -         * FIXME: We do not yet support ARMv8.2-fp16 for AArch32 yet,
 -         * so do not set MVFR1.FPHP.  Strictly speaking this is not legal,
 -         * but it is also not legal to enable SVE without support for FP16,
 -         * and enabling SVE in system mode is more useful in the short term.
 -         */
 +        u = cpu->isar.mvfr1;
 +        u = FIELD_DP32(u, MVFR1, FPHP, 3);      /* v8.2-FP16 */
 +        u = FIELD_DP32(u, MVFR1, SIMDHP, 2);    /* v8.2-FP16 */
 +        cpu->isar.mvfr1 = u;
  #ifdef CONFIG_USER_ONLY
          /* For usermode -cpu max we can use a larger and more efficient DCZ
 --
 .20.1

-[PULL 37/47] target/arm: Implement fp16 for Neon VCVT fixed-point
+[PULL 26/36] target/arm: For v8.1M, always clear R0-R3, R12, APSR, EPSR on exception entry
-Implement fp16 for the Neon VCVT insns which convert between
+In v8.0M, on exception entry the registers R0-R3, R12, APSR and EPSR
-float and fixed-point.
+are zeroed for an exception taken to Non-secure state; for an
 exception taken to Secure state they become UNKNOWN, and we chose to
 leave them at their previous values.
 In v8.1M the behaviour is specified more tightly and these registers
 are always zeroed regardless of the security state that the exception
 targets (see rule R_KPZV).  Implement this.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-39-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-17-peter.maydell@linaro.org
 ---
- target/arm/helper.h             | 5 +++++
+ target/arm/m_helper.c | 16 ++++++++++++----
- target/arm/neon-dp.decode       | 8 +++++++-
+file changed, 12 insertions(+), 4 deletions(-)
  target/arm/vec_helper.c         | 4 ++++
  target/arm/translate-neon.c.inc | 5 +++++
 files changed, 21 insertions(+), 1 deletion(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/m_helper.c
-+++ b/target/arm/helper.h
++++ b/target/arm/m_helper.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static void v7m_exception_taken(ARMCPU *cpu, uint32_t lr, bool dotailchain,
- DEF_HELPER_FLAGS_4(gvec_vcvt_fs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+          * Clear registers if necessary to prevent non-secure exception
- DEF_HELPER_FLAGS_4(gvec_vcvt_fu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+          * code being able to see register values from secure code.
+          * Where register values become architecturally UNKNOWN we leave
-+DEF_HELPER_FLAGS_4(gvec_vcvt_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-         * them with their previous values.
-+DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++         * them with their previous values. v8.1M is tighter than v8.0M
-+DEF_HELPER_FLAGS_4(gvec_vcvt_hs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++         * here and always zeroes the caller-saved registers regardless
-+DEF_HELPER_FLAGS_4(gvec_vcvt_hu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++         * of the security state the exception is targeting.
-+
+          */
- DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+         if (arm_feature(env, ARM_FEATURE_M_SECURITY)) {
- DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-            if (!targets_secure) {
- DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++            if (!targets_secure || arm_feature(env, ARM_FEATURE_V8_1M)) {
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+                 /*
-index XXXXXXX..XXXXXXX 100644
+                  * Always clear the caller-saved registers (they have been
---- a/target/arm/neon-dp.decode
+                  * pushed to the stack earlier in v7m_push_stack()).
-+++ b/target/arm/neon-dp.decode
+@@ -XXX,XX +XXX,XX @@ static void v7m_exception_taken(ARMCPU *cpu, uint32_t lr, bool dotailchain,
-@@ -XXX,XX +XXX,XX @@ VMINNM_fp_3s     1111 001 1 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
+                  * v7m_push_callee_stack()).
- # We use size=0 for fp32 and size=1 for fp16 to match the 3-same encodings.
+                  */
- @2reg_vcvt       .... ... . . . 1 ..... .... .... . q:1 . . .... \
+                 int i;
-                  &2reg_shift vm=%vm_dp vd=%vd_dp size=0 shift=%neon_rshift_i5
++                /*
-+@2reg_vcvt_f16   .... ... . . . 11 .... .... .... . q:1 . . .... \
++                 * r4..r11 are callee-saves, zero only if background
-+                 &2reg_shift vm=%vm_dp vd=%vd_dp size=1 shift=%neon_rshift_i4
++                 * state was Secure (EXCRET.S == 1) and exception
++                 * targets Non-secure state
- VSHR_S_2sh       1111 001 0 1 . ...... .... 0000 . . . 1 .... @2reg_shr_d
++                 */
- VSHR_S_2sh       1111 001 0 1 . ...... .... 0000 . . . 1 .... @2reg_shr_s
++                bool zero_callee_saves = !targets_secure &&
-@@ -XXX,XX +XXX,XX @@ VSHLL_U_2sh      1111 001 1 1 . ...... .... 1010 . 0 . 1 .... @2reg_shll_h
++                    (lr & R_V7M_EXCRET_S_MASK);
- VSHLL_U_2sh      1111 001 1 1 . ...... .... 1010 . 0 . 1 .... @2reg_shll_b
+                 for (i = 0; i < 13; i++) {
- # VCVT fixed<->float conversions
+-                    /* r4..r11 are callee-saves, zero only if EXCRET.S == 1 */
--# TODO: FP16 fixed<->float conversions are opc==0b1100 and 0b1101
+-                    if (i < 4 || i > 11 || (lr & R_V7M_EXCRET_S_MASK)) {
-+VCVT_SH_2sh      1111 001 0 1 . ...... .... 1100 0 . . 1 .... @2reg_vcvt_f16
++                    if (i < 4 || i > 11 || zero_callee_saves) {
-+VCVT_UH_2sh      1111 001 1 1 . ...... .... 1100 0 . . 1 .... @2reg_vcvt_f16
+                         env->regs[i] = 0;
-+VCVT_HS_2sh      1111 001 0 1 . ...... .... 1101 0 . . 1 .... @2reg_vcvt_f16
+                     }
-+VCVT_HU_2sh      1111 001 1 1 . ...... .... 1101 0 . . 1 .... @2reg_vcvt_f16
+                 }
 +
  VCVT_SF_2sh      1111 001 0 1 . ...... .... 1110 0 . . 1 .... @2reg_vcvt
  VCVT_UF_2sh      1111 001 1 1 . ...... .... 1110 0 . . 1 .... @2reg_vcvt
  VCVT_FS_2sh      1111 001 0 1 . ...... .... 1111 0 . . 1 .... @2reg_vcvt
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VCVT_FIXED(gvec_vcvt_sf, helper_vfp_sltos, uint32_t)
  DO_VCVT_FIXED(gvec_vcvt_uf, helper_vfp_ultos, uint32_t)
  DO_VCVT_FIXED(gvec_vcvt_fs, helper_vfp_tosls_round_to_zero, uint32_t)
  DO_VCVT_FIXED(gvec_vcvt_fu, helper_vfp_touls_round_to_zero, uint32_t)
 +DO_VCVT_FIXED(gvec_vcvt_sh, helper_vfp_shtoh, uint16_t)
 +DO_VCVT_FIXED(gvec_vcvt_uh, helper_vfp_uhtoh, uint16_t)
 +DO_VCVT_FIXED(gvec_vcvt_hs, helper_vfp_toshh_round_to_zero, uint16_t)
 +DO_VCVT_FIXED(gvec_vcvt_hu, helper_vfp_touhh_round_to_zero, uint16_t)
  #undef DO_VCVT_FIXED
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_FP_2SH(VCVT_UF, gen_helper_gvec_vcvt_uf)
  DO_FP_2SH(VCVT_FS, gen_helper_gvec_vcvt_fs)
  DO_FP_2SH(VCVT_FU, gen_helper_gvec_vcvt_fu)
 +DO_FP_2SH(VCVT_SH, gen_helper_gvec_vcvt_sh)
 +DO_FP_2SH(VCVT_UH, gen_helper_gvec_vcvt_uh)
 +DO_FP_2SH(VCVT_HS, gen_helper_gvec_vcvt_hs)
 +DO_FP_2SH(VCVT_HU, gen_helper_gvec_vcvt_hu)
 +
  static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
  {
      /*
 --
 .20.1

-[PULL 19/47] target/arm: Implement new VFP fp16 insn VINS
+[PULL 27/36] target/arm: In v8.1M, don't set HFSR.FORCED on vector table fetch failures
-The fp16 extension includes a new instruction VINS, which copies the
+In v8.1M, vector table fetch failures don't set HFSR.FORCED (see rule
-lower 16 bits of a 32-bit source VFP register into the upper 16 bits
+R_LLRP).  (In previous versions of the architecture this was either
-of the destination.  Implement it.
+required or IMPDEF.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-20-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-18-peter.maydell@linaro.org
 ---
- target/arm/vfp-uncond.decode   |  3 +++
+ target/arm/m_helper.c | 6 +++++-
- target/arm/translate-vfp.c.inc | 28 ++++++++++++++++++++++++++++
+file changed, 5 insertions(+), 1 deletion(-)
 files changed, 31 insertions(+)
-diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
+diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp-uncond.decode
+--- a/target/arm/m_helper.c
-+++ b/target/arm/vfp-uncond.decode
++++ b/target/arm/m_helper.c
-@@ -XXX,XX +XXX,XX @@ VCVT        1111 1110 1.11 11 rm:2 .... 1010 op:1 1.0 .... \
+@@ -XXX,XX +XXX,XX @@ load_fail:
-             vm=%vm_sp vd=%vd_sp sz=2
+      * The HardFault is Secure if BFHFNMINS is 0 (meaning that all HFs are
- VCVT        1111 1110 1.11 11 rm:2 .... 1011 op:1 1.0 .... \
+      * secure); otherwise it targets the same security state as the
-             vm=%vm_dp vd=%vd_sp sz=3
+      * underlying exception.
-+
++     * In v8.1M HardFaults from vector table fetch fails don't set FORCED.
-+VINS        1111 1110 1.11 0000 .... 1010 11 . 0 .... \
+      */
-+            vd=%vd_sp vm=%vm_sp
+     if (!(cpu->env.v7m.aircr & R_V7M_AIRCR_BFHFNMINS_MASK)) {
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
+         exc_secure = true;
-index XXXXXXX..XXXXXXX 100644
+     }
---- a/target/arm/translate-vfp.c.inc
+-    env->v7m.hfsr |= R_V7M_HFSR_VECTTBL_MASK | R_V7M_HFSR_FORCED_MASK;
-+++ b/target/arm/translate-vfp.c.inc
++    env->v7m.hfsr |= R_V7M_HFSR_VECTTBL_MASK;
-@@ -XXX,XX +XXX,XX @@ static bool trans_NOCP(DisasContext *s, arg_NOCP *a)
++    if (!arm_feature(env, ARM_FEATURE_V8_1M)) {
++        env->v7m.hfsr |= R_V7M_HFSR_FORCED_MASK;
 +    }
      armv7m_nvic_set_pending_derived(env->nvic, ARMV7M_EXCP_HARD, exc_secure);
      return false;
  }
-+
-+static bool trans_VINS(DisasContext *s, arg_VINS *a)
-+{
-+    TCGv_i32 rd, rm;
-+
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+        return false;
-+    }
-+
-+    if (s->vec_len != 0 || s->vec_stride != 0) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    /* Insert low half of Vm into high half of Vd */
-+    rm = tcg_temp_new_i32();
-+    rd = tcg_temp_new_i32();
-+    neon_load_reg32(rm, a->vm);
-+    neon_load_reg32(rd, a->vd);
-+    tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
-+    neon_store_reg32(rd, a->vd);
-+    tcg_temp_free_i32(rm);
-+    tcg_temp_free_i32(rd);
-+    return true;
-+}
 --
 .20.1

-[PULL 35/47] target/arm: Implement fp16 for Neon float-integer VCVT
+[PULL 28/36] target/arm: Implement v8.1M REVIDR register
-Convert the Neon float-integer VCVT insns to gvec, and use this
+In v8.1M a REVIDR register is defined, which is at address 0xe00ecfc
-to implement fp16 support for them.
+and is a read-only IMPDEF register providing implementation specific
+minor revision information, like the v8A REVIDR_EL1. Implement this.
 Note that unlike the VFP int<->fp16 VCVT insns we converted
 earlier and which convert to/from a 32-bit integer, these
 Neon insns convert to/from 16-bit integers. So we can use
 the existing vfp conversion helpers for the f32<->u32/i32
 case but need to provide our own for f16<->u16/i16.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-37-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-19-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  9 +++++++++
+ hw/intc/armv7m_nvic.c | 5 +++++
- target/arm/vec_helper.c         | 29 +++++++++++++++++++++++++++++
+file changed, 5 insertions(+)
  target/arm/translate-neon.c.inc | 15 ++++-----------
 files changed, 42 insertions(+), 11 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/intc/armv7m_nvic.c
-+++ b/target/arm/helper.h
++++ b/hw/intc/armv7m_nvic.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
- DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+         }
- DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+         return val;
+     }
-+DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    case 0xcfc:
-+DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        if (!arm_feature(&cpu->env, ARM_FEATURE_V8_1M)) {
-+DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++            goto bad_offset;
-+DEF_HELPER_FLAGS_4(gvec_uitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        }
-+DEF_HELPER_FLAGS_4(gvec_tosszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        return cpu->revidr;
-+DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     case 0xd00: /* CPUID Base.  */
-+DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+         return cpu->midr;
-+DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     case 0xd04: /* Interrupt Control State (ICSR) */
 +
  DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
      return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
  }
 +static int16_t vfp_tosszh(float16 x, void *fpstp)
 +{
 +    float_status *fpst = fpstp;
 +    if (float16_is_any_nan(x)) {
 +        float_raise(float_flag_invalid, fpst);
 +        return 0;
 +    }
 +    return float16_to_int16_round_to_zero(x, fpst);
 +}
 +
 +static uint16_t vfp_touszh(float16 x, void *fpstp)
 +{
 +    float_status *fpst = fpstp;
 +    if (float16_is_any_nan(x)) {
 +        float_raise(float_flag_invalid, fpst);
 +        return 0;
 +    }
 +    return float16_to_uint16_round_to_zero(x, fpst);
 +}
 +
  #define DO_2OP(NAME, FUNC, TYPE) \
  void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
  {                                                                 \
@@ -XXX,XX +XXX,XX @@ DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
  DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
  DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
 +DO_2OP(gvec_sitos, helper_vfp_sitos, int32_t)
 +DO_2OP(gvec_uitos, helper_vfp_uitos, uint32_t)
 +DO_2OP(gvec_tosizs, helper_vfp_tosizs, float32)
 +DO_2OP(gvec_touizs, helper_vfp_touizs, float32)
 +DO_2OP(gvec_sstoh, int16_to_float16, int16_t)
 +DO_2OP(gvec_ustoh, uint16_to_float16, uint16_t)
 +DO_2OP(gvec_tosszh, vfp_tosszh, float16)
 +DO_2OP(gvec_touszh, vfp_touszh, float16)
 +
  #define WRAP_CMP0_FWD(FN, CMPOP, TYPE)                          \
      static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)     \
      {                                                           \
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_2misc_fp(DisasContext *s, arg_2misc *a,
      return true;
  }
 -#define DO_2MISC_FP(INSN, FUNC)                                 \
 -    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
 -    {                                                           \
 -        return do_2misc_fp(s, a, FUNC);                         \
 -    }
 -
 -DO_2MISC_FP(VCVT_FS, gen_helper_vfp_sitos)
 -DO_2MISC_FP(VCVT_FU, gen_helper_vfp_uitos)
 -DO_2MISC_FP(VCVT_SF, gen_helper_vfp_tosizs)
 -DO_2MISC_FP(VCVT_UF, gen_helper_vfp_touizs)
 -
  #define DO_2MISC_FP_VEC(INSN, HFUNC, SFUNC)                             \
      static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
                             uint32_t rm_ofs,                             \
@@ -XXX,XX +XXX,XX @@ DO_2MISC_FP_VEC(VCGE0_F, gen_helper_gvec_fcge0_h, gen_helper_gvec_fcge0_s)
  DO_2MISC_FP_VEC(VCEQ0_F, gen_helper_gvec_fceq0_h, gen_helper_gvec_fceq0_s)
  DO_2MISC_FP_VEC(VCLT0_F, gen_helper_gvec_fclt0_h, gen_helper_gvec_fclt0_s)
  DO_2MISC_FP_VEC(VCLE0_F, gen_helper_gvec_fcle0_h, gen_helper_gvec_fcle0_s)
 +DO_2MISC_FP_VEC(VCVT_FS, gen_helper_gvec_sstoh, gen_helper_gvec_sitos)
 +DO_2MISC_FP_VEC(VCVT_FU, gen_helper_gvec_ustoh, gen_helper_gvec_uitos)
 +DO_2MISC_FP_VEC(VCVT_SF, gen_helper_gvec_tosszh, gen_helper_gvec_tosizs)
 +DO_2MISC_FP_VEC(VCVT_UF, gen_helper_gvec_touszh, gen_helper_gvec_touizs)
  static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
  {
 --
 .20.1

-[PULL 33/47] target/arm: Implement fp16 for Neon VRSQRTS
+[PULL 29/36] target/arm: Implement new v8.1M NOCP check for exception return
-Convert the Neon VRSQRTS insn to using a gvec helper,
+In v8.1M a new exception return check is added which may cause a NOCP
-and use this to implement the fp16 case.
+UsageFault (see rule R_XLTP): before we clear s0..s15 and the FPSCR
 we must check whether access to CP10 from the Security state of the
 returning exception is disabled; if it is then we must take a fault.
-As with VRECPS, we adjust the phrasing of the new implementation
+(Note that for our implementation CPPWR is always RAZ/WI and so can
-slightly so that the fp32 version parallels the fp16 one.
+never cause CP10 accesses to fail.)
 The other v8.1M change to this register-clearing code is that if MVE
 is implemented VPR must also be cleared, so add a TODO comment to
 that effect.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-35-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-20-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  4 +++-
+ target/arm/m_helper.c | 22 +++++++++++++++++++++-
- target/arm/vec_helper.c         | 30 ++++++++++++++++++++++++++++++
+file changed, 21 insertions(+), 1 deletion(-)
  target/arm/vfp_helper.c         | 15 ---------------
  target/arm/translate-neon.c.inc | 21 +--------------------
 files changed, 34 insertions(+), 36 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/m_helper.c
-+++ b/target/arm/helper.h
++++ b/target/arm/m_helper.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
+@@ -XXX,XX +XXX,XX @@ static void do_v7m_exception_exit(ARMCPU *cpu)
- DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
+             v7m_exception_taken(cpu, excret, true, false);
- DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
+             return;
+         } else {
--DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
+-            /* Clear s0..s15 and FPSCR */
- DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
++            if (arm_feature(env, ARM_FEATURE_V8_1M)) {
- DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
++                /* v8.1M adds this NOCP check */
- DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
++                bool nsacr_pass = exc_secure ||
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i3
++                    extract32(env->v7m.nsacr, 10, 1);
- DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++                bool cpacr_pass = v7m_cpacr_pass(env, exc_secure, true);
- DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++                if (!nsacr_pass) {
++                    armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE, true);
-+DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++                    env->v7m.cfsr[M_REG_S] |= R_V7M_CFSR_NOCP_MASK;
-+DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++                    qemu_log_mask(CPU_LOG_INT, "...taking UsageFault on existing "
-+
++                        "stackframe: NSACR prevents clearing FPU registers\n");
- DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++                    v7m_exception_taken(cpu, excret, true, false);
- DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++                } else if (!cpacr_pass) {
++                    armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
++                                            exc_secure);
-index XXXXXXX..XXXXXXX 100644
++                    env->v7m.cfsr[exc_secure] |= R_V7M_CFSR_NOCP_MASK;
---- a/target/arm/vec_helper.c
++                    qemu_log_mask(CPU_LOG_INT, "...taking UsageFault on existing "
-+++ b/target/arm/vec_helper.c
++                        "stackframe: CPACR prevents clearing FPU registers\n");
-@@ -XXX,XX +XXX,XX @@ static float32 float32_recps_nf(float32 op1, float32 op2, float_status *stat)
++                    v7m_exception_taken(cpu, excret, true, false);
-     return float32_sub(float32_two, float32_mul(op1, op2, stat), stat);
++                }
- }
++            }
++            /* Clear s0..s15 and FPSCR; TODO also VPR when MVE is implemented */
-+/* Reciprocal square-root step. AArch32 non-fused semantics. */
+             int i;
-+static float16 float16_rsqrts_nf(float16 op1, float16 op2, float_status *stat)
-+{
+             for (i = 0; i < 16; i += 2) {
 +    op1 = float16_squash_input_denormal(op1, stat);
 +    op2 = float16_squash_input_denormal(op2, stat);
 +
 +    if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
 +        (float16_is_infinity(op2) && float16_is_zero(op1))) {
 +        return float16_one_point_five;
 +    }
 +    op1 = float16_sub(float16_three, float16_mul(op1, op2, stat), stat);
 +    return float16_div(op1, float16_two, stat);
 +}
 +
 +static float32 float32_rsqrts_nf(float32 op1, float32 op2, float_status *stat)
 +{
 +    op1 = float32_squash_input_denormal(op1, stat);
 +    op2 = float32_squash_input_denormal(op2, stat);
 +
 +    if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
 +        (float32_is_infinity(op2) && float32_is_zero(op1))) {
 +        return float32_one_point_five;
 +    }
 +    op1 = float32_sub(float32_three, float32_mul(op1, op2, stat), stat);
 +    return float32_div(op1, float32_two, stat);
 +}
 +
  #define DO_3OP(NAME, FUNC, TYPE) \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fminnum_s, float32_minnum, float32)
  DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
  DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
 +DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 +DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 +
  #ifdef TARGET_AARCH64
  DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
      return r;
  }
 -float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
 -{
 -    float_status *s = &env->vfp.standard_fp_status;
 -    float32 product;
 -    if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
 -        (float32_is_infinity(b) && float32_is_zero_or_denormal(a))) {
 -        if (!(float32_is_zero(a) || float32_is_zero(b))) {
 -            float_raise(float_flag_input_denormal, s);
 -        }
 -        return float32_one_point_five;
 -    }
 -    product = float32_mul(a, b, s);
 -    return float32_div(float32_sub(float32_three, product, s), float32_two, s);
 -}
 -
  /* NEON helpers.  */
  /* Constants 256 and 512 are used in some helpers; we avoid relying on
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
  DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
  DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
  DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
 +DO_3S_FP_GVEC(VRSQRTS, gen_helper_gvec_rsqrts_nf_s, gen_helper_gvec_rsqrts_nf_h)
  WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
  WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VMINNM_fp32_3s);
  }
 -WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
 -
 -static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
 -                              uint32_t rn_ofs, uint32_t rm_ofs,
 -                              uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen3 ops = { .fni4 = gen_VRSQRTS_tramp };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
 -}
 -
 -static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
 -{
 -    if (a->size != 0) {
 -        /* TODO fp16 support */
 -        return false;
 -    }
 -
 -    return do_3same(s, a, gen_VRSQRTS_fp_3s);
 -}
 -
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
      /* FP operations handled pairwise 32 bits at a time */
 --
 .20.1

-[PULL 17/47] target/arm: Implement VFP fp16 VSEL
+[PULL 30/36] target/arm: Implement new v8.1M VLLDM and VLSTM encodings
-Implement the fp16 versions of the VFP VSEL instruction.
+v8.1M adds new encodings of VLLDM and VLSTM (where bit 7 is set).
 The only difference is that:
  * the old T1 encodings UNDEF if the implementation implements 32
    Dregs (this is currently architecturally impossible for M-profile)
  * the new T2 encodings have the implementation-defined option to
    read from memory (discarding the data) or write UNKNOWN values to
    memory for the stack slots that would be D16-D31
 We choose not to make those accesses, so for us the two
 instructions behave identically assuming they don't UNDEF.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-18-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-21-peter.maydell@linaro.org
 ---
- target/arm/vfp-uncond.decode   |  6 ++++--
+ target/arm/m-nocp.decode       |  2 +-
- target/arm/translate-vfp.c.inc | 16 ++++++++++++----
+ target/arm/translate-vfp.c.inc | 25 +++++++++++++++++++++++++
-files changed, 16 insertions(+), 6 deletions(-)
+files changed, 26 insertions(+), 1 deletion(-)
-diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
+diff --git a/target/arm/m-nocp.decode b/target/arm/m-nocp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp-uncond.decode
+--- a/target/arm/m-nocp.decode
-+++ b/target/arm/vfp-uncond.decode
++++ b/target/arm/m-nocp.decode
 @@ -XXX,XX +XXX,XX @@
- @vfp_dnm_s   ................................ vm=%vm_sp vn=%vn_sp vd=%vd_sp
- @vfp_dnm_d   ................................ vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ {
+   # Special cases which do not take an early NOCP: VLLDM and VLSTM
-+VSEL        1111 1110 0. cc:2 .... .... 1001 .0.0 .... \
+-  VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 0000 0000
-+            vm=%vm_sp vn=%vn_sp vd=%vd_sp sz=1
++  VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 op:1 000 0000
- VSEL        1111 1110 0. cc:2 .... .... 1010 .0.0 .... \
+   # VSCCLRM (new in v8.1M) is similar:
--            vm=%vm_sp vn=%vn_sp vd=%vd_sp dp=0
+   VSCCLRM      1110 1100 1.01 1111 .... 1011 imm:7 0   vd=%vd_dp size=3
-+            vm=%vm_sp vn=%vn_sp vd=%vd_sp sz=2
+   VSCCLRM      1110 1100 1.01 1111 .... 1010 imm:8     vd=%vd_sp size=2
  VSEL        1111 1110 0. cc:2 .... .... 1011 .0.0 .... \
 -            vm=%vm_dp vn=%vn_dp vd=%vd_dp dp=1
 +            vm=%vm_dp vn=%vn_dp vd=%vd_dp sz=3
  VMAXNM_hp   1111 1110 1.00 .... .... 1001 .0.0 ....         @vfp_dnm_s
  VMINNM_hp   1111 1110 1.00 .... .... 1001 .1.0 ....         @vfp_dnm_s
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check(DisasContext *s)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLLDM_VLSTM(DisasContext *s, arg_VLLDM_VLSTM *a)
- static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
+         !arm_dc_feature(s, ARM_FEATURE_V8)) {
  {
      uint32_t rd, rn, rm;
 -    bool dp = a->dp;
 +    int sz = a->sz;
      if (!dc_isar_feature(aa32_vsel, s)) {
          return false;
      }
++
--    if (dp && !dc_isar_feature(aa32_fpdp_v2, s)) {
++    if (a->op) {
-+    if (sz == 3 && !dc_isar_feature(aa32_fpdp_v2, s)) {
++        /*
-+        return false;
++         * T2 encoding ({D0-D31} reglist): v8.1M and up. We choose not
 +         * to take the IMPDEF option to make memory accesses to the stack
 +         * slots that correspond to the D16-D31 registers (discarding
 +         * read data and writing UNKNOWN values), so for us the T2
 +         * encoding behaves identically to the T1 encoding.
 +         */
 +        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +            return false;
 +        }
 +    } else {
 +        /*
 +         * T1 encoding ({D0-D15} reglist); undef if we have 32 Dregs.
 +         * This is currently architecturally impossible, but we add the
 +         * check to stay in line with the pseudocode. Note that we must
 +         * emit code for the UNDEF so it takes precedence over the NOCP.
 +         */
 +        if (dc_isar_feature(aa32_simd_r32, s)) {
 +            unallocated_encoding(s);
 +            return true;
 +        }
 +    }
 +
-+    if (sz == 1 && !dc_isar_feature(aa32_fp16_arith, s)) {
+     /*
-         return false;
+      * If not secure, UNDEF. We must emit code for this
-     }
+      * rather than returning false so that this takes
      /* UNDEF accesses to D16-D31 if they don't exist */
 -    if (dp && !dc_isar_feature(aa32_simd_r32, s) &&
 +    if (sz == 3 && !dc_isar_feature(aa32_simd_r32, s) &&
          ((a->vm | a->vn | a->vd) & 0x10)) {
          return false;
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
          return true;
      }
 -    if (dp) {
 +    if (sz == 3) {
          TCGv_i64 frn, frm, dest;
          TCGv_i64 tmp, zero, zf, nf, vf;
@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
              tcg_temp_free_i32(tmp);
              break;
          }
 +        /* For fp16 the top half is always zeroes */
 +        if (sz == 1) {
 +            tcg_gen_andi_i32(dest, dest, 0xffff);
 +        }
          neon_store_reg32(dest, rd);
          tcg_temp_free_i32(frn);
          tcg_temp_free_i32(frm);
 --
 .20.1

-[PULL 02/47] target/arm: Use correct ID register check for aa32_fp16_arith
+[PULL 31/36] hw/intc/armv7m_nvic: Support v8.1M CCR.TRD bit
-The aa32_fp16_arith feature check function currently looks at the
+v8.1M introduces a new TRD flag in the CCR register, which enables
-AArch64 ID_AA64PFR0 register. This is (as the comment notes) not
+checking for stack frame integrity signatures on SG instructions.
-correct. The bogus check was put in mostly to allow testing of the
+This bit is not banked, and is always RAZ/WI to Non-secure code.
-fp16 variants of the VCMLA instructions and it was something of
+Adjust the code for handling CCR reads and writes to handle this.
 a mistake that we allowed them to exist in master.
 Switch the feature check function to testing VMFR1.FPHP, which is
 what it ought to be.
 This will remove emulation of the VCMLA and VCADD insns from
 AArch32 code running on an AArch64 '-cpu max' using system emulation.
 (They were never enabled for aarch32 linux-user and system-emulation.)
 Since we weren't advertising their existence via the AArch32 ID
 register, well-behaved guests wouldn't have been using them anyway.
 Once we have implemented all the AArch32 support for the FP16 extension
 we will advertise it in the MVFR1 ID register field, which will reenable
 these insns along with all the others.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-3-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-23-peter.maydell@linaro.org
 ---
- target/arm/cpu.h | 7 +------
+ target/arm/cpu.h      |  2 ++
-file changed, 1 insertion(+), 6 deletions(-)
+ hw/intc/armv7m_nvic.c | 26 ++++++++++++++++++--------
 files changed, 20 insertions(+), 8 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_predinv(const ARMISARegisters *id)
+@@ -XXX,XX +XXX,XX @@ FIELD(V7M_CCR, STKOFHFNMIGN, 10, 1)
+ FIELD(V7M_CCR, DC, 16, 1)
- static inline bool isar_feature_aa32_fp16_arith(const ARMISARegisters *id)
+ FIELD(V7M_CCR, IC, 17, 1)
- {
+ FIELD(V7M_CCR, BP, 18, 1)
--    /*
++FIELD(V7M_CCR, LOB, 19, 1)
--     * This is a placeholder for use by VCMA until the rest of
++FIELD(V7M_CCR, TRD, 20, 1)
--     * the ARMv8.2-FP16 extension is implemented for aa32 mode.
--     * At which point we can properly set and check MVFR1.FPHP.
+ /* V7M SCR bits */
--     */
+ FIELD(V7M_SCR, SLEEPONEXIT, 1, 1)
--    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, FP) == 1;
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
-+    return FIELD_EX32(id->mvfr1, MVFR1, FPHP) >= 3;
+index XXXXXXX..XXXXXXX 100644
- }
+--- a/hw/intc/armv7m_nvic.c
++++ b/hw/intc/armv7m_nvic.c
- static inline bool isar_feature_aa32_vfp_simd(const ARMISARegisters *id)
+@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
          }
          return cpu->env.v7m.scr[attrs.secure];
      case 0xd14: /* Configuration Control.  */
 -        /* The BFHFNMIGN bit is the only non-banked bit; we
 -         * keep it in the non-secure copy of the register.
 +        /*
 +         * Non-banked bits: BFHFNMIGN (stored in the NS copy of the register)
 +         * and TRD (stored in the S copy of the register)
           */
          val = cpu->env.v7m.ccr[attrs.secure];
          val |= cpu->env.v7m.ccr[M_REG_NS] & R_V7M_CCR_BFHFNMIGN_MASK;
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
          cpu->env.v7m.scr[attrs.secure] = value;
          break;
      case 0xd14: /* Configuration Control.  */
 +    {
 +        uint32_t mask;
 +
          if (!arm_feature(&cpu->env, ARM_FEATURE_M_MAIN)) {
              goto bad_offset;
          }
          /* Enforce RAZ/WI on reserved and must-RAZ/WI bits */
 -        value &= (R_V7M_CCR_STKALIGN_MASK |
 -                  R_V7M_CCR_BFHFNMIGN_MASK |
 -                  R_V7M_CCR_DIV_0_TRP_MASK |
 -                  R_V7M_CCR_UNALIGN_TRP_MASK |
 -                  R_V7M_CCR_USERSETMPEND_MASK |
 -                  R_V7M_CCR_NONBASETHRDENA_MASK);
 +        mask = R_V7M_CCR_STKALIGN_MASK |
 +            R_V7M_CCR_BFHFNMIGN_MASK |
 +            R_V7M_CCR_DIV_0_TRP_MASK |
 +            R_V7M_CCR_UNALIGN_TRP_MASK |
 +            R_V7M_CCR_USERSETMPEND_MASK |
 +            R_V7M_CCR_NONBASETHRDENA_MASK;
 +        if (arm_feature(&cpu->env, ARM_FEATURE_V8_1M) && attrs.secure) {
 +            /* TRD is always RAZ/WI from NS */
 +            mask |= R_V7M_CCR_TRD_MASK;
 +        }
 +        value &= mask;
          if (arm_feature(&cpu->env, ARM_FEATURE_V8)) {
              /* v8M makes NONBASETHRDENA and STKALIGN be RES1 */
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
          cpu->env.v7m.ccr[attrs.secure] = value;
          break;
 +    }
      case 0xd24: /* System Handler Control and State (SHCSR) */
          if (!arm_feature(&cpu->env, ARM_FEATURE_V7)) {
              goto bad_offset;
 --
 .20.1

-[PULL 12/47] target/arm: Implement VFP fp16 VCVT between float and integer
+[PULL 32/36] target/arm: Implement CCR_S.TRD behaviour for SG insns
-Implement the fp16 versions of the VFP VCVT instruction forms which
+v8.1M introduces a new TRD flag in the CCR register, which enables
-convert between floating point and integer.
+checking for stack frame integrity signatures on SG instructions.
 Add the code in the SG insn implementation for the new behaviour.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-13-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-24-peter.maydell@linaro.org
 ---
- target/arm/vfp.decode          |  4 +++
+ target/arm/m_helper.c | 86 +++++++++++++++++++++++++++++++++++++++++++
- target/arm/translate-vfp.c.inc | 65 ++++++++++++++++++++++++++++++++++
+file changed, 86 insertions(+)
 files changed, 69 insertions(+)
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
+diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp.decode
+--- a/target/arm/m_helper.c
-+++ b/target/arm/vfp.decode
++++ b/target/arm/m_helper.c
-@@ -XXX,XX +XXX,XX @@ VCVT_sp      ---- 1110 1.11 0111 .... 1010 11.0 ....        @vfp_dm_ds
+@@ -XXX,XX +XXX,XX @@ static bool v7m_read_half_insn(ARMCPU *cpu, ARMMMUIdx mmu_idx,
  VCVT_dp      ---- 1110 1.11 0111 .... 1011 11.0 ....        @vfp_dm_sd
  # VCVT from integer to floating point: Vm always single; Vd depends on size
 +VCVT_int_hp  ---- 1110 1.11 1000 .... 1001 s:1 1.0 .... \
 +             vd=%vd_sp vm=%vm_sp
  VCVT_int_sp  ---- 1110 1.11 1000 .... 1010 s:1 1.0 .... \
               vd=%vd_sp vm=%vm_sp
  VCVT_int_dp  ---- 1110 1.11 1000 .... 1011 s:1 1.0 .... \
@@ -XXX,XX +XXX,XX @@ VCVT_fix_dp  ---- 1110 1.11 1.1. .... 1011 .1.0 .... \
               vd=%vd_dp imm=%vm_sp opc=%vcvt_fix_op
  # VCVT float to integer (VCVT and VCVTR): Vd always single; Vd depends on size
 +VCVT_hp_int  ---- 1110 1.11 110 s:1 .... 1001 rz:1 1.0 .... \
 +             vd=%vd_sp vm=%vm_sp
  VCVT_sp_int  ---- 1110 1.11 110 s:1 .... 1010 rz:1 1.0 .... \
               vd=%vd_sp vm=%vm_sp
  VCVT_dp_int  ---- 1110 1.11 110 s:1 .... 1011 rz:1 1.0 .... \
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp(DisasContext *s, arg_VCVT_dp *a)
      return true;
  }
-+static bool trans_VCVT_int_hp(DisasContext *s, arg_VCVT_int_sp *a)
++static bool v7m_read_sg_stack_word(ARMCPU *cpu, ARMMMUIdx mmu_idx,
 +                                   uint32_t addr, uint32_t *spdata)
 +{
-+    TCGv_i32 vm;
++    /*
-+    TCGv_ptr fpst;
++     * Read a word of data from the stack for the SG instruction,
 +     * writing the value into *spdata. If the load succeeds, return
 +     * true; otherwise pend an appropriate exception and return false.
 +     * (We can't use data load helpers here that throw an exception
 +     * because of the context we're called in, which is halfway through
 +     * arm_v7m_cpu_do_interrupt().)
 +     */
 +    CPUState *cs = CPU(cpu);
 +    CPUARMState *env = &cpu->env;
 +    MemTxAttrs attrs = {};
 +    MemTxResult txres;
 +    target_ulong page_size;
 +    hwaddr physaddr;
 +    int prot;
 +    ARMMMUFaultInfo fi = {};
 +    ARMCacheAttrs cacheattrs = {};
 +    uint32_t value;
 +
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++    if (get_phys_addr(env, addr, MMU_DATA_LOAD, mmu_idx, &physaddr,
 +                      &attrs, &prot, &page_size, &fi, &cacheattrs)) {
 +        /* MPU/SAU lookup failed */
 +        if (fi.type == ARMFault_QEMU_SFault) {
 +            qemu_log_mask(CPU_LOG_INT,
 +                          "...SecureFault during stack word read\n");
 +            env->v7m.sfsr |= R_V7M_SFSR_AUVIOL_MASK | R_V7M_SFSR_SFARVALID_MASK;
 +            env->v7m.sfar = addr;
 +            armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_SECURE, false);
 +        } else {
 +            qemu_log_mask(CPU_LOG_INT,
 +                          "...MemManageFault during stack word read\n");
 +            env->v7m.cfsr[M_REG_S] |= R_V7M_CFSR_DACCVIOL_MASK |
 +                R_V7M_CFSR_MMARVALID_MASK;
 +            env->v7m.mmfar[M_REG_S] = addr;
 +            armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_MEM, false);
 +        }
 +        return false;
 +    }
 +    value = address_space_ldl(arm_addressspace(cs, attrs), physaddr,
 +                              attrs, &txres);
 +    if (txres != MEMTX_OK) {
 +        /* BusFault trying to read the data */
 +        qemu_log_mask(CPU_LOG_INT,
 +                      "...BusFault during stack word read\n");
 +        env->v7m.cfsr[M_REG_NS] |=
 +            (R_V7M_CFSR_PRECISERR_MASK | R_V7M_CFSR_BFARVALID_MASK);
 +        env->v7m.bfar = addr;
 +        armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_BUS, false);
 +        return false;
 +    }
 +
-+    if (!vfp_access_check(s)) {
++    *spdata = value;
 +        return true;
 +    }
 +
 +    vm = tcg_temp_new_i32();
 +    neon_load_reg32(vm, a->vm);
 +    fpst = fpstatus_ptr(FPST_FPCR_F16);
 +    if (a->s) {
 +        /* i32 -> f16 */
 +        gen_helper_vfp_sitoh(vm, vm, fpst);
 +    } else {
 +        /* u32 -> f16 */
 +        gen_helper_vfp_uitoh(vm, vm, fpst);
 +    }
 +    neon_store_reg32(vm, a->vd);
 +    tcg_temp_free_i32(vm);
 +    tcg_temp_free_ptr(fpst);
 +    return true;
 +}
 +
- static bool trans_VCVT_int_sp(DisasContext *s, arg_VCVT_int_sp *a)
+ static bool v7m_handle_execute_nsc(ARMCPU *cpu)
  {
-     TCGv_i32 vm;
+     /*
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_dp(DisasContext *s, arg_VCVT_fix_dp *a)
+@@ -XXX,XX +XXX,XX @@ static bool v7m_handle_execute_nsc(ARMCPU *cpu)
-     return true;
+      */
- }
+     qemu_log_mask(CPU_LOG_INT, "...really an SG instruction at 0x%08" PRIx32
+                   ", executing it\n", env->regs[15]);
 +static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
 +{
 +    TCGv_i32 vm;
 +    TCGv_ptr fpst;
 +
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
++    if (cpu_isar_feature(aa32_m_sec_state, cpu) &&
-+        return false;
++        !arm_v7m_is_handler_mode(env)) {
 +        /*
 +         * v8.1M exception stack frame integrity check. Note that we
 +         * must perform the memory access even if CCR_S.TRD is zero
 +         * and we aren't going to check what the data loaded is.
 +         */
 +        uint32_t spdata, sp;
 +
 +        /*
 +         * We know we are currently NS, so the S stack pointers must be
 +         * in other_ss_{psp,msp}, not in regs[13]/other_sp.
 +         */
 +        sp = v7m_using_psp(env) ? env->v7m.other_ss_psp : env->v7m.other_ss_msp;
 +        if (!v7m_read_sg_stack_word(cpu, mmu_idx, sp, &spdata)) {
 +            /* Stack access failed and an exception has been pended */
 +            return false;
 +        }
 +
 +        if (env->v7m.ccr[M_REG_S] & R_V7M_CCR_TRD_MASK) {
 +            if (((spdata & ~1) == 0xfefa125a) ||
 +                !(env->v7m.control[M_REG_S] & 1)) {
 +                goto gen_invep;
 +            }
 +        }
 +    }
 +
-+    if (!vfp_access_check(s)) {
+     env->regs[14] &= ~1;
-+        return true;
+     env->v7m.control[M_REG_S] &= ~R_V7M_CONTROL_SFPA_MASK;
-+    }
+     switch_v7m_security_state(env, true);
 +
 +    fpst = fpstatus_ptr(FPST_FPCR_F16);
 +    vm = tcg_temp_new_i32();
 +    neon_load_reg32(vm, a->vm);
 +
 +    if (a->s) {
 +        if (a->rz) {
 +            gen_helper_vfp_tosizh(vm, vm, fpst);
 +        } else {
 +            gen_helper_vfp_tosih(vm, vm, fpst);
 +        }
 +    } else {
 +        if (a->rz) {
 +            gen_helper_vfp_touizh(vm, vm, fpst);
 +        } else {
 +            gen_helper_vfp_touih(vm, vm, fpst);
 +        }
 +    }
 +    neon_store_reg32(vm, a->vd);
 +    tcg_temp_free_i32(vm);
 +    tcg_temp_free_ptr(fpst);
 +    return true;
 +}
 +
  static bool trans_VCVT_sp_int(DisasContext *s, arg_VCVT_sp_int *a)
  {
      TCGv_i32 vm;
 --
 .20.1

-[PULL 31/47] target/arm: Implement fp16 for Neon fp compare-vs-0
+[PULL 33/36] hw/intc/armv7m_nvic: Fix "return from inactive handler" check
-Convert the neon floating-point vector compare-vs-0 insns VCEQ0,
+In commit 077d7449100d824a4 we added code to handle the v8M
-VCGT0, VCLE0, VCGE0 and VCLT0 to use a gvec helper, and use this to
+requirement that returns from NMI or HardFault forcibly deactivate
-implement the fp16 case.
+those exceptions regardless of what interrupt the guest is trying to
 deactivate.  Unfortunately this broke the handling of the "illegal
 exception return because the returning exception number is not
 active" check for those cases.  In the pseudocode this test is done
 on the exception the guest asks to return from, but because our
 implementation was doing this in armv7m_nvic_complete_irq() after the
 new "deactivate NMI/HardFault regardless" code we ended up doing the
 test on the VecInfo for that exception instead, which usually meant
 failing to raise the illegal exception return fault.
 In the case for "configurable exception targeting the opposite
 security state" we detected the illegal-return case but went ahead
 and deactivated the VecInfo anyway, which is wrong because that is
 the VecInfo for the other security state.
 Rearrange the code so that we first identify the illegal return
 cases, then see if we really need to deactivate NMI or HardFault
 instead, and finally do the deactivation.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-33-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-25-peter.maydell@linaro.org
 ---
- target/arm/helper.h             | 15 +++++++++++++++
+ hw/intc/armv7m_nvic.c | 59 +++++++++++++++++++++++--------------------
- target/arm/vec_helper.c         | 25 +++++++++++++++++++++++++
+file changed, 32 insertions(+), 27 deletions(-)
  target/arm/translate-neon.c.inc | 33 +++++----------------------------
 files changed, 45 insertions(+), 28 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/intc/armv7m_nvic.c
-+++ b/target/arm/helper.h
++++ b/hw/intc/armv7m_nvic.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_frsqrte_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ int armv7m_nvic_complete_irq(void *opaque, int irq, bool secure)
- DEF_HELPER_FLAGS_4(gvec_frsqrte_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ {
- DEF_HELPER_FLAGS_4(gvec_frsqrte_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     NVICState *s = (NVICState *)opaque;
+     VecInfo *vec = NULL;
-+DEF_HELPER_FLAGS_4(gvec_fcgt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-    int ret;
-+DEF_HELPER_FLAGS_4(gvec_fcgt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    int ret = 0;
      assert(irq > ARMV7M_EXCP_RESET && irq < s->num_irq);
 +    trace_nvic_complete_irq(irq, secure);
 +
-+DEF_HELPER_FLAGS_4(gvec_fcge0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    if (secure && exc_is_banked(irq)) {
-+DEF_HELPER_FLAGS_4(gvec_fcge0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        vec = &s->sec_vectors[irq];
-+
++    } else {
-+DEF_HELPER_FLAGS_4(gvec_fceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++        vec = &s->vectors[irq];
 +DEF_HELPER_FLAGS_4(gvec_fceq0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_fcle0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcle0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_fclt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fclt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_5(gvec_fadd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fadd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fadd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
  DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
  DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
 +#define WRAP_CMP0_FWD(FN, CMPOP, TYPE)                          \
 +    static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)     \
 +    {                                                           \
 +        return TYPE##_##CMPOP(op, TYPE##_zero, stat);           \
 +    }
 +
-+#define WRAP_CMP0_REV(FN, CMPOP, TYPE)                          \
++    /*
-+    static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)    \
++     * Identify illegal exception return cases. We can't immediately
-+    {                                                           \
++     * return at this point because we still need to deactivate
-+        return TYPE##_##CMPOP(TYPE##_zero, op, stat);           \
++     * (either this exception or NMI/HardFault) first.
 +     */
 +    if (!exc_is_banked(irq) && exc_targets_secure(s, irq) != secure) {
 +        /*
 +         * Return from a configurable exception targeting the opposite
 +         * security state from the one we're trying to complete it for.
 +         * Clear vec because it's not really the VecInfo for this
 +         * (irq, secstate) so we mustn't deactivate it.
 +         */
 +        ret = -1;
 +        vec = NULL;
 +    } else if (!vec->active) {
 +        /* Return from an inactive interrupt */
 +        ret = -1;
 +    } else {
 +        /* Legal return, we will return the RETTOBASE bit value to the caller */
 +        ret = nvic_rettobase(s);
 +    }
 +
-+#define DO_2OP_CMP0(FN, CMPOP, DIRN)                    \
+     /*
-+    WRAP_CMP0_##DIRN(FN, CMPOP, float16)                \
+      * For negative priorities, v8M will forcibly deactivate the appropriate
-+    WRAP_CMP0_##DIRN(FN, CMPOP, float32)                \
+      * NMI or HardFault regardless of what interrupt we're being asked to
-+    DO_2OP(gvec_f##FN##0_h, float16_##FN##0, float16)   \
+@@ -XXX,XX +XXX,XX @@ int armv7m_nvic_complete_irq(void *opaque, int irq, bool secure)
-+    DO_2OP(gvec_f##FN##0_s, float32_##FN##0, float32)
+     }
-+
-+DO_2OP_CMP0(cgt, cgt, FWD)
+     if (!vec) {
-+DO_2OP_CMP0(cge, cge, FWD)
+-        if (secure && exc_is_banked(irq)) {
-+DO_2OP_CMP0(ceq, ceq, FWD)
+-            vec = &s->sec_vectors[irq];
-+DO_2OP_CMP0(clt, cgt, REV)
+-        } else {
-+DO_2OP_CMP0(cle, cge, REV)
+-            vec = &s->vectors[irq];
-+
+-        }
  #undef DO_2OP
 +#undef DO_2OP_CMP0
  /* Floating-point trigonometric starting value.
   * See the ARM ARM pseudocode function FPTrigSMul.
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_2MISC_FP(VCVT_UF, gen_helper_vfp_touizs)
  DO_2MISC_FP_VEC(VRECPE_F, gen_helper_gvec_frecpe_h, gen_helper_gvec_frecpe_s)
  DO_2MISC_FP_VEC(VRSQRTE_F, gen_helper_gvec_frsqrte_h, gen_helper_gvec_frsqrte_s)
 +DO_2MISC_FP_VEC(VCGT0_F, gen_helper_gvec_fcgt0_h, gen_helper_gvec_fcgt0_s)
 +DO_2MISC_FP_VEC(VCGE0_F, gen_helper_gvec_fcge0_h, gen_helper_gvec_fcge0_s)
 +DO_2MISC_FP_VEC(VCEQ0_F, gen_helper_gvec_fceq0_h, gen_helper_gvec_fceq0_s)
 +DO_2MISC_FP_VEC(VCLT0_F, gen_helper_gvec_fclt0_h, gen_helper_gvec_fclt0_s)
 +DO_2MISC_FP_VEC(VCLE0_F, gen_helper_gvec_fcle0_h, gen_helper_gvec_fcle0_s)
  static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
  {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
      return do_2misc_fp(s, a, gen_helper_rints_exact);
  }
 -#define WRAP_FP_CMP0_FWD(WRAPNAME, FUNC)                        \
 -    static void WRAPNAME(TCGv_i32 d, TCGv_i32 m, TCGv_ptr fpst) \
 -    {                                                           \
 -        TCGv_i32 zero = tcg_const_i32(0);                       \
 -        FUNC(d, m, zero, fpst);                                 \
 -        tcg_temp_free_i32(zero);                                \
 -    }
 -#define WRAP_FP_CMP0_REV(WRAPNAME, FUNC)                        \
 -    static void WRAPNAME(TCGv_i32 d, TCGv_i32 m, TCGv_ptr fpst) \
 -    {                                                           \
 -        TCGv_i32 zero = tcg_const_i32(0);                       \
 -        FUNC(d, zero, m, fpst);                                 \
 -        tcg_temp_free_i32(zero);                                \
 -    }
 -
--#define DO_FP_CMP0(INSN, FUNC, REV)                             \
+-    trace_nvic_complete_irq(irq, secure);
--    WRAP_FP_CMP0_##REV(gen_##INSN, FUNC)                        \
+-
--    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
+-    if (!vec->active) {
--    {                                                           \
+-        /* Tell the caller this was an illegal exception return */
--        return do_2misc_fp(s, a, gen_##INSN);                   \
+-        return -1;
 -    }
 -
--DO_FP_CMP0(VCGT0_F, gen_helper_neon_cgt_f32, FWD)
+-    /*
--DO_FP_CMP0(VCGE0_F, gen_helper_neon_cge_f32, FWD)
+-     * If this is a configurable exception and it is currently
--DO_FP_CMP0(VCEQ0_F, gen_helper_neon_ceq_f32, FWD)
+-     * targeting the opposite security state from the one we're trying
--DO_FP_CMP0(VCLE0_F, gen_helper_neon_cge_f32, REV)
+-     * to complete it for, this counts as an illegal exception return.
--DO_FP_CMP0(VCLT0_F, gen_helper_neon_cgt_f32, REV)
+-     * We still need to deactivate whatever vector the logic above has
--
+-     * selected, though, as it might not be the same as the one for the
- static bool do_vrint(DisasContext *s, arg_2misc *a, int rmode)
+-     * requested exception number.
- {
+-     */
-     /*
+-    if (!exc_is_banked(irq) && exc_targets_secure(s, irq) != secure) {
 -        ret = -1;
 -    } else {
 -        ret = nvic_rettobase(s);
 +        return ret;
      }
      vec->active = 0;
 --
 .20.1

-[PULL 32/47] target/arm: Implement fp16 for Neon VRECPS
+[PULL 34/36] target/arm: Implement M-profile "minimal RAS implementation"
-Convert the Neon VRECPS insn to using a gvec helper, and
+For v8.1M the architecture mandates that CPUs must provide at
-use this to implement the fp16 case.
+least the "minimal RAS implementation" from the Reliability,
+Availability and Serviceability extension. This consists of:
-The phrasing of the new float32_recps_nf() is slightly different from
+ * an ESB instruction which is a NOP
-the old recps_f32() so that it parallels the f16 version; for f16 we
+   -- since it is in the HINT space we need only add a comment
-can't assume that flush-to-zero is always enabled.
+ * an RFSR register which will RAZ/WI
  * a RAZ/WI AIRCR.IESB bit
    -- the code which handles writes to AIRCR does not allow setting
       of RES0 bits, so we already treat this as RAZ/WI; add a comment
       noting that this is deliberate
  * minimal implementation of the RAS register block at 0xe0005000
    -- this will be in a subsequent commit
  * setting the ID_PFR0.RAS field to 0b0010
    -- we will do this when we add the Cortex-M55 CPU model
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-34-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-26-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  4 +++-
+ target/arm/cpu.h      | 14 ++++++++++++++
- target/arm/vec_helper.c         | 31 +++++++++++++++++++++++++++++++
+ target/arm/t32.decode |  4 ++++
- target/arm/vfp_helper.c         | 13 -------------
+ hw/intc/armv7m_nvic.c | 13 +++++++++++++
- target/arm/translate-neon.c.inc | 21 +--------------------
+files changed, 31 insertions(+)
 files changed, 35 insertions(+), 34 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/cpu.h
-+++ b/target/arm/helper.h
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
+@@ -XXX,XX +XXX,XX @@ FIELD(ID_MMFR4, LSM, 20, 4)
- DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
+ FIELD(ID_MMFR4, CCIDX, 24, 4)
- DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
+ FIELD(ID_MMFR4, EVT, 28, 4)
--DEF_HELPER_3(recps_f32, f32, env, f32, f32)
++FIELD(ID_PFR0, STATE0, 0, 4)
- DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
++FIELD(ID_PFR0, STATE1, 4, 4)
- DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
++FIELD(ID_PFR0, STATE2, 8, 4)
- DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
++FIELD(ID_PFR0, STATE3, 12, 4)
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i3
++FIELD(ID_PFR0, CSV2, 16, 4)
- DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++FIELD(ID_PFR0, AMU, 20, 4)
- DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++FIELD(ID_PFR0, DIT, 24, 4)
++FIELD(ID_PFR0, RAS, 28, 4)
 +DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ FIELD(ID_PFR1, PROGMOD, 0, 4)
- DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ FIELD(ID_PFR1, SECURITY, 4, 4)
+ FIELD(ID_PFR1, MPROGMOD, 8, 4)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_predinv(const ARMISARegisters *id)
-index XXXXXXX..XXXXXXX 100644
+     return FIELD_EX32(id->id_isar6, ID_ISAR6, SPECRES) != 0;
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
      return float32_abs(float32_sub(op1, op2, stat));
  }
-+/*
++static inline bool isar_feature_aa32_ras(const ARMISARegisters *id)
 + * Reciprocal step. These are the AArch32 version which uses a
 + * non-fused multiply-and-subtract.
 + */
 +static float16 float16_recps_nf(float16 op1, float16 op2, float_status *stat)
 +{
-+    op1 = float16_squash_input_denormal(op1, stat);
++    return FIELD_EX32(id->id_pfr0, ID_PFR0, RAS) != 0;
 +    op2 = float16_squash_input_denormal(op2, stat);
 +
 +    if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
 +        (float16_is_infinity(op2) && float16_is_zero(op1))) {
 +        return float16_two;
 +    }
 +    return float16_sub(float16_two, float16_mul(op1, op2, stat), stat);
 +}
 +
-+static float32 float32_recps_nf(float32 op1, float32 op2, float_status *stat)
+ static inline bool isar_feature_aa32_mprofile(const ARMISARegisters *id)
-+{
+ {
-+    op1 = float32_squash_input_denormal(op1, stat);
+     return FIELD_EX32(id->id_pfr1, ID_PFR1, MPROGMOD) != 0;
-+    op2 = float32_squash_input_denormal(op2, stat);
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/t32.decode
 +++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@ CLZ              1111 1010 1011 ---- 1111 .... 1000 ....      @rdm
        # SEV      1111 0011 1010 1111 1000 0000 0000 0100
        # SEVL     1111 0011 1010 1111 1000 0000 0000 0101
 +      # For M-profile minimal-RAS ESB can be a NOP, which is the
 +      # default behaviour since it is in the hint space.
 +      # ESB      1111 0011 1010 1111 1000 0000 0001 0000
 +
-+    if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
+       # The canonical nop ends in 0000 0000, but the whole rest
-+        (float32_is_infinity(op2) && float32_is_zero(op1))) {
+       # of the space is "reserved hint, behaves as nop".
-+        return float32_two;
+       NOP        1111 0011 1010 1111 1000 0000 ---- ----
-+    }
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
 +    return float32_sub(float32_two, float32_mul(op1, op2, stat), stat);
 +}
 +
  #define DO_3OP(NAME, FUNC, TYPE) \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
  DO_3OP(gvec_fminnum_h, float16_minnum, float16)
  DO_3OP(gvec_fminnum_s, float32_minnum, float32)
 +DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
 +DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
 +
  #ifdef TARGET_AARCH64
  DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp_helper.c
+--- a/hw/intc/armv7m_nvic.c
-+++ b/target/arm/vfp_helper.c
++++ b/hw/intc/armv7m_nvic.c
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
+@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
-     return r;
+             return 0;
- }
+         }
+         return cpu->env.v7m.sfar;
--float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
++    case 0xf04: /* RFSR */
--{
++        if (!cpu_isar_feature(aa32_ras, cpu)) {
--    float_status *s = &env->vfp.standard_fp_status;
++            goto bad_offset;
--    if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
++        }
--        (float32_is_infinity(b) && float32_is_zero_or_denormal(a))) {
++        /* We provide minimal-RAS only: RFSR is RAZ/WI */
--        if (!(float32_is_zero(a) || float32_is_zero(b))) {
++        return 0;
--            float_raise(float_flag_input_denormal, s);
+     case 0xf34: /* FPCCR */
--        }
+         if (!cpu_isar_feature(aa32_vfp_simd, cpu)) {
--        return float32_two;
+             return 0;
--    }
+@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
--    return float32_sub(float32_two, float32_mul(a, b, s), s);
+                               R_V7M_AIRCR_PRIGROUP_SHIFT,
--}
+                               R_V7M_AIRCR_PRIGROUP_LENGTH);
--
+             }
- float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
++            /* AIRCR.IESB is RAZ/WI because we implement only minimal RAS */
- {
+             if (attrs.secure) {
-     float_status *s = &env->vfp.standard_fp_status;
+                 /* These bits are only writable by secure */
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+                 cpu->env.v7m.aircr = value &
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
---- a/target/arm/translate-neon.c.inc
+         }
-+++ b/target/arm/translate-neon.c.inc
+         break;
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMLA, gen_helper_gvec_fmla_s, gen_helper_gvec_fmla_h)
+     }
- DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
++    case 0xf04: /* RFSR */
- DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
++        if (!cpu_isar_feature(aa32_ras, cpu)) {
- DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
++            goto bad_offset;
-+DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
++        }
++        /* We provide minimal-RAS only: RFSR is RAZ/WI */
- WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
++        break;
- WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
+     case 0xf34: /* FPCCR */
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
+         if (cpu_isar_feature(aa32_vfp_simd, cpu)) {
-     return do_3same(s, a, gen_VMINNM_fp32_3s);
+             /* Not all bits here are banked. */
  }
 -WRAP_ENV_FN(gen_VRECPS_tramp, gen_helper_recps_f32)
 -
 -static void gen_VRECPS_fp_3s(unsigned vece, uint32_t rd_ofs,
 -                             uint32_t rn_ofs, uint32_t rm_ofs,
 -                             uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen3 ops = { .fni4 = gen_VRECPS_tramp };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
 -}
 -
 -static bool trans_VRECPS_fp_3s(DisasContext *s, arg_3same *a)
 -{
 -    if (a->size != 0) {
 -        /* TODO fp16 support */
 -        return false;
 -    }
 -
 -    return do_3same(s, a, gen_VRECPS_fp_3s);
 -}
 -
  WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
  static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
 --
 .20.1

-[PULL 18/47] target/arm: Implement VFP fp16 VRINT*
+[PULL 35/36] hw/intc/armv7m_nvic: Implement read/write for RAS register block
-Implement the fp16 version of the VFP VRINT* insns.
+The RAS feature has a block of memory-mapped registers at offset
 x5000 within the PPB.  For a "minimal RAS" implementation we provide
 no error records and so the only registers that exist in the block
 are ERRIIDR and ERRDEVID.
 The "RAZ/WI for privileged, BusFault for nonprivileged" behaviour
 of the "nvic-default" region is actually valid for minimal-RAS,
 so the main benefit of providing an explicit implementation of
 the register block is more accurate LOG_UNIMP messages, and a
 framework for where we could add a real RAS implementation later
 if necessary.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-19-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-27-peter.maydell@linaro.org
 ---
- target/arm/helper.h            |  2 +
+ include/hw/intc/armv7m_nvic.h |  1 +
- target/arm/vfp-uncond.decode   |  6 ++-
+ hw/intc/armv7m_nvic.c         | 56 +++++++++++++++++++++++++++++++++++
- target/arm/vfp.decode          |  3 ++
+files changed, 57 insertions(+)
  target/arm/vfp_helper.c        | 21 ++++++++
  target/arm/translate-vfp.c.inc | 98 +++++++++++++++++++++++++++++++---
 files changed, 122 insertions(+), 8 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/include/hw/intc/armv7m_nvic.h b/include/hw/intc/armv7m_nvic.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/include/hw/intc/armv7m_nvic.h
-+++ b/target/arm/helper.h
++++ b/include/hw/intc/armv7m_nvic.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(shr_cc, i32, env, i32, i32)
+@@ -XXX,XX +XXX,XX @@ struct NVICState {
- DEF_HELPER_3(sar_cc, i32, env, i32, i32)
+     MemoryRegion sysreg_ns_mem;
- DEF_HELPER_3(ror_cc, i32, env, i32, i32)
+     MemoryRegion systickmem;
+     MemoryRegion systick_ns_mem;
-+DEF_HELPER_FLAGS_2(rinth_exact, TCG_CALL_NO_RWG, f16, f16, ptr)
++    MemoryRegion ras_mem;
- DEF_HELPER_FLAGS_2(rints_exact, TCG_CALL_NO_RWG, f32, f32, ptr)
+     MemoryRegion container;
- DEF_HELPER_FLAGS_2(rintd_exact, TCG_CALL_NO_RWG, f64, f64, ptr)
+     MemoryRegion defaultmem;
-+DEF_HELPER_FLAGS_2(rinth, TCG_CALL_NO_RWG, f16, f16, ptr)
- DEF_HELPER_FLAGS_2(rints, TCG_CALL_NO_RWG, f32, f32, ptr)
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
  DEF_HELPER_FLAGS_2(rintd, TCG_CALL_NO_RWG, f64, f64, ptr)
 diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp-uncond.decode
+--- a/hw/intc/armv7m_nvic.c
-+++ b/target/arm/vfp-uncond.decode
++++ b/hw/intc/armv7m_nvic.c
-@@ -XXX,XX +XXX,XX @@ VMINNM_sp   1111 1110 1.00 .... .... 1010 .1.0 ....         @vfp_dnm_s
+@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps nvic_systick_ops = {
- VMAXNM_dp   1111 1110 1.00 .... .... 1011 .0.0 ....         @vfp_dnm_d
+     .endianness = DEVICE_NATIVE_ENDIAN,
- VMINNM_dp   1111 1110 1.00 .... .... 1011 .1.0 ....         @vfp_dnm_d
+ };
-+VRINT       1111 1110 1.11 10 rm:2 .... 1001 01.0 .... \
++
-+            vm=%vm_sp vd=%vd_sp sz=1
++static MemTxResult ras_read(void *opaque, hwaddr addr,
- VRINT       1111 1110 1.11 10 rm:2 .... 1010 01.0 .... \
++                            uint64_t *data, unsigned size,
--            vm=%vm_sp vd=%vd_sp dp=0
++                            MemTxAttrs attrs)
 +            vm=%vm_sp vd=%vd_sp sz=2
  VRINT       1111 1110 1.11 10 rm:2 .... 1011 01.0 .... \
 -            vm=%vm_dp vd=%vd_dp dp=1
 +            vm=%vm_dp vd=%vd_dp sz=3
  # VCVT float to int with specified rounding mode; Vd is always single-precision
  VCVT        1111 1110 1.11 11 rm:2 .... 1001 op:1 1.0 .... \
 diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp.decode
 +++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VCVT_f16_f32 ---- 1110 1.11 0011 .... 1010 t:1 1.0 .... \
  VCVT_f16_f64 ---- 1110 1.11 0011 .... 1011 t:1 1.0 .... \
               vd=%vd_sp vm=%vm_dp
 +VRINTR_hp    ---- 1110 1.11 0110 .... 1001 01.0 ....        @vfp_dm_ss
  VRINTR_sp    ---- 1110 1.11 0110 .... 1010 01.0 ....        @vfp_dm_ss
  VRINTR_dp    ---- 1110 1.11 0110 .... 1011 01.0 ....        @vfp_dm_dd
 +VRINTZ_hp    ---- 1110 1.11 0110 .... 1001 11.0 ....        @vfp_dm_ss
  VRINTZ_sp    ---- 1110 1.11 0110 .... 1010 11.0 ....        @vfp_dm_ss
  VRINTZ_dp    ---- 1110 1.11 0110 .... 1011 11.0 ....        @vfp_dm_dd
 +VRINTX_hp    ---- 1110 1.11 0111 .... 1001 01.0 ....        @vfp_dm_ss
  VRINTX_sp    ---- 1110 1.11 0111 .... 1010 01.0 ....        @vfp_dm_ss
  VRINTX_dp    ---- 1110 1.11 0111 .... 1011 01.0 ....        @vfp_dm_dd
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float64 VFP_HELPER(muladd, d)(float64 a, float64 b, float64 c, void *fpstp)
  }
  /* ARMv8 round to integral */
 +dh_ctype_f16 HELPER(rinth_exact)(dh_ctype_f16 x, void *fp_status)
 +{
-+    return float16_round_to_int(x, fp_status);
++    if (attrs.user) {
 +        return MEMTX_ERROR;
 +    }
 +
 +    switch (addr) {
 +    case 0xe10: /* ERRIIDR */
 +        /* architect field = Arm; product/variant/revision 0 */
 +        *data = 0x43b;
 +        break;
 +    case 0xfc8: /* ERRDEVID */
 +        /* Minimal RAS: we implement 0 error record indexes */
 +        *data = 0;
 +        break;
 +    default:
 +        qemu_log_mask(LOG_UNIMP, "Read RAS register offset 0x%x\n",
 +                      (uint32_t)addr);
 +        *data = 0;
 +        break;
 +    }
 +    return MEMTX_OK;
 +}
 +
- float32 HELPER(rints_exact)(float32 x, void *fp_status)
++static MemTxResult ras_write(void *opaque, hwaddr addr,
- {
++                             uint64_t value, unsigned size,
-     return float32_round_to_int(x, fp_status);
++                             MemTxAttrs attrs)
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rintd_exact)(float64 x, void *fp_status)
      return float64_round_to_int(x, fp_status);
  }
 +dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, void *fp_status)
 +{
-+    int old_flags = get_float_exception_flags(fp_status), new_flags;
++    if (attrs.user) {
-+    float16 ret;
++        return MEMTX_ERROR;
 +
 +    ret = float16_round_to_int(x, fp_status);
 +
 +    /* Suppress any inexact exceptions the conversion produced */
 +    if (!(old_flags & float_flag_inexact)) {
 +        new_flags = get_float_exception_flags(fp_status);
 +        set_float_exception_flags(new_flags & ~float_flag_inexact, fp_status);
 +    }
 +
-+    return ret;
++    switch (addr) {
 +    default:
 +        qemu_log_mask(LOG_UNIMP, "Write to RAS register offset 0x%x\n",
 +                      (uint32_t)addr);
 +        break;
 +    }
 +    return MEMTX_OK;
 +}
 +
- float32 HELPER(rints)(float32 x, void *fp_status)
++static const MemoryRegionOps ras_ops = {
- {
++    .read_with_attrs = ras_read,
-     int old_flags = get_float_exception_flags(fp_status), new_flags;
++    .write_with_attrs = ras_write,
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
++    .endianness = DEVICE_NATIVE_ENDIAN,
-index XXXXXXX..XXXXXXX 100644
++};
---- a/target/arm/translate-vfp.c.inc
++
-+++ b/target/arm/translate-vfp.c.inc
+ /*
-@@ -XXX,XX +XXX,XX @@ static const uint8_t fp_decode_rm[] = {
+  * Unassigned portions of the PPB space are RAZ/WI for privileged
- static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
+  * accesses, and fault for non-privileged accesses.
- {
+@@ -XXX,XX +XXX,XX @@ static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
-     uint32_t rd, rm;
+                                             &s->systick_ns_mem, 1);
 -    bool dp = a->dp;
 +    int sz = a->sz;
      TCGv_ptr fpst;
      TCGv_i32 tcg_rmode;
      int rounding = fp_decode_rm[a->rm];
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
          return false;
      }
--    if (dp && !dc_isar_feature(aa32_fpdp_v2, s)) {
++    if (cpu_isar_feature(aa32_ras, s->cpu)) {
-+    if (sz == 3 && !dc_isar_feature(aa32_fpdp_v2, s)) {
++        memory_region_init_io(&s->ras_mem, OBJECT(s),
-+        return false;
++                              &ras_ops, s, "nvic_ras", 0x1000);
 +        memory_region_add_subregion(&s->container, 0x5000, &s->ras_mem);
 +    }
 +
-+    if (sz == 1 && !dc_isar_feature(aa32_fp16_arith, s)) {
+     sysbus_init_mmio(SYS_BUS_DEVICE(dev), &s->container);
          return false;
      }
      /* UNDEF accesses to D16-D31 if they don't exist */
 -    if (dp && !dc_isar_feature(aa32_simd_r32, s) &&
 +    if (sz == 3 && !dc_isar_feature(aa32_simd_r32, s) &&
          ((a->vm | a->vd) & 0x10)) {
          return false;
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
          return true;
      }
 -    fpst = fpstatus_ptr(FPST_FPCR);
 +    if (sz == 1) {
 +        fpst = fpstatus_ptr(FPST_FPCR_F16);
 +    } else {
 +        fpst = fpstatus_ptr(FPST_FPCR);
 +    }
      tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rounding));
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 -    if (dp) {
 +    if (sz == 3) {
          TCGv_i64 tcg_op;
          TCGv_i64 tcg_res;
          tcg_op = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
          tcg_op = tcg_temp_new_i32();
          tcg_res = tcg_temp_new_i32();
          neon_load_reg32(tcg_op, rm);
 -        gen_helper_rints(tcg_res, tcg_op, fpst);
 +        if (sz == 1) {
 +            gen_helper_rinth(tcg_res, tcg_op, fpst);
 +        } else {
 +            gen_helper_rints(tcg_res, tcg_op, fpst);
 +        }
          neon_store_reg32(tcg_res, rd);
          tcg_temp_free_i32(tcg_op);
          tcg_temp_free_i32(tcg_res);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_f16_f64(DisasContext *s, arg_VCVT_f16_f64 *a)
      return true;
  }
-+static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
-+{
-+    TCGv_ptr fpst;
-+    TCGv_i32 tmp;
-+
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    tmp = tcg_temp_new_i32();
-+    neon_load_reg32(tmp, a->vm);
-+    fpst = fpstatus_ptr(FPST_FPCR_F16);
-+    gen_helper_rinth(tmp, tmp, fpst);
-+    neon_store_reg32(tmp, a->vd);
-+    tcg_temp_free_ptr(fpst);
-+    tcg_temp_free_i32(tmp);
-+    return true;
-+}
-+
- static bool trans_VRINTR_sp(DisasContext *s, arg_VRINTR_sp *a)
- {
-     TCGv_ptr fpst;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_dp(DisasContext *s, arg_VRINTR_dp *a)
-     return true;
- }
-+static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
-+{
-+    TCGv_ptr fpst;
-+    TCGv_i32 tmp;
-+    TCGv_i32 tcg_rmode;
-+
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    tmp = tcg_temp_new_i32();
-+    neon_load_reg32(tmp, a->vm);
-+    fpst = fpstatus_ptr(FPST_FPCR_F16);
-+    tcg_rmode = tcg_const_i32(float_round_to_zero);
-+    gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
-+    gen_helper_rinth(tmp, tmp, fpst);
-+    gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
-+    neon_store_reg32(tmp, a->vd);
-+    tcg_temp_free_ptr(fpst);
-+    tcg_temp_free_i32(tcg_rmode);
-+    tcg_temp_free_i32(tmp);
-+    return true;
-+}
-+
- static bool trans_VRINTZ_sp(DisasContext *s, arg_VRINTZ_sp *a)
- {
-     TCGv_ptr fpst;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_dp(DisasContext *s, arg_VRINTZ_dp *a)
-     return true;
- }
-+static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
-+{
-+    TCGv_ptr fpst;
-+    TCGv_i32 tmp;
-+
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    tmp = tcg_temp_new_i32();
-+    neon_load_reg32(tmp, a->vm);
-+    fpst = fpstatus_ptr(FPST_FPCR_F16);
-+    gen_helper_rinth_exact(tmp, tmp, fpst);
-+    neon_store_reg32(tmp, a->vd);
-+    tcg_temp_free_ptr(fpst);
-+    tcg_temp_free_i32(tmp);
-+    return true;
-+}
-+
- static bool trans_VRINTX_sp(DisasContext *s, arg_VRINTX_sp *a)
- {
-     TCGv_ptr fpst;
 --
 .20.1

-[PULL 06/47] target/arm: Implement VFP fp16 for fused-multiply-add
+[PULL 36/36] hw/arm/armv7m: Correct typo in QOM object name
-Implement VFP fp16 support for fused multiply-add insns
+Correct a typo in the name we give the NVIC object.
 VFNMA, VFNMS, VFMA, VFMS.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-7-peter.maydell@linaro.org
+Message-id: 20201119215617.29887-28-peter.maydell@linaro.org
 ---
- target/arm/helper.h            |  1 +
+ hw/arm/armv7m.c | 2 +-
- target/arm/vfp.decode          |  5 +++
+file changed, 1 insertion(+), 1 deletion(-)
  target/arm/vfp_helper.c        |  7 ++++
  target/arm/translate-vfp.c.inc | 64 ++++++++++++++++++++++++++++++++++
 files changed, 77 insertions(+)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/arm/armv7m.c b/hw/arm/armv7m.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/arm/armv7m.c
-+++ b/target/arm/helper.h
++++ b/hw/arm/armv7m.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static void armv7m_instance_init(Object *obj)
- DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
+     memory_region_init(&s->container, obj, "armv7m-container", UINT64_MAX);
- DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
-+DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
+-    object_initialize_child(obj, "nvnic", &s->nvic, TYPE_NVIC);
++    object_initialize_child(obj, "nvic", &s->nvic, TYPE_NVIC);
- DEF_HELPER_3(recps_f32, f32, env, f32, f32)
+     object_property_add_alias(obj, "num-irq",
- DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
+                               OBJECT(&s->nvic), "num-irq");
 diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp.decode
 +++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VDIV_hp      ---- 1110 1.00 .... .... 1001 .0.0 ....        @vfp_dnm_s
  VDIV_sp      ---- 1110 1.00 .... .... 1010 .0.0 ....        @vfp_dnm_s
  VDIV_dp      ---- 1110 1.00 .... .... 1011 .0.0 ....        @vfp_dnm_d
 +VFMA_hp      ---- 1110 1.10 .... .... 1001 .0. 0 ....       @vfp_dnm_s
 +VFMS_hp      ---- 1110 1.10 .... .... 1001 .1. 0 ....       @vfp_dnm_s
 +VFNMA_hp     ---- 1110 1.01 .... .... 1001 .0. 0 ....       @vfp_dnm_s
 +VFNMS_hp     ---- 1110 1.01 .... .... 1001 .1. 0 ....       @vfp_dnm_s
 +
  VFMA_sp      ---- 1110 1.10 .... .... 1010 .0. 0 ....       @vfp_dnm_s
  VFMS_sp      ---- 1110 1.10 .... .... 1010 .1. 0 ....       @vfp_dnm_s
  VFNMA_sp     ---- 1110 1.01 .... .... 1010 .0. 0 ....       @vfp_dnm_s
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_u32)(uint32_t a)
  }
  /* VFPv4 fused multiply-accumulate */
 +dh_ctype_f16 VFP_HELPER(muladd, h)(dh_ctype_f16 a, dh_ctype_f16 b,
 +                                   dh_ctype_f16 c, void *fpstp)
 +{
 +    float_status *fpst = fpstp;
 +    return float16_muladd(a, b, c, 0, fpst);
 +}
 +
  float32 VFP_HELPER(muladd, s)(float32 a, float32 b, float32 c, void *fpstp)
  {
      float_status *fpst = fpstp;
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMAXNM_dp(DisasContext *s, arg_VMAXNM_dp *a)
                           a->vd, a->vn, a->vm, false);
  }
 +static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
 +{
 +    /*
 +     * VFNMA : fd = muladd(-fd,  fn, fm)
 +     * VFNMS : fd = muladd(-fd, -fn, fm)
 +     * VFMA  : fd = muladd( fd,  fn, fm)
 +     * VFMS  : fd = muladd( fd, -fn, fm)
 +     *
 +     * These are fused multiply-add, and must be done as one floating
 +     * point operation with no rounding between the multiplication and
 +     * addition steps.  NB that doing the negations here as separate
 +     * steps is correct : an input NaN should come out with its sign
 +     * bit flipped if it is a negated-input.
 +     */
 +    TCGv_ptr fpst;
 +    TCGv_i32 vn, vm, vd;
 +
 +    /*
 +     * Present in VFPv4 only, and only with the FP16 extension.
 +     * Note that we can't rely on the SIMDFMAC check alone, because
 +     * in a Neon-no-VFP core that ID register field will be non-zero.
 +     */
 +    if (!dc_isar_feature(aa32_fp16_arith, s) ||
 +        !dc_isar_feature(aa32_simdfmac, s) ||
 +        !dc_isar_feature(aa32_fpsp_v2, s)) {
 +        return false;
 +    }
 +
 +    if (s->vec_len != 0 || s->vec_stride != 0) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    vn = tcg_temp_new_i32();
 +    vm = tcg_temp_new_i32();
 +    vd = tcg_temp_new_i32();
 +
 +    neon_load_reg32(vn, a->vn);
 +    neon_load_reg32(vm, a->vm);
 +    if (neg_n) {
 +        /* VFNMS, VFMS */
 +        gen_helper_vfp_negh(vn, vn);
 +    }
 +    neon_load_reg32(vd, a->vd);
 +    if (neg_d) {
 +        /* VFNMA, VFNMS */
 +        gen_helper_vfp_negh(vd, vd);
 +    }
 +    fpst = fpstatus_ptr(FPST_FPCR_F16);
 +    gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
 +    neon_store_reg32(vd, a->vd);
 +
 +    tcg_temp_free_ptr(fpst);
 +    tcg_temp_free_i32(vn);
 +    tcg_temp_free_i32(vm);
 +    tcg_temp_free_i32(vd);
 +
 +    return true;
 +}
 +
  static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
  {
      /*
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
      MAKE_ONE_VFM_TRANS_FN(VFNMA, PREC, false, true) \
      MAKE_ONE_VFM_TRANS_FN(VFNMS, PREC, true, true)
 +MAKE_VFM_TRANS_FNS(hp)
  MAKE_VFM_TRANS_FNS(sp)
  MAKE_VFM_TRANS_FNS(dp)
 --
 .20.1

-[PULL 11/47] target/arm: Implement VFP fp16 VLDR and VSTR
+Deleted patch
-Implement the fp16 versions of the VFP VLDR/VSTR (immediate).
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-12-peter.maydell@linaro.org
----
- target/arm/vfp.decode          |  3 +--
- target/arm/translate-vfp.c.inc | 35 ++++++++++++++++++++++++++++++++++
-files changed, 36 insertions(+), 2 deletions(-)
-diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp.decode
-+++ b/target/arm/vfp.decode
-@@ -XXX,XX +XXX,XX @@ VMOV_single  ---- 1110 000 l:1 .... rt:4 1010 . 001 0000    vn=%vn_sp
- VMOV_64_sp   ---- 1100 010 op:1 rt2:4 rt:4 1010 00.1 ....   vm=%vm_sp
- VMOV_64_dp   ---- 1100 010 op:1 rt2:4 rt:4 1011 00.1 ....   vm=%vm_dp
--# Note that the half-precision variants of VLDR and VSTR are
--# not part of this decodetree at all because they have bits [9:8] == 0b01
-+VLDR_VSTR_hp ---- 1101 u:1 .0 l:1 rn:4 .... 1001 imm:8      vd=%vd_sp
- VLDR_VSTR_sp ---- 1101 u:1 .0 l:1 rn:4 .... 1010 imm:8      vd=%vd_sp
- VLDR_VSTR_dp ---- 1101 u:1 .0 l:1 rn:4 .... 1011 imm:8      vd=%vd_dp
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.c.inc
-+++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_64_dp(DisasContext *s, arg_VMOV_64_dp *a)
-     return true;
- }
-+static bool trans_VLDR_VSTR_hp(DisasContext *s, arg_VLDR_VSTR_sp *a)
-+{
-+    uint32_t offset;
-+    TCGv_i32 addr, tmp;
-+
-+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    /* imm8 field is offset/2 for fp16, unlike fp32 and fp64 */
-+    offset = a->imm << 1;
-+    if (!a->u) {
-+        offset = -offset;
-+    }
-+
-+    /* For thumb, use of PC is UNPREDICTABLE.  */
-+    addr = add_reg_for_lit(s, a->rn, offset);
-+    tmp = tcg_temp_new_i32();
-+    if (a->l) {
-+        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-+        neon_store_reg32(tmp, a->vd);
-+    } else {
-+        neon_load_reg32(tmp, a->vd);
-+        gen_aa32_st16(s, tmp, addr, get_mem_index(s));
-+    }
-+    tcg_temp_free_i32(tmp);
-+    tcg_temp_free_i32(addr);
-+
-+    return true;
-+}
-+
- static bool trans_VLDR_VSTR_sp(DisasContext *s, arg_VLDR_VSTR_sp *a)
- {
-     uint32_t offset;
---
-.20.1

-[PULL 13/47] target/arm: Make VFP_CONV_FIX macros take separate float type and float size
+Deleted patch
-Currently the VFP_CONV_FIX macros take a single fsz argument for the
-size of the float type, which is used both to select the name of
-the functions to call (eg float32_is_any_nan()) and also for the
-type to use for the float inputs and outputs (eg float32).
-Separate these into fsz and ftype arguments, so that we can use them
-for fp16, which uses 'float16' in the function names but is still
-passing inputs and outputs in a 32-bit sized type.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-14-peter.maydell@linaro.org
----
- target/arm/vfp_helper.c | 46 ++++++++++++++++++++---------------------
-file changed, 23 insertions(+), 23 deletions(-)
-diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp_helper.c
-+++ b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ float32 VFP_HELPER(fcvts, d)(float64 x, CPUARMState *env)
- }
- /* VFP3 fixed point conversion.  */
--#define VFP_CONV_FIX_FLOAT(name, p, fsz, isz, itype) \
--float##fsz HELPER(vfp_##name##to##p)(uint##isz##_t  x, uint32_t shift, \
-+#define VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)            \
-+ftype HELPER(vfp_##name##to##p)(uint##isz##_t  x, uint32_t shift,      \
-                                      void *fpstp) \
- { return itype##_to_##float##fsz##_scalbn(x, -shift, fpstp); }
--#define VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype, ROUND, suff)   \
--uint##isz##_t HELPER(vfp_to##name##p##suff)(float##fsz x, uint32_t shift, \
-+#define VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype, ROUND, suff) \
-+uint##isz##_t HELPER(vfp_to##name##p##suff)(ftype x, uint32_t shift,      \
-                                             void *fpst)                   \
- {                                                                         \
-     if (unlikely(float##fsz##_is_any_nan(x))) {                           \
-@@ -XXX,XX +XXX,XX @@ uint##isz##_t HELPER(vfp_to##name##p##suff)(float##fsz x, uint32_t shift, \
-     return float##fsz##_to_##itype##_scalbn(x, ROUND, shift, fpst);       \
- }
--#define VFP_CONV_FIX(name, p, fsz, isz, itype)                   \
--VFP_CONV_FIX_FLOAT(name, p, fsz, isz, itype)                     \
--VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype,               \
-+#define VFP_CONV_FIX(name, p, fsz, ftype, isz, itype)            \
-+VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)              \
-+VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype,        \
-                          float_round_to_zero, _round_to_zero)    \
--VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype,               \
-+VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype,        \
-                          get_float_rounding_mode(fpst), )
--#define VFP_CONV_FIX_A64(name, p, fsz, isz, itype)               \
--VFP_CONV_FIX_FLOAT(name, p, fsz, isz, itype)                     \
--VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype,               \
-+#define VFP_CONV_FIX_A64(name, p, fsz, ftype, isz, itype)        \
-+VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)              \
-+VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype,        \
-                          get_float_rounding_mode(fpst), )
--VFP_CONV_FIX(sh, d, 64, 64, int16)
--VFP_CONV_FIX(sl, d, 64, 64, int32)
--VFP_CONV_FIX_A64(sq, d, 64, 64, int64)
--VFP_CONV_FIX(uh, d, 64, 64, uint16)
--VFP_CONV_FIX(ul, d, 64, 64, uint32)
--VFP_CONV_FIX_A64(uq, d, 64, 64, uint64)
--VFP_CONV_FIX(sh, s, 32, 32, int16)
--VFP_CONV_FIX(sl, s, 32, 32, int32)
--VFP_CONV_FIX_A64(sq, s, 32, 64, int64)
--VFP_CONV_FIX(uh, s, 32, 32, uint16)
--VFP_CONV_FIX(ul, s, 32, 32, uint32)
--VFP_CONV_FIX_A64(uq, s, 32, 64, uint64)
-+VFP_CONV_FIX(sh, d, 64, float64, 64, int16)
-+VFP_CONV_FIX(sl, d, 64, float64, 64, int32)
-+VFP_CONV_FIX_A64(sq, d, 64, float64, 64, int64)
-+VFP_CONV_FIX(uh, d, 64, float64, 64, uint16)
-+VFP_CONV_FIX(ul, d, 64, float64, 64, uint32)
-+VFP_CONV_FIX_A64(uq, d, 64, float64, 64, uint64)
-+VFP_CONV_FIX(sh, s, 32, float32, 32, int16)
-+VFP_CONV_FIX(sl, s, 32, float32, 32, int32)
-+VFP_CONV_FIX_A64(sq, s, 32, float32, 64, int64)
-+VFP_CONV_FIX(uh, s, 32, float32, 32, uint16)
-+VFP_CONV_FIX(ul, s, 32, float32, 32, uint32)
-+VFP_CONV_FIX_A64(uq, s, 32, float32, 64, uint64)
- #undef VFP_CONV_FIX
- #undef VFP_CONV_FIX_FLOAT
---
-.20.1

-[PULL 14/47] target/arm: Use macros instead of open-coding fp16 conversion helpers
+Deleted patch
-Now the VFP_CONV_FIX macros can handle fp16's distinction between the
-width of the operation and the width of the type used to pass operands,
-use the macros rather than the open-coded functions.
-This creates an extra six helper functions, all of which we are going
-to need for the AArch32 VFP fp16 instructions.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-15-peter.maydell@linaro.org
----
- target/arm/helper.h     |  6 +++
- target/arm/vfp_helper.c | 86 +++--------------------------------------
-files changed, 12 insertions(+), 80 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(vfp_tosizh, s32, f16, ptr)
- DEF_HELPER_2(vfp_tosizs, s32, f32, ptr)
- DEF_HELPER_2(vfp_tosizd, s32, f64, ptr)
-+DEF_HELPER_3(vfp_toshh_round_to_zero, i32, f16, i32, ptr)
-+DEF_HELPER_3(vfp_toslh_round_to_zero, i32, f16, i32, ptr)
-+DEF_HELPER_3(vfp_touhh_round_to_zero, i32, f16, i32, ptr)
-+DEF_HELPER_3(vfp_toulh_round_to_zero, i32, f16, i32, ptr)
- DEF_HELPER_3(vfp_toshs_round_to_zero, i32, f32, i32, ptr)
- DEF_HELPER_3(vfp_tosls_round_to_zero, i32, f32, i32, ptr)
- DEF_HELPER_3(vfp_touhs_round_to_zero, i32, f32, i32, ptr)
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_sqtod, f64, i64, i32, ptr)
- DEF_HELPER_3(vfp_uhtod, f64, i64, i32, ptr)
- DEF_HELPER_3(vfp_ultod, f64, i64, i32, ptr)
- DEF_HELPER_3(vfp_uqtod, f64, i64, i32, ptr)
-+DEF_HELPER_3(vfp_shtoh, f16, i32, i32, ptr)
-+DEF_HELPER_3(vfp_uhtoh, f16, i32, i32, ptr)
- DEF_HELPER_3(vfp_sltoh, f16, i32, i32, ptr)
- DEF_HELPER_3(vfp_ultoh, f16, i32, i32, ptr)
- DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, ptr)
-diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vfp_helper.c
-+++ b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ VFP_CONV_FIX_A64(sq, s, 32, float32, 64, int64)
- VFP_CONV_FIX(uh, s, 32, float32, 32, uint16)
- VFP_CONV_FIX(ul, s, 32, float32, 32, uint32)
- VFP_CONV_FIX_A64(uq, s, 32, float32, 64, uint64)
-+VFP_CONV_FIX(sh, h, 16, dh_ctype_f16, 32, int16)
-+VFP_CONV_FIX(sl, h, 16, dh_ctype_f16, 32, int32)
-+VFP_CONV_FIX_A64(sq, h, 16, dh_ctype_f16, 64, int64)
-+VFP_CONV_FIX(uh, h, 16, dh_ctype_f16, 32, uint16)
-+VFP_CONV_FIX(ul, h, 16, dh_ctype_f16, 32, uint32)
-+VFP_CONV_FIX_A64(uq, h, 16, dh_ctype_f16, 64, uint64)
- #undef VFP_CONV_FIX
- #undef VFP_CONV_FIX_FLOAT
- #undef VFP_CONV_FLOAT_FIX_ROUND
- #undef VFP_CONV_FIX_A64
--uint32_t HELPER(vfp_sltoh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    return int32_to_float16_scalbn(x, -shift, fpst);
--}
--
--uint32_t HELPER(vfp_ultoh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    return uint32_to_float16_scalbn(x, -shift, fpst);
--}
--
--uint32_t HELPER(vfp_sqtoh)(uint64_t x, uint32_t shift, void *fpst)
--{
--    return int64_to_float16_scalbn(x, -shift, fpst);
--}
--
--uint32_t HELPER(vfp_uqtoh)(uint64_t x, uint32_t shift, void *fpst)
--{
--    return uint64_to_float16_scalbn(x, -shift, fpst);
--}
--
--uint32_t HELPER(vfp_toshh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    if (unlikely(float16_is_any_nan(x))) {
--        float_raise(float_flag_invalid, fpst);
--        return 0;
--    }
--    return float16_to_int16_scalbn(x, get_float_rounding_mode(fpst),
--                                   shift, fpst);
--}
--
--uint32_t HELPER(vfp_touhh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    if (unlikely(float16_is_any_nan(x))) {
--        float_raise(float_flag_invalid, fpst);
--        return 0;
--    }
--    return float16_to_uint16_scalbn(x, get_float_rounding_mode(fpst),
--                                    shift, fpst);
--}
--
--uint32_t HELPER(vfp_toslh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    if (unlikely(float16_is_any_nan(x))) {
--        float_raise(float_flag_invalid, fpst);
--        return 0;
--    }
--    return float16_to_int32_scalbn(x, get_float_rounding_mode(fpst),
--                                   shift, fpst);
--}
--
--uint32_t HELPER(vfp_toulh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    if (unlikely(float16_is_any_nan(x))) {
--        float_raise(float_flag_invalid, fpst);
--        return 0;
--    }
--    return float16_to_uint32_scalbn(x, get_float_rounding_mode(fpst),
--                                    shift, fpst);
--}
--
--uint64_t HELPER(vfp_tosqh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    if (unlikely(float16_is_any_nan(x))) {
--        float_raise(float_flag_invalid, fpst);
--        return 0;
--    }
--    return float16_to_int64_scalbn(x, get_float_rounding_mode(fpst),
--                                   shift, fpst);
--}
--
--uint64_t HELPER(vfp_touqh)(uint32_t x, uint32_t shift, void *fpst)
--{
--    if (unlikely(float16_is_any_nan(x))) {
--        float_raise(float_flag_invalid, fpst);
--        return 0;
--    }
--    return float16_to_uint64_scalbn(x, get_float_rounding_mode(fpst),
--                                    shift, fpst);
--}
--
- /* Set the current fp rounding mode and return the old one.
-  * The argument is a softfloat float_round_ value.
-  */
---
-.20.1

-[PULL 22/47] target/arm: Implement FP16 for Neon VADD, VSUB, VABD, VMUL
+Deleted patch
-Implement FP16 support for the Neon insns which use the DO_3S_FP_GVEC
-macro: VADD, VSUB, VABD, VMUL.
-For VABD this requires us to implement a new gvec_fabd_h helper
-using the machinery we have already for the other helpers.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-24-peter.maydell@linaro.org
----
- target/arm/helper.h             |  1 +
- target/arm/vec_helper.c         |  6 ++++++
- target/arm/translate-neon.c.inc | 36 +++++++++++++++++----------------
-files changed, 26 insertions(+), 17 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ static float64 float64_ftsmul(float64 op1, uint64_t op2, float_status *stat)
-     return result;
- }
-+static float16 float16_abd(float16 op1, float16 op2, float_status *stat)
-+{
-+    return float16_abs(float16_sub(op1, op2, stat));
-+}
-+
- static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
- {
-     return float32_abs(float32_sub(op1, op2, stat));
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_h, float16_ftsmul, float16)
- DO_3OP(gvec_ftsmul_s, float32_ftsmul, float32)
- DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
-+DO_3OP(gvec_fabd_h, float16_abd, float16)
- DO_3OP(gvec_fabd_s, float32_abd, float32)
- #ifdef TARGET_AARCH64
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool do_3same_fp(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn,
-     return true;
- }
--/*
-- * For all the functions using this macro, size == 1 means fp16,
-- * which is an architecture extension we don't implement yet.
-- */
--#define DO_3S_FP_GVEC(INSN,FUNC)                                        \
--    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
--                                uint32_t rn_ofs, uint32_t rm_ofs,       \
--                                uint32_t oprsz, uint32_t maxsz)         \
-+#define WRAP_FP_GVEC(WRAPNAME, FPST, FUNC)                              \
-+    static void WRAPNAME(unsigned vece, uint32_t rd_ofs,                \
-+                         uint32_t rn_ofs, uint32_t rm_ofs,              \
-+                         uint32_t oprsz, uint32_t maxsz)                \
-     {                                                                   \
--        TCGv_ptr fpst = fpstatus_ptr(FPST_STD);                         \
-+        TCGv_ptr fpst = fpstatus_ptr(FPST);                             \
-         tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpst,                \
-                            oprsz, maxsz, 0, FUNC);                      \
-         tcg_temp_free_ptr(fpst);                                        \
--    }                                                                   \
-+    }
-+
-+#define DO_3S_FP_GVEC(INSN,SFUNC,HFUNC)                                 \
-+    WRAP_FP_GVEC(gen_##INSN##_fp32_3s, FPST_STD, SFUNC)                 \
-+    WRAP_FP_GVEC(gen_##INSN##_fp16_3s, FPST_STD_F16, HFUNC)             \
-     static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a)     \
-     {                                                                   \
-         if (a->size != 0) {                                             \
--            /* TODO fp16 support */                                     \
--            return false;                                               \
-+            if (!dc_isar_feature(aa32_fp16_arith, s)) {                 \
-+                return false;                                           \
-+            }                                                           \
-+            return do_3same(s, a, gen_##INSN##_fp16_3s);                \
-         }                                                               \
--        return do_3same(s, a, gen_##INSN##_3s);                         \
-+        return do_3same(s, a, gen_##INSN##_fp32_3s);                    \
-     }
--DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
--DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
--DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
--DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s)
-+DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s, gen_helper_gvec_fadd_h)
-+DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s, gen_helper_gvec_fsub_h)
-+DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s, gen_helper_gvec_fabd_h)
-+DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
- /*
-  * For all the functions using this macro, size == 1 means fp16,
---
-.20.1

-[PULL 23/47] target/arm: Implement fp16 for Neon VRECPE, VRSQRTE using gvec
+Deleted patch
-We already have gvec helpers for floating point VRECPE and
-VRQSRTE, so convert the Neon decoder to use them and
-add the fp16 support.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-25-peter.maydell@linaro.org
----
- target/arm/translate-neon.c.inc | 31 +++++++++++++++++++++++++++++--
-file changed, 29 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool do_2misc_fp(DisasContext *s, arg_2misc *a,
-         return do_2misc_fp(s, a, FUNC);                         \
-     }
--DO_2MISC_FP(VRECPE_F, gen_helper_recpe_f32)
--DO_2MISC_FP(VRSQRTE_F, gen_helper_rsqrte_f32)
- DO_2MISC_FP(VCVT_FS, gen_helper_vfp_sitos)
- DO_2MISC_FP(VCVT_FU, gen_helper_vfp_uitos)
- DO_2MISC_FP(VCVT_SF, gen_helper_vfp_tosizs)
- DO_2MISC_FP(VCVT_UF, gen_helper_vfp_touizs)
-+#define DO_2MISC_FP_VEC(INSN, HFUNC, SFUNC)                             \
-+    static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
-+                           uint32_t rm_ofs,                             \
-+                           uint32_t oprsz, uint32_t maxsz)              \
-+    {                                                                   \
-+        static gen_helper_gvec_2_ptr * const fns[4] = {                 \
-+            NULL, HFUNC, SFUNC, NULL,                                   \
-+        };                                                              \
-+        TCGv_ptr fpst;                                                  \
-+        fpst = fpstatus_ptr(vece == MO_16 ? FPST_STD_F16 : FPST_STD);   \
-+        tcg_gen_gvec_2_ptr(rd_ofs, rm_ofs, fpst, oprsz, maxsz, 0,       \
-+                           fns[vece]);                                  \
-+        tcg_temp_free_ptr(fpst);                                        \
-+    }                                                                   \
-+    static bool trans_##INSN(DisasContext *s, arg_2misc *a)             \
-+    {                                                                   \
-+        if (a->size == MO_16) {                                         \
-+            if (!dc_isar_feature(aa32_fp16_arith, s)) {                 \
-+                return false;                                           \
-+            }                                                           \
-+        } else if (a->size != MO_32) {                                  \
-+            return false;                                               \
-+        }                                                               \
-+        return do_2misc_vec(s, a, gen_##INSN);                          \
-+    }
-+
-+DO_2MISC_FP_VEC(VRECPE_F, gen_helper_gvec_frecpe_h, gen_helper_gvec_frecpe_s)
-+DO_2MISC_FP_VEC(VRSQRTE_F, gen_helper_gvec_frsqrte_h, gen_helper_gvec_frsqrte_s)
-+
- static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
- {
-     if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
---
-.20.1

-[PULL 24/47] target/arm: Implement fp16 for Neon VABS, VNEG of floats
+Deleted patch
-Rewrite Neon VABS/VNEG of floats to use gvec logical AND and XOR, so
-that we can implement the fp16 version of the insns.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-26-peter.maydell@linaro.org
----
- target/arm/translate-neon.c.inc | 34 +++++++++++++++++++++++++++------
-file changed, 28 insertions(+), 6 deletions(-)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCNT(DisasContext *s, arg_2misc *a)
-     return do_2misc(s, a, gen_helper_neon_cnt_u8);
- }
-+static void gen_VABS_F(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                       uint32_t oprsz, uint32_t maxsz)
-+{
-+    tcg_gen_gvec_andi(vece, rd_ofs, rm_ofs,
-+                      vece == MO_16 ? 0x7fff : 0x7fffffff,
-+                      oprsz, maxsz);
-+}
-+
- static bool trans_VABS_F(DisasContext *s, arg_2misc *a)
- {
--    if (a->size != 2) {
-+    if (a->size == MO_16) {
-+        if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+            return false;
-+        }
-+    } else if (a->size != MO_32) {
-         return false;
-     }
--    /* TODO: FP16 : size == 1 */
--    return do_2misc(s, a, gen_helper_vfp_abss);
-+    return do_2misc_vec(s, a, gen_VABS_F);
-+}
-+
-+static void gen_VNEG_F(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                       uint32_t oprsz, uint32_t maxsz)
-+{
-+    tcg_gen_gvec_xori(vece, rd_ofs, rm_ofs,
-+                      vece == MO_16 ? 0x8000 : 0x80000000,
-+                      oprsz, maxsz);
- }
- static bool trans_VNEG_F(DisasContext *s, arg_2misc *a)
- {
--    if (a->size != 2) {
-+    if (a->size == MO_16) {
-+        if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+            return false;
-+        }
-+    } else if (a->size != MO_32) {
-         return false;
-     }
--    /* TODO: FP16 : size == 1 */
--    return do_2misc(s, a, gen_helper_vfp_negs);
-+    return do_2misc_vec(s, a, gen_VNEG_F);
- }
- static bool trans_VRECPE(DisasContext *s, arg_2misc *a)
---
-.20.1

-[PULL 25/47] target/arm: Implement fp16 for VCEQ, VCGE, VCGT comparisons
+Deleted patch
-Convert the Neon floating-point vector comparison ops VCEQ,
-VCGE and VCGT over to using a gvec helper and use this to
-implement the fp16 case.
-(We put the float16_ceq() etc functions above the DO_2OP()
-macro definition because later when we convert the
-compare-against-zero instructions we'll want their
-definitions to be visible at that point in the source file.)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-27-peter.maydell@linaro.org
----
- target/arm/helper.h             |  9 +++++++
- target/arm/vec_helper.c         | 44 +++++++++++++++++++++++++++++++++
- target/arm/translate-neon.c.inc |  6 ++---
-files changed, 56 insertions(+), 3 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
-                    void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlad)(void *vd, void *vn, void *vm,
-     clear_tail(d, opr_sz, simd_maxsz(desc));
- }
-+/*
-+ * Floating point comparisons producing an integer result (all 1s or all 0s).
-+ * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
-+ * Softfloat routines return 0/1, which we convert to the 0/-1 Neon requires.
-+ */
-+static uint16_t float16_ceq(float16 op1, float16 op2, float_status *stat)
-+{
-+    return -float16_eq_quiet(op1, op2, stat);
-+}
-+
-+static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
-+{
-+    return -float32_eq_quiet(op1, op2, stat);
-+}
-+
-+static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
-+{
-+    return -float16_le(op2, op1, stat);
-+}
-+
-+static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
-+{
-+    return -float32_le(op2, op1, stat);
-+}
-+
-+static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
-+{
-+    return -float16_lt(op2, op1, stat);
-+}
-+
-+static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
-+{
-+    return -float32_lt(op2, op1, stat);
-+}
-+
- #define DO_2OP(NAME, FUNC, TYPE) \
- void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
- {                                                                 \
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
- DO_3OP(gvec_fabd_h, float16_abd, float16)
- DO_3OP(gvec_fabd_s, float32_abd, float32)
-+DO_3OP(gvec_fceq_h, float16_ceq, float16)
-+DO_3OP(gvec_fceq_s, float32_ceq, float32)
-+
-+DO_3OP(gvec_fcge_h, float16_cge, float16)
-+DO_3OP(gvec_fcge_s, float32_cge, float32)
-+
-+DO_3OP(gvec_fcgt_h, float16_cgt, float16)
-+DO_3OP(gvec_fcgt_s, float32_cgt, float32)
-+
- #ifdef TARGET_AARCH64
- DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s, gen_helper_gvec_fadd_h)
- DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s, gen_helper_gvec_fsub_h)
- DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s, gen_helper_gvec_fabd_h)
- DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
-+DO_3S_FP_GVEC(VCEQ, gen_helper_gvec_fceq_s, gen_helper_gvec_fceq_h)
-+DO_3S_FP_GVEC(VCGE, gen_helper_gvec_fcge_s, gen_helper_gvec_fcge_h)
-+DO_3S_FP_GVEC(VCGT, gen_helper_gvec_fcgt_s, gen_helper_gvec_fcgt_h)
- /*
-  * For all the functions using this macro, size == 1 means fp16,
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
-         return do_3same_fp(s, a, FUNC, READS_VD);                   \
-     }
--DO_3S_FP(VCEQ, gen_helper_neon_ceq_f32, false)
--DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
--DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
- DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
- DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
- DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
---
-.20.1

-[PULL 27/47] target/arm: Implement fp16 for Neon VMAX, VMIN
+Deleted patch
-Convert the Neon float-point VMAX and VMIN insns over to using
-a gvec helper, and use this to implement the fp16 case.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-29-peter.maydell@linaro.org
----
- target/arm/helper.h             | 6 ++++++
- target/arm/vec_helper.c         | 6 ++++++
- target/arm/translate-neon.c.inc | 5 ++---
-files changed, 14 insertions(+), 3 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
-                    void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facge_s, float32_acge, float32)
- DO_3OP(gvec_facgt_h, float16_acgt, float16)
- DO_3OP(gvec_facgt_s, float32_acgt, float32)
-+DO_3OP(gvec_fmax_h, float16_max, float16)
-+DO_3OP(gvec_fmax_s, float32_max, float32)
-+
-+DO_3OP(gvec_fmin_h, float16_min, float16)
-+DO_3OP(gvec_fmin_s, float32_min, float32)
-+
- #ifdef TARGET_AARCH64
- DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VCGE, gen_helper_gvec_fcge_s, gen_helper_gvec_fcge_h)
- DO_3S_FP_GVEC(VCGT, gen_helper_gvec_fcgt_s, gen_helper_gvec_fcgt_h)
- DO_3S_FP_GVEC(VACGE, gen_helper_gvec_facge_s, gen_helper_gvec_facge_h)
- DO_3S_FP_GVEC(VACGT, gen_helper_gvec_facgt_s, gen_helper_gvec_facgt_h)
-+DO_3S_FP_GVEC(VMAX, gen_helper_gvec_fmax_s, gen_helper_gvec_fmax_h)
-+DO_3S_FP_GVEC(VMIN, gen_helper_gvec_fmin_s, gen_helper_gvec_fmin_h)
- /*
-  * For all the functions using this macro, size == 1 means fp16,
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VACGT, gen_helper_gvec_facgt_s, gen_helper_gvec_facgt_h)
-         return do_3same_fp(s, a, FUNC, READS_VD);                   \
-     }
--DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
--DO_3S_FP(VMIN, gen_helper_vfp_mins, false)
--
- static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                             TCGv_ptr fpstatus)
- {
---
-.20.1

-[PULL 28/47] target/arm: Implement fp16 for Neon VMAXNM, VMINNM
+Deleted patch
-Convert the Neon floating point VMAXNM and VMINNM insns to
-using a gvec helper and use this to implement the fp16 case.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-30-peter.maydell@linaro.org
----
- target/arm/helper.h             |  6 ++++++
- target/arm/vec_helper.c         |  6 ++++++
- target/arm/translate-neon.c.inc | 23 +++++++++++++++--------
-files changed, 27 insertions(+), 8 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
-                    void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fmax_s, float32_max, float32)
- DO_3OP(gvec_fmin_h, float16_min, float16)
- DO_3OP(gvec_fmin_s, float32_min, float32)
-+DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
-+DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
-+
-+DO_3OP(gvec_fminnum_h, float16_minnum, float16)
-+DO_3OP(gvec_fminnum_s, float32_minnum, float32)
-+
- #ifdef TARGET_AARCH64
- DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
- DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
- DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
-+WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
-+WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
-+WRAP_FP_GVEC(gen_VMINNM_fp32_3s, FPST_STD, gen_helper_gvec_fminnum_s)
-+WRAP_FP_GVEC(gen_VMINNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fminnum_h)
-+
- static bool trans_VMAXNM_fp_3s(DisasContext *s, arg_3same *a)
- {
-     if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMAXNM_fp_3s(DisasContext *s, arg_3same *a)
-     }
-     if (a->size != 0) {
--        /* TODO fp16 support */
--        return false;
-+        if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+            return false;
-+        }
-+        return do_3same(s, a, gen_VMAXNM_fp16_3s);
-     }
--
--    return do_3same_fp(s, a, gen_helper_vfp_maxnums, false);
-+    return do_3same(s, a, gen_VMAXNM_fp32_3s);
- }
- static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
-     }
-     if (a->size != 0) {
--        /* TODO fp16 support */
--        return false;
-+        if (!dc_isar_feature(aa32_fp16_arith, s)) {
-+            return false;
-+        }
-+        return do_3same(s, a, gen_VMINNM_fp16_3s);
-     }
--
--    return do_3same_fp(s, a, gen_helper_vfp_minnums, false);
-+    return do_3same(s, a, gen_VMINNM_fp32_3s);
- }
- WRAP_ENV_FN(gen_VRECPS_tramp, gen_helper_recps_f32)
---
-.20.1

-[PULL 29/47] target/arm: Implement fp16 for Neon VMLA, VMLS operations
+Deleted patch
-Convert the Neon floating-point VMLA and VMLS insns over to using a
-gvec helper, and use this to implement the fp16 case.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200828183354.27913-31-peter.maydell@linaro.org
----
- target/arm/helper.h             |  6 +++++
- target/arm/vec_helper.c         | 42 +++++++++++++++++++++++++++++++++
- target/arm/translate-neon.c.inc | 33 ++------------------------
-files changed, 50 insertions(+), 31 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i3
- DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
-                    void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_d, helper_rsqrtsf_f64, float64)
- #endif
- #undef DO_3OP
-+/* Non-fused multiply-add (unlike float16_muladd etc, which are fused) */
-+static float16 float16_muladd_nf(float16 dest, float16 op1, float16 op2,
-+                                 float_status *stat)
-+{
-+    return float16_add(dest, float16_mul(op1, op2, stat), stat);
-+}
-+
-+static float32 float32_muladd_nf(float32 dest, float32 op1, float32 op2,
-+                                 float_status *stat)
-+{
-+    return float32_add(dest, float32_mul(op1, op2, stat), stat);
-+}
-+
-+static float16 float16_mulsub_nf(float16 dest, float16 op1, float16 op2,
-+                                 float_status *stat)
-+{
-+    return float16_sub(dest, float16_mul(op1, op2, stat), stat);
-+}
-+
-+static float32 float32_mulsub_nf(float32 dest, float32 op1, float32 op2,
-+                                 float_status *stat)
-+{
-+    return float32_sub(dest, float32_mul(op1, op2, stat), stat);
-+}
-+
-+#define DO_MULADD(NAME, FUNC, TYPE) \
-+void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-+{                                                                          \
-+    intptr_t i, oprsz = simd_oprsz(desc);                                  \
-+    TYPE *d = vd, *n = vn, *m = vm;                                        \
-+    for (i = 0; i < oprsz / sizeof(TYPE); i++) {                           \
-+        d[i] = FUNC(d[i], n[i], m[i], stat);                               \
-+    }                                                                      \
-+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
-+}
-+
-+DO_MULADD(gvec_fmla_h, float16_muladd_nf, float16)
-+DO_MULADD(gvec_fmla_s, float32_muladd_nf, float32)
-+
-+DO_MULADD(gvec_fmls_h, float16_mulsub_nf, float16)
-+DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
-+
- /* For the indexed ops, SVE applies the index per 128-bit vector segment.
-  * For AdvSIMD, there is of course only one such vector segment.
-  */
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VACGE, gen_helper_gvec_facge_s, gen_helper_gvec_facge_h)
- DO_3S_FP_GVEC(VACGT, gen_helper_gvec_facgt_s, gen_helper_gvec_facgt_h)
- DO_3S_FP_GVEC(VMAX, gen_helper_gvec_fmax_s, gen_helper_gvec_fmax_h)
- DO_3S_FP_GVEC(VMIN, gen_helper_gvec_fmin_s, gen_helper_gvec_fmin_h)
--
--/*
-- * For all the functions using this macro, size == 1 means fp16,
-- * which is an architecture extension we don't implement yet.
-- */
--#define DO_3S_FP(INSN,FUNC,READS_VD)                                \
--    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
--    {                                                               \
--        if (a->size != 0) {                                         \
--            /* TODO fp16 support */                                 \
--            return false;                                           \
--        }                                                           \
--        return do_3same_fp(s, a, FUNC, READS_VD);                   \
--    }
--
--static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
--                            TCGv_ptr fpstatus)
--{
--    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
--    gen_helper_vfp_adds(vd, vd, vn, fpstatus);
--}
--
--static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
--                            TCGv_ptr fpstatus)
--{
--    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
--    gen_helper_vfp_subs(vd, vd, vn, fpstatus);
--}
--
--DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
--DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
-+DO_3S_FP_GVEC(VMLA, gen_helper_gvec_fmla_s, gen_helper_gvec_fmla_h)
-+DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
- WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
- WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
---
-.20.1

Just my fp16 work, plus some small stuff for the sbsa-ref board;
but my rule of thumb is to send a pullreq once I get over about
30 patches...

-- PMM

The following changes since commit 2f4c51c0f384d7888a04b4815861e6d5fd244d75:

Merge remote-tracking branch 'remotes/kraxel/tags/usb-20200831-pull-request' into staging (2020-08-31 19:39:13 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200901

for you to fetch changes up to 3f462bf0f6ea6382dd1502d4eb1fcd33c8e774f5:

hw/arm/sbsa-ref : Add embedded controller in secure memory (2020-09-01 14:01:34 +0100)

----------------------------------------------------------------
target-arm queue:
 * Implement fp16 support for AArch32 VFP and Neon
 * hw/arm/sbsa-ref: add "reg" property to DT cpu nodes
 * hw/arm/sbsa-ref : Add embedded controller in secure memory

----------------------------------------------------------------
Graeme Gregory (2):
      hw/misc/sbsa_ec : Add an embedded controller for sbsa-ref
      hw/arm/sbsa-ref : Add embedded controller in secure memory

Leif Lindholm (1):
      hw/arm/sbsa-ref: add "reg" property to DT cpu nodes

Peter Maydell (44):
      target/arm: Remove local definitions of float constants
      target/arm: Use correct ID register check for aa32_fp16_arith
      target/arm: Implement VFP fp16 for VFP_BINOP operations
      target/arm: Implement VFP fp16 VMLA, VMLS, VNMLS, VNMLA, VNMUL
      target/arm: Macroify trans functions for VFMA, VFMS, VFNMA, VFNMS
      target/arm: Implement VFP fp16 for fused-multiply-add
      target/arm: Macroify uses of do_vfp_2op_sp() and do_vfp_2op_dp()
      target/arm: Implement VFP fp16 for VABS, VNEG, VSQRT
      target/arm: Implement VFP fp16 for VMOV immediate
      target/arm: Implement VFP fp16 VCMP
      target/arm: Implement VFP fp16 VLDR and VSTR
      target/arm: Implement VFP fp16 VCVT between float and integer
      target/arm: Make VFP_CONV_FIX macros take separate float type and float size
      target/arm: Use macros instead of open-coding fp16 conversion helpers
      target/arm: Implement VFP fp16 VCVT between float and fixed-point
      target/arm: Implement VFP vp16 VCVT-with-specified-rounding-mode
      target/arm: Implement VFP fp16 VSEL
      target/arm: Implement VFP fp16 VRINT*
      target/arm: Implement new VFP fp16 insn VINS
      target/arm: Implement new VFP fp16 insn VMOVX
      target/arm: Implement VFP fp16 VMOV between gp and halfprec registers
      target/arm: Implement FP16 for Neon VADD, VSUB, VABD, VMUL
      target/arm: Implement fp16 for Neon VRECPE, VRSQRTE using gvec
      target/arm: Implement fp16 for Neon VABS, VNEG of floats
      target/arm: Implement fp16 for VCEQ, VCGE, VCGT comparisons
      target/arm: Implement fp16 for VACGE, VACGT
      target/arm: Implement fp16 for Neon VMAX, VMIN
      target/arm: Implement fp16 for Neon VMAXNM, VMINNM
      target/arm: Implement fp16 for Neon VMLA, VMLS operations
      target/arm: Implement fp16 for Neon VFMA, VMFS
      target/arm: Implement fp16 for Neon fp compare-vs-0
      target/arm: Implement fp16 for Neon VRECPS
      target/arm: Implement fp16 for Neon VRSQRTS
      target/arm: Implement fp16 for Neon pairwise fp ops
      target/arm: Implement fp16 for Neon float-integer VCVT
      target/arm: Convert Neon VCVT fixed-point to gvec
      target/arm: Implement fp16 for Neon VCVT fixed-point
      target/arm: Implement fp16 for Neon VCVT with rounding modes
      target/arm: Implement fp16 for Neon VRINT-with-specified-rounding-mode
      target/arm: Implement fp16 for Neon VRINTX
      target/arm/vec_helper: Handle oprsz less than 16 bytes in indexed operations
      target/arm/vec_helper: Add gvec fp indexed multiply-and-add operations
      target/arm: Implement fp16 for Neon VMUL, VMLA, VMLS
      target/arm: Enable FP16 in '-cpu max'

In several places the target/arm code defines local float constants
for 2, 3 and 1.5, which are also provided by include/fpu/softfloat.h.
Remove the unnecessary local duplicate versions.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-2-peter.maydell@linaro.org
---
 target/arm/helper-a64.c    | 11 -----------
 target/arm/translate-sve.c |  4 ----
 target/arm/vfp_helper.c    |  4 ----
 3 files changed, 19 deletions(-)

diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
  * versions, these do a fully fused multiply-add or
  * multiply-add-and-halve.
  */
-#define float16_two make_float16(0x4000)
-#define float16_three make_float16(0x4200)
-#define float16_one_point_five make_float16(0x3e00)
-
-#define float32_two make_float32(0x40000000)
-#define float32_three make_float32(0x40400000)
-#define float32_one_point_five make_float32(0x3fc00000)
-
-#define float64_two make_float64(0x4000000000000000ULL)
-#define float64_three make_float64(0x4008000000000000ULL)
-#define float64_one_point_five make_float64(0x3FF8000000000000ULL)
 
 uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_##NAME##_zpzi(DisasContext *s, arg_rpri_esz *a)         \
     return true;                                                          \
 }
 
-#define float16_two  make_float16(0x4000)
-#define float32_two  make_float32(0x40000000)
-#define float64_two  make_float64(0x4000000000000000ULL)
-
 DO_FP_IMM(FADD, fadds, half, one)
 DO_FP_IMM(FSUB, fsubs, half, one)
 DO_FP_IMM(FMUL, fmuls, half, two)
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-#define float32_two make_float32(0x40000000)
-#define float32_three make_float32(0x40400000)
-#define float32_one_point_five make_float32(0x3fc00000)
-
 float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
 {
     float_status *s = &env->vfp.standard_fp_status;
-- 
2.20.1

The aa32_fp16_arith feature check function currently looks at the
AArch64 ID_AA64PFR0 register. This is (as the comment notes) not
correct. The bogus check was put in mostly to allow testing of the
fp16 variants of the VCMLA instructions and it was something of
a mistake that we allowed them to exist in master.

Switch the feature check function to testing VMFR1.FPHP, which is
what it ought to be.

This will remove emulation of the VCMLA and VCADD insns from
AArch32 code running on an AArch64 '-cpu max' using system emulation.
(They were never enabled for aarch32 linux-user and system-emulation.)
Since we weren't advertising their existence via the AArch32 ID
register, well-behaved guests wouldn't have been using them anyway.

Once we have implemented all the AArch32 support for the FP16 extension
we will advertise it in the MVFR1 ID register field, which will reenable
these insns along with all the others.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-3-peter.maydell@linaro.org
---
 target/arm/cpu.h | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_predinv(const ARMISARegisters *id)
 
 static inline bool isar_feature_aa32_fp16_arith(const ARMISARegisters *id)
 {
-    /*
-     * This is a placeholder for use by VCMA until the rest of
-     * the ARMv8.2-FP16 extension is implemented for aa32 mode.
-     * At which point we can properly set and check MVFR1.FPHP.
-     */
-    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, FP) == 1;
+    return FIELD_EX32(id->mvfr1, MVFR1, FPHP) >= 3;
 }
 
 static inline bool isar_feature_aa32_vfp_simd(const ARMISARegisters *id)
-- 
2.20.1

Implmeent VFP fp16 support for simple binary-operator VFP insns VADD,
VSUB, VMUL, VDIV, VMINNM and VMAXNM:

* make the VFP_BINOP() macro generate float16 helpers as well as
   float32 and float64
 * implement a do_vfp_3op_hp() function similar to the existing
   do_vfp_3op_sp()
 * add decode for the half-precision insn patterns

Note that the VFP_BINOP macro use creates a couple of unused helper
functions vfp_maxh and vfp_minh, but they're small so it's not worth
splitting the BINOP operations into "needs halfprec" and "no
halfprec" groups.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-4-peter.maydell@linaro.org
---
 target/arm/helper.h            |  8 ++++
 target/arm/vfp-uncond.decode   |  3 ++
 target/arm/vfp.decode          |  4 ++
 target/arm/vfp_helper.c        |  5 ++
 target/arm/translate-vfp.c.inc | 86 ++++++++++++++++++++++++++++++++++
 5 files changed, 106 insertions(+)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(probe_access, TCG_CALL_NO_WG, void, env, tl, i32, i32, i32)
 DEF_HELPER_1(vfp_get_fpscr, i32, env)
 DEF_HELPER_2(vfp_set_fpscr, void, env, i32)
 
+DEF_HELPER_3(vfp_addh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_adds, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_addd, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_subh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_subs, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_subd, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_mulh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_muls, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_muld, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_divh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_divs, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_divd, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_maxh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_maxs, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_maxd, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_minh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_mins, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_mind, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_maxnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_maxnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
+DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
 DEF_HELPER_1(vfp_negs, f32, f32)
diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp-uncond.decode
+++ b/target/arm/vfp-uncond.decode
@@ -XXX,XX +XXX,XX @@ VSEL        1111 1110 0. cc:2 .... .... 1010 .0.0 .... \
 VSEL        1111 1110 0. cc:2 .... .... 1011 .0.0 .... \
             vm=%vm_dp vn=%vn_dp vd=%vd_dp dp=1
 
+VMAXNM_hp   1111 1110 1.00 .... .... 1001 .0.0 ....         @vfp_dnm_s
+VMINNM_hp   1111 1110 1.00 .... .... 1001 .1.0 ....         @vfp_dnm_s
+
 VMAXNM_sp   1111 1110 1.00 .... .... 1010 .0.0 ....         @vfp_dnm_s
 VMINNM_sp   1111 1110 1.00 .... .... 1010 .1.0 ....         @vfp_dnm_s
 
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VNMLS_dp     ---- 1110 0.01 .... .... 1011 .0.0 ....        @vfp_dnm_d
 VNMLA_sp     ---- 1110 0.01 .... .... 1010 .1.0 ....        @vfp_dnm_s
 VNMLA_dp     ---- 1110 0.01 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
+VMUL_hp      ---- 1110 0.10 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VMUL_sp      ---- 1110 0.10 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VMUL_dp      ---- 1110 0.10 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
 VNMUL_sp     ---- 1110 0.10 .... .... 1010 .1.0 ....        @vfp_dnm_s
 VNMUL_dp     ---- 1110 0.10 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
+VADD_hp      ---- 1110 0.11 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VADD_sp      ---- 1110 0.11 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VADD_dp      ---- 1110 0.11 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
+VSUB_hp      ---- 1110 0.11 .... .... 1001 .1.0 ....        @vfp_dnm_s
 VSUB_sp      ---- 1110 0.11 .... .... 1010 .1.0 ....        @vfp_dnm_s
 VSUB_dp      ---- 1110 0.11 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
+VDIV_hp      ---- 1110 1.00 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VDIV_sp      ---- 1110 1.00 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VDIV_dp      ---- 1110 1.00 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val)
 #define VFP_HELPER(name, p) HELPER(glue(glue(vfp_,name),p))
 
 #define VFP_BINOP(name) \
+dh_ctype_f16 VFP_HELPER(name, h)(dh_ctype_f16 a, dh_ctype_f16 b, void *fpstp) \
+{ \
+    float_status *fpst = fpstp; \
+    return float16_ ## name(a, b, fpst); \
+} \
 float32 VFP_HELPER(name, s)(float32 a, float32 b, void *fpstp) \
 { \
     float_status *fpst = fpstp; \
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_sp(DisasContext *s, VFPGen3OpSPFn *fn,
     return true;
 }
 
+static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
+                          int vd, int vn, int vm, bool reads_vd)
+{
+    /*
+     * Do a half-precision operation. Functionally this is
+     * the same as do_vfp_3op_sp(), except:
+     *  - it uses the FPST_FPCR_F16
+     *  - it doesn't need the VFP vector handling (fp16 is a
+     *    v8 feature, and in v8 VFP vectors don't exist)
+     *  - it does the aa32_fp16_arith feature test
+     */
+    TCGv_i32 f0, f1, fd;
+    TCGv_ptr fpst;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (s->vec_len != 0 || s->vec_stride != 0) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    f0 = tcg_temp_new_i32();
+    f1 = tcg_temp_new_i32();
+    fd = tcg_temp_new_i32();
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+
+    neon_load_reg32(f0, vn);
+    neon_load_reg32(f1, vm);
+
+    if (reads_vd) {
+        neon_load_reg32(fd, vd);
+    }
+    fn(fd, f0, f1, fpst);
+    neon_store_reg32(fd, vd);
+
+    tcg_temp_free_i32(f0);
+    tcg_temp_free_i32(f1);
+    tcg_temp_free_i32(fd);
+    tcg_temp_free_ptr(fpst);
+
+    return true;
+}
+
 static bool do_vfp_3op_dp(DisasContext *s, VFPGen3OpDPFn *fn,
                           int vd, int vn, int vm, bool reads_vd)
 {
@@ -XXX,XX +XXX,XX @@ static bool trans_VNMLA_dp(DisasContext *s, arg_VNMLA_dp *a)
     return do_vfp_3op_dp(s, gen_VNMLA_dp, a->vd, a->vn, a->vm, true);
 }
 
+static bool trans_VMUL_hp(DisasContext *s, arg_VMUL_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_helper_vfp_mulh, a->vd, a->vn, a->vm, false);
+}
+
 static bool trans_VMUL_sp(DisasContext *s, arg_VMUL_sp *a)
 {
     return do_vfp_3op_sp(s, gen_helper_vfp_muls, a->vd, a->vn, a->vm, false);
@@ -XXX,XX +XXX,XX @@ static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
     return do_vfp_3op_dp(s, gen_VNMUL_dp, a->vd, a->vn, a->vm, false);
 }
 
+static bool trans_VADD_hp(DisasContext *s, arg_VADD_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_helper_vfp_addh, a->vd, a->vn, a->vm, false);
+}
+
 static bool trans_VADD_sp(DisasContext *s, arg_VADD_sp *a)
 {
     return do_vfp_3op_sp(s, gen_helper_vfp_adds, a->vd, a->vn, a->vm, false);
@@ -XXX,XX +XXX,XX @@ static bool trans_VADD_dp(DisasContext *s, arg_VADD_dp *a)
     return do_vfp_3op_dp(s, gen_helper_vfp_addd, a->vd, a->vn, a->vm, false);
 }
 
+static bool trans_VSUB_hp(DisasContext *s, arg_VSUB_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_helper_vfp_subh, a->vd, a->vn, a->vm, false);
+}
+
 static bool trans_VSUB_sp(DisasContext *s, arg_VSUB_sp *a)
 {
     return do_vfp_3op_sp(s, gen_helper_vfp_subs, a->vd, a->vn, a->vm, false);
@@ -XXX,XX +XXX,XX @@ static bool trans_VSUB_dp(DisasContext *s, arg_VSUB_dp *a)
     return do_vfp_3op_dp(s, gen_helper_vfp_subd, a->vd, a->vn, a->vm, false);
 }
 
+static bool trans_VDIV_hp(DisasContext *s, arg_VDIV_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_helper_vfp_divh, a->vd, a->vn, a->vm, false);
+}
+
 static bool trans_VDIV_sp(DisasContext *s, arg_VDIV_sp *a)
 {
     return do_vfp_3op_sp(s, gen_helper_vfp_divs, a->vd, a->vn, a->vm, false);
@@ -XXX,XX +XXX,XX @@ static bool trans_VDIV_dp(DisasContext *s, arg_VDIV_dp *a)
     return do_vfp_3op_dp(s, gen_helper_vfp_divd, a->vd, a->vn, a->vm, false);
 }
 
+static bool trans_VMINNM_hp(DisasContext *s, arg_VMINNM_sp *a)
+{
+    if (!dc_isar_feature(aa32_vminmaxnm, s)) {
+        return false;
+    }
+    return do_vfp_3op_hp(s, gen_helper_vfp_minnumh,
+                         a->vd, a->vn, a->vm, false);
+}
+
+static bool trans_VMAXNM_hp(DisasContext *s, arg_VMAXNM_sp *a)
+{
+    if (!dc_isar_feature(aa32_vminmaxnm, s)) {
+        return false;
+    }
+    return do_vfp_3op_hp(s, gen_helper_vfp_maxnumh,
+                         a->vd, a->vn, a->vm, false);
+}
+
 static bool trans_VMINNM_sp(DisasContext *s, arg_VMINNM_sp *a)
 {
     if (!dc_isar_feature(aa32_vminmaxnm, s)) {
-- 
2.20.1

Implement fp16 versions of the VFP VMLA, VMLS, VNMLS, VNMLA, VNMUL
instructions. (These are all the remaining ones which we implement
via do_vfp_3op_[hsd]p().)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-5-peter.maydell@linaro.org
---
 target/arm/helper.h            |  1 +
 target/arm/vfp.decode          |  5 ++
 target/arm/vfp_helper.c        |  5 ++
 target/arm/translate-vfp.c.inc | 84 ++++++++++++++++++++++++++++++++++
 4 files changed, 95 insertions(+)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
 DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
+DEF_HELPER_1(vfp_negh, f16, f16)
 DEF_HELPER_1(vfp_negs, f32, f32)
 DEF_HELPER_1(vfp_negd, f64, f64)
 DEF_HELPER_1(vfp_abss, f32, f32)
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VLDM_VSTM_dp ---- 1101 0.1 l:1 rn:4 .... 1011 imm:8 \
              vd=%vd_dp p=1 u=0 w=1
 
 # 3-register VFP data-processing; bits [23,21:20,6] identify the operation.
+VMLA_hp      ---- 1110 0.00 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VMLA_sp      ---- 1110 0.00 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VMLA_dp      ---- 1110 0.00 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
+VMLS_hp      ---- 1110 0.00 .... .... 1001 .1.0 ....        @vfp_dnm_s
 VMLS_sp      ---- 1110 0.00 .... .... 1010 .1.0 ....        @vfp_dnm_s
 VMLS_dp      ---- 1110 0.00 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
+VNMLS_hp     ---- 1110 0.01 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VNMLS_sp     ---- 1110 0.01 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VNMLS_dp     ---- 1110 0.01 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
+VNMLA_hp     ---- 1110 0.01 .... .... 1001 .1.0 ....        @vfp_dnm_s
 VNMLA_sp     ---- 1110 0.01 .... .... 1010 .1.0 ....        @vfp_dnm_s
 VNMLA_dp     ---- 1110 0.01 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
@@ -XXX,XX +XXX,XX @@ VMUL_hp      ---- 1110 0.10 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VMUL_sp      ---- 1110 0.10 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VMUL_dp      ---- 1110 0.10 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
+VNMUL_hp     ---- 1110 0.10 .... .... 1001 .1.0 ....        @vfp_dnm_s
 VNMUL_sp     ---- 1110 0.10 .... .... 1010 .1.0 ....        @vfp_dnm_s
 VNMUL_dp     ---- 1110 0.10 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
 VFP_BINOP(maxnum)
 #undef VFP_BINOP
 
+dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
+{
+    return float16_chs(a);
+}
+
 float32 VFP_HELPER(neg, s)(float32 a)
 {
     return float32_chs(a);
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
     return true;
 }
 
+static void gen_VMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+{
+    /* Note that order of inputs to the add matters for NaNs */
+    TCGv_i32 tmp = tcg_temp_new_i32();
+
+    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+    gen_helper_vfp_addh(vd, vd, tmp, fpst);
+    tcg_temp_free_i32(tmp);
+}
+
+static bool trans_VMLA_hp(DisasContext *s, arg_VMLA_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_VMLA_hp, a->vd, a->vn, a->vm, true);
+}
+
 static void gen_VMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* Note that order of inputs to the add matters for NaNs */
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLA_dp(DisasContext *s, arg_VMLA_dp *a)
     return do_vfp_3op_dp(s, gen_VMLA_dp, a->vd, a->vn, a->vm, true);
 }
 
+static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+{
+    /*
+     * VMLS: vd = vd + -(vn * vm)
+     * Note that order of inputs to the add matters for NaNs.
+     */
+    TCGv_i32 tmp = tcg_temp_new_i32();
+
+    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+    gen_helper_vfp_negh(tmp, tmp);
+    gen_helper_vfp_addh(vd, vd, tmp, fpst);
+    tcg_temp_free_i32(tmp);
+}
+
+static bool trans_VMLS_hp(DisasContext *s, arg_VMLS_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_VMLS_hp, a->vd, a->vn, a->vm, true);
+}
+
 static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLS_dp(DisasContext *s, arg_VMLS_dp *a)
     return do_vfp_3op_dp(s, gen_VMLS_dp, a->vd, a->vn, a->vm, true);
 }
 
+static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+{
+    /*
+     * VNMLS: -fd + (fn * fm)
+     * Note that it isn't valid to replace (-A + B) with (B - A) or similar
+     * plausible looking simplifications because this will give wrong results
+     * for NaNs.
+     */
+    TCGv_i32 tmp = tcg_temp_new_i32();
+
+    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+    gen_helper_vfp_negh(vd, vd);
+    gen_helper_vfp_addh(vd, vd, tmp, fpst);
+    tcg_temp_free_i32(tmp);
+}
+
+static bool trans_VNMLS_hp(DisasContext *s, arg_VNMLS_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_VNMLS_hp, a->vd, a->vn, a->vm, true);
+}
+
 static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static bool trans_VNMLS_dp(DisasContext *s, arg_VNMLS_dp *a)
     return do_vfp_3op_dp(s, gen_VNMLS_dp, a->vd, a->vn, a->vm, true);
 }
 
+static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+{
+    /* VNMLA: -fd + -(fn * fm) */
+    TCGv_i32 tmp = tcg_temp_new_i32();
+
+    gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+    gen_helper_vfp_negh(tmp, tmp);
+    gen_helper_vfp_negh(vd, vd);
+    gen_helper_vfp_addh(vd, vd, tmp, fpst);
+    tcg_temp_free_i32(tmp);
+}
+
+static bool trans_VNMLA_hp(DisasContext *s, arg_VNMLA_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_VNMLA_hp, a->vd, a->vn, a->vm, true);
+}
+
 static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMLA: -fd + -(fn * fm) */
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_dp(DisasContext *s, arg_VMUL_dp *a)
     return do_vfp_3op_dp(s, gen_helper_vfp_muld, a->vd, a->vn, a->vm, false);
 }
 
+static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+{
+    /* VNMUL: -(fn * fm) */
+    gen_helper_vfp_mulh(vd, vn, vm, fpst);
+    gen_helper_vfp_negh(vd, vd);
+}
+
+static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
+{
+    return do_vfp_3op_hp(s, gen_VNMUL_hp, a->vd, a->vn, a->vm, false);
+}
+
 static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
-- 
2.20.1

Macroify creation of the trans functions for single and double
precision VFMA, VFMS, VFNMA, VFNMS. The repetition was OK for
two sizes, but we're about to add halfprec and it will get a bit
more than seems reasonable.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-6-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c.inc | 50 +++++++++-------------------------
 1 file changed, 13 insertions(+), 37 deletions(-)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     return true;
 }
 
-static bool trans_VFMA_sp(DisasContext *s, arg_VFMA_sp *a)
-{
-    return do_vfm_sp(s, a, false, false);
-}
-
-static bool trans_VFMS_sp(DisasContext *s, arg_VFMS_sp *a)
-{
-    return do_vfm_sp(s, a, true, false);
-}
-
-static bool trans_VFNMA_sp(DisasContext *s, arg_VFNMA_sp *a)
-{
-    return do_vfm_sp(s, a, false, true);
-}
-
-static bool trans_VFNMS_sp(DisasContext *s, arg_VFNMS_sp *a)
-{
-    return do_vfm_sp(s, a, true, true);
-}
-
 static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
     return true;
 }
 
-static bool trans_VFMA_dp(DisasContext *s, arg_VFMA_dp *a)
-{
-    return do_vfm_dp(s, a, false, false);
-}
+#define MAKE_ONE_VFM_TRANS_FN(INSN, PREC, NEGN, NEGD)                   \
+    static bool trans_##INSN##_##PREC(DisasContext *s,                  \
+                                      arg_##INSN##_##PREC *a)           \
+    {                                                                   \
+        return do_vfm_##PREC(s, a, NEGN, NEGD);                         \
+    }
 
-static bool trans_VFMS_dp(DisasContext *s, arg_VFMS_dp *a)
-{
-    return do_vfm_dp(s, a, true, false);
-}
+#define MAKE_VFM_TRANS_FNS(PREC) \
+    MAKE_ONE_VFM_TRANS_FN(VFMA, PREC, false, false) \
+    MAKE_ONE_VFM_TRANS_FN(VFMS, PREC, true, false) \
+    MAKE_ONE_VFM_TRANS_FN(VFNMA, PREC, false, true) \
+    MAKE_ONE_VFM_TRANS_FN(VFNMS, PREC, true, true)
 
-static bool trans_VFNMA_dp(DisasContext *s, arg_VFNMA_dp *a)
-{
-    return do_vfm_dp(s, a, false, true);
-}
-
-static bool trans_VFNMS_dp(DisasContext *s, arg_VFNMS_dp *a)
-{
-    return do_vfm_dp(s, a, true, true);
-}
+MAKE_VFM_TRANS_FNS(sp)
+MAKE_VFM_TRANS_FNS(dp)
 
 static bool trans_VMOV_imm_sp(DisasContext *s, arg_VMOV_imm_sp *a)
 {
-- 
2.20.1

Implement VFP fp16 support for fused multiply-add insns
VFNMA, VFNMS, VFMA, VFMS.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-7-peter.maydell@linaro.org
---
 target/arm/helper.h            |  1 +
 target/arm/vfp.decode          |  5 +++
 target/arm/vfp_helper.c        |  7 ++++
 target/arm/translate-vfp.c.inc | 64 ++++++++++++++++++++++++++++++++++
 4 files changed, 77 insertions(+)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
 
 DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
 DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
+DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
 
 DEF_HELPER_3(recps_f32, f32, env, f32, f32)
 DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VDIV_hp      ---- 1110 1.00 .... .... 1001 .0.0 ....        @vfp_dnm_s
 VDIV_sp      ---- 1110 1.00 .... .... 1010 .0.0 ....        @vfp_dnm_s
 VDIV_dp      ---- 1110 1.00 .... .... 1011 .0.0 ....        @vfp_dnm_d
 
+VFMA_hp      ---- 1110 1.10 .... .... 1001 .0. 0 ....       @vfp_dnm_s
+VFMS_hp      ---- 1110 1.10 .... .... 1001 .1. 0 ....       @vfp_dnm_s
+VFNMA_hp     ---- 1110 1.01 .... .... 1001 .0. 0 ....       @vfp_dnm_s
+VFNMS_hp     ---- 1110 1.01 .... .... 1001 .1. 0 ....       @vfp_dnm_s
+
 VFMA_sp      ---- 1110 1.10 .... .... 1010 .0. 0 ....       @vfp_dnm_s
 VFMS_sp      ---- 1110 1.10 .... .... 1010 .1. 0 ....       @vfp_dnm_s
 VFNMA_sp     ---- 1110 1.01 .... .... 1010 .0. 0 ....       @vfp_dnm_s
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_u32)(uint32_t a)
 }
 
 /* VFPv4 fused multiply-accumulate */
+dh_ctype_f16 VFP_HELPER(muladd, h)(dh_ctype_f16 a, dh_ctype_f16 b,
+                                   dh_ctype_f16 c, void *fpstp)
+{
+    float_status *fpst = fpstp;
+    return float16_muladd(a, b, c, 0, fpst);
+}
+
 float32 VFP_HELPER(muladd, s)(float32 a, float32 b, float32 c, void *fpstp)
 {
     float_status *fpst = fpstp;
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMAXNM_dp(DisasContext *s, arg_VMAXNM_dp *a)
                          a->vd, a->vn, a->vm, false);
 }
 
+static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+{
+    /*
+     * VFNMA : fd = muladd(-fd,  fn, fm)
+     * VFNMS : fd = muladd(-fd, -fn, fm)
+     * VFMA  : fd = muladd( fd,  fn, fm)
+     * VFMS  : fd = muladd( fd, -fn, fm)
+     *
+     * These are fused multiply-add, and must be done as one floating
+     * point operation with no rounding between the multiplication and
+     * addition steps.  NB that doing the negations here as separate
+     * steps is correct : an input NaN should come out with its sign
+     * bit flipped if it is a negated-input.
+     */
+    TCGv_ptr fpst;
+    TCGv_i32 vn, vm, vd;
+
+    /*
+     * Present in VFPv4 only, and only with the FP16 extension.
+     * Note that we can't rely on the SIMDFMAC check alone, because
+     * in a Neon-no-VFP core that ID register field will be non-zero.
+     */
+    if (!dc_isar_feature(aa32_fp16_arith, s) ||
+        !dc_isar_feature(aa32_simdfmac, s) ||
+        !dc_isar_feature(aa32_fpsp_v2, s)) {
+        return false;
+    }
+
+    if (s->vec_len != 0 || s->vec_stride != 0) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    vn = tcg_temp_new_i32();
+    vm = tcg_temp_new_i32();
+    vd = tcg_temp_new_i32();
+
+    neon_load_reg32(vn, a->vn);
+    neon_load_reg32(vm, a->vm);
+    if (neg_n) {
+        /* VFNMS, VFMS */
+        gen_helper_vfp_negh(vn, vn);
+    }
+    neon_load_reg32(vd, a->vd);
+    if (neg_d) {
+        /* VFNMA, VFNMS */
+        gen_helper_vfp_negh(vd, vd);
+    }
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
+    neon_store_reg32(vd, a->vd);
+
+    tcg_temp_free_ptr(fpst);
+    tcg_temp_free_i32(vn);
+    tcg_temp_free_i32(vm);
+    tcg_temp_free_i32(vd);
+
+    return true;
+}
+
 static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
     MAKE_ONE_VFM_TRANS_FN(VFNMA, PREC, false, true) \
     MAKE_ONE_VFM_TRANS_FN(VFNMS, PREC, true, true)
 
+MAKE_VFM_TRANS_FNS(hp)
 MAKE_VFM_TRANS_FNS(sp)
 MAKE_VFM_TRANS_FNS(dp)
 
-- 
2.20.1

Macroify the uses of do_vfp_2op_sp() and do_vfp_2op_dp(); this will
make it easier to add the halfprec support.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-8-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c.inc | 49 ++++++++++------------------------
 1 file changed, 14 insertions(+), 35 deletions(-)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
     return true;
 }
 
-static bool trans_VMOV_reg_sp(DisasContext *s, arg_VMOV_reg_sp *a)
-{
-    return do_vfp_2op_sp(s, tcg_gen_mov_i32, a->vd, a->vm);
-}
+#define DO_VFP_2OP(INSN, PREC, FN)                              \
+    static bool trans_##INSN##_##PREC(DisasContext *s,          \
+                                      arg_##INSN##_##PREC *a)   \
+    {                                                           \
+        return do_vfp_2op_##PREC(s, FN, a->vd, a->vm);          \
+    }
 
-static bool trans_VMOV_reg_dp(DisasContext *s, arg_VMOV_reg_dp *a)
-{
-    return do_vfp_2op_dp(s, tcg_gen_mov_i64, a->vd, a->vm);
-}
+DO_VFP_2OP(VMOV_reg, sp, tcg_gen_mov_i32)
+DO_VFP_2OP(VMOV_reg, dp, tcg_gen_mov_i64)
 
-static bool trans_VABS_sp(DisasContext *s, arg_VABS_sp *a)
-{
-    return do_vfp_2op_sp(s, gen_helper_vfp_abss, a->vd, a->vm);
-}
+DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss)
+DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd)
 
-static bool trans_VABS_dp(DisasContext *s, arg_VABS_dp *a)
-{
-    return do_vfp_2op_dp(s, gen_helper_vfp_absd, a->vd, a->vm);
-}
-
-static bool trans_VNEG_sp(DisasContext *s, arg_VNEG_sp *a)
-{
-    return do_vfp_2op_sp(s, gen_helper_vfp_negs, a->vd, a->vm);
-}
-
-static bool trans_VNEG_dp(DisasContext *s, arg_VNEG_dp *a)
-{
-    return do_vfp_2op_dp(s, gen_helper_vfp_negd, a->vd, a->vm);
-}
+DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs)
+DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd)
 
 static void gen_VSQRT_sp(TCGv_i32 vd, TCGv_i32 vm)
 {
     gen_helper_vfp_sqrts(vd, vm, cpu_env);
 }
 
-static bool trans_VSQRT_sp(DisasContext *s, arg_VSQRT_sp *a)
-{
-    return do_vfp_2op_sp(s, gen_VSQRT_sp, a->vd, a->vm);
-}
-
 static void gen_VSQRT_dp(TCGv_i64 vd, TCGv_i64 vm)
 {
     gen_helper_vfp_sqrtd(vd, vm, cpu_env);
 }
 
-static bool trans_VSQRT_dp(DisasContext *s, arg_VSQRT_dp *a)
-{
-    return do_vfp_2op_dp(s, gen_VSQRT_dp, a->vd, a->vm);
-}
+DO_VFP_2OP(VSQRT, sp, gen_VSQRT_sp)
+DO_VFP_2OP(VSQRT, dp, gen_VSQRT_dp)
 
 static bool trans_VCMP_sp(DisasContext *s, arg_VCMP_sp *a)
 {
-- 
2.20.1

Implement VFP fp16 for VABS, VNEG and VSQRT. This is all
the fp16 insns that use the DO_VFP_2OP macro, because there
is no fp16 version of VMOV_reg.

Notes:
 * the gen_helper_vfp_negh already exists as we needed to create
   it for the fp16 multiply-add insns
 * as usual we need to use the f16 version of the fp_status;
   this is only relevant for VSQRT

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-9-peter.maydell@linaro.org
---
 target/arm/helper.h            |  2 ++
 target/arm/vfp.decode          |  3 +++
 target/arm/vfp_helper.c        | 10 +++++++++
 target/arm/translate-vfp.c.inc | 40 ++++++++++++++++++++++++++++++++++
 4 files changed, 55 insertions(+)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
 DEF_HELPER_1(vfp_negh, f16, f16)
 DEF_HELPER_1(vfp_negs, f32, f32)
 DEF_HELPER_1(vfp_negd, f64, f64)
+DEF_HELPER_1(vfp_absh, f16, f16)
 DEF_HELPER_1(vfp_abss, f32, f32)
 DEF_HELPER_1(vfp_absd, f64, f64)
+DEF_HELPER_2(vfp_sqrth, f16, f16, env)
 DEF_HELPER_2(vfp_sqrts, f32, f32, env)
 DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
 DEF_HELPER_3(vfp_cmps, void, f32, f32, env)
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VMOV_imm_dp  ---- 1110 1.11 .... .... 1011 0000 .... \
 VMOV_reg_sp  ---- 1110 1.11 0000 .... 1010 01.0 ....        @vfp_dm_ss
 VMOV_reg_dp  ---- 1110 1.11 0000 .... 1011 01.0 ....        @vfp_dm_dd
 
+VABS_hp      ---- 1110 1.11 0000 .... 1001 11.0 ....        @vfp_dm_ss
 VABS_sp      ---- 1110 1.11 0000 .... 1010 11.0 ....        @vfp_dm_ss
 VABS_dp      ---- 1110 1.11 0000 .... 1011 11.0 ....        @vfp_dm_dd
 
+VNEG_hp      ---- 1110 1.11 0001 .... 1001 01.0 ....        @vfp_dm_ss
 VNEG_sp      ---- 1110 1.11 0001 .... 1010 01.0 ....        @vfp_dm_ss
 VNEG_dp      ---- 1110 1.11 0001 .... 1011 01.0 ....        @vfp_dm_dd
 
+VSQRT_hp     ---- 1110 1.11 0001 .... 1001 11.0 ....        @vfp_dm_ss
 VSQRT_sp     ---- 1110 1.11 0001 .... 1010 11.0 ....        @vfp_dm_ss
 VSQRT_dp     ---- 1110 1.11 0001 .... 1011 11.0 ....        @vfp_dm_dd
 
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float64 VFP_HELPER(neg, d)(float64 a)
     return float64_chs(a);
 }
 
+dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
+{
+    return float16_abs(a);
+}
+
 float32 VFP_HELPER(abs, s)(float32 a)
 {
     return float32_abs(a);
@@ -XXX,XX +XXX,XX @@ float64 VFP_HELPER(abs, d)(float64 a)
     return float64_abs(a);
 }
 
+dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
+{
+    return float16_sqrt(a, &env->vfp.fp_status_f16);
+}
+
 float32 VFP_HELPER(sqrt, s)(float32 a, CPUARMState *env)
 {
     return float32_sqrt(a, &env->vfp.fp_status);
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_sp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
     return true;
 }
 
+static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
+{
+    /*
+     * Do a half-precision operation. Functionally this is
+     * the same as do_vfp_2op_sp(), except:
+     *  - it doesn't need the VFP vector handling (fp16 is a
+     *    v8 feature, and in v8 VFP vectors don't exist)
+     *  - it does the aa32_fp16_arith feature test
+     */
+    TCGv_i32 f0;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (s->vec_len != 0 || s->vec_stride != 0) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    f0 = tcg_temp_new_i32();
+    neon_load_reg32(f0, vm);
+    fn(f0, f0);
+    neon_store_reg32(f0, vd);
+    tcg_temp_free_i32(f0);
+
+    return true;
+}
+
 static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
 {
     uint32_t delta_m = 0;
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
 DO_VFP_2OP(VMOV_reg, sp, tcg_gen_mov_i32)
 DO_VFP_2OP(VMOV_reg, dp, tcg_gen_mov_i64)
 
+DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh)
 DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss)
 DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd)
 
+DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh)
 DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs)
 DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd)
 
+static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
+{
+    gen_helper_vfp_sqrth(vd, vm, cpu_env);
+}
+
 static void gen_VSQRT_sp(TCGv_i32 vd, TCGv_i32 vm)
 {
     gen_helper_vfp_sqrts(vd, vm, cpu_env);
@@ -XXX,XX +XXX,XX @@ static void gen_VSQRT_dp(TCGv_i64 vd, TCGv_i64 vm)
     gen_helper_vfp_sqrtd(vd, vm, cpu_env);
 }
 
+DO_VFP_2OP(VSQRT, hp, gen_VSQRT_hp)
 DO_VFP_2OP(VSQRT, sp, gen_VSQRT_sp)
 DO_VFP_2OP(VSQRT, dp, gen_VSQRT_dp)
 
-- 
2.20.1

Implement VFP fp16 support for the VMOV immediate insn.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-10-peter.maydell@linaro.org
---
 target/arm/vfp.decode          |  2 ++
 target/arm/translate-vfp.c.inc | 22 ++++++++++++++++++++++
 2 files changed, 24 insertions(+)

diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VFMS_dp      ---- 1110 1.10 .... .... 1011 .1.0 ....        @vfp_dnm_d
 VFNMA_dp     ---- 1110 1.01 .... .... 1011 .0.0 ....        @vfp_dnm_d
 VFNMS_dp     ---- 1110 1.01 .... .... 1011 .1.0 ....        @vfp_dnm_d
 
+VMOV_imm_hp  ---- 1110 1.11 .... .... 1001 0000 .... \
+             vd=%vd_sp imm=%vmov_imm
 VMOV_imm_sp  ---- 1110 1.11 .... .... 1010 0000 .... \
              vd=%vd_sp imm=%vmov_imm
 VMOV_imm_dp  ---- 1110 1.11 .... .... 1011 0000 .... \
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ MAKE_VFM_TRANS_FNS(hp)
 MAKE_VFM_TRANS_FNS(sp)
 MAKE_VFM_TRANS_FNS(dp)
 
+static bool trans_VMOV_imm_hp(DisasContext *s, arg_VMOV_imm_sp *a)
+{
+    TCGv_i32 fd;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (s->vec_len != 0 || s->vec_stride != 0) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    fd = tcg_const_i32(vfp_expand_imm(MO_16, a->imm));
+    neon_store_reg32(fd, a->vd);
+    tcg_temp_free_i32(fd);
+    return true;
+}
+
 static bool trans_VMOV_imm_sp(DisasContext *s, arg_VMOV_imm_sp *a)
 {
     uint32_t delta_d = 0;
-- 
2.20.1

Implement fp16 version of VCMP.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-11-peter.maydell@linaro.org
---
 target/arm/helper.h            |  2 ++
 target/arm/vfp.decode          |  2 ++
 target/arm/vfp_helper.c        | 15 +++++++------
 target/arm/translate-vfp.c.inc | 39 ++++++++++++++++++++++++++++++++++
 4 files changed, 51 insertions(+), 7 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_1(vfp_absd, f64, f64)
 DEF_HELPER_2(vfp_sqrth, f16, f16, env)
 DEF_HELPER_2(vfp_sqrts, f32, f32, env)
 DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
+DEF_HELPER_3(vfp_cmph, void, f16, f16, env)
 DEF_HELPER_3(vfp_cmps, void, f32, f32, env)
 DEF_HELPER_3(vfp_cmpd, void, f64, f64, env)
+DEF_HELPER_3(vfp_cmpeh, void, f16, f16, env)
 DEF_HELPER_3(vfp_cmpes, void, f32, f32, env)
 DEF_HELPER_3(vfp_cmped, void, f64, f64, env)
 
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VSQRT_hp     ---- 1110 1.11 0001 .... 1001 11.0 ....        @vfp_dm_ss
 VSQRT_sp     ---- 1110 1.11 0001 .... 1010 11.0 ....        @vfp_dm_ss
 VSQRT_dp     ---- 1110 1.11 0001 .... 1011 11.0 ....        @vfp_dm_dd
 
+VCMP_hp      ---- 1110 1.11 010 z:1 .... 1001 e:1 1.0 .... \
+             vd=%vd_sp vm=%vm_sp
 VCMP_sp      ---- 1110 1.11 010 z:1 .... 1010 e:1 1.0 .... \
              vd=%vd_sp vm=%vm_sp
 VCMP_dp      ---- 1110 1.11 010 z:1 .... 1011 e:1 1.0 .... \
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ static void softfloat_to_vfp_compare(CPUARMState *env, FloatRelation cmp)
 }
 
 /* XXX: check quiet/signaling case */
-#define DO_VFP_cmp(p, type) \
-void VFP_HELPER(cmp, p)(type a, type b, CPUARMState *env)  \
+#define DO_VFP_cmp(P, FLOATTYPE, ARGTYPE, FPST) \
+void VFP_HELPER(cmp, P)(ARGTYPE a, ARGTYPE b, CPUARMState *env)  \
 { \
     softfloat_to_vfp_compare(env, \
-        type ## _compare_quiet(a, b, &env->vfp.fp_status)); \
+        FLOATTYPE ## _compare_quiet(a, b, &env->vfp.FPST)); \
 } \
-void VFP_HELPER(cmpe, p)(type a, type b, CPUARMState *env) \
+void VFP_HELPER(cmpe, P)(ARGTYPE a, ARGTYPE b, CPUARMState *env) \
 { \
     softfloat_to_vfp_compare(env, \
-        type ## _compare(a, b, &env->vfp.fp_status)); \
+        FLOATTYPE ## _compare(a, b, &env->vfp.FPST)); \
 }
-DO_VFP_cmp(s, float32)
-DO_VFP_cmp(d, float64)
+DO_VFP_cmp(h, float16, dh_ctype_f16, fp_status_f16)
+DO_VFP_cmp(s, float32, float32, fp_status)
+DO_VFP_cmp(d, float64, float64, fp_status)
 #undef DO_VFP_cmp
 
 /* Integer to float and float to integer conversions */
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ DO_VFP_2OP(VSQRT, hp, gen_VSQRT_hp)
 DO_VFP_2OP(VSQRT, sp, gen_VSQRT_sp)
 DO_VFP_2OP(VSQRT, dp, gen_VSQRT_dp)
 
+static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
+{
+    TCGv_i32 vd, vm;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    /* Vm/M bits must be zero for the Z variant */
+    if (a->z && a->vm != 0) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    vd = tcg_temp_new_i32();
+    vm = tcg_temp_new_i32();
+
+    neon_load_reg32(vd, a->vd);
+    if (a->z) {
+        tcg_gen_movi_i32(vm, 0);
+    } else {
+        neon_load_reg32(vm, a->vm);
+    }
+
+    if (a->e) {
+        gen_helper_vfp_cmpeh(vd, vm, cpu_env);
+    } else {
+        gen_helper_vfp_cmph(vd, vm, cpu_env);
+    }
+
+    tcg_temp_free_i32(vd);
+    tcg_temp_free_i32(vm);
+
+    return true;
+}
+
 static bool trans_VCMP_sp(DisasContext *s, arg_VCMP_sp *a)
 {
     TCGv_i32 vd, vm;
-- 
2.20.1

Implement the fp16 versions of the VFP VLDR/VSTR (immediate).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-12-peter.maydell@linaro.org
---
 target/arm/vfp.decode          |  3 +--
 target/arm/translate-vfp.c.inc | 35 ++++++++++++++++++++++++++++++++++
 2 files changed, 36 insertions(+), 2 deletions(-)

diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VMOV_single  ---- 1110 000 l:1 .... rt:4 1010 . 001 0000    vn=%vn_sp
 VMOV_64_sp   ---- 1100 010 op:1 rt2:4 rt:4 1010 00.1 ....   vm=%vm_sp
 VMOV_64_dp   ---- 1100 010 op:1 rt2:4 rt:4 1011 00.1 ....   vm=%vm_dp
 
-# Note that the half-precision variants of VLDR and VSTR are
-# not part of this decodetree at all because they have bits [9:8] == 0b01
+VLDR_VSTR_hp ---- 1101 u:1 .0 l:1 rn:4 .... 1001 imm:8      vd=%vd_sp
 VLDR_VSTR_sp ---- 1101 u:1 .0 l:1 rn:4 .... 1010 imm:8      vd=%vd_sp
 VLDR_VSTR_dp ---- 1101 u:1 .0 l:1 rn:4 .... 1011 imm:8      vd=%vd_dp
 
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_64_dp(DisasContext *s, arg_VMOV_64_dp *a)
     return true;
 }
 
+static bool trans_VLDR_VSTR_hp(DisasContext *s, arg_VLDR_VSTR_sp *a)
+{
+    uint32_t offset;
+    TCGv_i32 addr, tmp;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    /* imm8 field is offset/2 for fp16, unlike fp32 and fp64 */
+    offset = a->imm << 1;
+    if (!a->u) {
+        offset = -offset;
+    }
+
+    /* For thumb, use of PC is UNPREDICTABLE.  */
+    addr = add_reg_for_lit(s, a->rn, offset);
+    tmp = tcg_temp_new_i32();
+    if (a->l) {
+        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
+        neon_store_reg32(tmp, a->vd);
+    } else {
+        neon_load_reg32(tmp, a->vd);
+        gen_aa32_st16(s, tmp, addr, get_mem_index(s));
+    }
+    tcg_temp_free_i32(tmp);
+    tcg_temp_free_i32(addr);
+
+    return true;
+}
+
 static bool trans_VLDR_VSTR_sp(DisasContext *s, arg_VLDR_VSTR_sp *a)
 {
     uint32_t offset;
-- 
2.20.1

Implement the fp16 versions of the VFP VCVT instruction forms which
convert between floating point and integer.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-13-peter.maydell@linaro.org
---
 target/arm/vfp.decode          |  4 +++
 target/arm/translate-vfp.c.inc | 65 ++++++++++++++++++++++++++++++++++
 2 files changed, 69 insertions(+)

diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VCVT_sp      ---- 1110 1.11 0111 .... 1010 11.0 ....        @vfp_dm_ds
 VCVT_dp      ---- 1110 1.11 0111 .... 1011 11.0 ....        @vfp_dm_sd
 
 # VCVT from integer to floating point: Vm always single; Vd depends on size
+VCVT_int_hp  ---- 1110 1.11 1000 .... 1001 s:1 1.0 .... \
+             vd=%vd_sp vm=%vm_sp
 VCVT_int_sp  ---- 1110 1.11 1000 .... 1010 s:1 1.0 .... \
              vd=%vd_sp vm=%vm_sp
 VCVT_int_dp  ---- 1110 1.11 1000 .... 1011 s:1 1.0 .... \
@@ -XXX,XX +XXX,XX @@ VCVT_fix_dp  ---- 1110 1.11 1.1. .... 1011 .1.0 .... \
              vd=%vd_dp imm=%vm_sp opc=%vcvt_fix_op
 
 # VCVT float to integer (VCVT and VCVTR): Vd always single; Vd depends on size
+VCVT_hp_int  ---- 1110 1.11 110 s:1 .... 1001 rz:1 1.0 .... \
+             vd=%vd_sp vm=%vm_sp
 VCVT_sp_int  ---- 1110 1.11 110 s:1 .... 1010 rz:1 1.0 .... \
              vd=%vd_sp vm=%vm_sp
 VCVT_dp_int  ---- 1110 1.11 110 s:1 .... 1011 rz:1 1.0 .... \
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp(DisasContext *s, arg_VCVT_dp *a)
     return true;
 }
 
+static bool trans_VCVT_int_hp(DisasContext *s, arg_VCVT_int_sp *a)
+{
+    TCGv_i32 vm;
+    TCGv_ptr fpst;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    vm = tcg_temp_new_i32();
+    neon_load_reg32(vm, a->vm);
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    if (a->s) {
+        /* i32 -> f16 */
+        gen_helper_vfp_sitoh(vm, vm, fpst);
+    } else {
+        /* u32 -> f16 */
+        gen_helper_vfp_uitoh(vm, vm, fpst);
+    }
+    neon_store_reg32(vm, a->vd);
+    tcg_temp_free_i32(vm);
+    tcg_temp_free_ptr(fpst);
+    return true;
+}
+
 static bool trans_VCVT_int_sp(DisasContext *s, arg_VCVT_int_sp *a)
 {
     TCGv_i32 vm;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_dp(DisasContext *s, arg_VCVT_fix_dp *a)
     return true;
 }
 
+static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
+{
+    TCGv_i32 vm;
+    TCGv_ptr fpst;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    vm = tcg_temp_new_i32();
+    neon_load_reg32(vm, a->vm);
+
+    if (a->s) {
+        if (a->rz) {
+            gen_helper_vfp_tosizh(vm, vm, fpst);
+        } else {
+            gen_helper_vfp_tosih(vm, vm, fpst);
+        }
+    } else {
+        if (a->rz) {
+            gen_helper_vfp_touizh(vm, vm, fpst);
+        } else {
+            gen_helper_vfp_touih(vm, vm, fpst);
+        }
+    }
+    neon_store_reg32(vm, a->vd);
+    tcg_temp_free_i32(vm);
+    tcg_temp_free_ptr(fpst);
+    return true;
+}
+
 static bool trans_VCVT_sp_int(DisasContext *s, arg_VCVT_sp_int *a)
 {
     TCGv_i32 vm;
-- 
2.20.1

Currently the VFP_CONV_FIX macros take a single fsz argument for the
size of the float type, which is used both to select the name of
the functions to call (eg float32_is_any_nan()) and also for the
type to use for the float inputs and outputs (eg float32).

Separate these into fsz and ftype arguments, so that we can use them
for fp16, which uses 'float16' in the function names but is still
passing inputs and outputs in a 32-bit sized type.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-14-peter.maydell@linaro.org
---
 target/arm/vfp_helper.c | 46 ++++++++++++++++++++---------------------
 1 file changed, 23 insertions(+), 23 deletions(-)

diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float32 VFP_HELPER(fcvts, d)(float64 x, CPUARMState *env)
 }
 
 /* VFP3 fixed point conversion.  */
-#define VFP_CONV_FIX_FLOAT(name, p, fsz, isz, itype) \
-float##fsz HELPER(vfp_##name##to##p)(uint##isz##_t  x, uint32_t shift, \
+#define VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)            \
+ftype HELPER(vfp_##name##to##p)(uint##isz##_t  x, uint32_t shift,      \
                                      void *fpstp) \
 { return itype##_to_##float##fsz##_scalbn(x, -shift, fpstp); }
 
-#define VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype, ROUND, suff)   \
-uint##isz##_t HELPER(vfp_to##name##p##suff)(float##fsz x, uint32_t shift, \
+#define VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype, ROUND, suff) \
+uint##isz##_t HELPER(vfp_to##name##p##suff)(ftype x, uint32_t shift,      \
                                             void *fpst)                   \
 {                                                                         \
     if (unlikely(float##fsz##_is_any_nan(x))) {                           \
@@ -XXX,XX +XXX,XX @@ uint##isz##_t HELPER(vfp_to##name##p##suff)(float##fsz x, uint32_t shift, \
     return float##fsz##_to_##itype##_scalbn(x, ROUND, shift, fpst);       \
 }
 
-#define VFP_CONV_FIX(name, p, fsz, isz, itype)                   \
-VFP_CONV_FIX_FLOAT(name, p, fsz, isz, itype)                     \
-VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype,               \
+#define VFP_CONV_FIX(name, p, fsz, ftype, isz, itype)            \
+VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)              \
+VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype,        \
                          float_round_to_zero, _round_to_zero)    \
-VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype,               \
+VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype,        \
                          get_float_rounding_mode(fpst), )
 
-#define VFP_CONV_FIX_A64(name, p, fsz, isz, itype)               \
-VFP_CONV_FIX_FLOAT(name, p, fsz, isz, itype)                     \
-VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, isz, itype,               \
+#define VFP_CONV_FIX_A64(name, p, fsz, ftype, isz, itype)        \
+VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)              \
+VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype,        \
                          get_float_rounding_mode(fpst), )
 
-VFP_CONV_FIX(sh, d, 64, 64, int16)
-VFP_CONV_FIX(sl, d, 64, 64, int32)
-VFP_CONV_FIX_A64(sq, d, 64, 64, int64)
-VFP_CONV_FIX(uh, d, 64, 64, uint16)
-VFP_CONV_FIX(ul, d, 64, 64, uint32)
-VFP_CONV_FIX_A64(uq, d, 64, 64, uint64)
-VFP_CONV_FIX(sh, s, 32, 32, int16)
-VFP_CONV_FIX(sl, s, 32, 32, int32)
-VFP_CONV_FIX_A64(sq, s, 32, 64, int64)
-VFP_CONV_FIX(uh, s, 32, 32, uint16)
-VFP_CONV_FIX(ul, s, 32, 32, uint32)
-VFP_CONV_FIX_A64(uq, s, 32, 64, uint64)
+VFP_CONV_FIX(sh, d, 64, float64, 64, int16)
+VFP_CONV_FIX(sl, d, 64, float64, 64, int32)
+VFP_CONV_FIX_A64(sq, d, 64, float64, 64, int64)
+VFP_CONV_FIX(uh, d, 64, float64, 64, uint16)
+VFP_CONV_FIX(ul, d, 64, float64, 64, uint32)
+VFP_CONV_FIX_A64(uq, d, 64, float64, 64, uint64)
+VFP_CONV_FIX(sh, s, 32, float32, 32, int16)
+VFP_CONV_FIX(sl, s, 32, float32, 32, int32)
+VFP_CONV_FIX_A64(sq, s, 32, float32, 64, int64)
+VFP_CONV_FIX(uh, s, 32, float32, 32, uint16)
+VFP_CONV_FIX(ul, s, 32, float32, 32, uint32)
+VFP_CONV_FIX_A64(uq, s, 32, float32, 64, uint64)
 
 #undef VFP_CONV_FIX
 #undef VFP_CONV_FIX_FLOAT
-- 
2.20.1

Now the VFP_CONV_FIX macros can handle fp16's distinction between the
width of the operation and the width of the type used to pass operands,
use the macros rather than the open-coded functions.

This creates an extra six helper functions, all of which we are going
to need for the AArch32 VFP fp16 instructions.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-15-peter.maydell@linaro.org
---
 target/arm/helper.h     |  6 +++
 target/arm/vfp_helper.c | 86 +++--------------------------------------
 2 files changed, 12 insertions(+), 80 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(vfp_tosizh, s32, f16, ptr)
 DEF_HELPER_2(vfp_tosizs, s32, f32, ptr)
 DEF_HELPER_2(vfp_tosizd, s32, f64, ptr)
 
+DEF_HELPER_3(vfp_toshh_round_to_zero, i32, f16, i32, ptr)
+DEF_HELPER_3(vfp_toslh_round_to_zero, i32, f16, i32, ptr)
+DEF_HELPER_3(vfp_touhh_round_to_zero, i32, f16, i32, ptr)
+DEF_HELPER_3(vfp_toulh_round_to_zero, i32, f16, i32, ptr)
 DEF_HELPER_3(vfp_toshs_round_to_zero, i32, f32, i32, ptr)
 DEF_HELPER_3(vfp_tosls_round_to_zero, i32, f32, i32, ptr)
 DEF_HELPER_3(vfp_touhs_round_to_zero, i32, f32, i32, ptr)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_sqtod, f64, i64, i32, ptr)
 DEF_HELPER_3(vfp_uhtod, f64, i64, i32, ptr)
 DEF_HELPER_3(vfp_ultod, f64, i64, i32, ptr)
 DEF_HELPER_3(vfp_uqtod, f64, i64, i32, ptr)
+DEF_HELPER_3(vfp_shtoh, f16, i32, i32, ptr)
+DEF_HELPER_3(vfp_uhtoh, f16, i32, i32, ptr)
 DEF_HELPER_3(vfp_sltoh, f16, i32, i32, ptr)
 DEF_HELPER_3(vfp_ultoh, f16, i32, i32, ptr)
 DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, ptr)
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_CONV_FIX_A64(sq, s, 32, float32, 64, int64)
 VFP_CONV_FIX(uh, s, 32, float32, 32, uint16)
 VFP_CONV_FIX(ul, s, 32, float32, 32, uint32)
 VFP_CONV_FIX_A64(uq, s, 32, float32, 64, uint64)
+VFP_CONV_FIX(sh, h, 16, dh_ctype_f16, 32, int16)
+VFP_CONV_FIX(sl, h, 16, dh_ctype_f16, 32, int32)
+VFP_CONV_FIX_A64(sq, h, 16, dh_ctype_f16, 64, int64)
+VFP_CONV_FIX(uh, h, 16, dh_ctype_f16, 32, uint16)
+VFP_CONV_FIX(ul, h, 16, dh_ctype_f16, 32, uint32)
+VFP_CONV_FIX_A64(uq, h, 16, dh_ctype_f16, 64, uint64)
 
 #undef VFP_CONV_FIX
 #undef VFP_CONV_FIX_FLOAT
 #undef VFP_CONV_FLOAT_FIX_ROUND
 #undef VFP_CONV_FIX_A64
 
-uint32_t HELPER(vfp_sltoh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    return int32_to_float16_scalbn(x, -shift, fpst);
-}
-
-uint32_t HELPER(vfp_ultoh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    return uint32_to_float16_scalbn(x, -shift, fpst);
-}
-
-uint32_t HELPER(vfp_sqtoh)(uint64_t x, uint32_t shift, void *fpst)
-{
-    return int64_to_float16_scalbn(x, -shift, fpst);
-}
-
-uint32_t HELPER(vfp_uqtoh)(uint64_t x, uint32_t shift, void *fpst)
-{
-    return uint64_to_float16_scalbn(x, -shift, fpst);
-}
-
-uint32_t HELPER(vfp_toshh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    if (unlikely(float16_is_any_nan(x))) {
-        float_raise(float_flag_invalid, fpst);
-        return 0;
-    }
-    return float16_to_int16_scalbn(x, get_float_rounding_mode(fpst),
-                                   shift, fpst);
-}
-
-uint32_t HELPER(vfp_touhh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    if (unlikely(float16_is_any_nan(x))) {
-        float_raise(float_flag_invalid, fpst);
-        return 0;
-    }
-    return float16_to_uint16_scalbn(x, get_float_rounding_mode(fpst),
-                                    shift, fpst);
-}
-
-uint32_t HELPER(vfp_toslh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    if (unlikely(float16_is_any_nan(x))) {
-        float_raise(float_flag_invalid, fpst);
-        return 0;
-    }
-    return float16_to_int32_scalbn(x, get_float_rounding_mode(fpst),
-                                   shift, fpst);
-}
-
-uint32_t HELPER(vfp_toulh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    if (unlikely(float16_is_any_nan(x))) {
-        float_raise(float_flag_invalid, fpst);
-        return 0;
-    }
-    return float16_to_uint32_scalbn(x, get_float_rounding_mode(fpst),
-                                    shift, fpst);
-}
-
-uint64_t HELPER(vfp_tosqh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    if (unlikely(float16_is_any_nan(x))) {
-        float_raise(float_flag_invalid, fpst);
-        return 0;
-    }
-    return float16_to_int64_scalbn(x, get_float_rounding_mode(fpst),
-                                   shift, fpst);
-}
-
-uint64_t HELPER(vfp_touqh)(uint32_t x, uint32_t shift, void *fpst)
-{
-    if (unlikely(float16_is_any_nan(x))) {
-        float_raise(float_flag_invalid, fpst);
-        return 0;
-    }
-    return float16_to_uint64_scalbn(x, get_float_rounding_mode(fpst),
-                                    shift, fpst);
-}
-
 /* Set the current fp rounding mode and return the old one.
  * The argument is a softfloat float_round_ value.
  */
-- 
2.20.1

Implement the fp16 versions of the VFP VCVT instruction forms which
convert between floating point and fixed-point.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-16-peter.maydell@linaro.org
---
 target/arm/vfp.decode          |  2 ++
 target/arm/translate-vfp.c.inc | 59 ++++++++++++++++++++++++++++++++++
 2 files changed, 61 insertions(+)

diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VJCVT        ---- 1110 1.11 1001 .... 1011 11.0 ....        @vfp_dm_sd
 # We assemble bits 18 (op), 16 (u) and 7 (sx) into a single opc field
 # for the convenience of the trans_VCVT_fix functions.
 %vcvt_fix_op 18:1 16:1 7:1
+VCVT_fix_hp  ---- 1110 1.11 1.1. .... 1001 .1.0 .... \
+             vd=%vd_sp imm=%vm_sp opc=%vcvt_fix_op
 VCVT_fix_sp  ---- 1110 1.11 1.1. .... 1010 .1.0 .... \
              vd=%vd_sp imm=%vm_sp opc=%vcvt_fix_op
 VCVT_fix_dp  ---- 1110 1.11 1.1. .... 1011 .1.0 .... \
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VJCVT(DisasContext *s, arg_VJCVT *a)
     return true;
 }
 
+static bool trans_VCVT_fix_hp(DisasContext *s, arg_VCVT_fix_sp *a)
+{
+    TCGv_i32 vd, shift;
+    TCGv_ptr fpst;
+    int frac_bits;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    frac_bits = (a->opc & 1) ? (32 - a->imm) : (16 - a->imm);
+
+    vd = tcg_temp_new_i32();
+    neon_load_reg32(vd, a->vd);
+
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    shift = tcg_const_i32(frac_bits);
+
+    /* Switch on op:U:sx bits */
+    switch (a->opc) {
+    case 0:
+        gen_helper_vfp_shtoh(vd, vd, shift, fpst);
+        break;
+    case 1:
+        gen_helper_vfp_sltoh(vd, vd, shift, fpst);
+        break;
+    case 2:
+        gen_helper_vfp_uhtoh(vd, vd, shift, fpst);
+        break;
+    case 3:
+        gen_helper_vfp_ultoh(vd, vd, shift, fpst);
+        break;
+    case 4:
+        gen_helper_vfp_toshh_round_to_zero(vd, vd, shift, fpst);
+        break;
+    case 5:
+        gen_helper_vfp_toslh_round_to_zero(vd, vd, shift, fpst);
+        break;
+    case 6:
+        gen_helper_vfp_touhh_round_to_zero(vd, vd, shift, fpst);
+        break;
+    case 7:
+        gen_helper_vfp_toulh_round_to_zero(vd, vd, shift, fpst);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    neon_store_reg32(vd, a->vd);
+    tcg_temp_free_i32(vd);
+    tcg_temp_free_i32(shift);
+    tcg_temp_free_ptr(fpst);
+    return true;
+}
+
 static bool trans_VCVT_fix_sp(DisasContext *s, arg_VCVT_fix_sp *a)
 {
     TCGv_i32 vd, shift;
-- 
2.20.1

Implement the fp16 versions of the VFP VCVT instruction forms
which convert between floating point and integer with a specified
rounding mode.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-17-peter.maydell@linaro.org
---
 target/arm/vfp-uncond.decode   |  6 ++++--
 target/arm/translate-vfp.c.inc | 32 ++++++++++++++++++++++++--------
 2 files changed, 28 insertions(+), 10 deletions(-)

diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp-uncond.decode
+++ b/target/arm/vfp-uncond.decode
@@ -XXX,XX +XXX,XX @@ VRINT       1111 1110 1.11 10 rm:2 .... 1011 01.0 .... \
             vm=%vm_dp vd=%vd_dp dp=1
 
 # VCVT float to int with specified rounding mode; Vd is always single-precision
+VCVT        1111 1110 1.11 11 rm:2 .... 1001 op:1 1.0 .... \
+            vm=%vm_sp vd=%vd_sp sz=1
 VCVT        1111 1110 1.11 11 rm:2 .... 1010 op:1 1.0 .... \
-            vm=%vm_sp vd=%vd_sp dp=0
+            vm=%vm_sp vd=%vd_sp sz=2
 VCVT        1111 1110 1.11 11 rm:2 .... 1011 op:1 1.0 .... \
-            vm=%vm_dp vd=%vd_sp dp=1
+            vm=%vm_dp vd=%vd_sp sz=3
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
 static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
 {
     uint32_t rd, rm;
-    bool dp = a->dp;
+    int sz = a->sz;
     TCGv_ptr fpst;
     TCGv_i32 tcg_rmode, tcg_shift;
     int rounding = fp_decode_rm[a->rm];
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
         return false;
     }
 
-    if (dp && !dc_isar_feature(aa32_fpdp_v2, s)) {
+    if (sz == 3 && !dc_isar_feature(aa32_fpdp_v2, s)) {
+        return false;
+    }
+
+    if (sz == 1 && !dc_isar_feature(aa32_fp16_arith, s)) {
         return false;
     }
 
     /* UNDEF accesses to D16-D31 if they don't exist */
-    if (dp && !dc_isar_feature(aa32_simd_r32, s) && (a->vm & 0x10)) {
+    if (sz == 3 && !dc_isar_feature(aa32_simd_r32, s) && (a->vm & 0x10)) {
         return false;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
         return true;
     }
 
-    fpst = fpstatus_ptr(FPST_FPCR);
+    if (sz == 1) {
+        fpst = fpstatus_ptr(FPST_FPCR_F16);
+    } else {
+        fpst = fpstatus_ptr(FPST_FPCR);
+    }
 
     tcg_shift = tcg_const_i32(0);
 
     tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rounding));
     gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 
-    if (dp) {
+    if (sz == 3) {
         TCGv_i64 tcg_double, tcg_res;
         TCGv_i32 tcg_tmp;
         tcg_double = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
         tcg_single = tcg_temp_new_i32();
         tcg_res = tcg_temp_new_i32();
         neon_load_reg32(tcg_single, rm);
-        if (is_signed) {
-            gen_helper_vfp_tosls(tcg_res, tcg_single, tcg_shift, fpst);
+        if (sz == 1) {
+            if (is_signed) {
+                gen_helper_vfp_toslh(tcg_res, tcg_single, tcg_shift, fpst);
+            } else {
+                gen_helper_vfp_toulh(tcg_res, tcg_single, tcg_shift, fpst);
+            }
         } else {
-            gen_helper_vfp_touls(tcg_res, tcg_single, tcg_shift, fpst);
+            if (is_signed) {
+                gen_helper_vfp_tosls(tcg_res, tcg_single, tcg_shift, fpst);
+            } else {
+                gen_helper_vfp_touls(tcg_res, tcg_single, tcg_shift, fpst);
+            }
         }
         neon_store_reg32(tcg_res, rd);
         tcg_temp_free_i32(tcg_res);
-- 
2.20.1

Implement the fp16 versions of the VFP VSEL instruction.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-18-peter.maydell@linaro.org
---
 target/arm/vfp-uncond.decode   |  6 ++++--
 target/arm/translate-vfp.c.inc | 16 ++++++++++++----
 2 files changed, 16 insertions(+), 6 deletions(-)

diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp-uncond.decode
+++ b/target/arm/vfp-uncond.decode
@@ -XXX,XX +XXX,XX @@
 @vfp_dnm_s   ................................ vm=%vm_sp vn=%vn_sp vd=%vd_sp
 @vfp_dnm_d   ................................ vm=%vm_dp vn=%vn_dp vd=%vd_dp
 
+VSEL        1111 1110 0. cc:2 .... .... 1001 .0.0 .... \
+            vm=%vm_sp vn=%vn_sp vd=%vd_sp sz=1
 VSEL        1111 1110 0. cc:2 .... .... 1010 .0.0 .... \
-            vm=%vm_sp vn=%vn_sp vd=%vd_sp dp=0
+            vm=%vm_sp vn=%vn_sp vd=%vd_sp sz=2
 VSEL        1111 1110 0. cc:2 .... .... 1011 .0.0 .... \
-            vm=%vm_dp vn=%vn_dp vd=%vd_dp dp=1
+            vm=%vm_dp vn=%vn_dp vd=%vd_dp sz=3
 
 VMAXNM_hp   1111 1110 1.00 .... .... 1001 .0.0 ....         @vfp_dnm_s
 VMINNM_hp   1111 1110 1.00 .... .... 1001 .1.0 ....         @vfp_dnm_s
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check(DisasContext *s)
 static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
 {
     uint32_t rd, rn, rm;
-    bool dp = a->dp;
+    int sz = a->sz;
 
     if (!dc_isar_feature(aa32_vsel, s)) {
         return false;
     }
 
-    if (dp && !dc_isar_feature(aa32_fpdp_v2, s)) {
+    if (sz == 3 && !dc_isar_feature(aa32_fpdp_v2, s)) {
+        return false;
+    }
+
+    if (sz == 1 && !dc_isar_feature(aa32_fp16_arith, s)) {
         return false;
     }
 
     /* UNDEF accesses to D16-D31 if they don't exist */
-    if (dp && !dc_isar_feature(aa32_simd_r32, s) &&
+    if (sz == 3 && !dc_isar_feature(aa32_simd_r32, s) &&
         ((a->vm | a->vn | a->vd) & 0x10)) {
         return false;
     }
@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
         return true;
     }
 
-    if (dp) {
+    if (sz == 3) {
         TCGv_i64 frn, frm, dest;
         TCGv_i64 tmp, zero, zf, nf, vf;
 
@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
             tcg_temp_free_i32(tmp);
             break;
         }
+        /* For fp16 the top half is always zeroes */
+        if (sz == 1) {
+            tcg_gen_andi_i32(dest, dest, 0xffff);
+        }
         neon_store_reg32(dest, rd);
         tcg_temp_free_i32(frn);
         tcg_temp_free_i32(frm);
-- 
2.20.1

Implement the fp16 version of the VFP VRINT* insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-19-peter.maydell@linaro.org
---
 target/arm/helper.h            |  2 +
 target/arm/vfp-uncond.decode   |  6 ++-
 target/arm/vfp.decode          |  3 ++
 target/arm/vfp_helper.c        | 21 ++++++++
 target/arm/translate-vfp.c.inc | 98 +++++++++++++++++++++++++++++++---
 5 files changed, 122 insertions(+), 8 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(shr_cc, i32, env, i32, i32)
 DEF_HELPER_3(sar_cc, i32, env, i32, i32)
 DEF_HELPER_3(ror_cc, i32, env, i32, i32)
 
+DEF_HELPER_FLAGS_2(rinth_exact, TCG_CALL_NO_RWG, f16, f16, ptr)
 DEF_HELPER_FLAGS_2(rints_exact, TCG_CALL_NO_RWG, f32, f32, ptr)
 DEF_HELPER_FLAGS_2(rintd_exact, TCG_CALL_NO_RWG, f64, f64, ptr)
+DEF_HELPER_FLAGS_2(rinth, TCG_CALL_NO_RWG, f16, f16, ptr)
 DEF_HELPER_FLAGS_2(rints, TCG_CALL_NO_RWG, f32, f32, ptr)
 DEF_HELPER_FLAGS_2(rintd, TCG_CALL_NO_RWG, f64, f64, ptr)
 
diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp-uncond.decode
+++ b/target/arm/vfp-uncond.decode
@@ -XXX,XX +XXX,XX @@ VMINNM_sp   1111 1110 1.00 .... .... 1010 .1.0 ....         @vfp_dnm_s
 VMAXNM_dp   1111 1110 1.00 .... .... 1011 .0.0 ....         @vfp_dnm_d
 VMINNM_dp   1111 1110 1.00 .... .... 1011 .1.0 ....         @vfp_dnm_d
 
+VRINT       1111 1110 1.11 10 rm:2 .... 1001 01.0 .... \
+            vm=%vm_sp vd=%vd_sp sz=1
 VRINT       1111 1110 1.11 10 rm:2 .... 1010 01.0 .... \
-            vm=%vm_sp vd=%vd_sp dp=0
+            vm=%vm_sp vd=%vd_sp sz=2
 VRINT       1111 1110 1.11 10 rm:2 .... 1011 01.0 .... \
-            vm=%vm_dp vd=%vd_dp dp=1
+            vm=%vm_dp vd=%vd_dp sz=3
 
 # VCVT float to int with specified rounding mode; Vd is always single-precision
 VCVT        1111 1110 1.11 11 rm:2 .... 1001 op:1 1.0 .... \
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VCVT_f16_f32 ---- 1110 1.11 0011 .... 1010 t:1 1.0 .... \
 VCVT_f16_f64 ---- 1110 1.11 0011 .... 1011 t:1 1.0 .... \
              vd=%vd_sp vm=%vm_dp
 
+VRINTR_hp    ---- 1110 1.11 0110 .... 1001 01.0 ....        @vfp_dm_ss
 VRINTR_sp    ---- 1110 1.11 0110 .... 1010 01.0 ....        @vfp_dm_ss
 VRINTR_dp    ---- 1110 1.11 0110 .... 1011 01.0 ....        @vfp_dm_dd
 
+VRINTZ_hp    ---- 1110 1.11 0110 .... 1001 11.0 ....        @vfp_dm_ss
 VRINTZ_sp    ---- 1110 1.11 0110 .... 1010 11.0 ....        @vfp_dm_ss
 VRINTZ_dp    ---- 1110 1.11 0110 .... 1011 11.0 ....        @vfp_dm_dd
 
+VRINTX_hp    ---- 1110 1.11 0111 .... 1001 01.0 ....        @vfp_dm_ss
 VRINTX_sp    ---- 1110 1.11 0111 .... 1010 01.0 ....        @vfp_dm_ss
 VRINTX_dp    ---- 1110 1.11 0111 .... 1011 01.0 ....        @vfp_dm_dd
 
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float64 VFP_HELPER(muladd, d)(float64 a, float64 b, float64 c, void *fpstp)
 }
 
 /* ARMv8 round to integral */
+dh_ctype_f16 HELPER(rinth_exact)(dh_ctype_f16 x, void *fp_status)
+{
+    return float16_round_to_int(x, fp_status);
+}
+
 float32 HELPER(rints_exact)(float32 x, void *fp_status)
 {
     return float32_round_to_int(x, fp_status);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rintd_exact)(float64 x, void *fp_status)
     return float64_round_to_int(x, fp_status);
 }
 
+dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, void *fp_status)
+{
+    int old_flags = get_float_exception_flags(fp_status), new_flags;
+    float16 ret;
+
+    ret = float16_round_to_int(x, fp_status);
+
+    /* Suppress any inexact exceptions the conversion produced */
+    if (!(old_flags & float_flag_inexact)) {
+        new_flags = get_float_exception_flags(fp_status);
+        set_float_exception_flags(new_flags & ~float_flag_inexact, fp_status);
+    }
+
+    return ret;
+}
+
 float32 HELPER(rints)(float32 x, void *fp_status)
 {
     int old_flags = get_float_exception_flags(fp_status), new_flags;
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static const uint8_t fp_decode_rm[] = {
 static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
 {
     uint32_t rd, rm;
-    bool dp = a->dp;
+    int sz = a->sz;
     TCGv_ptr fpst;
     TCGv_i32 tcg_rmode;
     int rounding = fp_decode_rm[a->rm];
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
         return false;
     }
 
-    if (dp && !dc_isar_feature(aa32_fpdp_v2, s)) {
+    if (sz == 3 && !dc_isar_feature(aa32_fpdp_v2, s)) {
+        return false;
+    }
+
+    if (sz == 1 && !dc_isar_feature(aa32_fp16_arith, s)) {
         return false;
     }
 
     /* UNDEF accesses to D16-D31 if they don't exist */
-    if (dp && !dc_isar_feature(aa32_simd_r32, s) &&
+    if (sz == 3 && !dc_isar_feature(aa32_simd_r32, s) &&
         ((a->vm | a->vd) & 0x10)) {
         return false;
     }
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
         return true;
     }
 
-    fpst = fpstatus_ptr(FPST_FPCR);
+    if (sz == 1) {
+        fpst = fpstatus_ptr(FPST_FPCR_F16);
+    } else {
+        fpst = fpstatus_ptr(FPST_FPCR);
+    }
 
     tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rounding));
     gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 
-    if (dp) {
+    if (sz == 3) {
         TCGv_i64 tcg_op;
         TCGv_i64 tcg_res;
         tcg_op = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
         tcg_op = tcg_temp_new_i32();
         tcg_res = tcg_temp_new_i32();
         neon_load_reg32(tcg_op, rm);
-        gen_helper_rints(tcg_res, tcg_op, fpst);
+        if (sz == 1) {
+            gen_helper_rinth(tcg_res, tcg_op, fpst);
+        } else {
+            gen_helper_rints(tcg_res, tcg_op, fpst);
+        }
         neon_store_reg32(tcg_res, rd);
         tcg_temp_free_i32(tcg_op);
         tcg_temp_free_i32(tcg_res);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_f16_f64(DisasContext *s, arg_VCVT_f16_f64 *a)
     return true;
 }
 
+static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
+{
+    TCGv_ptr fpst;
+    TCGv_i32 tmp;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    tmp = tcg_temp_new_i32();
+    neon_load_reg32(tmp, a->vm);
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    gen_helper_rinth(tmp, tmp, fpst);
+    neon_store_reg32(tmp, a->vd);
+    tcg_temp_free_ptr(fpst);
+    tcg_temp_free_i32(tmp);
+    return true;
+}
+
 static bool trans_VRINTR_sp(DisasContext *s, arg_VRINTR_sp *a)
 {
     TCGv_ptr fpst;
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_dp(DisasContext *s, arg_VRINTR_dp *a)
     return true;
 }
 
+static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
+{
+    TCGv_ptr fpst;
+    TCGv_i32 tmp;
+    TCGv_i32 tcg_rmode;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    tmp = tcg_temp_new_i32();
+    neon_load_reg32(tmp, a->vm);
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    tcg_rmode = tcg_const_i32(float_round_to_zero);
+    gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
+    gen_helper_rinth(tmp, tmp, fpst);
+    gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
+    neon_store_reg32(tmp, a->vd);
+    tcg_temp_free_ptr(fpst);
+    tcg_temp_free_i32(tcg_rmode);
+    tcg_temp_free_i32(tmp);
+    return true;
+}
+
 static bool trans_VRINTZ_sp(DisasContext *s, arg_VRINTZ_sp *a)
 {
     TCGv_ptr fpst;
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_dp(DisasContext *s, arg_VRINTZ_dp *a)
     return true;
 }
 
+static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
+{
+    TCGv_ptr fpst;
+    TCGv_i32 tmp;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    tmp = tcg_temp_new_i32();
+    neon_load_reg32(tmp, a->vm);
+    fpst = fpstatus_ptr(FPST_FPCR_F16);
+    gen_helper_rinth_exact(tmp, tmp, fpst);
+    neon_store_reg32(tmp, a->vd);
+    tcg_temp_free_ptr(fpst);
+    tcg_temp_free_i32(tmp);
+    return true;
+}
+
 static bool trans_VRINTX_sp(DisasContext *s, arg_VRINTX_sp *a)
 {
     TCGv_ptr fpst;
-- 
2.20.1

The fp16 extension includes a new instruction VINS, which copies the
lower 16 bits of a 32-bit source VFP register into the upper 16 bits
of the destination.  Implement it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-20-peter.maydell@linaro.org
---
 target/arm/vfp-uncond.decode   |  3 +++
 target/arm/translate-vfp.c.inc | 28 ++++++++++++++++++++++++++++
 2 files changed, 31 insertions(+)

The fp16 extension includes a new instruction VMOVX, which copies the
upper 16 bits of a 32-bit source VFP register into the lower 16
bits of the destination and zeroes the high half of the destination.
Implement it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-21-peter.maydell@linaro.org
---
 target/arm/vfp-uncond.decode   |  3 +++
 target/arm/translate-vfp.c.inc | 25 +++++++++++++++++++++++++
 2 files changed, 28 insertions(+)

diff --git a/target/arm/vfp-uncond.decode b/target/arm/vfp-uncond.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp-uncond.decode
+++ b/target/arm/vfp-uncond.decode
@@ -XXX,XX +XXX,XX @@ VCVT        1111 1110 1.11 11 rm:2 .... 1010 op:1 1.0 .... \
 VCVT        1111 1110 1.11 11 rm:2 .... 1011 op:1 1.0 .... \
             vm=%vm_dp vd=%vd_sp sz=3
 
+VMOVX       1111 1110 1.11 0000 .... 1010 01 . 0 .... \
+            vd=%vd_sp vm=%vm_sp
+
 VINS        1111 1110 1.11 0000 .... 1010 11 . 0 .... \
             vd=%vd_sp vm=%vm_sp
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
     tcg_temp_free_i32(rd);
     return true;
 }
+
+static bool trans_VMOVX(DisasContext *s, arg_VINS *a)
+{
+    TCGv_i32 rm;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (s->vec_len != 0 || s->vec_stride != 0) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    /* Set Vd to high half of Vm */
+    rm = tcg_temp_new_i32();
+    neon_load_reg32(rm, a->vm);
+    tcg_gen_shri_i32(rm, rm, 16);
+    neon_store_reg32(rm, a->vd);
+    tcg_temp_free_i32(rm);
+    return true;
+}
-- 
2.20.1

Implement the VFP fp16 variant of VMOV that transfers a 16-bit
value between a general purpose register and a VFP register.

Note that Rt == 15 is UNPREDICTABLE; since this insn is v8 and later
only we have no need to replicate the old "updates CPSR.NZCV"
behaviour that the singleprec version of this insn does.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-22-peter.maydell@linaro.org
---
 target/arm/vfp.decode          |  1 +
 target/arm/translate-vfp.c.inc | 34 ++++++++++++++++++++++++++++++++++
 2 files changed, 35 insertions(+)

diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VDUP         ---- 1110 1 b:1 q:1 0 .... rt:4 1011 . 0 e:1 1 0000 \
              vn=%vn_dp
 
 VMSR_VMRS    ---- 1110 111 l:1 reg:4 rt:4 1010 0001 0000
+VMOV_half    ---- 1110 000 l:1 .... rt:4 1001 . 001 0000    vn=%vn_sp
 VMOV_single  ---- 1110 000 l:1 .... rt:4 1010 . 001 0000    vn=%vn_sp
 
 VMOV_64_sp   ---- 1100 010 op:1 rt2:4 rt:4 1010 00.1 ....   vm=%vm_sp
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
     return true;
 }
 
+static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
+{
+    TCGv_i32 tmp;
+
+    if (!dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    if (a->rt == 15) {
+        /* UNPREDICTABLE; we choose to UNDEF */
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    if (a->l) {
+        /* VFP to general purpose register */
+        tmp = tcg_temp_new_i32();
+        neon_load_reg32(tmp, a->vn);
+        tcg_gen_andi_i32(tmp, tmp, 0xffff);
+        store_reg(s, a->rt, tmp);
+    } else {
+        /* general purpose register to VFP */
+        tmp = load_reg(s, a->rt);
+        tcg_gen_andi_i32(tmp, tmp, 0xffff);
+        neon_store_reg32(tmp, a->vn);
+        tcg_temp_free_i32(tmp);
+    }
+
+    return true;
+}
+
 static bool trans_VMOV_single(DisasContext *s, arg_VMOV_single *a)
 {
     TCGv_i32 tmp;
-- 
2.20.1

Implement FP16 support for the Neon insns which use the DO_3S_FP_GVEC
macro: VADD, VSUB, VABD, VMUL.

For VABD this requires us to implement a new gvec_fabd_h helper
using the machinery we have already for the other helpers.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-24-peter.maydell@linaro.org
---
 target/arm/helper.h             |  1 +
 target/arm/vec_helper.c         |  6 ++++++
 target/arm/translate-neon.c.inc | 36 +++++++++++++++++----------------
 3 files changed, 26 insertions(+), 17 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float64 float64_ftsmul(float64 op1, uint64_t op2, float_status *stat)
     return result;
 }
 
+static float16 float16_abd(float16 op1, float16 op2, float_status *stat)
+{
+    return float16_abs(float16_sub(op1, op2, stat));
+}
+
 static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
 {
     return float32_abs(float32_sub(op1, op2, stat));
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_h, float16_ftsmul, float16)
 DO_3OP(gvec_ftsmul_s, float32_ftsmul, float32)
 DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
 
+DO_3OP(gvec_fabd_h, float16_abd, float16)
 DO_3OP(gvec_fabd_s, float32_abd, float32)
 
 #ifdef TARGET_AARCH64
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_3same_fp(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn,
     return true;
 }
 
-/*
- * For all the functions using this macro, size == 1 means fp16,
- * which is an architecture extension we don't implement yet.
- */
-#define DO_3S_FP_GVEC(INSN,FUNC)                                        \
-    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-                                uint32_t oprsz, uint32_t maxsz)         \
+#define WRAP_FP_GVEC(WRAPNAME, FPST, FUNC)                              \
+    static void WRAPNAME(unsigned vece, uint32_t rd_ofs,                \
+                         uint32_t rn_ofs, uint32_t rm_ofs,              \
+                         uint32_t oprsz, uint32_t maxsz)                \
     {                                                                   \
-        TCGv_ptr fpst = fpstatus_ptr(FPST_STD);                         \
+        TCGv_ptr fpst = fpstatus_ptr(FPST);                             \
         tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpst,                \
                            oprsz, maxsz, 0, FUNC);                      \
         tcg_temp_free_ptr(fpst);                                        \
-    }                                                                   \
+    }
+
+#define DO_3S_FP_GVEC(INSN,SFUNC,HFUNC)                                 \
+    WRAP_FP_GVEC(gen_##INSN##_fp32_3s, FPST_STD, SFUNC)                 \
+    WRAP_FP_GVEC(gen_##INSN##_fp16_3s, FPST_STD_F16, HFUNC)             \
     static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a)     \
     {                                                                   \
         if (a->size != 0) {                                             \
-            /* TODO fp16 support */                                     \
-            return false;                                               \
+            if (!dc_isar_feature(aa32_fp16_arith, s)) {                 \
+                return false;                                           \
+            }                                                           \
+            return do_3same(s, a, gen_##INSN##_fp16_3s);                \
         }                                                               \
-        return do_3same(s, a, gen_##INSN##_3s);                         \
+        return do_3same(s, a, gen_##INSN##_fp32_3s);                    \
     }
 
 
-DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
-DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
-DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
-DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s)
+DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s, gen_helper_gvec_fadd_h)
+DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s, gen_helper_gvec_fsub_h)
+DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s, gen_helper_gvec_fabd_h)
+DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
 
 /*
  * For all the functions using this macro, size == 1 means fp16,
-- 
2.20.1

We already have gvec helpers for floating point VRECPE and
VRQSRTE, so convert the Neon decoder to use them and
add the fp16 support.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-25-peter.maydell@linaro.org
---
 target/arm/translate-neon.c.inc | 31 +++++++++++++++++++++++++++++--
 1 file changed, 29 insertions(+), 2 deletions(-)

Rewrite Neon VABS/VNEG of floats to use gvec logical AND and XOR, so
that we can implement the fp16 version of the insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-26-peter.maydell@linaro.org
---
 target/arm/translate-neon.c.inc | 34 +++++++++++++++++++++++++++------
 1 file changed, 28 insertions(+), 6 deletions(-)

Convert the Neon floating-point vector comparison ops VCEQ,
VCGE and VCGT over to using a gvec helper and use this to
implement the fp16 case.

(We put the float16_ceq() etc functions above the DO_2OP()
macro definition because later when we convert the
compare-against-zero instructions we'll want their
definitions to be visible at that point in the source file.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-27-peter.maydell@linaro.org
---
 target/arm/helper.h             |  9 +++++++
 target/arm/vec_helper.c         | 44 +++++++++++++++++++++++++++++++++
 target/arm/translate-neon.c.inc |  6 ++---
 3 files changed, 56 insertions(+), 3 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlad)(void *vd, void *vn, void *vm,
     clear_tail(d, opr_sz, simd_maxsz(desc));
 }
 
+/*
+ * Floating point comparisons producing an integer result (all 1s or all 0s).
+ * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
+ * Softfloat routines return 0/1, which we convert to the 0/-1 Neon requires.
+ */
+static uint16_t float16_ceq(float16 op1, float16 op2, float_status *stat)
+{
+    return -float16_eq_quiet(op1, op2, stat);
+}
+
+static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
+{
+    return -float32_eq_quiet(op1, op2, stat);
+}
+
+static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
+{
+    return -float16_le(op2, op1, stat);
+}
+
+static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
+{
+    return -float32_le(op2, op1, stat);
+}
+
+static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
+{
+    return -float16_lt(op2, op1, stat);
+}
+
+static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
+{
+    return -float32_lt(op2, op1, stat);
+}
+
 #define DO_2OP(NAME, FUNC, TYPE) \
 void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
 {                                                                 \
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
 DO_3OP(gvec_fabd_h, float16_abd, float16)
 DO_3OP(gvec_fabd_s, float32_abd, float32)
 
+DO_3OP(gvec_fceq_h, float16_ceq, float16)
+DO_3OP(gvec_fceq_s, float32_ceq, float32)
+
+DO_3OP(gvec_fcge_h, float16_cge, float16)
+DO_3OP(gvec_fcge_s, float32_cge, float32)
+
+DO_3OP(gvec_fcgt_h, float16_cgt, float16)
+DO_3OP(gvec_fcgt_s, float32_cgt, float32)
+
 #ifdef TARGET_AARCH64
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s, gen_helper_gvec_fadd_h)
 DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s, gen_helper_gvec_fsub_h)
 DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s, gen_helper_gvec_fabd_h)
 DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
+DO_3S_FP_GVEC(VCEQ, gen_helper_gvec_fceq_s, gen_helper_gvec_fceq_h)
+DO_3S_FP_GVEC(VCGE, gen_helper_gvec_fcge_s, gen_helper_gvec_fcge_h)
+DO_3S_FP_GVEC(VCGT, gen_helper_gvec_fcgt_s, gen_helper_gvec_fcgt_h)
 
 /*
  * For all the functions using this macro, size == 1 means fp16,
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s, gen_helper_gvec_fmul_h)
         return do_3same_fp(s, a, FUNC, READS_VD);                   \
     }
 
-DO_3S_FP(VCEQ, gen_helper_neon_ceq_f32, false)
-DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
-DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
 DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
 DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
 DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
-- 
2.20.1

Convert the neon floating-point vector absolute comparison ops
VACGE and VACGT over to using a gvec hepler and use this to
implement the fp16 case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-28-peter.maydell@linaro.org
---
 target/arm/helper.h             |  6 ++++++
 target/arm/vec_helper.c         | 26 ++++++++++++++++++++++++++
 target/arm/translate-neon.c.inc |  4 ++--
 3 files changed, 34 insertions(+), 2 deletions(-)

Convert the Neon float-point VMAX and VMIN insns over to using
a gvec helper, and use this to implement the fp16 case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-29-peter.maydell@linaro.org
---
 target/arm/helper.h             | 6 ++++++
 target/arm/vec_helper.c         | 6 ++++++
 target/arm/translate-neon.c.inc | 5 ++---
 3 files changed, 14 insertions(+), 3 deletions(-)

Convert the Neon floating point VMAXNM and VMINNM insns to
using a gvec helper and use this to implement the fp16 case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-30-peter.maydell@linaro.org
---
 target/arm/helper.h             |  6 ++++++
 target/arm/vec_helper.c         |  6 ++++++
 target/arm/translate-neon.c.inc | 23 +++++++++++++++--------
 3 files changed, 27 insertions(+), 8 deletions(-)

Convert the Neon floating-point VMLA and VMLS insns over to using a
gvec helper, and use this to implement the fp16 case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-31-peter.maydell@linaro.org
---
 target/arm/helper.h             |  6 +++++
 target/arm/vec_helper.c         | 42 +++++++++++++++++++++++++++++++++
 target/arm/translate-neon.c.inc | 33 ++------------------------
 3 files changed, 50 insertions(+), 31 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i3
 DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_d, helper_rsqrtsf_f64, float64)
 #endif
 #undef DO_3OP
 
+/* Non-fused multiply-add (unlike float16_muladd etc, which are fused) */
+static float16 float16_muladd_nf(float16 dest, float16 op1, float16 op2,
+                                 float_status *stat)
+{
+    return float16_add(dest, float16_mul(op1, op2, stat), stat);
+}
+
+static float32 float32_muladd_nf(float32 dest, float32 op1, float32 op2,
+                                 float_status *stat)
+{
+    return float32_add(dest, float32_mul(op1, op2, stat), stat);
+}
+
+static float16 float16_mulsub_nf(float16 dest, float16 op1, float16 op2,
+                                 float_status *stat)
+{
+    return float16_sub(dest, float16_mul(op1, op2, stat), stat);
+}
+
+static float32 float32_mulsub_nf(float32 dest, float32 op1, float32 op2,
+                                 float_status *stat)
+{
+    return float32_sub(dest, float32_mul(op1, op2, stat), stat);
+}
+
+#define DO_MULADD(NAME, FUNC, TYPE) \
+void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+{                                                                          \
+    intptr_t i, oprsz = simd_oprsz(desc);                                  \
+    TYPE *d = vd, *n = vn, *m = vm;                                        \
+    for (i = 0; i < oprsz / sizeof(TYPE); i++) {                           \
+        d[i] = FUNC(d[i], n[i], m[i], stat);                               \
+    }                                                                      \
+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
+}
+
+DO_MULADD(gvec_fmla_h, float16_muladd_nf, float16)
+DO_MULADD(gvec_fmla_s, float32_muladd_nf, float32)
+
+DO_MULADD(gvec_fmls_h, float16_mulsub_nf, float16)
+DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
+
 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
  * For AdvSIMD, there is of course only one such vector segment.
  */
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VACGE, gen_helper_gvec_facge_s, gen_helper_gvec_facge_h)
 DO_3S_FP_GVEC(VACGT, gen_helper_gvec_facgt_s, gen_helper_gvec_facgt_h)
 DO_3S_FP_GVEC(VMAX, gen_helper_gvec_fmax_s, gen_helper_gvec_fmax_h)
 DO_3S_FP_GVEC(VMIN, gen_helper_gvec_fmin_s, gen_helper_gvec_fmin_h)
-
-/*
- * For all the functions using this macro, size == 1 means fp16,
- * which is an architecture extension we don't implement yet.
- */
-#define DO_3S_FP(INSN,FUNC,READS_VD)                                \
-    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
-    {                                                               \
-        if (a->size != 0) {                                         \
-            /* TODO fp16 support */                                 \
-            return false;                                           \
-        }                                                           \
-        return do_3same_fp(s, a, FUNC, READS_VD);                   \
-    }
-
-static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                            TCGv_ptr fpstatus)
-{
-    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
-    gen_helper_vfp_adds(vd, vd, vn, fpstatus);
-}
-
-static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                            TCGv_ptr fpstatus)
-{
-    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
-    gen_helper_vfp_subs(vd, vd, vn, fpstatus);
-}
-
-DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
-DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
+DO_3S_FP_GVEC(VMLA, gen_helper_gvec_fmla_s, gen_helper_gvec_fmla_h)
+DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
 
 WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
 WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
-- 
2.20.1

Convert the neon floating-point vector operations VFMA and VFMS
to use a gvec helper, and use this to implement the fp16 case.

This is the last use of do_3same_fp() so we can now delete
that function.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-32-peter.maydell@linaro.org
---
 target/arm/helper.h             |  6 +++
 target/arm/vec_helper.c         | 33 +++++++++++-
 target/arm/translate-neon.c.inc | 92 +--------------------------------
 3 files changed, 40 insertions(+), 91 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_nf(float32 dest, float32 op1, float32 op2,
     return float32_sub(dest, float32_mul(op1, op2, stat), stat);
 }
 
-#define DO_MULADD(NAME, FUNC, TYPE) \
+/* Fused versions; these have the semantics Neon VFMA/VFMS want */
+static float16 float16_muladd_f(float16 dest, float16 op1, float16 op2,
+                                float_status *stat)
+{
+    return float16_muladd(op1, op2, dest, 0, stat);
+}
+
+static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
+                                 float_status *stat)
+{
+    return float32_muladd(op1, op2, dest, 0, stat);
+}
+
+static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
+                                 float_status *stat)
+{
+    return float16_muladd(float16_chs(op1), op2, dest, 0, stat);
+}
+
+static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
+                                 float_status *stat)
+{
+    return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
+}
+
+#define DO_MULADD(NAME, FUNC, TYPE)                                     \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
     intptr_t i, oprsz = simd_oprsz(desc);                                  \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmla_s, float32_muladd_nf, float32)
 DO_MULADD(gvec_fmls_h, float16_mulsub_nf, float16)
 DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
 
+DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
+DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
+
+DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
+DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
+
 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
  * For AdvSIMD, there is of course only one such vector segment.
  */
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPADD, padd_u)
 DO_3SAME_VQDMULH(VQDMULH, qdmulh)
 DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
 
-static bool do_3same_fp(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn,
-                        bool reads_vd)
-{
-    /*
-     * FP operations handled elementwise 32 bits at a time.
-     * If reads_vd is true then the old value of Vd will be
-     * loaded before calling the callback function. This is
-     * used for multiply-accumulate type operations.
-     */
-    TCGv_i32 tmp, tmp2;
-    int pass;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vn | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if ((a->vn | a->vm | a->vd) & a->q) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    TCGv_ptr fpstatus = fpstatus_ptr(FPST_STD);
-    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
-        tmp = neon_load_reg(a->vn, pass);
-        tmp2 = neon_load_reg(a->vm, pass);
-        if (reads_vd) {
-            TCGv_i32 tmp_rd = neon_load_reg(a->vd, pass);
-            fn(tmp_rd, tmp, tmp2, fpstatus);
-            neon_store_reg(a->vd, pass, tmp_rd);
-            tcg_temp_free_i32(tmp);
-        } else {
-            fn(tmp, tmp, tmp2, fpstatus);
-            neon_store_reg(a->vd, pass, tmp);
-        }
-        tcg_temp_free_i32(tmp2);
-    }
-    tcg_temp_free_ptr(fpstatus);
-    return true;
-}
-
 #define WRAP_FP_GVEC(WRAPNAME, FPST, FUNC)                              \
     static void WRAPNAME(unsigned vece, uint32_t rd_ofs,                \
                          uint32_t rn_ofs, uint32_t rm_ofs,              \
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMAX, gen_helper_gvec_fmax_s, gen_helper_gvec_fmax_h)
 DO_3S_FP_GVEC(VMIN, gen_helper_gvec_fmin_s, gen_helper_gvec_fmin_h)
 DO_3S_FP_GVEC(VMLA, gen_helper_gvec_fmla_s, gen_helper_gvec_fmla_h)
 DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
+DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
+DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
 
 WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
 WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
     return do_3same(s, a, gen_VRSQRTS_fp_3s);
 }
 
-static void gen_VFMA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                            TCGv_ptr fpstatus)
-{
-    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
-}
-
-static bool trans_VFMA_fp_3s(DisasContext *s, arg_3same *a)
-{
-    if (!dc_isar_feature(aa32_simdfmac, s)) {
-        return false;
-    }
-
-    if (a->size != 0) {
-        /* TODO fp16 support */
-        return false;
-    }
-
-    return do_3same_fp(s, a, gen_VFMA_fp_3s, true);
-}
-
-static void gen_VFMS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                            TCGv_ptr fpstatus)
-{
-    gen_helper_vfp_negs(vn, vn);
-    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
-}
-
-static bool trans_VFMS_fp_3s(DisasContext *s, arg_3same *a)
-{
-    if (!dc_isar_feature(aa32_simdfmac, s)) {
-        return false;
-    }
-
-    if (a->size != 0) {
-        /* TODO fp16 support */
-        return false;
-    }
-
-    return do_3same_fp(s, a, gen_VFMS_fp_3s, true);
-}
-
 static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 {
     /* FP operations handled pairwise 32 bits at a time */
-- 
2.20.1

Convert the neon floating-point vector compare-vs-0 insns VCEQ0,
VCGT0, VCLE0, VCGE0 and VCLT0 to use a gvec helper, and use this to
implement the fp16 case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-33-peter.maydell@linaro.org
---
 target/arm/helper.h             | 15 +++++++++++++++
 target/arm/vec_helper.c         | 25 +++++++++++++++++++++++++
 target/arm/translate-neon.c.inc | 33 +++++----------------------------
 3 files changed, 45 insertions(+), 28 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_frsqrte_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frsqrte_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frsqrte_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_fcgt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fcgt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_fcge0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fcge0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_fceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fceq0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_fcle0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fcle0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_fclt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fclt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fadd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fadd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fadd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
 DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
 DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
 
+#define WRAP_CMP0_FWD(FN, CMPOP, TYPE)                          \
+    static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)     \
+    {                                                           \
+        return TYPE##_##CMPOP(op, TYPE##_zero, stat);           \
+    }
+
+#define WRAP_CMP0_REV(FN, CMPOP, TYPE)                          \
+    static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)    \
+    {                                                           \
+        return TYPE##_##CMPOP(TYPE##_zero, op, stat);           \
+    }
+
+#define DO_2OP_CMP0(FN, CMPOP, DIRN)                    \
+    WRAP_CMP0_##DIRN(FN, CMPOP, float16)                \
+    WRAP_CMP0_##DIRN(FN, CMPOP, float32)                \
+    DO_2OP(gvec_f##FN##0_h, float16_##FN##0, float16)   \
+    DO_2OP(gvec_f##FN##0_s, float32_##FN##0, float32)
+
+DO_2OP_CMP0(cgt, cgt, FWD)
+DO_2OP_CMP0(cge, cge, FWD)
+DO_2OP_CMP0(ceq, ceq, FWD)
+DO_2OP_CMP0(clt, cgt, REV)
+DO_2OP_CMP0(cle, cge, REV)
+
 #undef DO_2OP
+#undef DO_2OP_CMP0
 
 /* Floating-point trigonometric starting value.
  * See the ARM ARM pseudocode function FPTrigSMul.
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_2MISC_FP(VCVT_UF, gen_helper_vfp_touizs)
 
 DO_2MISC_FP_VEC(VRECPE_F, gen_helper_gvec_frecpe_h, gen_helper_gvec_frecpe_s)
 DO_2MISC_FP_VEC(VRSQRTE_F, gen_helper_gvec_frsqrte_h, gen_helper_gvec_frsqrte_s)
+DO_2MISC_FP_VEC(VCGT0_F, gen_helper_gvec_fcgt0_h, gen_helper_gvec_fcgt0_s)
+DO_2MISC_FP_VEC(VCGE0_F, gen_helper_gvec_fcge0_h, gen_helper_gvec_fcge0_s)
+DO_2MISC_FP_VEC(VCEQ0_F, gen_helper_gvec_fceq0_h, gen_helper_gvec_fceq0_s)
+DO_2MISC_FP_VEC(VCLT0_F, gen_helper_gvec_fclt0_h, gen_helper_gvec_fclt0_s)
+DO_2MISC_FP_VEC(VCLE0_F, gen_helper_gvec_fcle0_h, gen_helper_gvec_fcle0_s)
 
 static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
 {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
     return do_2misc_fp(s, a, gen_helper_rints_exact);
 }
 
-#define WRAP_FP_CMP0_FWD(WRAPNAME, FUNC)                        \
-    static void WRAPNAME(TCGv_i32 d, TCGv_i32 m, TCGv_ptr fpst) \
-    {                                                           \
-        TCGv_i32 zero = tcg_const_i32(0);                       \
-        FUNC(d, m, zero, fpst);                                 \
-        tcg_temp_free_i32(zero);                                \
-    }
-#define WRAP_FP_CMP0_REV(WRAPNAME, FUNC)                        \
-    static void WRAPNAME(TCGv_i32 d, TCGv_i32 m, TCGv_ptr fpst) \
-    {                                                           \
-        TCGv_i32 zero = tcg_const_i32(0);                       \
-        FUNC(d, zero, m, fpst);                                 \
-        tcg_temp_free_i32(zero);                                \
-    }
-
-#define DO_FP_CMP0(INSN, FUNC, REV)                             \
-    WRAP_FP_CMP0_##REV(gen_##INSN, FUNC)                        \
-    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
-    {                                                           \
-        return do_2misc_fp(s, a, gen_##INSN);                   \
-    }
-
-DO_FP_CMP0(VCGT0_F, gen_helper_neon_cgt_f32, FWD)
-DO_FP_CMP0(VCGE0_F, gen_helper_neon_cge_f32, FWD)
-DO_FP_CMP0(VCEQ0_F, gen_helper_neon_ceq_f32, FWD)
-DO_FP_CMP0(VCLE0_F, gen_helper_neon_cge_f32, REV)
-DO_FP_CMP0(VCLT0_F, gen_helper_neon_cgt_f32, REV)
-
 static bool do_vrint(DisasContext *s, arg_2misc *a, int rmode)
 {
     /*
-- 
2.20.1

Convert the Neon VRECPS insn to using a gvec helper, and
use this to implement the fp16 case.

The phrasing of the new float32_recps_nf() is slightly different from
the old recps_f32() so that it parallels the f16 version; for f16 we
can't assume that flush-to-zero is always enabled.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-34-peter.maydell@linaro.org
---
 target/arm/helper.h             |  4 +++-
 target/arm/vec_helper.c         | 31 +++++++++++++++++++++++++++++++
 target/arm/vfp_helper.c         | 13 -------------
 target/arm/translate-neon.c.inc | 21 +--------------------
 4 files changed, 35 insertions(+), 34 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
 DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
 DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
 
-DEF_HELPER_3(recps_f32, f32, env, f32, f32)
 DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
 DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
 DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i3
 DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
     return float32_abs(float32_sub(op1, op2, stat));
 }
 
+/*
+ * Reciprocal step. These are the AArch32 version which uses a
+ * non-fused multiply-and-subtract.
+ */
+static float16 float16_recps_nf(float16 op1, float16 op2, float_status *stat)
+{
+    op1 = float16_squash_input_denormal(op1, stat);
+    op2 = float16_squash_input_denormal(op2, stat);
+
+    if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
+        (float16_is_infinity(op2) && float16_is_zero(op1))) {
+        return float16_two;
+    }
+    return float16_sub(float16_two, float16_mul(op1, op2, stat), stat);
+}
+
+static float32 float32_recps_nf(float32 op1, float32 op2, float_status *stat)
+{
+    op1 = float32_squash_input_denormal(op1, stat);
+    op2 = float32_squash_input_denormal(op2, stat);
+
+    if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
+        (float32_is_infinity(op2) && float32_is_zero(op1))) {
+        return float32_two;
+    }
+    return float32_sub(float32_two, float32_mul(op1, op2, stat), stat);
+}
+
 #define DO_3OP(NAME, FUNC, TYPE) \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
 DO_3OP(gvec_fminnum_h, float16_minnum, float16)
 DO_3OP(gvec_fminnum_s, float32_minnum, float32)
 
+DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
+DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
+
 #ifdef TARGET_AARCH64
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
-{
-    float_status *s = &env->vfp.standard_fp_status;
-    if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
-        (float32_is_infinity(b) && float32_is_zero_or_denormal(a))) {
-        if (!(float32_is_zero(a) || float32_is_zero(b))) {
-            float_raise(float_flag_input_denormal, s);
-        }
-        return float32_two;
-    }
-    return float32_sub(float32_two, float32_mul(a, b, s), s);
-}
-
 float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
 {
     float_status *s = &env->vfp.standard_fp_status;
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMLA, gen_helper_gvec_fmla_s, gen_helper_gvec_fmla_h)
 DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
 DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
 DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
+DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
 
 WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
 WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
     return do_3same(s, a, gen_VMINNM_fp32_3s);
 }
 
-WRAP_ENV_FN(gen_VRECPS_tramp, gen_helper_recps_f32)
-
-static void gen_VRECPS_fp_3s(unsigned vece, uint32_t rd_ofs,
-                             uint32_t rn_ofs, uint32_t rm_ofs,
-                             uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen3 ops = { .fni4 = gen_VRECPS_tramp };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
-}
-
-static bool trans_VRECPS_fp_3s(DisasContext *s, arg_3same *a)
-{
-    if (a->size != 0) {
-        /* TODO fp16 support */
-        return false;
-    }
-
-    return do_3same(s, a, gen_VRECPS_fp_3s);
-}
-
 WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
 
 static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
-- 
2.20.1

Convert the Neon VRSQRTS insn to using a gvec helper,
and use this to implement the fp16 case.

As with VRECPS, we adjust the phrasing of the new implementation
slightly so that the fp32 version parallels the fp16 one.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-35-peter.maydell@linaro.org
---
 target/arm/helper.h             |  4 +++-
 target/arm/vec_helper.c         | 30 ++++++++++++++++++++++++++++++
 target/arm/vfp_helper.c         | 15 ---------------
 target/arm/translate-neon.c.inc | 21 +--------------------
 4 files changed, 34 insertions(+), 36 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
 DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
 DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
 
-DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
 DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
 DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
 DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i3
 DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_recps_nf(float32 op1, float32 op2, float_status *stat)
     return float32_sub(float32_two, float32_mul(op1, op2, stat), stat);
 }
 
+/* Reciprocal square-root step. AArch32 non-fused semantics. */
+static float16 float16_rsqrts_nf(float16 op1, float16 op2, float_status *stat)
+{
+    op1 = float16_squash_input_denormal(op1, stat);
+    op2 = float16_squash_input_denormal(op2, stat);
+
+    if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
+        (float16_is_infinity(op2) && float16_is_zero(op1))) {
+        return float16_one_point_five;
+    }
+    op1 = float16_sub(float16_three, float16_mul(op1, op2, stat), stat);
+    return float16_div(op1, float16_two, stat);
+}
+
+static float32 float32_rsqrts_nf(float32 op1, float32 op2, float_status *stat)
+{
+    op1 = float32_squash_input_denormal(op1, stat);
+    op2 = float32_squash_input_denormal(op2, stat);
+
+    if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
+        (float32_is_infinity(op2) && float32_is_zero(op1))) {
+        return float32_one_point_five;
+    }
+    op1 = float32_sub(float32_three, float32_mul(op1, op2, stat), stat);
+    return float32_div(op1, float32_two, stat);
+}
+
 #define DO_3OP(NAME, FUNC, TYPE) \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fminnum_s, float32_minnum, float32)
 DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
 DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
 
+DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
+DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
+
 #ifdef TARGET_AARCH64
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
-{
-    float_status *s = &env->vfp.standard_fp_status;
-    float32 product;
-    if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
-        (float32_is_infinity(b) && float32_is_zero_or_denormal(a))) {
-        if (!(float32_is_zero(a) || float32_is_zero(b))) {
-            float_raise(float_flag_input_denormal, s);
-        }
-        return float32_one_point_five;
-    }
-    product = float32_mul(a, b, s);
-    return float32_div(float32_sub(float32_three, product, s), float32_two, s);
-}
-
 /* NEON helpers.  */
 
 /* Constants 256 and 512 are used in some helpers; we avoid relying on
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMLS, gen_helper_gvec_fmls_s, gen_helper_gvec_fmls_h)
 DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
 DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
 DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
+DO_3S_FP_GVEC(VRSQRTS, gen_helper_gvec_rsqrts_nf_s, gen_helper_gvec_rsqrts_nf_h)
 
 WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
 WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
     return do_3same(s, a, gen_VMINNM_fp32_3s);
 }
 
-WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
-
-static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
-                              uint32_t rn_ofs, uint32_t rm_ofs,
-                              uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen3 ops = { .fni4 = gen_VRSQRTS_tramp };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
-}
-
-static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
-{
-    if (a->size != 0) {
-        /* TODO fp16 support */
-        return false;
-    }
-
-    return do_3same(s, a, gen_VRSQRTS_fp_3s);
-}
-
 static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 {
     /* FP operations handled pairwise 32 bits at a time */
-- 
2.20.1

Convert the Neon pairwise fp ops to use a single gvic-style
helper to do the full operation instead of one helper call
for each 32-bit part. This allows us to use the same
framework to implement the fp16.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-36-peter.maydell@linaro.org
---
 target/arm/helper.h             |  7 +++++
 target/arm/vec_helper.c         | 45 +++++++++++++++++++++++++++++++++
 target/arm/translate-neon.c.inc | 42 ++++++++++++------------------
 3 files changed, 68 insertions(+), 26 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
 DEF_HELPER_FLAGS_5(gvec_fcmlad, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(neon_paddh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(neon_pmaxh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(neon_pminh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_s, uint32_t)
 DO_ABA(gvec_uaba_d, uint64_t)
 
 #undef DO_ABA
+
+#define DO_NEON_PAIRWISE(NAME, OP)                                      \
+    void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
+                         void *stat, uint32_t oprsz)                    \
+    {                                                                   \
+        float_status *fpst = stat;                                      \
+        float32 *d = vd;                                                \
+        float32 *n = vn;                                                \
+        float32 *m = vm;                                                \
+        float32 r0, r1;                                                 \
+                                                                        \
+        /* Read all inputs before writing outputs in case vm == vd */   \
+        r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
+        r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
+                                                                        \
+        d[H4(0)] = r0;                                                  \
+        d[H4(1)] = r1;                                                  \
+    }                                                                   \
+                                                                        \
+    void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
+                         void *stat, uint32_t oprsz)                    \
+    {                                                                   \
+        float_status *fpst = stat;                                      \
+        float16 *d = vd;                                                \
+        float16 *n = vn;                                                \
+        float16 *m = vm;                                                \
+        float16 r0, r1, r2, r3;                                         \
+                                                                        \
+        /* Read all inputs before writing outputs in case vm == vd */   \
+        r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
+        r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
+        r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
+        r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
+                                                                        \
+        d[H4(0)] = r0;                                                  \
+        d[H4(1)] = r1;                                                  \
+        d[H4(2)] = r2;                                                  \
+        d[H4(3)] = r3;                                                  \
+    }
+
+DO_NEON_PAIRWISE(neon_padd, add)
+DO_NEON_PAIRWISE(neon_pmax, max)
+DO_NEON_PAIRWISE(neon_pmin, min)
+
+#undef DO_NEON_PAIRWISE
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
     return do_3same(s, a, gen_VMINNM_fp32_3s);
 }
 
-static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
+static bool do_3same_fp_pair(DisasContext *s, arg_3same *a,
+                             gen_helper_gvec_3_ptr *fn)
 {
-    /* FP operations handled pairwise 32 bits at a time */
-    TCGv_i32 tmp, tmp2, tmp3;
+    /* FP pairwise operations */
     TCGv_ptr fpstatus;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 
     assert(a->q == 0); /* enforced by decode patterns */
 
-    /*
-     * Note that we have to be careful not to clobber the source operands
-     * in the "vm == vd" case by storing the result of the first pass too
-     * early. Since Q is 0 there are always just two passes, so instead
-     * of a complicated loop over each pass we just unroll.
-     */
-    fpstatus = fpstatus_ptr(FPST_STD);
-    tmp = neon_load_reg(a->vn, 0);
-    tmp2 = neon_load_reg(a->vn, 1);
-    fn(tmp, tmp, tmp2, fpstatus);
-    tcg_temp_free_i32(tmp2);
 
-    tmp3 = neon_load_reg(a->vm, 0);
-    tmp2 = neon_load_reg(a->vm, 1);
-    fn(tmp3, tmp3, tmp2, fpstatus);
-    tcg_temp_free_i32(tmp2);
+    fpstatus = fpstatus_ptr(a->size != 0 ? FPST_STD_F16 : FPST_STD);
+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                       vfp_reg_offset(1, a->vn),
+                       vfp_reg_offset(1, a->vm),
+                       fpstatus, 8, 8, 0, fn);
     tcg_temp_free_ptr(fpstatus);
 
-    neon_store_reg(a->vd, 0, tmp);
-    neon_store_reg(a->vd, 1, tmp3);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
     static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
     {                                                               \
         if (a->size != 0) {                                         \
-            /* TODO fp16 support */                                 \
-            return false;                                           \
+            if (!dc_isar_feature(aa32_fp16_arith, s)) {             \
+                return false;                                       \
+            }                                                       \
+            return do_3same_fp_pair(s, a, FUNC##h);                 \
         }                                                           \
-        return do_3same_fp_pair(s, a, FUNC);                        \
+        return do_3same_fp_pair(s, a, FUNC##s);                     \
     }
 
-DO_3S_FP_PAIR(VPADD, gen_helper_vfp_adds)
-DO_3S_FP_PAIR(VPMAX, gen_helper_vfp_maxs)
-DO_3S_FP_PAIR(VPMIN, gen_helper_vfp_mins)
+DO_3S_FP_PAIR(VPADD, gen_helper_neon_padd)
+DO_3S_FP_PAIR(VPMAX, gen_helper_neon_pmax)
+DO_3S_FP_PAIR(VPMIN, gen_helper_neon_pmin)
 
 static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
 {
-- 
2.20.1

Convert the Neon float-integer VCVT insns to gvec, and use this
to implement fp16 support for them.

Note that unlike the VFP int<->fp16 VCVT insns we converted
earlier and which convert to/from a 32-bit integer, these
Neon insns convert to/from 16-bit integers. So we can use
the existing vfp conversion helpers for the f32<->u32/i32
case but need to provide our own for f16<->u16/i16.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-37-peter.maydell@linaro.org
---
 target/arm/helper.h             |  9 +++++++++
 target/arm/vec_helper.c         | 29 +++++++++++++++++++++++++++++
 target/arm/translate-neon.c.inc | 15 ++++-----------
 3 files changed, 42 insertions(+), 11 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_tosszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static int16_t vfp_tosszh(float16 x, void *fpstp)
+{
+    float_status *fpst = fpstp;
+    if (float16_is_any_nan(x)) {
+        float_raise(float_flag_invalid, fpst);
+        return 0;
+    }
+    return float16_to_int16_round_to_zero(x, fpst);
+}
+
+static uint16_t vfp_touszh(float16 x, void *fpstp)
+{
+    float_status *fpst = fpstp;
+    if (float16_is_any_nan(x)) {
+        float_raise(float_flag_invalid, fpst);
+        return 0;
+    }
+    return float16_to_uint16_round_to_zero(x, fpst);
+}
+
 #define DO_2OP(NAME, FUNC, TYPE) \
 void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
 {                                                                 \
@@ -XXX,XX +XXX,XX @@ DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
 DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
 DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
 
+DO_2OP(gvec_sitos, helper_vfp_sitos, int32_t)
+DO_2OP(gvec_uitos, helper_vfp_uitos, uint32_t)
+DO_2OP(gvec_tosizs, helper_vfp_tosizs, float32)
+DO_2OP(gvec_touizs, helper_vfp_touizs, float32)
+DO_2OP(gvec_sstoh, int16_to_float16, int16_t)
+DO_2OP(gvec_ustoh, uint16_to_float16, uint16_t)
+DO_2OP(gvec_tosszh, vfp_tosszh, float16)
+DO_2OP(gvec_touszh, vfp_touszh, float16)
+
 #define WRAP_CMP0_FWD(FN, CMPOP, TYPE)                          \
     static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)     \
     {                                                           \
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_2misc_fp(DisasContext *s, arg_2misc *a,
     return true;
 }
 
-#define DO_2MISC_FP(INSN, FUNC)                                 \
-    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
-    {                                                           \
-        return do_2misc_fp(s, a, FUNC);                         \
-    }
-
-DO_2MISC_FP(VCVT_FS, gen_helper_vfp_sitos)
-DO_2MISC_FP(VCVT_FU, gen_helper_vfp_uitos)
-DO_2MISC_FP(VCVT_SF, gen_helper_vfp_tosizs)
-DO_2MISC_FP(VCVT_UF, gen_helper_vfp_touizs)
-
 #define DO_2MISC_FP_VEC(INSN, HFUNC, SFUNC)                             \
     static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
                            uint32_t rm_ofs,                             \
@@ -XXX,XX +XXX,XX @@ DO_2MISC_FP_VEC(VCGE0_F, gen_helper_gvec_fcge0_h, gen_helper_gvec_fcge0_s)
 DO_2MISC_FP_VEC(VCEQ0_F, gen_helper_gvec_fceq0_h, gen_helper_gvec_fceq0_s)
 DO_2MISC_FP_VEC(VCLT0_F, gen_helper_gvec_fclt0_h, gen_helper_gvec_fclt0_s)
 DO_2MISC_FP_VEC(VCLE0_F, gen_helper_gvec_fcle0_h, gen_helper_gvec_fcle0_s)
+DO_2MISC_FP_VEC(VCVT_FS, gen_helper_gvec_sstoh, gen_helper_gvec_sitos)
+DO_2MISC_FP_VEC(VCVT_FU, gen_helper_gvec_ustoh, gen_helper_gvec_uitos)
+DO_2MISC_FP_VEC(VCVT_SF, gen_helper_gvec_tosszh, gen_helper_gvec_tosizs)
+DO_2MISC_FP_VEC(VCVT_UF, gen_helper_gvec_touszh, gen_helper_gvec_touizs)
 
 static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
 {
-- 
2.20.1

Convert the Neon VCVT float<->fixed-point insns to a
gvec style, in preparation for adding fp16 support.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-38-peter.maydell@linaro.org
---
 target/arm/helper.h             |  5 +++++
 target/arm/vec_helper.c         | 20 +++++++++++++++++++
 target/arm/translate-neon.c.inc | 35 +++++++++++++++++----------------
 3 files changed, 43 insertions(+), 17 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_vcvt_sf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_fs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_fu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_NEON_PAIRWISE(neon_pmax, max)
 DO_NEON_PAIRWISE(neon_pmin, min)
 
 #undef DO_NEON_PAIRWISE
+
+#define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
+    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+    {                                                                   \
+        intptr_t i, oprsz = simd_oprsz(desc);                           \
+        int shift = simd_data(desc);                                    \
+        TYPE *d = vd, *n = vn;                                          \
+        float_status *fpst = stat;                                      \
+        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
+            d[i] = FUNC(n[i], shift, fpst);                             \
+        }                                                               \
+        clear_tail(d, oprsz, simd_maxsz(desc));                         \
+    }
+
+DO_VCVT_FIXED(gvec_vcvt_sf, helper_vfp_sltos, uint32_t)
+DO_VCVT_FIXED(gvec_vcvt_uf, helper_vfp_ultos, uint32_t)
+DO_VCVT_FIXED(gvec_vcvt_fs, helper_vfp_tosls_round_to_zero, uint32_t)
+DO_VCVT_FIXED(gvec_vcvt_fu, helper_vfp_touls_round_to_zero, uint32_t)
+
+#undef DO_VCVT_FIXED
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VSHLL_U_2sh(DisasContext *s, arg_2reg_shift *a)
 }
 
 static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
-                      NeonGenTwoSingleOpFn *fn)
+                      gen_helper_gvec_2_ptr *fn)
 {
     /* FP operations in 2-reg-and-shift group */
-    TCGv_i32 tmp, shiftv;
-    TCGv_ptr fpstatus;
-    int pass;
+    int vec_size = a->q ? 16 : 8;
+    int rd_ofs = neon_reg_offset(a->vd, 0);
+    int rm_ofs = neon_reg_offset(a->vm, 0);
+    TCGv_ptr fpst;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
         return false;
     }
 
+    if (a->size != 0) {
+        if (!dc_isar_feature(aa32_fp16_arith, s)) {
+            return false;
+        }
+    }
+
     /* UNDEF accesses to D16-D31 if they don't exist. */
     if (!dc_isar_feature(aa32_simd_r32, s) &&
         ((a->vd | a->vm) & 0x10)) {
@@ -XXX,XX +XXX,XX @@ static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
         return true;
     }
 
-    fpstatus = fpstatus_ptr(FPST_STD);
-    shiftv = tcg_const_i32(a->shift);
-    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
-        tmp = neon_load_reg(a->vm, pass);
-        fn(tmp, tmp, shiftv, fpstatus);
-        neon_store_reg(a->vd, pass, tmp);
-    }
-    tcg_temp_free_ptr(fpstatus);
-    tcg_temp_free_i32(shiftv);
+    fpst = fpstatus_ptr(a->size ? FPST_STD_F16 : FPST_STD);
+    tcg_gen_gvec_2_ptr(rd_ofs, rm_ofs, fpst, vec_size, vec_size, a->shift, fn);
+    tcg_temp_free_ptr(fpst);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
         return do_fp_2sh(s, a, FUNC);                                   \
     }
 
-DO_FP_2SH(VCVT_SF, gen_helper_vfp_sltos)
-DO_FP_2SH(VCVT_UF, gen_helper_vfp_ultos)
-DO_FP_2SH(VCVT_FS, gen_helper_vfp_tosls_round_to_zero)
-DO_FP_2SH(VCVT_FU, gen_helper_vfp_touls_round_to_zero)
+DO_FP_2SH(VCVT_SF, gen_helper_gvec_vcvt_sf)
+DO_FP_2SH(VCVT_UF, gen_helper_gvec_vcvt_uf)
+DO_FP_2SH(VCVT_FS, gen_helper_gvec_vcvt_fs)
+DO_FP_2SH(VCVT_FU, gen_helper_gvec_vcvt_fu)
 
 static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
 {
-- 
2.20.1

Implement fp16 for the Neon VCVT insns which convert between
float and fixed-point.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-39-peter.maydell@linaro.org
---
 target/arm/helper.h             | 5 +++++
 target/arm/neon-dp.decode       | 8 +++++++-
 target/arm/vec_helper.c         | 4 ++++
 target/arm/translate-neon.c.inc | 5 +++++
 4 files changed, 21 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vcvt_fs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vcvt_fu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_vcvt_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_hs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_hu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VMINNM_fp_3s     1111 001 1 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
 # We use size=0 for fp32 and size=1 for fp16 to match the 3-same encodings.
 @2reg_vcvt       .... ... . . . 1 ..... .... .... . q:1 . . .... \
                  &2reg_shift vm=%vm_dp vd=%vd_dp size=0 shift=%neon_rshift_i5
+@2reg_vcvt_f16   .... ... . . . 11 .... .... .... . q:1 . . .... \
+                 &2reg_shift vm=%vm_dp vd=%vd_dp size=1 shift=%neon_rshift_i4
 
 VSHR_S_2sh       1111 001 0 1 . ...... .... 0000 . . . 1 .... @2reg_shr_d
 VSHR_S_2sh       1111 001 0 1 . ...... .... 0000 . . . 1 .... @2reg_shr_s
@@ -XXX,XX +XXX,XX @@ VSHLL_U_2sh      1111 001 1 1 . ...... .... 1010 . 0 . 1 .... @2reg_shll_h
 VSHLL_U_2sh      1111 001 1 1 . ...... .... 1010 . 0 . 1 .... @2reg_shll_b
 
 # VCVT fixed<->float conversions
-# TODO: FP16 fixed<->float conversions are opc==0b1100 and 0b1101
+VCVT_SH_2sh      1111 001 0 1 . ...... .... 1100 0 . . 1 .... @2reg_vcvt_f16
+VCVT_UH_2sh      1111 001 1 1 . ...... .... 1100 0 . . 1 .... @2reg_vcvt_f16
+VCVT_HS_2sh      1111 001 0 1 . ...... .... 1101 0 . . 1 .... @2reg_vcvt_f16
+VCVT_HU_2sh      1111 001 1 1 . ...... .... 1101 0 . . 1 .... @2reg_vcvt_f16
+
 VCVT_SF_2sh      1111 001 0 1 . ...... .... 1110 0 . . 1 .... @2reg_vcvt
 VCVT_UF_2sh      1111 001 1 1 . ...... .... 1110 0 . . 1 .... @2reg_vcvt
 VCVT_FS_2sh      1111 001 0 1 . ...... .... 1111 0 . . 1 .... @2reg_vcvt
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VCVT_FIXED(gvec_vcvt_sf, helper_vfp_sltos, uint32_t)
 DO_VCVT_FIXED(gvec_vcvt_uf, helper_vfp_ultos, uint32_t)
 DO_VCVT_FIXED(gvec_vcvt_fs, helper_vfp_tosls_round_to_zero, uint32_t)
 DO_VCVT_FIXED(gvec_vcvt_fu, helper_vfp_touls_round_to_zero, uint32_t)
+DO_VCVT_FIXED(gvec_vcvt_sh, helper_vfp_shtoh, uint16_t)
+DO_VCVT_FIXED(gvec_vcvt_uh, helper_vfp_uhtoh, uint16_t)
+DO_VCVT_FIXED(gvec_vcvt_hs, helper_vfp_toshh_round_to_zero, uint16_t)
+DO_VCVT_FIXED(gvec_vcvt_hu, helper_vfp_touhh_round_to_zero, uint16_t)
 
 #undef DO_VCVT_FIXED
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_FP_2SH(VCVT_UF, gen_helper_gvec_vcvt_uf)
 DO_FP_2SH(VCVT_FS, gen_helper_gvec_vcvt_fs)
 DO_FP_2SH(VCVT_FU, gen_helper_gvec_vcvt_fu)
 
+DO_FP_2SH(VCVT_SH, gen_helper_gvec_vcvt_sh)
+DO_FP_2SH(VCVT_UH, gen_helper_gvec_vcvt_uh)
+DO_FP_2SH(VCVT_HS, gen_helper_gvec_vcvt_hs)
+DO_FP_2SH(VCVT_HU, gen_helper_gvec_vcvt_hu)
+
 static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
 {
     /*
-- 
2.20.1

Convert the Neon VCVT with-specified-rounding-mode instructions
to gvec, and use this to implement fp16 support for them.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-40-peter.maydell@linaro.org
---
 target/arm/helper.h             |   5 ++
 target/arm/vec_helper.c         |  23 +++++++
 target/arm/translate-neon.c.inc | 105 ++++++++++++--------------------
 3 files changed, 66 insertions(+), 67 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vcvt_hs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vcvt_hu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ss, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VCVT_FIXED(gvec_vcvt_hs, helper_vfp_toshh_round_to_zero, uint16_t)
 DO_VCVT_FIXED(gvec_vcvt_hu, helper_vfp_touhh_round_to_zero, uint16_t)
 
 #undef DO_VCVT_FIXED
+
+#define DO_VCVT_RMODE(NAME, FUNC, TYPE)                                 \
+    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+    {                                                                   \
+        float_status *fpst = stat;                                      \
+        intptr_t i, oprsz = simd_oprsz(desc);                           \
+        uint32_t rmode = simd_data(desc);                               \
+        uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
+        TYPE *d = vd, *n = vn;                                          \
+        set_float_rounding_mode(rmode, fpst);                           \
+        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
+            d[i] = FUNC(n[i], 0, fpst);                                 \
+        }                                                               \
+        set_float_rounding_mode(prev_rmode, fpst);                      \
+        clear_tail(d, oprsz, simd_maxsz(desc));                         \
+    }
+
+DO_VCVT_RMODE(gvec_vcvt_rm_ss, helper_vfp_tosls, uint32_t)
+DO_VCVT_RMODE(gvec_vcvt_rm_us, helper_vfp_touls, uint32_t)
+DO_VCVT_RMODE(gvec_vcvt_rm_sh, helper_vfp_toshh, uint16_t)
+DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
+
+#undef DO_VCVT_RMODE
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ DO_VRINT(VRINTZ, FPROUNDING_ZERO)
 DO_VRINT(VRINTM, FPROUNDING_NEGINF)
 DO_VRINT(VRINTP, FPROUNDING_POSINF)
 
-static bool do_vcvt(DisasContext *s, arg_2misc *a, int rmode, bool is_signed)
-{
-    /*
-     * Handle a VCVT* operation by iterating 32 bits at a time,
-     * with a specified rounding mode in operation.
-     */
-    int pass;
-    TCGv_ptr fpst;
-    TCGv_i32 tcg_rmode, tcg_shift;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
-        !arm_dc_feature(s, ARM_FEATURE_V8)) {
-        return false;
+#define DO_VEC_RMODE(INSN, RMODE, OP)                                   \
+    static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
+                           uint32_t rm_ofs,                             \
+                           uint32_t oprsz, uint32_t maxsz)              \
+    {                                                                   \
+        static gen_helper_gvec_2_ptr * const fns[4] = {                 \
+            NULL,                                                       \
+            gen_helper_gvec_##OP##h,                                    \
+            gen_helper_gvec_##OP##s,                                    \
+            NULL,                                                       \
+        };                                                              \
+        TCGv_ptr fpst;                                                  \
+        fpst = fpstatus_ptr(vece == 1 ? FPST_STD_F16 : FPST_STD);       \
+        tcg_gen_gvec_2_ptr(rd_ofs, rm_ofs, fpst, oprsz, maxsz,          \
+                           arm_rmode_to_sf(RMODE), fns[vece]);          \
+        tcg_temp_free_ptr(fpst);                                        \
+    }                                                                   \
+    static bool trans_##INSN(DisasContext *s, arg_2misc *a)             \
+    {                                                                   \
+        if (!arm_dc_feature(s, ARM_FEATURE_V8)) {                       \
+            return false;                                               \
+        }                                                               \
+        if (a->size == MO_16) {                                         \
+            if (!dc_isar_feature(aa32_fp16_arith, s)) {                 \
+                return false;                                           \
+            }                                                           \
+        } else if (a->size != MO_32) {                                  \
+            return false;                                               \
+        }                                                               \
+        return do_2misc_vec(s, a, gen_##INSN);                          \
     }
 
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size != 2) {
-        /* TODO: FP16 will be the size == 1 case */
-        return false;
-    }
-
-    if ((a->vd | a->vm) & a->q) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    fpst = fpstatus_ptr(FPST_STD);
-    tcg_shift = tcg_const_i32(0);
-    tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
-    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
-    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
-        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
-        if (is_signed) {
-            gen_helper_vfp_tosls(tmp, tmp, tcg_shift, fpst);
-        } else {
-            gen_helper_vfp_touls(tmp, tmp, tcg_shift, fpst);
-        }
-        neon_store_reg(a->vd, pass, tmp);
-    }
-    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
-    tcg_temp_free_i32(tcg_rmode);
-    tcg_temp_free_i32(tcg_shift);
-    tcg_temp_free_ptr(fpst);
-
-    return true;
-}
-
-#define DO_VCVT(INSN, RMODE, SIGNED)                            \
-    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
-    {                                                           \
-        return do_vcvt(s, a, RMODE, SIGNED);                    \
-    }
-
-DO_VCVT(VCVTAU, FPROUNDING_TIEAWAY, false)
-DO_VCVT(VCVTAS, FPROUNDING_TIEAWAY, true)
-DO_VCVT(VCVTNU, FPROUNDING_TIEEVEN, false)
-DO_VCVT(VCVTNS, FPROUNDING_TIEEVEN, true)
-DO_VCVT(VCVTPU, FPROUNDING_POSINF, false)
-DO_VCVT(VCVTPS, FPROUNDING_POSINF, true)
-DO_VCVT(VCVTMU, FPROUNDING_NEGINF, false)
-DO_VCVT(VCVTMS, FPROUNDING_NEGINF, true)
+DO_VEC_RMODE(VCVTAU, FPROUNDING_TIEAWAY, vcvt_rm_u)
+DO_VEC_RMODE(VCVTAS, FPROUNDING_TIEAWAY, vcvt_rm_s)
+DO_VEC_RMODE(VCVTNU, FPROUNDING_TIEEVEN, vcvt_rm_u)
+DO_VEC_RMODE(VCVTNS, FPROUNDING_TIEEVEN, vcvt_rm_s)
+DO_VEC_RMODE(VCVTPU, FPROUNDING_POSINF, vcvt_rm_u)
+DO_VEC_RMODE(VCVTPS, FPROUNDING_POSINF, vcvt_rm_s)
+DO_VEC_RMODE(VCVTMU, FPROUNDING_NEGINF, vcvt_rm_u)
+DO_VEC_RMODE(VCVTMS, FPROUNDING_NEGINF, vcvt_rm_s)
 
 static bool trans_VSWP(DisasContext *s, arg_2misc *a)
 {
-- 
2.20.1

Convert the Neon VRINT-with-specified-rounding-mode insns to gvec,
and use this to implement the fp16 versions.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-41-peter.maydell@linaro.org
---
 target/arm/helper.h             |  4 +-
 target/arm/vec_helper.c         | 21 +++++++++++
 target/arm/vfp_helper.c         | 17 ---------
 target/arm/translate-neon.c.inc | 67 +++------------------------------
 4 files changed, 30 insertions(+), 79 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, ptr)
 DEF_HELPER_3(vfp_uqtoh, f16, i64, i32, ptr)
 
 DEF_HELPER_FLAGS_2(set_rmode, TCG_CALL_NO_RWG, i32, i32, ptr)
-DEF_HELPER_FLAGS_2(set_neon_rmode, TCG_CALL_NO_RWG, i32, i32, env)
 
 DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f32, TCG_CALL_NO_RWG, f32, f16, ptr, i32)
 DEF_HELPER_FLAGS_3(vfp_fcvt_f32_to_f16, TCG_CALL_NO_RWG, f16, f32, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VCVT_RMODE(gvec_vcvt_rm_sh, helper_vfp_toshh, uint16_t)
 DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
 
 #undef DO_VCVT_RMODE
+
+#define DO_VRINT_RMODE(NAME, FUNC, TYPE)                                \
+    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+    {                                                                   \
+        float_status *fpst = stat;                                      \
+        intptr_t i, oprsz = simd_oprsz(desc);                           \
+        uint32_t rmode = simd_data(desc);                               \
+        uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
+        TYPE *d = vd, *n = vn;                                          \
+        set_float_rounding_mode(rmode, fpst);                           \
+        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
+            d[i] = FUNC(n[i], fpst);                                    \
+        }                                                               \
+        set_float_rounding_mode(prev_rmode, fpst);                      \
+        clear_tail(d, oprsz, simd_maxsz(desc));                         \
+    }
+
+DO_VRINT_RMODE(gvec_vrint_rm_h, helper_rinth, uint16_t)
+DO_VRINT_RMODE(gvec_vrint_rm_s, helper_rints, uint32_t)
+
+#undef DO_VRINT_RMODE
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(set_rmode)(uint32_t rmode, void *fpstp)
     return prev_rmode;
 }
 
-/* Set the current fp rounding mode in the standard fp status and return
- * the old one. This is for NEON instructions that need to change the
- * rounding mode but wish to use the standard FPSCR values for everything
- * else. Always set the rounding mode back to the correct value after
- * modifying it.
- * The argument is a softfloat float_round_ value.
- */
-uint32_t HELPER(set_neon_rmode)(uint32_t rmode, CPUARMState *env)
-{
-    float_status *fp_status = &env->vfp.standard_fp_status;
-
-    uint32_t prev_rmode = get_float_rounding_mode(fp_status);
-    set_float_rounding_mode(rmode, fp_status);
-
-    return prev_rmode;
-}
-
 /* Half precision conversions.  */
 float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
 {
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
     return do_2misc_fp(s, a, gen_helper_rints_exact);
 }
 
-static bool do_vrint(DisasContext *s, arg_2misc *a, int rmode)
-{
-    /*
-     * Handle a VRINT* operation by iterating 32 bits at a time,
-     * with a specified rounding mode in operation.
-     */
-    int pass;
-    TCGv_ptr fpst;
-    TCGv_i32 tcg_rmode;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
-        !arm_dc_feature(s, ARM_FEATURE_V8)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size != 2) {
-        /* TODO: FP16 will be the size == 1 case */
-        return false;
-    }
-
-    if ((a->vd | a->vm) & a->q) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    fpst = fpstatus_ptr(FPST_STD);
-    tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
-    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
-    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
-        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
-        gen_helper_rints(tmp, tmp, fpst);
-        neon_store_reg(a->vd, pass, tmp);
-    }
-    gen_helper_set_neon_rmode(tcg_rmode, tcg_rmode, cpu_env);
-    tcg_temp_free_i32(tcg_rmode);
-    tcg_temp_free_ptr(fpst);
-
-    return true;
-}
-
-#define DO_VRINT(INSN, RMODE)                                   \
-    static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
-    {                                                           \
-        return do_vrint(s, a, RMODE);                           \
-    }
-
-DO_VRINT(VRINTN, FPROUNDING_TIEEVEN)
-DO_VRINT(VRINTA, FPROUNDING_TIEAWAY)
-DO_VRINT(VRINTZ, FPROUNDING_ZERO)
-DO_VRINT(VRINTM, FPROUNDING_NEGINF)
-DO_VRINT(VRINTP, FPROUNDING_POSINF)
-
 #define DO_VEC_RMODE(INSN, RMODE, OP)                                   \
     static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
                            uint32_t rm_ofs,                             \
@@ -XXX,XX +XXX,XX @@ DO_VEC_RMODE(VCVTPS, FPROUNDING_POSINF, vcvt_rm_s)
 DO_VEC_RMODE(VCVTMU, FPROUNDING_NEGINF, vcvt_rm_u)
 DO_VEC_RMODE(VCVTMS, FPROUNDING_NEGINF, vcvt_rm_s)
 
+DO_VEC_RMODE(VRINTN, FPROUNDING_TIEEVEN, vrint_rm_)
+DO_VEC_RMODE(VRINTA, FPROUNDING_TIEAWAY, vrint_rm_)
+DO_VEC_RMODE(VRINTZ, FPROUNDING_ZERO, vrint_rm_)
+DO_VEC_RMODE(VRINTM, FPROUNDING_NEGINF, vrint_rm_)
+DO_VEC_RMODE(VRINTP, FPROUNDING_POSINF, vrint_rm_)
+
 static bool trans_VSWP(DisasContext *s, arg_2misc *a)
 {
     TCGv_i64 rm, rd;
-- 
2.20.1

Convert the Neon VRINTX insn to use gvec, and use this to implement
fp16 support for it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-42-peter.maydell@linaro.org
---
 target/arm/helper.h             |  3 +++
 target/arm/vec_helper.c         |  3 +++
 target/arm/translate-neon.c.inc | 45 +++------------------------------
 3 files changed, 9 insertions(+), 42 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_vrintx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vrintx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
 DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
 DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
 
+DO_2OP(gvec_vrintx_h, float16_round_to_int, float16)
+DO_2OP(gvec_vrintx_s, float32_round_to_int, float32)
+
 DO_2OP(gvec_sitos, helper_vfp_sitos, int32_t)
 DO_2OP(gvec_uitos, helper_vfp_uitos, uint32_t)
 DO_2OP(gvec_tosizs, helper_vfp_tosizs, float32)
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VQNEG(DisasContext *s, arg_2misc *a)
     return do_2misc(s, a, fn[a->size]);
 }
 
-static bool do_2misc_fp(DisasContext *s, arg_2misc *a,
-                        NeonGenOneSingleOpFn *fn)
-{
-    int pass;
-    TCGv_ptr fpst;
-
-    /* Handle a 2-reg-misc operation by iterating 32 bits at a time */
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size != 2) {
-        /* TODO: FP16 will be the size == 1 case */
-        return false;
-    }
-
-    if ((a->vd | a->vm) & a->q) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    fpst = fpstatus_ptr(FPST_STD);
-    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
-        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
-        fn(tmp, tmp, fpst);
-        neon_store_reg(a->vd, pass, tmp);
-    }
-    tcg_temp_free_ptr(fpst);
-
-    return true;
-}
-
 #define DO_2MISC_FP_VEC(INSN, HFUNC, SFUNC)                             \
     static void gen_##INSN(unsigned vece, uint32_t rd_ofs,              \
                            uint32_t rm_ofs,                             \
@@ -XXX,XX +XXX,XX @@ DO_2MISC_FP_VEC(VCVT_FU, gen_helper_gvec_ustoh, gen_helper_gvec_uitos)
 DO_2MISC_FP_VEC(VCVT_SF, gen_helper_gvec_tosszh, gen_helper_gvec_tosizs)
 DO_2MISC_FP_VEC(VCVT_UF, gen_helper_gvec_touszh, gen_helper_gvec_touizs)
 
+DO_2MISC_FP_VEC(VRINTX_impl, gen_helper_gvec_vrintx_h, gen_helper_gvec_vrintx_s)
+
 static bool trans_VRINTX(DisasContext *s, arg_2misc *a)
 {
     if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
         return false;
     }
-    return do_2misc_fp(s, a, gen_helper_rints_exact);
+    return trans_VRINTX_impl(s, a);
 }
 
 #define DO_VEC_RMODE(INSN, RMODE, OP)                                   \
-- 
2.20.1

In the gvec helper functions for indexed operations, for AArch32
Neon the oprsz (total size of the vector) can be less than 16 bytes
if the operation is on a D reg. Since the inner loop in these
helpers always goes from 0 to segment, we must clamp it based
on oprsz to avoid processing a full 16 byte segment when asked to
handle an 8 byte wide vector.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-43-peter.maydell@linaro.org
---
 target/arm/vec_helper.c | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
 #define DO_MUL_IDX(NAME, TYPE, H) \
 void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc) \
 {                                                                          \
-    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
+    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
+    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
     intptr_t idx = simd_data(desc);                                        \
     TYPE *d = vd, *n = vn, *m = vm;                                        \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
@@ -XXX,XX +XXX,XX @@ DO_MUL_IDX(gvec_mul_idx_d, uint64_t, )
 #define DO_MLA_IDX(NAME, TYPE, OP, H) \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)   \
 {                                                                          \
-    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
+    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
+    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
     intptr_t idx = simd_data(desc);                                        \
     TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -,   )
 #define DO_FMUL_IDX(NAME, TYPE, H) \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
-    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
+    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
+    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
     intptr_t idx = simd_data(desc);                                        \
     TYPE *d = vd, *n = vn, *m = vm;                                        \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
@@ -XXX,XX +XXX,XX @@ DO_FMUL_IDX(gvec_fmul_idx_d, float64, )
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
                   void *stat, uint32_t desc)                               \
 {                                                                          \
-    intptr_t i, j, oprsz = simd_oprsz(desc), segment = 16 / sizeof(TYPE);  \
+    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
+    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
     TYPE op1_neg = extract32(desc, SIMD_DATA_SHIFT, 1);                    \
     intptr_t idx = desc >> (SIMD_DATA_SHIFT + 1);                          \
     TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
-- 
2.20.1

Add gvec helpers for doing Neon-style indexed non-fused fp
multiply-and-accumulate operations.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20200828183354.27913-44-peter.maydell@linaro.org
---
 target/arm/helper.h     | 10 ++++++++++
 target/arm/vec_helper.c | 27 ++++++++++++++++++++++-----
 2 files changed, 32 insertions(+), 5 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_idx_s, TCG_CALL_NO_RWG,
 DEF_HELPER_FLAGS_5(gvec_fmul_idx_d, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_h, TCG_CALL_NO_RWG,
+                   void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_s, TCG_CALL_NO_RWG,
+                   void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_h, TCG_CALL_NO_RWG,
+                   void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_s, TCG_CALL_NO_RWG,
+                   void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_6(gvec_fmla_idx_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_6(gvec_fmla_idx_s, TCG_CALL_NO_RWG,
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -,   )
 
 #undef DO_MLA_IDX
 
-#define DO_FMUL_IDX(NAME, TYPE, H) \
+#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
         TYPE mm = m[H(i + idx)];                                           \
         for (j = 0; j < segment; j++) {                                    \
-            d[i + j] = TYPE##_mul(n[i + j], mm, stat);                     \
+            d[i + j] = TYPE##_##ADD(d[i + j],                              \
+                                    TYPE##_mul(n[i + j], mm, stat), stat); \
         }                                                                  \
     }                                                                      \
     clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
-DO_FMUL_IDX(gvec_fmul_idx_h, float16, H2)
-DO_FMUL_IDX(gvec_fmul_idx_s, float32, H4)
-DO_FMUL_IDX(gvec_fmul_idx_d, float64, )
+#define float16_nop(N, M, S) (M)
+#define float32_nop(N, M, S) (M)
+#define float64_nop(N, M, S) (M)
 
+DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
+DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
+DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, )
+
+/*
+ * Non-fused multiply-accumulate operations, for Neon. NB that unlike
+ * the fused ops below they assume accumulate both from and into Vd.
+ */
+DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
+DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
+DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
+DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
+
+#undef float16_nop
+#undef float32_nop
+#undef float64_nop
 #undef DO_FMUL_IDX
 
 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
-- 
2.20.1

Convert the Neon floating-point VMUL, VMLA and VMLS to use gvec,
and use this to implement fp16 support.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-45-peter.maydell@linaro.org
---
 target/arm/translate-neon.c.inc | 114 ++++++++++++++++----------------
 1 file changed, 57 insertions(+), 57 deletions(-)

diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLS_2sc(DisasContext *s, arg_2scalar *a)
     return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 }
 
-/*
- * Rather than have a float-specific version of do_2scalar just for
- * three insns, we wrap a NeonGenTwoSingleOpFn to turn it into
- * a NeonGenTwoOpFn.
- */
-#define WRAP_FP_FN(WRAPNAME, FUNC)                              \
-    static void WRAPNAME(TCGv_i32 rd, TCGv_i32 rn, TCGv_i32 rm) \
-    {                                                           \
-        TCGv_ptr fpstatus = fpstatus_ptr(FPST_STD);             \
-        FUNC(rd, rn, rm, fpstatus);                             \
-        tcg_temp_free_ptr(fpstatus);                            \
+static bool do_2scalar_fp_vec(DisasContext *s, arg_2scalar *a,
+                              gen_helper_gvec_3_ptr *fn)
+{
+    /* Two registers and a scalar, using gvec */
+    int vec_size = a->q ? 16 : 8;
+    int rd_ofs = neon_reg_offset(a->vd, 0);
+    int rn_ofs = neon_reg_offset(a->vn, 0);
+    int rm_ofs;
+    int idx;
+    TCGv_ptr fpstatus;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return false;
     }
 
-WRAP_FP_FN(gen_VMUL_F_mul, gen_helper_vfp_muls)
-WRAP_FP_FN(gen_VMUL_F_add, gen_helper_vfp_adds)
-WRAP_FP_FN(gen_VMUL_F_sub, gen_helper_vfp_subs)
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
 
-static bool trans_VMUL_F_2sc(DisasContext *s, arg_2scalar *a)
-{
-    static NeonGenTwoOpFn * const opfn[] = {
-        NULL,
-        NULL, /* TODO: fp16 support */
-        gen_VMUL_F_mul,
-        NULL,
-    };
+    if (!fn) {
+        /* Bad size (including size == 3, which is a different insn group) */
+        return false;
+    }
 
-    return do_2scalar(s, a, opfn[a->size], NULL);
+    if (a->q && ((a->vd | a->vn) & 1)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    /* a->vm is M:Vm, which encodes both register and index */
+    idx = extract32(a->vm, a->size + 2, 2);
+    a->vm = extract32(a->vm, 0, a->size + 2);
+    rm_ofs = neon_reg_offset(a->vm, 0);
+
+    fpstatus = fpstatus_ptr(a->size == 1 ? FPST_STD_F16 : FPST_STD);
+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpstatus,
+                       vec_size, vec_size, idx, fn);
+    tcg_temp_free_ptr(fpstatus);
+    return true;
 }
 
-static bool trans_VMLA_F_2sc(DisasContext *s, arg_2scalar *a)
-{
-    static NeonGenTwoOpFn * const opfn[] = {
-        NULL,
-        NULL, /* TODO: fp16 support */
-        gen_VMUL_F_mul,
-        NULL,
-    };
-    static NeonGenTwoOpFn * const accfn[] = {
-        NULL,
-        NULL, /* TODO: fp16 support */
-        gen_VMUL_F_add,
-        NULL,
-    };
+#define DO_VMUL_F_2sc(NAME, FUNC)                                       \
+    static bool trans_##NAME##_F_2sc(DisasContext *s, arg_2scalar *a)   \
+    {                                                                   \
+        static gen_helper_gvec_3_ptr * const opfn[] = {                 \
+            NULL,                                                       \
+            gen_helper_##FUNC##_h,                                      \
+            gen_helper_##FUNC##_s,                                      \
+            NULL,                                                       \
+        };                                                              \
+        if (a->size == MO_16 && !dc_isar_feature(aa32_fp16_arith, s)) { \
+            return false;                                               \
+        }                                                               \
+        return do_2scalar_fp_vec(s, a, opfn[a->size]);                  \
+    }
 
-    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
-}
-
-static bool trans_VMLS_F_2sc(DisasContext *s, arg_2scalar *a)
-{
-    static NeonGenTwoOpFn * const opfn[] = {
-        NULL,
-        NULL, /* TODO: fp16 support */
-        gen_VMUL_F_mul,
-        NULL,
-    };
-    static NeonGenTwoOpFn * const accfn[] = {
-        NULL,
-        NULL, /* TODO: fp16 support */
-        gen_VMUL_F_sub,
-        NULL,
-    };
-
-    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
-}
+DO_VMUL_F_2sc(VMUL, gvec_fmul_idx)
+DO_VMUL_F_2sc(VMLA, gvec_fmla_nf_idx)
+DO_VMUL_F_2sc(VMLS, gvec_fmls_nf_idx)
 
 WRAP_ENV_FN(gen_VQDMULH_16, gen_helper_neon_qdmulh_s16)
 WRAP_ENV_FN(gen_VQDMULH_32, gen_helper_neon_qdmulh_s32)
-- 
2.20.1

Set the MVFR1 ID register FPHP and SIMDHP fields to indicate
that our "-cpu max" has v8.2-FP16.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200828183354.27913-46-peter.maydell@linaro.org
---
 target/arm/cpu.c   |  3 ++-
 target/arm/cpu64.c | 10 ++++------
 2 files changed, 6 insertions(+), 7 deletions(-)

diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
             cpu->isar.id_isar6 = t;
 
             t = cpu->isar.mvfr1;
-            t = FIELD_DP32(t, MVFR1, FPHP, 2);     /* v8.0 FP support */
+            t = FIELD_DP32(t, MVFR1, FPHP, 3);     /* v8.2-FP16 */
+            t = FIELD_DP32(t, MVFR1, SIMDHP, 2);   /* v8.2-FP16 */
             cpu->isar.mvfr1 = t;
 
             t = cpu->isar.mvfr2;
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
         u = FIELD_DP32(u, ID_DFR0, PERFMON, 5); /* v8.4-PMU */
         cpu->isar.id_dfr0 = u;
 
-        /*
-         * FIXME: We do not yet support ARMv8.2-fp16 for AArch32 yet,
-         * so do not set MVFR1.FPHP.  Strictly speaking this is not legal,
-         * but it is also not legal to enable SVE without support for FP16,
-         * and enabling SVE in system mode is more useful in the short term.
-         */
+        u = cpu->isar.mvfr1;
+        u = FIELD_DP32(u, MVFR1, FPHP, 3);      /* v8.2-FP16 */
+        u = FIELD_DP32(u, MVFR1, SIMDHP, 2);    /* v8.2-FP16 */
+        cpu->isar.mvfr1 = u;
 
 #ifdef CONFIG_USER_ONLY
         /* For usermode -cpu max we can use a larger and more efficient DCZ
-- 
2.20.1

From: Leif Lindholm <leif@nuviainc.com>

The sbsa-ref platform uses a minimal device tree to pass amount of memory
as well as number of cpus to the firmware. However, when dumping that
minimal dtb (with -M sbsa-virt,dumpdtb=<file>), the resulting blob
generates a warning when decompiled by dtc due to lack of reg property.

Add a simple reg property per cpu, representing a 64-bit MPIDR_EL1.

This also ends up being cleaner than having the firmware calculating its
own IDs for generating APCI.

Signed-off-by: Leif Lindholm <leif@nuviainc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200827124335.30586-1-leif@nuviainc.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/sbsa-ref.c | 29 +++++++++++++++++++++++------
 1 file changed, 23 insertions(+), 6 deletions(-)

diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sbsa-ref.c
+++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@ static const int sbsa_ref_irqmap[] = {
     [SBSA_EHCI] = 11,
 };
 
+static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
+{
+    uint8_t clustersz = ARM_DEFAULT_CPUS_PER_CLUSTER;
+    return arm_cpu_mp_affinity(idx, clustersz);
+}
+
 /*
  * Firmware on this machine only uses ACPI table to load OS, these limited
  * device tree nodes are just to let firmware know the info which varies from
@@ -XXX,XX +XXX,XX @@ static void create_fdt(SBSAMachineState *sms)
         g_free(matrix);
     }
 
+    /*
+     * From Documentation/devicetree/bindings/arm/cpus.yaml
+     *  On ARM v8 64-bit systems this property is required
+     *    and matches the MPIDR_EL1 register affinity bits.
+     *
+     *    * If cpus node's #address-cells property is set to 2
+     *
+     *      The first reg cell bits [7:0] must be set to
+     *      bits [39:32] of MPIDR_EL1.
+     *
+     *      The second reg cell bits [23:0] must be set to
+     *      bits [23:0] of MPIDR_EL1.
+     */
     qemu_fdt_add_subnode(sms->fdt, "/cpus");
+    qemu_fdt_setprop_cell(sms->fdt, "/cpus", "#address-cells", 2);
+    qemu_fdt_setprop_cell(sms->fdt, "/cpus", "#size-cells", 0x0);
 
     for (cpu = sms->smp_cpus - 1; cpu >= 0; cpu--) {
         char *nodename = g_strdup_printf("/cpus/cpu@%d", cpu);
         ARMCPU *armcpu = ARM_CPU(qemu_get_cpu(cpu));
         CPUState *cs = CPU(armcpu);
+        uint64_t mpidr = sbsa_ref_cpu_mp_affinity(sms, cpu);
 
         qemu_fdt_add_subnode(sms->fdt, nodename);
+        qemu_fdt_setprop_u64(sms->fdt, nodename, "reg", mpidr);
 
         if (ms->possible_cpus->cpus[cs->cpu_index].props.has_node_id) {
             qemu_fdt_setprop_cell(sms->fdt, nodename, "numa-node-id",
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
     arm_load_kernel(ARM_CPU(first_cpu), machine, &sms->bootinfo);
 }
 
-static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
-{
-    uint8_t clustersz = ARM_DEFAULT_CPUS_PER_CLUSTER;
-    return arm_cpu_mp_affinity(idx, clustersz);
-}
-
 static const CPUArchIdList *sbsa_ref_possible_cpu_arch_ids(MachineState *ms)
 {
     unsigned int max_cpus = ms->smp.max_cpus;
-- 
2.20.1

From: Graeme Gregory <graeme@nuviainc.com>

A difference between sbsa platform and the virt platform is PSCI is
handled by ARM-TF in the sbsa platform. This means that the PSCI code
there needs to communicate some of the platform power changes down
to the qemu code for things like shutdown/reset control.

Space has been left to extend the EC if we find other use cases in
future where ARM-TF and qemu need to communicate.

Signed-off-by: Graeme Gregory <graeme@nuviainc.com>
Reviewed-by: Leif Lindholm <leif@nuviainc.com>
Tested-by: Leif Lindholm <leif@nuviainc.com>
Message-id: 20200826141952.136164-2-graeme@nuviainc.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/sbsa_ec.c   | 98 +++++++++++++++++++++++++++++++++++++++++++++
 hw/misc/meson.build |  2 +
 2 files changed, 100 insertions(+)
 create mode 100644 hw/misc/sbsa_ec.c

diff --git a/hw/misc/sbsa_ec.c b/hw/misc/sbsa_ec.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/misc/sbsa_ec.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * ARM SBSA Reference Platform Embedded Controller
+ *
+ * A device to allow PSCI running in the secure side of sbsa-ref machine
+ * to communicate platform power states to qemu.
+ *
+ * Copyright (c) 2020 Nuvia Inc
+ * Written by Graeme Gregory <graeme@nuviainc.com>
+ *
+ * SPDX-License-Identifer: GPL-2.0-or-later
+ */
+
+#include "qemu/osdep.h"
+#include "qemu-common.h"
+#include "qemu/log.h"
+#include "hw/sysbus.h"
+#include "sysemu/runstate.h"
+
+typedef struct {
+    SysBusDevice parent_obj;
+    MemoryRegion iomem;
+} SECUREECState;
+
+#define TYPE_SBSA_EC      "sbsa-ec"
+#define SECURE_EC(obj) OBJECT_CHECK(SECUREECState, (obj), TYPE_SBSA_EC)
+
+enum sbsa_ec_powerstates {
+    SBSA_EC_CMD_POWEROFF = 0x01,
+    SBSA_EC_CMD_REBOOT = 0x02,
+};
+
+static uint64_t sbsa_ec_read(void *opaque, hwaddr offset, unsigned size)
+{
+    /* No use for this currently */
+    qemu_log_mask(LOG_GUEST_ERROR, "sbsa-ec: no readable registers");
+    return 0;
+}
+
+static void sbsa_ec_write(void *opaque, hwaddr offset,
+                     uint64_t value, unsigned size)
+{
+    if (offset == 0) { /* PSCI machine power command register */
+        switch (value) {
+        case SBSA_EC_CMD_POWEROFF:
+            qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
+            break;
+        case SBSA_EC_CMD_REBOOT:
+            qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_RESET);
+            break;
+        default:
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "sbsa-ec: unknown power command");
+        }
+    } else {
+        qemu_log_mask(LOG_GUEST_ERROR, "sbsa-ec: unknown EC register");
+    }
+}
+
+static const MemoryRegionOps sbsa_ec_ops = {
+    .read = sbsa_ec_read,
+    .write = sbsa_ec_write,
+    .endianness = DEVICE_NATIVE_ENDIAN,
+    .valid.min_access_size = 4,
+    .valid.max_access_size = 4,
+};
+
+static void sbsa_ec_init(Object *obj)
+{
+    SECUREECState *s = SECURE_EC(obj);
+    SysBusDevice *dev = SYS_BUS_DEVICE(obj);
+
+    memory_region_init_io(&s->iomem, obj, &sbsa_ec_ops, s, "sbsa-ec",
+                          0x1000);
+    sysbus_init_mmio(dev, &s->iomem);
+}
+
+static void sbsa_ec_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    /* No vmstate or reset required: device has no internal state */
+    dc->user_creatable = false;
+}
+
+static const TypeInfo sbsa_ec_info = {
+    .name          = TYPE_SBSA_EC,
+    .parent        = TYPE_SYS_BUS_DEVICE,
+    .instance_size = sizeof(SECUREECState),
+    .instance_init = sbsa_ec_init,
+    .class_init    = sbsa_ec_class_init,
+};
+
+static void sbsa_ec_register_type(void)
+{
+    type_register_static(&sbsa_ec_info);
+}
+
+type_init(sbsa_ec_register_type);
diff --git a/hw/misc/meson.build b/hw/misc/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/meson.build
+++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ specific_ss.add(when: 'CONFIG_MAC_VIA', if_true: files('mac_via.c'))
 
 specific_ss.add(when: 'CONFIG_MIPS_CPS', if_true: files('mips_cmgcr.c', 'mips_cpc.c'))
 specific_ss.add(when: 'CONFIG_MIPS_ITU', if_true: files('mips_itu.c'))
+
+specific_ss.add(when: 'CONFIG_SBSA_REF', if_true: files('sbsa_ec.c'))
-- 
2.20.1

From: Graeme Gregory <graeme@nuviainc.com>

Add the previously created sbsa-ec device to the sbsa-ref machine in
secure memory so the PSCI implementation in ARM-TF can access it, but
not expose it to non secure firmware or OS except by via ARM-TF.

Signed-off-by: Graeme Gregory <graeme@nuviainc.com>
Reviewed-by: Leif Lindholm <leif@nuviainc.com>
Tested-by: Leif Lindholm <leif@nuviainc.com>
Message-id: 20200826141952.136164-3-graeme@nuviainc.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/sbsa-ref.c | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sbsa-ref.c
+++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@ enum {
     SBSA_CPUPERIPHS,
     SBSA_GIC_DIST,
     SBSA_GIC_REDIST,
+    SBSA_SECURE_EC,
     SBSA_SMMU,
     SBSA_UART,
     SBSA_RTC,
@@ -XXX,XX +XXX,XX @@ static const MemMapEntry sbsa_ref_memmap[] = {
     [SBSA_CPUPERIPHS] =         { 0x40000000, 0x00040000 },
     [SBSA_GIC_DIST] =           { 0x40060000, 0x00010000 },
     [SBSA_GIC_REDIST] =         { 0x40080000, 0x04000000 },
+    [SBSA_SECURE_EC] =          { 0x50000000, 0x00001000 },
     [SBSA_UART] =               { 0x60000000, 0x00001000 },
     [SBSA_RTC] =                { 0x60010000, 0x00001000 },
     [SBSA_GPIO] =               { 0x60020000, 0x00001000 },
@@ -XXX,XX +XXX,XX @@ static void *sbsa_ref_dtb(const struct arm_boot_info *binfo, int *fdt_size)
     return board->fdt;
 }
 
+static void create_secure_ec(MemoryRegion *mem)
+{
+    hwaddr base = sbsa_ref_memmap[SBSA_SECURE_EC].base;
+    DeviceState *dev = qdev_new("sbsa-ec");
+    SysBusDevice *s = SYS_BUS_DEVICE(dev);
+
+    memory_region_add_subregion(mem, base,
+                                sysbus_mmio_get_region(s, 0));
+}
+
 static void sbsa_ref_init(MachineState *machine)
 {
     unsigned int smp_cpus = machine->smp.cpus;
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
 
     create_pcie(sms);
 
+    create_secure_ec(secure_sysmem);
+
     sms->bootinfo.ram_size = machine->ram_size;
     sms->bootinfo.nb_cpus = smp_cpus;
     sms->bootinfo.board_id = -1;
-- 
2.20.1

First pullreq for 6.0: mostly my v8.1M work, plus some other
bits and pieces. (I still have a lot of stuff in my to-review
folder, which I may or may not get to before the Christmas break...)

thanks
-- PMM

The following changes since commit 5e7b204dbfae9a562fc73684986f936b97f63877:

Merge remote-tracking branch 'remotes/mst/tags/for_upstream' into staging (2020-12-09 20:08:54 +0000)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20201210

for you to fetch changes up to 71f916be1c7e9ede0e37d9cabc781b5a9e8638ff:

hw/arm/armv7m: Correct typo in QOM object name (2020-12-10 11:44:56 +0000)

----------------------------------------------------------------
target-arm queue:
 * hw/arm/smmuv3: Fix up L1STD_SPAN decoding
 * xlnx-zynqmp: Support Xilinx ZynqMP CAN controllers
 * sbsa-ref: allow to use Cortex-A53/57/72 cpus
 * Various minor code cleanups
 * hw/intc/armv7m_nvic: Make all of system PPB range be RAZWI/BusFault
 * Implement more pieces of ARMv8.1M support

----------------------------------------------------------------
Alex Chen (4):
      i.MX25: Fix bad printf format specifiers
      i.MX31: Fix bad printf format specifiers
      i.MX6: Fix bad printf format specifiers
      i.MX6ul: Fix bad printf format specifiers

Havard Skinnemoen (1):
      tests/qtest/npcm7xx_rng-test: dump random data on failure

Kunkun Jiang (1):
      hw/arm/smmuv3: Fix up L1STD_SPAN decoding

Marcin Juszkiewicz (1):
      sbsa-ref: allow to use Cortex-A53/57/72 cpus

Peter Maydell (25):
      hw/intc/armv7m_nvic: Make all of system PPB range be RAZWI/BusFault
      target/arm: Implement v8.1M PXN extension
      target/arm: Don't clobber ID_PFR1.Security on M-profile cores
      target/arm: Implement VSCCLRM insn
      target/arm: Implement CLRM instruction
      target/arm: Enforce M-profile VMRS/VMSR register restrictions
      target/arm: Refactor M-profile VMSR/VMRS handling
      target/arm: Move general-use constant expanders up in translate.c
      target/arm: Implement VLDR/VSTR system register
      target/arm: Implement M-profile FPSCR_nzcvqc
      target/arm: Use new FPCR_NZCV_MASK constant
      target/arm: Factor out preserve-fp-state from full_vfp_access_check()
      target/arm: Implement FPCXT_S fp system register
      hw/intc/armv7m_nvic: Update FPDSCR masking for v8.1M
      target/arm: For v8.1M, always clear R0-R3, R12, APSR, EPSR on exception entry
      target/arm: In v8.1M, don't set HFSR.FORCED on vector table fetch failures
      target/arm: Implement v8.1M REVIDR register
      target/arm: Implement new v8.1M NOCP check for exception return
      target/arm: Implement new v8.1M VLLDM and VLSTM encodings
      hw/intc/armv7m_nvic: Support v8.1M CCR.TRD bit
      target/arm: Implement CCR_S.TRD behaviour for SG insns
      hw/intc/armv7m_nvic: Fix "return from inactive handler" check
      target/arm: Implement M-profile "minimal RAS implementation"
      hw/intc/armv7m_nvic: Implement read/write for RAS register block
      hw/arm/armv7m: Correct typo in QOM object name

Vikram Garhwal (4):
      hw/net/can: Introduce Xilinx ZynqMP CAN controller
      xlnx-zynqmp: Connect Xilinx ZynqMP CAN controllers
      tests/qtest: Introduce tests for Xilinx ZynqMP CAN controller
      MAINTAINERS: Add maintainer entry for Xilinx ZynqMP CAN controller

From: Vikram Garhwal <fnu.vikram@xilinx.com>

The Xilinx ZynqMP CAN controller is developed based on SocketCAN, QEMU CAN bus
implementation. Bus connection and socketCAN connection for each CAN module
can be set through command lines.

Example for using single CAN:
    -object can-bus,id=canbus0 \
    -machine xlnx-zcu102.canbus0=canbus0 \
    -object can-host-socketcan,id=socketcan0,if=vcan0,canbus=canbus0

Example for connecting both CAN to same virtual CAN on host machine:
    -object can-bus,id=canbus0 -object can-bus,id=canbus1 \
    -machine xlnx-zcu102.canbus0=canbus0 \
    -machine xlnx-zcu102.canbus1=canbus1 \
    -object can-host-socketcan,id=socketcan0,if=vcan0,canbus=canbus0 \
    -object can-host-socketcan,id=socketcan1,if=vcan0,canbus=canbus1

To create virtual CAN on the host machine, please check the QEMU CAN docs:
https://github.com/qemu/qemu/blob/master/docs/can.txt

Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
Message-id: 1605728926-352690-2-git-send-email-fnu.vikram@xilinx.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 meson.build                      |    1 +
 hw/net/can/trace.h               |    1 +
 include/hw/net/xlnx-zynqmp-can.h |   78 ++
 hw/net/can/xlnx-zynqmp-can.c     | 1161 ++++++++++++++++++++++++++++++
 hw/Kconfig                       |    1 +
 hw/net/can/meson.build           |    1 +
 hw/net/can/trace-events          |    9 +
 7 files changed, 1252 insertions(+)
 create mode 100644 hw/net/can/trace.h
 create mode 100644 include/hw/net/xlnx-zynqmp-can.h
 create mode 100644 hw/net/can/xlnx-zynqmp-can.c
 create mode 100644 hw/net/can/trace-events

diff --git a/meson.build b/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/meson.build
+++ b/meson.build
@@ -XXX,XX +XXX,XX @@ if have_system
     'hw/misc',
     'hw/misc/macio',
     'hw/net',
+    'hw/net/can',
     'hw/nvram',
     'hw/pci',
     'hw/pci-host',
diff --git a/hw/net/can/trace.h b/hw/net/can/trace.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/net/can/trace.h
@@ -0,0 +1 @@
+#include "trace/trace-hw_net_can.h"
diff --git a/include/hw/net/xlnx-zynqmp-can.h b/include/hw/net/xlnx-zynqmp-can.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/net/xlnx-zynqmp-can.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * QEMU model of the Xilinx ZynqMP CAN controller.
+ *
+ * Copyright (c) 2020 Xilinx Inc.
+ *
+ * Written-by: Vikram Garhwal<fnu.vikram@xilinx.com>
+ *
+ * Based on QEMU CAN Device emulation implemented by Jin Yang, Deniz Eren and
+ * Pavel Pisa.
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+ * THE SOFTWARE.
+ */
+
+#ifndef XLNX_ZYNQMP_CAN_H
+#define XLNX_ZYNQMP_CAN_H
+
+#include "hw/register.h"
+#include "net/can_emu.h"
+#include "net/can_host.h"
+#include "qemu/fifo32.h"
+#include "hw/ptimer.h"
+#include "hw/qdev-clock.h"
+
+#define TYPE_XLNX_ZYNQMP_CAN "xlnx.zynqmp-can"
+
+#define XLNX_ZYNQMP_CAN(obj) \
+     OBJECT_CHECK(XlnxZynqMPCANState, (obj), TYPE_XLNX_ZYNQMP_CAN)
+
+#define MAX_CAN_CTRLS      2
+#define XLNX_ZYNQMP_CAN_R_MAX     (0x84 / 4)
+#define MAILBOX_CAPACITY   64
+#define CAN_TIMER_MAX  0XFFFFUL
+#define CAN_DEFAULT_CLOCK (24 * 1000 * 1000)
+
+/* Each CAN_FRAME will have 4 * 32bit size. */
+#define CAN_FRAME_SIZE     4
+#define RXFIFO_SIZE        (MAILBOX_CAPACITY * CAN_FRAME_SIZE)
+
+typedef struct XlnxZynqMPCANState {
+    SysBusDevice        parent_obj;
+    MemoryRegion        iomem;
+
+    qemu_irq            irq;
+
+    CanBusClientState   bus_client;
+    CanBusState         *canbus;
+
+    struct {
+        uint32_t        ext_clk_freq;
+    } cfg;
+
+    RegisterInfo        reg_info[XLNX_ZYNQMP_CAN_R_MAX];
+    uint32_t            regs[XLNX_ZYNQMP_CAN_R_MAX];
+
+    Fifo32              rx_fifo;
+    Fifo32              tx_fifo;
+    Fifo32              txhpb_fifo;
+
+    ptimer_state        *can_timer;
+} XlnxZynqMPCANState;
+
+#endif
diff --git a/hw/net/can/xlnx-zynqmp-can.c b/hw/net/can/xlnx-zynqmp-can.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/net/can/xlnx-zynqmp-can.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QEMU model of the Xilinx ZynqMP CAN controller.
+ * This implementation is based on the following datasheet:
+ * https://www.xilinx.com/support/documentation/user_guides/ug1085-zynq-ultrascale-trm.pdf
+ *
+ * Copyright (c) 2020 Xilinx Inc.
+ *
+ * Written-by: Vikram Garhwal<fnu.vikram@xilinx.com>
+ *
+ * Based on QEMU CAN Device emulation implemented by Jin Yang, Deniz Eren and
+ * Pavel Pisa
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+ * THE SOFTWARE.
+ */
+
+#include "qemu/osdep.h"
+#include "hw/sysbus.h"
+#include "hw/register.h"
+#include "hw/irq.h"
+#include "qapi/error.h"
+#include "qemu/bitops.h"
+#include "qemu/log.h"
+#include "qemu/cutils.h"
+#include "sysemu/sysemu.h"
+#include "migration/vmstate.h"
+#include "hw/qdev-properties.h"
+#include "net/can_emu.h"
+#include "net/can_host.h"
+#include "qemu/event_notifier.h"
+#include "qom/object_interfaces.h"
+#include "hw/net/xlnx-zynqmp-can.h"
+#include "trace.h"
+
+#ifndef XLNX_ZYNQMP_CAN_ERR_DEBUG
+#define XLNX_ZYNQMP_CAN_ERR_DEBUG 0
+#endif
+
+#define MAX_DLC            8
+#undef ERROR
+
+REG32(SOFTWARE_RESET_REGISTER, 0x0)
+    FIELD(SOFTWARE_RESET_REGISTER, CEN, 1, 1)
+    FIELD(SOFTWARE_RESET_REGISTER, SRST, 0, 1)
+REG32(MODE_SELECT_REGISTER, 0x4)
+    FIELD(MODE_SELECT_REGISTER, SNOOP, 2, 1)
+    FIELD(MODE_SELECT_REGISTER, LBACK, 1, 1)
+    FIELD(MODE_SELECT_REGISTER, SLEEP, 0, 1)
+REG32(ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER, 0x8)
+    FIELD(ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER, BRP, 0, 8)
+REG32(ARBITRATION_PHASE_BIT_TIMING_REGISTER, 0xc)
+    FIELD(ARBITRATION_PHASE_BIT_TIMING_REGISTER, SJW, 7, 2)
+    FIELD(ARBITRATION_PHASE_BIT_TIMING_REGISTER, TS2, 4, 3)
+    FIELD(ARBITRATION_PHASE_BIT_TIMING_REGISTER, TS1, 0, 4)
+REG32(ERROR_COUNTER_REGISTER, 0x10)
+    FIELD(ERROR_COUNTER_REGISTER, REC, 8, 8)
+    FIELD(ERROR_COUNTER_REGISTER, TEC, 0, 8)
+REG32(ERROR_STATUS_REGISTER, 0x14)
+    FIELD(ERROR_STATUS_REGISTER, ACKER, 4, 1)
+    FIELD(ERROR_STATUS_REGISTER, BERR, 3, 1)
+    FIELD(ERROR_STATUS_REGISTER, STER, 2, 1)
+    FIELD(ERROR_STATUS_REGISTER, FMER, 1, 1)
+    FIELD(ERROR_STATUS_REGISTER, CRCER, 0, 1)
+REG32(STATUS_REGISTER, 0x18)
+    FIELD(STATUS_REGISTER, SNOOP, 12, 1)
+    FIELD(STATUS_REGISTER, ACFBSY, 11, 1)
+    FIELD(STATUS_REGISTER, TXFLL, 10, 1)
+    FIELD(STATUS_REGISTER, TXBFLL, 9, 1)
+    FIELD(STATUS_REGISTER, ESTAT, 7, 2)
+    FIELD(STATUS_REGISTER, ERRWRN, 6, 1)
+    FIELD(STATUS_REGISTER, BBSY, 5, 1)
+    FIELD(STATUS_REGISTER, BIDLE, 4, 1)
+    FIELD(STATUS_REGISTER, NORMAL, 3, 1)
+    FIELD(STATUS_REGISTER, SLEEP, 2, 1)
+    FIELD(STATUS_REGISTER, LBACK, 1, 1)
+    FIELD(STATUS_REGISTER, CONFIG, 0, 1)
+REG32(INTERRUPT_STATUS_REGISTER, 0x1c)
+    FIELD(INTERRUPT_STATUS_REGISTER, TXFEMP, 14, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, TXFWMEMP, 13, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, RXFWMFLL, 12, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, WKUP, 11, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, SLP, 10, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, BSOFF, 9, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, ERROR, 8, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, RXNEMP, 7, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, RXOFLW, 6, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, RXUFLW, 5, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, RXOK, 4, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, TXBFLL, 3, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, TXFLL, 2, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, TXOK, 1, 1)
+    FIELD(INTERRUPT_STATUS_REGISTER, ARBLST, 0, 1)
+REG32(INTERRUPT_ENABLE_REGISTER, 0x20)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ETXFEMP, 14, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ETXFWMEMP, 13, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ERXFWMFLL, 12, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, EWKUP, 11, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ESLP, 10, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, EBSOFF, 9, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, EERROR, 8, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ERXNEMP, 7, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ERXOFLW, 6, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ERXUFLW, 5, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ERXOK, 4, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ETXBFLL, 3, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ETXFLL, 2, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, ETXOK, 1, 1)
+    FIELD(INTERRUPT_ENABLE_REGISTER, EARBLST, 0, 1)
+REG32(INTERRUPT_CLEAR_REGISTER, 0x24)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CTXFEMP, 14, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CTXFWMEMP, 13, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CRXFWMFLL, 12, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CWKUP, 11, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CSLP, 10, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CBSOFF, 9, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CERROR, 8, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CRXNEMP, 7, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CRXOFLW, 6, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CRXUFLW, 5, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CRXOK, 4, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CTXBFLL, 3, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CTXFLL, 2, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CTXOK, 1, 1)
+    FIELD(INTERRUPT_CLEAR_REGISTER, CARBLST, 0, 1)
+REG32(TIMESTAMP_REGISTER, 0x28)
+    FIELD(TIMESTAMP_REGISTER, CTS, 0, 1)
+REG32(WIR, 0x2c)
+    FIELD(WIR, EW, 8, 8)
+    FIELD(WIR, FW, 0, 8)
+REG32(TXFIFO_ID, 0x30)
+    FIELD(TXFIFO_ID, IDH, 21, 11)
+    FIELD(TXFIFO_ID, SRRRTR, 20, 1)
+    FIELD(TXFIFO_ID, IDE, 19, 1)
+    FIELD(TXFIFO_ID, IDL, 1, 18)
+    FIELD(TXFIFO_ID, RTR, 0, 1)
+REG32(TXFIFO_DLC, 0x34)
+    FIELD(TXFIFO_DLC, DLC, 28, 4)
+REG32(TXFIFO_DATA1, 0x38)
+    FIELD(TXFIFO_DATA1, DB0, 24, 8)
+    FIELD(TXFIFO_DATA1, DB1, 16, 8)
+    FIELD(TXFIFO_DATA1, DB2, 8, 8)
+    FIELD(TXFIFO_DATA1, DB3, 0, 8)
+REG32(TXFIFO_DATA2, 0x3c)
+    FIELD(TXFIFO_DATA2, DB4, 24, 8)
+    FIELD(TXFIFO_DATA2, DB5, 16, 8)
+    FIELD(TXFIFO_DATA2, DB6, 8, 8)
+    FIELD(TXFIFO_DATA2, DB7, 0, 8)
+REG32(TXHPB_ID, 0x40)
+    FIELD(TXHPB_ID, IDH, 21, 11)
+    FIELD(TXHPB_ID, SRRRTR, 20, 1)
+    FIELD(TXHPB_ID, IDE, 19, 1)
+    FIELD(TXHPB_ID, IDL, 1, 18)
+    FIELD(TXHPB_ID, RTR, 0, 1)
+REG32(TXHPB_DLC, 0x44)
+    FIELD(TXHPB_DLC, DLC, 28, 4)
+REG32(TXHPB_DATA1, 0x48)
+    FIELD(TXHPB_DATA1, DB0, 24, 8)
+    FIELD(TXHPB_DATA1, DB1, 16, 8)
+    FIELD(TXHPB_DATA1, DB2, 8, 8)
+    FIELD(TXHPB_DATA1, DB3, 0, 8)
+REG32(TXHPB_DATA2, 0x4c)
+    FIELD(TXHPB_DATA2, DB4, 24, 8)
+    FIELD(TXHPB_DATA2, DB5, 16, 8)
+    FIELD(TXHPB_DATA2, DB6, 8, 8)
+    FIELD(TXHPB_DATA2, DB7, 0, 8)
+REG32(RXFIFO_ID, 0x50)
+    FIELD(RXFIFO_ID, IDH, 21, 11)
+    FIELD(RXFIFO_ID, SRRRTR, 20, 1)
+    FIELD(RXFIFO_ID, IDE, 19, 1)
+    FIELD(RXFIFO_ID, IDL, 1, 18)
+    FIELD(RXFIFO_ID, RTR, 0, 1)
+REG32(RXFIFO_DLC, 0x54)
+    FIELD(RXFIFO_DLC, DLC, 28, 4)
+    FIELD(RXFIFO_DLC, RXT, 0, 16)
+REG32(RXFIFO_DATA1, 0x58)
+    FIELD(RXFIFO_DATA1, DB0, 24, 8)
+    FIELD(RXFIFO_DATA1, DB1, 16, 8)
+    FIELD(RXFIFO_DATA1, DB2, 8, 8)
+    FIELD(RXFIFO_DATA1, DB3, 0, 8)
+REG32(RXFIFO_DATA2, 0x5c)
+    FIELD(RXFIFO_DATA2, DB4, 24, 8)
+    FIELD(RXFIFO_DATA2, DB5, 16, 8)
+    FIELD(RXFIFO_DATA2, DB6, 8, 8)
+    FIELD(RXFIFO_DATA2, DB7, 0, 8)
+REG32(AFR, 0x60)
+    FIELD(AFR, UAF4, 3, 1)
+    FIELD(AFR, UAF3, 2, 1)
+    FIELD(AFR, UAF2, 1, 1)
+    FIELD(AFR, UAF1, 0, 1)
+REG32(AFMR1, 0x64)
+    FIELD(AFMR1, AMIDH, 21, 11)
+    FIELD(AFMR1, AMSRR, 20, 1)
+    FIELD(AFMR1, AMIDE, 19, 1)
+    FIELD(AFMR1, AMIDL, 1, 18)
+    FIELD(AFMR1, AMRTR, 0, 1)
+REG32(AFIR1, 0x68)
+    FIELD(AFIR1, AIIDH, 21, 11)
+    FIELD(AFIR1, AISRR, 20, 1)
+    FIELD(AFIR1, AIIDE, 19, 1)
+    FIELD(AFIR1, AIIDL, 1, 18)
+    FIELD(AFIR1, AIRTR, 0, 1)
+REG32(AFMR2, 0x6c)
+    FIELD(AFMR2, AMIDH, 21, 11)
+    FIELD(AFMR2, AMSRR, 20, 1)
+    FIELD(AFMR2, AMIDE, 19, 1)
+    FIELD(AFMR2, AMIDL, 1, 18)
+    FIELD(AFMR2, AMRTR, 0, 1)
+REG32(AFIR2, 0x70)
+    FIELD(AFIR2, AIIDH, 21, 11)
+    FIELD(AFIR2, AISRR, 20, 1)
+    FIELD(AFIR2, AIIDE, 19, 1)
+    FIELD(AFIR2, AIIDL, 1, 18)
+    FIELD(AFIR2, AIRTR, 0, 1)
+REG32(AFMR3, 0x74)
+    FIELD(AFMR3, AMIDH, 21, 11)
+    FIELD(AFMR3, AMSRR, 20, 1)
+    FIELD(AFMR3, AMIDE, 19, 1)
+    FIELD(AFMR3, AMIDL, 1, 18)
+    FIELD(AFMR3, AMRTR, 0, 1)
+REG32(AFIR3, 0x78)
+    FIELD(AFIR3, AIIDH, 21, 11)
+    FIELD(AFIR3, AISRR, 20, 1)
+    FIELD(AFIR3, AIIDE, 19, 1)
+    FIELD(AFIR3, AIIDL, 1, 18)
+    FIELD(AFIR3, AIRTR, 0, 1)
+REG32(AFMR4, 0x7c)
+    FIELD(AFMR4, AMIDH, 21, 11)
+    FIELD(AFMR4, AMSRR, 20, 1)
+    FIELD(AFMR4, AMIDE, 19, 1)
+    FIELD(AFMR4, AMIDL, 1, 18)
+    FIELD(AFMR4, AMRTR, 0, 1)
+REG32(AFIR4, 0x80)
+    FIELD(AFIR4, AIIDH, 21, 11)
+    FIELD(AFIR4, AISRR, 20, 1)
+    FIELD(AFIR4, AIIDE, 19, 1)
+    FIELD(AFIR4, AIIDL, 1, 18)
+    FIELD(AFIR4, AIRTR, 0, 1)
+
+static void can_update_irq(XlnxZynqMPCANState *s)
+{
+    uint32_t irq;
+
+    /* Watermark register interrupts. */
+    if ((fifo32_num_free(&s->tx_fifo) / CAN_FRAME_SIZE) >
+            ARRAY_FIELD_EX32(s->regs, WIR, EW)) {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXFWMEMP, 1);
+    }
+
+    if ((fifo32_num_used(&s->rx_fifo) / CAN_FRAME_SIZE) >
+            ARRAY_FIELD_EX32(s->regs, WIR, FW)) {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXFWMFLL, 1);
+    }
+
+    /* RX Interrupts. */
+    if (fifo32_num_used(&s->rx_fifo) >= CAN_FRAME_SIZE) {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXNEMP, 1);
+    }
+
+    /* TX interrupts. */
+    if (fifo32_is_empty(&s->tx_fifo)) {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXFEMP, 1);
+    }
+
+    if (fifo32_is_full(&s->tx_fifo)) {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXFLL, 1);
+    }
+
+    if (fifo32_is_full(&s->txhpb_fifo)) {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXBFLL, 1);
+    }
+
+    irq = s->regs[R_INTERRUPT_STATUS_REGISTER];
+    irq &= s->regs[R_INTERRUPT_ENABLE_REGISTER];
+
+    trace_xlnx_can_update_irq(s->regs[R_INTERRUPT_STATUS_REGISTER],
+                              s->regs[R_INTERRUPT_ENABLE_REGISTER], irq);
+    qemu_set_irq(s->irq, irq);
+}
+
+static void can_ier_post_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    can_update_irq(s);
+}
+
+static uint64_t can_icr_pre_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    s->regs[R_INTERRUPT_STATUS_REGISTER] &= ~val;
+    can_update_irq(s);
+
+    return 0;
+}
+
+static void can_config_reset(XlnxZynqMPCANState *s)
+{
+    /* Reset all the configuration registers. */
+    register_reset(&s->reg_info[R_SOFTWARE_RESET_REGISTER]);
+    register_reset(&s->reg_info[R_MODE_SELECT_REGISTER]);
+    register_reset(
+              &s->reg_info[R_ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER]);
+    register_reset(&s->reg_info[R_ARBITRATION_PHASE_BIT_TIMING_REGISTER]);
+    register_reset(&s->reg_info[R_STATUS_REGISTER]);
+    register_reset(&s->reg_info[R_INTERRUPT_STATUS_REGISTER]);
+    register_reset(&s->reg_info[R_INTERRUPT_ENABLE_REGISTER]);
+    register_reset(&s->reg_info[R_INTERRUPT_CLEAR_REGISTER]);
+    register_reset(&s->reg_info[R_WIR]);
+}
+
+static void can_config_mode(XlnxZynqMPCANState *s)
+{
+    register_reset(&s->reg_info[R_ERROR_COUNTER_REGISTER]);
+    register_reset(&s->reg_info[R_ERROR_STATUS_REGISTER]);
+
+    /* Put XlnxZynqMPCAN in configuration mode. */
+    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, CONFIG, 1);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, WKUP, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, SLP, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, BSOFF, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, ERROR, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOFLW, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOK, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXOK, 0);
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, ARBLST, 0);
+
+    can_update_irq(s);
+}
+
+static void update_status_register_mode_bits(XlnxZynqMPCANState *s)
+{
+    bool sleep_status = ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP);
+    bool sleep_mode = ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, SLEEP);
+    /* Wake up interrupt bit. */
+    bool wakeup_irq_val = sleep_status && (sleep_mode == 0);
+    /* Sleep interrupt bit. */
+    bool sleep_irq_val = sleep_mode && (sleep_status == 0);
+
+    /* Clear previous core mode status bits. */
+    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, LBACK, 0);
+    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SLEEP, 0);
+    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SNOOP, 0);
+    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, NORMAL, 0);
+
+    /* set current mode bit and generate irqs accordingly. */
+    if (ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, LBACK)) {
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, LBACK, 1);
+    } else if (ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, SLEEP)) {
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SLEEP, 1);
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, SLP,
+                         sleep_irq_val);
+    } else if (ARRAY_FIELD_EX32(s->regs, MODE_SELECT_REGISTER, SNOOP)) {
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, SNOOP, 1);
+    } else {
+        /*
+         * If all bits are zero then XlnxZynqMPCAN is set in normal mode.
+         */
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, NORMAL, 1);
+        /* Set wakeup interrupt bit. */
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, WKUP,
+                         wakeup_irq_val);
+    }
+
+    can_update_irq(s);
+}
+
+static void can_exit_sleep_mode(XlnxZynqMPCANState *s)
+{
+    ARRAY_FIELD_DP32(s->regs, MODE_SELECT_REGISTER, SLEEP, 0);
+    update_status_register_mode_bits(s);
+}
+
+static void generate_frame(qemu_can_frame *frame, uint32_t *data)
+{
+    frame->can_id = data[0];
+    frame->can_dlc = FIELD_EX32(data[1], TXFIFO_DLC, DLC);
+
+    frame->data[0] = FIELD_EX32(data[2], TXFIFO_DATA1, DB3);
+    frame->data[1] = FIELD_EX32(data[2], TXFIFO_DATA1, DB2);
+    frame->data[2] = FIELD_EX32(data[2], TXFIFO_DATA1, DB1);
+    frame->data[3] = FIELD_EX32(data[2], TXFIFO_DATA1, DB0);
+
+    frame->data[4] = FIELD_EX32(data[3], TXFIFO_DATA2, DB7);
+    frame->data[5] = FIELD_EX32(data[3], TXFIFO_DATA2, DB6);
+    frame->data[6] = FIELD_EX32(data[3], TXFIFO_DATA2, DB5);
+    frame->data[7] = FIELD_EX32(data[3], TXFIFO_DATA2, DB4);
+}
+
+static bool tx_ready_check(XlnxZynqMPCANState *s)
+{
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, SRST)) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to transfer data while"
+                      " data while controller is in reset mode.\n",
+                      path);
+        return false;
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN) == 0) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to transfer"
+                      " data while controller is in configuration mode. Reset"
+                      " the core so operations can start fresh.\n",
+                      path);
+        return false;
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SNOOP)) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to transfer"
+                      " data while controller is in SNOOP MODE.\n",
+                      path);
+        return false;
+    }
+
+    return true;
+}
+
+static void transfer_fifo(XlnxZynqMPCANState *s, Fifo32 *fifo)
+{
+    qemu_can_frame frame;
+    uint32_t data[CAN_FRAME_SIZE];
+    int i;
+    bool can_tx = tx_ready_check(s);
+
+    if (!can_tx) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Controller is not enabled for data"
+                      " transfer.\n", path);
+        can_update_irq(s);
+        return;
+    }
+
+    while (!fifo32_is_empty(fifo)) {
+        for (i = 0; i < CAN_FRAME_SIZE; i++) {
+            data[i] = fifo32_pop(fifo);
+        }
+
+        if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, LBACK)) {
+            /*
+             * Controller is in loopback. In Loopback mode, the CAN core
+             * transmits a recessive bitstream on to the XlnxZynqMPCAN Bus.
+             * Any message transmitted is looped back to the RX line and
+             * acknowledged. The XlnxZynqMPCAN core receives any message
+             * that it transmits.
+             */
+            if (fifo32_is_full(&s->rx_fifo)) {
+                ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOFLW, 1);
+            } else {
+                for (i = 0; i < CAN_FRAME_SIZE; i++) {
+                    fifo32_push(&s->rx_fifo, data[i]);
+                }
+
+                ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOK, 1);
+            }
+        } else {
+            /* Normal mode Tx. */
+            generate_frame(&frame, data);
+
+            trace_xlnx_can_tx_data(frame.can_id, frame.can_dlc,
+                                   frame.data[0], frame.data[1],
+                                   frame.data[2], frame.data[3],
+                                   frame.data[4], frame.data[5],
+                                   frame.data[6], frame.data[7]);
+            can_bus_client_send(&s->bus_client, &frame, 1);
+        }
+    }
+
+    ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, TXOK, 1);
+    ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, TXBFLL, 0);
+
+    if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP)) {
+        can_exit_sleep_mode(s);
+    }
+
+    can_update_irq(s);
+}
+
+static uint64_t can_srr_pre_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    ARRAY_FIELD_DP32(s->regs, SOFTWARE_RESET_REGISTER, CEN,
+                     FIELD_EX32(val, SOFTWARE_RESET_REGISTER, CEN));
+
+    if (FIELD_EX32(val, SOFTWARE_RESET_REGISTER, SRST)) {
+        trace_xlnx_can_reset(val);
+
+        /* First, core will do software reset then will enter in config mode. */
+        can_config_reset(s);
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN) == 0) {
+        can_config_mode(s);
+    } else {
+        /*
+         * Leave config mode. Now XlnxZynqMPCAN core will enter normal,
+         * sleep, snoop or loopback mode depending upon LBACK, SLEEP, SNOOP
+         * register states.
+         */
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, CONFIG, 0);
+
+        ptimer_transaction_begin(s->can_timer);
+        ptimer_set_count(s->can_timer, 0);
+        ptimer_transaction_commit(s->can_timer);
+
+        /* XlnxZynqMPCAN is out of config mode. It will send pending data. */
+        transfer_fifo(s, &s->txhpb_fifo);
+        transfer_fifo(s, &s->tx_fifo);
+    }
+
+    update_status_register_mode_bits(s);
+
+    return s->regs[R_SOFTWARE_RESET_REGISTER];
+}
+
+static uint64_t can_msr_pre_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+    uint8_t multi_mode;
+
+    /*
+     * Multiple mode set check. This is done to make sure user doesn't set
+     * multiple modes.
+     */
+    multi_mode = FIELD_EX32(val, MODE_SELECT_REGISTER, LBACK) +
+                 FIELD_EX32(val, MODE_SELECT_REGISTER, SLEEP) +
+                 FIELD_EX32(val, MODE_SELECT_REGISTER, SNOOP);
+
+    if (multi_mode > 1) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to config"
+                      " several modes simultaneously. One mode will be selected"
+                      " according to their priority: LBACK > SLEEP > SNOOP.\n",
+                      path);
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN) == 0) {
+        /* We are in configuration mode, any mode can be selected. */
+        s->regs[R_MODE_SELECT_REGISTER] = val;
+    } else {
+        bool sleep_mode_bit = FIELD_EX32(val, MODE_SELECT_REGISTER, SLEEP);
+
+        ARRAY_FIELD_DP32(s->regs, MODE_SELECT_REGISTER, SLEEP, sleep_mode_bit);
+
+        if (FIELD_EX32(val, MODE_SELECT_REGISTER, LBACK)) {
+            g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+            qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to set"
+                          " LBACK mode without setting CEN bit as 0.\n",
+                          path);
+        } else if (FIELD_EX32(val, MODE_SELECT_REGISTER, SNOOP)) {
+            g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+            qemu_log_mask(LOG_GUEST_ERROR, "%s: Attempting to set"
+                          " SNOOP mode without setting CEN bit as 0.\n",
+                          path);
+        }
+
+        update_status_register_mode_bits(s);
+    }
+
+    return s->regs[R_MODE_SELECT_REGISTER];
+}
+
+static uint64_t can_brpr_pre_write(RegisterInfo  *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    /* Only allow writes when in config mode. */
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) {
+        return s->regs[R_ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER];
+    }
+
+    return val;
+}
+
+static uint64_t can_btr_pre_write(RegisterInfo  *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    /* Only allow writes when in config mode. */
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) {
+        return s->regs[R_ARBITRATION_PHASE_BIT_TIMING_REGISTER];
+    }
+
+    return val;
+}
+
+static uint64_t can_tcr_pre_write(RegisterInfo  *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    if (FIELD_EX32(val, TIMESTAMP_REGISTER, CTS)) {
+        ptimer_transaction_begin(s->can_timer);
+        ptimer_set_count(s->can_timer, 0);
+        ptimer_transaction_commit(s->can_timer);
+    }
+
+    return 0;
+}
+
+static void update_rx_fifo(XlnxZynqMPCANState *s, const qemu_can_frame *frame)
+{
+    bool filter_pass = false;
+    uint16_t timestamp = 0;
+
+    /* If no filter is enabled. Message will be stored in FIFO. */
+    if (!((ARRAY_FIELD_EX32(s->regs, AFR, UAF1)) |
+       (ARRAY_FIELD_EX32(s->regs, AFR, UAF2)) |
+       (ARRAY_FIELD_EX32(s->regs, AFR, UAF3)) |
+       (ARRAY_FIELD_EX32(s->regs, AFR, UAF4)))) {
+        filter_pass = true;
+    }
+
+    /*
+     * Messages that pass any of the acceptance filters will be stored in
+     * the RX FIFO.
+     */
+    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF1)) {
+        uint32_t id_masked = s->regs[R_AFMR1] & frame->can_id;
+        uint32_t filter_id_masked = s->regs[R_AFMR1] & s->regs[R_AFIR1];
+
+        if (filter_id_masked == id_masked) {
+            filter_pass = true;
+        }
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF2)) {
+        uint32_t id_masked = s->regs[R_AFMR2] & frame->can_id;
+        uint32_t filter_id_masked = s->regs[R_AFMR2] & s->regs[R_AFIR2];
+
+        if (filter_id_masked == id_masked) {
+            filter_pass = true;
+        }
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF3)) {
+        uint32_t id_masked = s->regs[R_AFMR3] & frame->can_id;
+        uint32_t filter_id_masked = s->regs[R_AFMR3] & s->regs[R_AFIR3];
+
+        if (filter_id_masked == id_masked) {
+            filter_pass = true;
+        }
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF4)) {
+        uint32_t id_masked = s->regs[R_AFMR4] & frame->can_id;
+        uint32_t filter_id_masked = s->regs[R_AFMR4] & s->regs[R_AFIR4];
+
+        if (filter_id_masked == id_masked) {
+            filter_pass = true;
+        }
+    }
+
+    if (!filter_pass) {
+        trace_xlnx_can_rx_fifo_filter_reject(frame->can_id, frame->can_dlc);
+        return;
+    }
+
+    /* Store the message in fifo if it passed through any of the filters. */
+    if (filter_pass && frame->can_dlc <= MAX_DLC) {
+
+        if (fifo32_is_full(&s->rx_fifo)) {
+            ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOFLW, 1);
+        } else {
+            timestamp = CAN_TIMER_MAX - ptimer_get_count(s->can_timer);
+
+            fifo32_push(&s->rx_fifo, frame->can_id);
+
+            fifo32_push(&s->rx_fifo, deposit32(0, R_RXFIFO_DLC_DLC_SHIFT,
+                                               R_RXFIFO_DLC_DLC_LENGTH,
+                                               frame->can_dlc) |
+                                     deposit32(0, R_RXFIFO_DLC_RXT_SHIFT,
+                                               R_RXFIFO_DLC_RXT_LENGTH,
+                                               timestamp));
+
+            /* First 32 bit of the data. */
+            fifo32_push(&s->rx_fifo, deposit32(0, R_TXFIFO_DATA1_DB3_SHIFT,
+                                               R_TXFIFO_DATA1_DB3_LENGTH,
+                                               frame->data[0]) |
+                                     deposit32(0, R_TXFIFO_DATA1_DB2_SHIFT,
+                                               R_TXFIFO_DATA1_DB2_LENGTH,
+                                               frame->data[1]) |
+                                     deposit32(0, R_TXFIFO_DATA1_DB1_SHIFT,
+                                               R_TXFIFO_DATA1_DB1_LENGTH,
+                                               frame->data[2]) |
+                                     deposit32(0, R_TXFIFO_DATA1_DB0_SHIFT,
+                                               R_TXFIFO_DATA1_DB0_LENGTH,
+                                               frame->data[3]));
+            /* Last 32 bit of the data. */
+            fifo32_push(&s->rx_fifo, deposit32(0, R_TXFIFO_DATA2_DB7_SHIFT,
+                                               R_TXFIFO_DATA2_DB7_LENGTH,
+                                               frame->data[4]) |
+                                     deposit32(0, R_TXFIFO_DATA2_DB6_SHIFT,
+                                               R_TXFIFO_DATA2_DB6_LENGTH,
+                                               frame->data[5]) |
+                                     deposit32(0, R_TXFIFO_DATA2_DB5_SHIFT,
+                                               R_TXFIFO_DATA2_DB5_LENGTH,
+                                               frame->data[6]) |
+                                     deposit32(0, R_TXFIFO_DATA2_DB4_SHIFT,
+                                               R_TXFIFO_DATA2_DB4_LENGTH,
+                                               frame->data[7]));
+
+            ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXOK, 1);
+            trace_xlnx_can_rx_data(frame->can_id, frame->can_dlc,
+                                   frame->data[0], frame->data[1],
+                                   frame->data[2], frame->data[3],
+                                   frame->data[4], frame->data[5],
+                                   frame->data[6], frame->data[7]);
+        }
+
+        can_update_irq(s);
+    }
+}
+
+static uint64_t can_rxfifo_pre_read(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    if (!fifo32_is_empty(&s->rx_fifo)) {
+        val = fifo32_pop(&s->rx_fifo);
+    } else {
+        ARRAY_FIELD_DP32(s->regs, INTERRUPT_STATUS_REGISTER, RXUFLW, 1);
+    }
+
+    can_update_irq(s);
+    return val;
+}
+
+static void can_filter_enable_post_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    if (ARRAY_FIELD_EX32(s->regs, AFR, UAF1) &&
+        ARRAY_FIELD_EX32(s->regs, AFR, UAF2) &&
+        ARRAY_FIELD_EX32(s->regs, AFR, UAF3) &&
+        ARRAY_FIELD_EX32(s->regs, AFR, UAF4)) {
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, ACFBSY, 1);
+    } else {
+        ARRAY_FIELD_DP32(s->regs, STATUS_REGISTER, ACFBSY, 0);
+    }
+}
+
+static uint64_t can_filter_mask_pre_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+    uint32_t reg_idx = (reg->access->addr) / 4;
+    uint32_t filter_number = (reg_idx - R_AFMR1) / 2;
+
+    /* modify an acceptance filter, the corresponding UAF bit should be '0'. */
+    if (!(s->regs[R_AFR] & (1 << filter_number))) {
+        s->regs[reg_idx] = val;
+
+        trace_xlnx_can_filter_mask_pre_write(filter_number, s->regs[reg_idx]);
+    } else {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Acceptance filter %d"
+                      " mask is not set as corresponding UAF bit is not 0.\n",
+                      path, filter_number + 1);
+    }
+
+    return s->regs[reg_idx];
+}
+
+static uint64_t can_filter_id_pre_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+    uint32_t reg_idx = (reg->access->addr) / 4;
+    uint32_t filter_number = (reg_idx - R_AFIR1) / 2;
+
+    if (!(s->regs[R_AFR] & (1 << filter_number))) {
+        s->regs[reg_idx] = val;
+
+        trace_xlnx_can_filter_id_pre_write(filter_number, s->regs[reg_idx]);
+    } else {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Acceptance filter %d"
+                      " id is not set as corresponding UAF bit is not 0.\n",
+                      path, filter_number + 1);
+    }
+
+    return s->regs[reg_idx];
+}
+
+static void can_tx_post_write(RegisterInfo *reg, uint64_t val)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(reg->opaque);
+
+    bool is_txhpb = reg->access->addr > A_TXFIFO_DATA2;
+
+    bool initiate_transfer = (reg->access->addr == A_TXFIFO_DATA2) ||
+                             (reg->access->addr == A_TXHPB_DATA2);
+
+    Fifo32 *f = is_txhpb ? &s->txhpb_fifo : &s->tx_fifo;
+
+    if (!fifo32_is_full(f)) {
+        fifo32_push(f, val);
+    } else {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: TX FIFO is full.\n", path);
+    }
+
+    /* Initiate the message send if TX register is written. */
+    if (initiate_transfer &&
+        ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) {
+        transfer_fifo(s, f);
+    }
+
+    can_update_irq(s);
+}
+
+static const RegisterAccessInfo can_regs_info[] = {
+    {   .name = "SOFTWARE_RESET_REGISTER",
+        .addr = A_SOFTWARE_RESET_REGISTER,
+        .rsvd = 0xfffffffc,
+        .pre_write = can_srr_pre_write,
+    },{ .name = "MODE_SELECT_REGISTER",
+        .addr = A_MODE_SELECT_REGISTER,
+        .rsvd = 0xfffffff8,
+        .pre_write = can_msr_pre_write,
+    },{ .name = "ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER",
+        .addr = A_ARBITRATION_PHASE_BAUD_RATE_PRESCALER_REGISTER,
+        .rsvd = 0xffffff00,
+        .pre_write = can_brpr_pre_write,
+    },{ .name = "ARBITRATION_PHASE_BIT_TIMING_REGISTER",
+        .addr = A_ARBITRATION_PHASE_BIT_TIMING_REGISTER,
+        .rsvd = 0xfffffe00,
+        .pre_write = can_btr_pre_write,
+    },{ .name = "ERROR_COUNTER_REGISTER",
+        .addr = A_ERROR_COUNTER_REGISTER,
+        .rsvd = 0xffff0000,
+        .ro = 0xffffffff,
+    },{ .name = "ERROR_STATUS_REGISTER",
+        .addr = A_ERROR_STATUS_REGISTER,
+        .rsvd = 0xffffffe0,
+        .w1c = 0x1f,
+    },{ .name = "STATUS_REGISTER",  .addr = A_STATUS_REGISTER,
+        .reset = 0x1,
+        .rsvd = 0xffffe000,
+        .ro = 0x1fff,
+    },{ .name = "INTERRUPT_STATUS_REGISTER",
+        .addr = A_INTERRUPT_STATUS_REGISTER,
+        .reset = 0x6000,
+        .rsvd = 0xffff8000,
+        .ro = 0x7fff,
+    },{ .name = "INTERRUPT_ENABLE_REGISTER",
+        .addr = A_INTERRUPT_ENABLE_REGISTER,
+        .rsvd = 0xffff8000,
+        .post_write = can_ier_post_write,
+    },{ .name = "INTERRUPT_CLEAR_REGISTER",
+        .addr = A_INTERRUPT_CLEAR_REGISTER,
+        .rsvd = 0xffff8000,
+        .pre_write = can_icr_pre_write,
+    },{ .name = "TIMESTAMP_REGISTER",
+        .addr = A_TIMESTAMP_REGISTER,
+        .rsvd = 0xfffffffe,
+        .pre_write = can_tcr_pre_write,
+    },{ .name = "WIR",  .addr = A_WIR,
+        .reset = 0x3f3f,
+        .rsvd = 0xffff0000,
+    },{ .name = "TXFIFO_ID",  .addr = A_TXFIFO_ID,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXFIFO_DLC",  .addr = A_TXFIFO_DLC,
+        .rsvd = 0xfffffff,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXFIFO_DATA1",  .addr = A_TXFIFO_DATA1,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXFIFO_DATA2",  .addr = A_TXFIFO_DATA2,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXHPB_ID",  .addr = A_TXHPB_ID,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXHPB_DLC",  .addr = A_TXHPB_DLC,
+        .rsvd = 0xfffffff,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXHPB_DATA1",  .addr = A_TXHPB_DATA1,
+        .post_write = can_tx_post_write,
+    },{ .name = "TXHPB_DATA2",  .addr = A_TXHPB_DATA2,
+        .post_write = can_tx_post_write,
+    },{ .name = "RXFIFO_ID",  .addr = A_RXFIFO_ID,
+        .ro = 0xffffffff,
+        .post_read = can_rxfifo_pre_read,
+    },{ .name = "RXFIFO_DLC",  .addr = A_RXFIFO_DLC,
+        .rsvd = 0xfff0000,
+        .post_read = can_rxfifo_pre_read,
+    },{ .name = "RXFIFO_DATA1",  .addr = A_RXFIFO_DATA1,
+        .post_read = can_rxfifo_pre_read,
+    },{ .name = "RXFIFO_DATA2",  .addr = A_RXFIFO_DATA2,
+        .post_read = can_rxfifo_pre_read,
+    },{ .name = "AFR",  .addr = A_AFR,
+        .rsvd = 0xfffffff0,
+        .post_write = can_filter_enable_post_write,
+    },{ .name = "AFMR1",  .addr = A_AFMR1,
+        .pre_write = can_filter_mask_pre_write,
+    },{ .name = "AFIR1",  .addr = A_AFIR1,
+        .pre_write = can_filter_id_pre_write,
+    },{ .name = "AFMR2",  .addr = A_AFMR2,
+        .pre_write = can_filter_mask_pre_write,
+    },{ .name = "AFIR2",  .addr = A_AFIR2,
+        .pre_write = can_filter_id_pre_write,
+    },{ .name = "AFMR3",  .addr = A_AFMR3,
+        .pre_write = can_filter_mask_pre_write,
+    },{ .name = "AFIR3",  .addr = A_AFIR3,
+        .pre_write = can_filter_id_pre_write,
+    },{ .name = "AFMR4",  .addr = A_AFMR4,
+        .pre_write = can_filter_mask_pre_write,
+    },{ .name = "AFIR4",  .addr = A_AFIR4,
+        .pre_write = can_filter_id_pre_write,
+    }
+};
+
+static void xlnx_zynqmp_can_ptimer_cb(void *opaque)
+{
+    /* No action required on the timer rollover. */
+}
+
+static const MemoryRegionOps can_ops = {
+    .read = register_read_memory,
+    .write = register_write_memory,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid = {
+        .min_access_size = 4,
+        .max_access_size = 4,
+    },
+};
+
+static void xlnx_zynqmp_can_reset_init(Object *obj, ResetType type)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(obj);
+    unsigned int i;
+
+    for (i = R_RXFIFO_ID; i < ARRAY_SIZE(s->reg_info); ++i) {
+        register_reset(&s->reg_info[i]);
+    }
+
+    ptimer_transaction_begin(s->can_timer);
+    ptimer_set_count(s->can_timer, 0);
+    ptimer_transaction_commit(s->can_timer);
+}
+
+static void xlnx_zynqmp_can_reset_hold(Object *obj)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(obj);
+    unsigned int i;
+
+    for (i = 0; i < R_RXFIFO_ID; ++i) {
+        register_reset(&s->reg_info[i]);
+    }
+
+    /*
+     * Reset FIFOs when CAN model is reset. This will clear the fifo writes
+     * done by post_write which gets called from register_reset function,
+     * post_write handle will not be able to trigger tx because CAN will be
+     * disabled when software_reset_register is cleared first.
+     */
+    fifo32_reset(&s->rx_fifo);
+    fifo32_reset(&s->tx_fifo);
+    fifo32_reset(&s->txhpb_fifo);
+}
+
+static bool xlnx_zynqmp_can_can_receive(CanBusClientState *client)
+{
+    XlnxZynqMPCANState *s = container_of(client, XlnxZynqMPCANState,
+                                         bus_client);
+
+    if (ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, SRST)) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Controller is in reset state.\n",
+                      path);
+        return false;
+    }
+
+    if ((ARRAY_FIELD_EX32(s->regs, SOFTWARE_RESET_REGISTER, CEN)) == 0) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Controller is disabled. Incoming"
+                      " messages will be discarded.\n", path);
+        return false;
+    }
+
+    return true;
+}
+
+static ssize_t xlnx_zynqmp_can_receive(CanBusClientState *client,
+                               const qemu_can_frame *buf, size_t buf_size) {
+    XlnxZynqMPCANState *s = container_of(client, XlnxZynqMPCANState,
+                                         bus_client);
+    const qemu_can_frame *frame = buf;
+
+    if (buf_size <= 0) {
+        g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: Error in the data received.\n",
+                      path);
+        return 0;
+    }
+
+    if (ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SNOOP)) {
+        /* Snoop Mode: Just keep the data. no response back. */
+        update_rx_fifo(s, frame);
+    } else if ((ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP))) {
+        /*
+         * XlnxZynqMPCAN is in sleep mode. Any data on bus will bring it to wake
+         * up state.
+         */
+        can_exit_sleep_mode(s);
+        update_rx_fifo(s, frame);
+    } else if ((ARRAY_FIELD_EX32(s->regs, STATUS_REGISTER, SLEEP)) == 0) {
+        update_rx_fifo(s, frame);
+    } else {
+        /*
+         * XlnxZynqMPCAN will not participate in normal bus communication
+         * and will not receive any messages transmitted by other CAN nodes.
+         */
+        trace_xlnx_can_rx_discard(s->regs[R_STATUS_REGISTER]);
+    }
+
+    return 1;
+}
+
+static CanBusClientInfo can_xilinx_bus_client_info = {
+    .can_receive = xlnx_zynqmp_can_can_receive,
+    .receive = xlnx_zynqmp_can_receive,
+};
+
+static int xlnx_zynqmp_can_connect_to_bus(XlnxZynqMPCANState *s,
+                                          CanBusState *bus)
+{
+    s->bus_client.info = &can_xilinx_bus_client_info;
+
+    if (can_bus_insert_client(bus, &s->bus_client) < 0) {
+        return -1;
+    }
+    return 0;
+}
+
+static void xlnx_zynqmp_can_realize(DeviceState *dev, Error **errp)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(dev);
+
+    if (s->canbus) {
+        if (xlnx_zynqmp_can_connect_to_bus(s, s->canbus) < 0) {
+            g_autofree char *path = object_get_canonical_path(OBJECT(s));
+
+            error_setg(errp, "%s: xlnx_zynqmp_can_connect_to_bus"
+                       " failed.", path);
+            return;
+        }
+    }
+
+    /* Create RX FIFO, TXFIFO, TXHPB storage. */
+    fifo32_create(&s->rx_fifo, RXFIFO_SIZE);
+    fifo32_create(&s->tx_fifo, RXFIFO_SIZE);
+    fifo32_create(&s->txhpb_fifo, CAN_FRAME_SIZE);
+
+    /* Allocate a new timer. */
+    s->can_timer = ptimer_init(xlnx_zynqmp_can_ptimer_cb, s,
+                               PTIMER_POLICY_DEFAULT);
+
+    ptimer_transaction_begin(s->can_timer);
+
+    ptimer_set_freq(s->can_timer, s->cfg.ext_clk_freq);
+    ptimer_set_limit(s->can_timer, CAN_TIMER_MAX, 1);
+    ptimer_run(s->can_timer, 0);
+    ptimer_transaction_commit(s->can_timer);
+}
+
+static void xlnx_zynqmp_can_init(Object *obj)
+{
+    XlnxZynqMPCANState *s = XLNX_ZYNQMP_CAN(obj);
+    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
+
+    RegisterInfoArray *reg_array;
+
+    memory_region_init(&s->iomem, obj, TYPE_XLNX_ZYNQMP_CAN,
+                        XLNX_ZYNQMP_CAN_R_MAX * 4);
+    reg_array = register_init_block32(DEVICE(obj), can_regs_info,
+                               ARRAY_SIZE(can_regs_info),
+                               s->reg_info, s->regs,
+                               &can_ops,
+                               XLNX_ZYNQMP_CAN_ERR_DEBUG,
+                               XLNX_ZYNQMP_CAN_R_MAX * 4);
+
+    memory_region_add_subregion(&s->iomem, 0x00, &reg_array->mem);
+    sysbus_init_mmio(sbd, &s->iomem);
+    sysbus_init_irq(SYS_BUS_DEVICE(obj), &s->irq);
+}
+
+static const VMStateDescription vmstate_can = {
+    .name = TYPE_XLNX_ZYNQMP_CAN,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_FIFO32(rx_fifo, XlnxZynqMPCANState),
+        VMSTATE_FIFO32(tx_fifo, XlnxZynqMPCANState),
+        VMSTATE_FIFO32(txhpb_fifo, XlnxZynqMPCANState),
+        VMSTATE_UINT32_ARRAY(regs, XlnxZynqMPCANState, XLNX_ZYNQMP_CAN_R_MAX),
+        VMSTATE_PTIMER(can_timer, XlnxZynqMPCANState),
+        VMSTATE_END_OF_LIST(),
+    }
+};
+
+static Property xlnx_zynqmp_can_properties[] = {
+    DEFINE_PROP_UINT32("ext_clk_freq", XlnxZynqMPCANState, cfg.ext_clk_freq,
+                       CAN_DEFAULT_CLOCK),
+    DEFINE_PROP_LINK("canbus", XlnxZynqMPCANState, canbus, TYPE_CAN_BUS,
+                     CanBusState *),
+    DEFINE_PROP_END_OF_LIST(),
+};
+
+static void xlnx_zynqmp_can_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+    ResettableClass *rc = RESETTABLE_CLASS(klass);
+
+    rc->phases.enter = xlnx_zynqmp_can_reset_init;
+    rc->phases.hold = xlnx_zynqmp_can_reset_hold;
+    dc->realize = xlnx_zynqmp_can_realize;
+    device_class_set_props(dc, xlnx_zynqmp_can_properties);
+    dc->vmsd = &vmstate_can;
+}
+
+static const TypeInfo can_info = {
+    .name          = TYPE_XLNX_ZYNQMP_CAN,
+    .parent        = TYPE_SYS_BUS_DEVICE,
+    .instance_size = sizeof(XlnxZynqMPCANState),
+    .class_init    = xlnx_zynqmp_can_class_init,
+    .instance_init = xlnx_zynqmp_can_init,
+};
+
+static void can_register_types(void)
+{
+    type_register_static(&can_info);
+}
+
+type_init(can_register_types)
diff --git a/hw/Kconfig b/hw/Kconfig
index XXXXXXX..XXXXXXX 100644
--- a/hw/Kconfig
+++ b/hw/Kconfig
@@ -XXX,XX +XXX,XX @@ config XILINX_AXI
 config XLNX_ZYNQMP
     bool
     select REGISTER
+    select CAN_BUS
diff --git a/hw/net/can/meson.build b/hw/net/can/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/can/meson.build
+++ b/hw/net/can/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_CAN_PCI', if_true: files('can_pcm3680_pci.c'))
 softmmu_ss.add(when: 'CONFIG_CAN_PCI', if_true: files('can_mioe3680_pci.c'))
 softmmu_ss.add(when: 'CONFIG_CAN_CTUCANFD', if_true: files('ctucan_core.c'))
 softmmu_ss.add(when: 'CONFIG_CAN_CTUCANFD_PCI', if_true: files('ctucan_pci.c'))
+softmmu_ss.add(when: 'CONFIG_XLNX_ZYNQMP', if_true: files('xlnx-zynqmp-can.c'))
diff --git a/hw/net/can/trace-events b/hw/net/can/trace-events
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/net/can/trace-events
@@ -XXX,XX +XXX,XX @@
+# xlnx-zynqmp-can.c
+xlnx_can_update_irq(uint32_t isr, uint32_t ier, uint32_t irq) "ISR: 0x%08x IER: 0x%08x IRQ: 0x%08x"
+xlnx_can_reset(uint32_t val) "Resetting controller with value = 0x%08x"
+xlnx_can_rx_fifo_filter_reject(uint32_t id, uint8_t dlc) "Frame: ID: 0x%08x DLC: 0x%02x"
+xlnx_can_filter_id_pre_write(uint8_t filter_num, uint32_t value) "Filter%d ID: 0x%08x"
+xlnx_can_filter_mask_pre_write(uint8_t filter_num, uint32_t value) "Filter%d MASK: 0x%08x"
+xlnx_can_tx_data(uint32_t id, uint8_t dlc, uint8_t db0, uint8_t db1, uint8_t db2, uint8_t db3, uint8_t db4, uint8_t db5, uint8_t db6, uint8_t db7) "Frame: ID: 0x%08x DLC: 0x%02x DATA: 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x"
+xlnx_can_rx_data(uint32_t id, uint32_t dlc, uint8_t db0, uint8_t db1, uint8_t db2, uint8_t db3, uint8_t db4, uint8_t db5, uint8_t db6, uint8_t db7) "Frame: ID: 0x%08x DLC: 0x%02x DATA: 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x 0x%02x"
+xlnx_can_rx_discard(uint32_t status) "Controller is not enabled for bus communication. Status Register: 0x%08x"
-- 
2.20.1

From: Vikram Garhwal <fnu.vikram@xilinx.com>

Connect CAN0 and CAN1 on the ZynqMP.

Reviewed-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
Message-id: 1605728926-352690-3-git-send-email-fnu.vikram@xilinx.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-zynqmp.h |  8 ++++++++
 hw/arm/xlnx-zcu102.c         | 20 ++++++++++++++++++++
 hw/arm/xlnx-zynqmp.c         | 34 ++++++++++++++++++++++++++++++++++
 3 files changed, 62 insertions(+)

diff --git a/include/hw/arm/xlnx-zynqmp.h b/include/hw/arm/xlnx-zynqmp.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-zynqmp.h
+++ b/include/hw/arm/xlnx-zynqmp.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/intc/arm_gic.h"
 #include "hw/net/cadence_gem.h"
 #include "hw/char/cadence_uart.h"
+#include "hw/net/xlnx-zynqmp-can.h"
 #include "hw/ide/ahci.h"
 #include "hw/sd/sdhci.h"
 #include "hw/ssi/xilinx_spips.h"
@@ -XXX,XX +XXX,XX @@
 #include "hw/cpu/cluster.h"
 #include "target/arm/cpu.h"
 #include "qom/object.h"
+#include "net/can_emu.h"
 
 #define TYPE_XLNX_ZYNQMP "xlnx,zynqmp"
 OBJECT_DECLARE_SIMPLE_TYPE(XlnxZynqMPState, XLNX_ZYNQMP)
@@ -XXX,XX +XXX,XX @@ OBJECT_DECLARE_SIMPLE_TYPE(XlnxZynqMPState, XLNX_ZYNQMP)
 #define XLNX_ZYNQMP_NUM_RPU_CPUS 2
 #define XLNX_ZYNQMP_NUM_GEMS 4
 #define XLNX_ZYNQMP_NUM_UARTS 2
+#define XLNX_ZYNQMP_NUM_CAN 2
+#define XLNX_ZYNQMP_CAN_REF_CLK (24 * 1000 * 1000)
 #define XLNX_ZYNQMP_NUM_SDHCI 2
 #define XLNX_ZYNQMP_NUM_SPIS 2
 #define XLNX_ZYNQMP_NUM_GDMA_CH 8
@@ -XXX,XX +XXX,XX @@ struct XlnxZynqMPState {
 
     CadenceGEMState gem[XLNX_ZYNQMP_NUM_GEMS];
     CadenceUARTState uart[XLNX_ZYNQMP_NUM_UARTS];
+    XlnxZynqMPCANState can[XLNX_ZYNQMP_NUM_CAN];
     SysbusAHCIState sata;
     SDHCIState sdhci[XLNX_ZYNQMP_NUM_SDHCI];
     XilinxSPIPS spi[XLNX_ZYNQMP_NUM_SPIS];
@@ -XXX,XX +XXX,XX @@ struct XlnxZynqMPState {
     bool virt;
     /* Has the RPU subsystem?  */
     bool has_rpu;
+
+    /* CAN bus. */
+    CanBusState *canbus[XLNX_ZYNQMP_NUM_CAN];
 };
 
 #endif
diff --git a/hw/arm/xlnx-zcu102.c b/hw/arm/xlnx-zcu102.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-zcu102.c
+++ b/hw/arm/xlnx-zcu102.c
@@ -XXX,XX +XXX,XX @@
 #include "sysemu/qtest.h"
 #include "sysemu/device_tree.h"
 #include "qom/object.h"
+#include "net/can_emu.h"
 
 struct XlnxZCU102 {
     MachineState parent_obj;
@@ -XXX,XX +XXX,XX @@ struct XlnxZCU102 {
     bool secure;
     bool virt;
 
+    CanBusState *canbus[XLNX_ZYNQMP_NUM_CAN];
+
     struct arm_boot_info binfo;
 };
 
@@ -XXX,XX +XXX,XX @@ static void xlnx_zcu102_init(MachineState *machine)
     object_property_set_bool(OBJECT(&s->soc), "virtualization", s->virt,
                              &error_fatal);
 
+    for (i = 0; i < XLNX_ZYNQMP_NUM_CAN; i++) {
+        gchar *bus_name = g_strdup_printf("canbus%d", i);
+
+        object_property_set_link(OBJECT(&s->soc), bus_name,
+                                 OBJECT(s->canbus[i]), &error_fatal);
+        g_free(bus_name);
+    }
+
     qdev_realize(DEVICE(&s->soc), NULL, &error_fatal);
 
     /* Create and plug in the SD cards */
@@ -XXX,XX +XXX,XX @@ static void xlnx_zcu102_machine_instance_init(Object *obj)
     s->secure = false;
     /* Default to virt (EL2) being disabled */
     s->virt = false;
+    object_property_add_link(obj, "xlnx-zcu102.canbus0", TYPE_CAN_BUS,
+                             (Object **)&s->canbus[0],
+                             object_property_allow_set_link,
+                             0);
+
+    object_property_add_link(obj, "xlnx-zcu102.canbus1", TYPE_CAN_BUS,
+                             (Object **)&s->canbus[1],
+                             object_property_allow_set_link,
+                             0);
 }
 
 static void xlnx_zcu102_machine_class_init(ObjectClass *oc, void *data)
diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-zynqmp.c
+++ b/hw/arm/xlnx-zynqmp.c
@@ -XXX,XX +XXX,XX @@ static const int uart_intr[XLNX_ZYNQMP_NUM_UARTS] = {
     21, 22,
 };
 
+static const uint64_t can_addr[XLNX_ZYNQMP_NUM_CAN] = {
+    0xFF060000, 0xFF070000,
+};
+
+static const int can_intr[XLNX_ZYNQMP_NUM_CAN] = {
+    23, 24,
+};
+
 static const uint64_t sdhci_addr[XLNX_ZYNQMP_NUM_SDHCI] = {
     0xFF160000, 0xFF170000,
 };
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_init(Object *obj)
                                 TYPE_CADENCE_UART);
     }
 
+    for (i = 0; i < XLNX_ZYNQMP_NUM_CAN; i++) {
+        object_initialize_child(obj, "can[*]", &s->can[i],
+                                TYPE_XLNX_ZYNQMP_CAN);
+    }
+
     object_initialize_child(obj, "sata", &s->sata, TYPE_SYSBUS_AHCI);
 
     for (i = 0; i < XLNX_ZYNQMP_NUM_SDHCI; i++) {
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
                            gic_spi[uart_intr[i]]);
     }
 
+    for (i = 0; i < XLNX_ZYNQMP_NUM_CAN; i++) {
+        object_property_set_int(OBJECT(&s->can[i]), "ext_clk_freq",
+                                XLNX_ZYNQMP_CAN_REF_CLK, &error_abort);
+
+        object_property_set_link(OBJECT(&s->can[i]), "canbus",
+                                 OBJECT(s->canbus[i]), &error_fatal);
+
+        sysbus_realize(SYS_BUS_DEVICE(&s->can[i]), &err);
+        if (err) {
+            error_propagate(errp, err);
+            return;
+        }
+        sysbus_mmio_map(SYS_BUS_DEVICE(&s->can[i]), 0, can_addr[i]);
+        sysbus_connect_irq(SYS_BUS_DEVICE(&s->can[i]), 0,
+                           gic_spi[can_intr[i]]);
+    }
+
     object_property_set_int(OBJECT(&s->sata), "num-ports", SATA_NUM_PORTS,
                             &error_abort);
     if (!sysbus_realize(SYS_BUS_DEVICE(&s->sata), errp)) {
@@ -XXX,XX +XXX,XX @@ static Property xlnx_zynqmp_props[] = {
     DEFINE_PROP_BOOL("has_rpu", XlnxZynqMPState, has_rpu, false),
     DEFINE_PROP_LINK("ddr-ram", XlnxZynqMPState, ddr_ram, TYPE_MEMORY_REGION,
                      MemoryRegion *),
+    DEFINE_PROP_LINK("canbus0", XlnxZynqMPState, canbus[0], TYPE_CAN_BUS,
+                     CanBusState *),
+    DEFINE_PROP_LINK("canbus1", XlnxZynqMPState, canbus[1], TYPE_CAN_BUS,
+                     CanBusState *),
     DEFINE_PROP_END_OF_LIST()
 };
 
-- 
2.20.1

From: Vikram Garhwal <fnu.vikram@xilinx.com>

The QTests perform five tests on the Xilinx ZynqMP CAN controller:
    Tests the CAN controller in loopback, sleep and snoop mode.
    Tests filtering of incoming CAN messages.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
Signed-off-by: Vikram Garhwal <fnu.vikram@xilinx.com>
Message-id: 1605728926-352690-4-git-send-email-fnu.vikram@xilinx.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/qtest/xlnx-can-test.c | 360 ++++++++++++++++++++++++++++++++++++
 tests/qtest/meson.build     |   1 +
 2 files changed, 361 insertions(+)
 create mode 100644 tests/qtest/xlnx-can-test.c

diff --git a/tests/qtest/xlnx-can-test.c b/tests/qtest/xlnx-can-test.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/qtest/xlnx-can-test.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QTests for the Xilinx ZynqMP CAN controller.
+ *
+ * Copyright (c) 2020 Xilinx Inc.
+ *
+ * Written-by: Vikram Garhwal<fnu.vikram@xilinx.com>
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+ * THE SOFTWARE.
+ */
+
+#include "qemu/osdep.h"
+#include "libqos/libqtest.h"
+
+/* Base address. */
+#define CAN0_BASE_ADDR          0xFF060000
+#define CAN1_BASE_ADDR          0xFF070000
+
+/* Register addresses. */
+#define R_SRR_OFFSET            0x00
+#define R_MSR_OFFSET            0x04
+#define R_SR_OFFSET             0x18
+#define R_ISR_OFFSET            0x1C
+#define R_ICR_OFFSET            0x24
+#define R_TXID_OFFSET           0x30
+#define R_TXDLC_OFFSET          0x34
+#define R_TXDATA1_OFFSET        0x38
+#define R_TXDATA2_OFFSET        0x3C
+#define R_RXID_OFFSET           0x50
+#define R_RXDLC_OFFSET          0x54
+#define R_RXDATA1_OFFSET        0x58
+#define R_RXDATA2_OFFSET        0x5C
+#define R_AFR                   0x60
+#define R_AFMR1                 0x64
+#define R_AFIR1                 0x68
+#define R_AFMR2                 0x6C
+#define R_AFIR2                 0x70
+#define R_AFMR3                 0x74
+#define R_AFIR3                 0x78
+#define R_AFMR4                 0x7C
+#define R_AFIR4                 0x80
+
+/* CAN modes. */
+#define CONFIG_MODE             0x00
+#define NORMAL_MODE             0x00
+#define LOOPBACK_MODE           0x02
+#define SNOOP_MODE              0x04
+#define SLEEP_MODE              0x01
+#define ENABLE_CAN              (1 << 1)
+#define STATUS_NORMAL_MODE      (1 << 3)
+#define STATUS_LOOPBACK_MODE    (1 << 1)
+#define STATUS_SNOOP_MODE       (1 << 12)
+#define STATUS_SLEEP_MODE       (1 << 2)
+#define ISR_TXOK                (1 << 1)
+#define ISR_RXOK                (1 << 4)
+
+static void match_rx_tx_data(const uint32_t *buf_tx, const uint32_t *buf_rx,
+                             uint8_t can_timestamp)
+{
+    uint16_t size = 0;
+    uint8_t len = 4;
+
+    while (size < len) {
+        if (R_RXID_OFFSET + 4 * size == R_RXDLC_OFFSET)  {
+            g_assert_cmpint(buf_rx[size], ==, buf_tx[size] + can_timestamp);
+        } else {
+            g_assert_cmpint(buf_rx[size], ==, buf_tx[size]);
+        }
+
+        size++;
+    }
+}
+
+static void read_data(QTestState *qts, uint64_t can_base_addr, uint32_t *buf_rx)
+{
+    uint32_t int_status;
+
+    /* Read the interrupt on CAN rx. */
+    int_status = qtest_readl(qts, can_base_addr + R_ISR_OFFSET) & ISR_RXOK;
+
+    g_assert_cmpint(int_status, ==, ISR_RXOK);
+
+    /* Read the RX register data for CAN. */
+    buf_rx[0] = qtest_readl(qts, can_base_addr + R_RXID_OFFSET);
+    buf_rx[1] = qtest_readl(qts, can_base_addr + R_RXDLC_OFFSET);
+    buf_rx[2] = qtest_readl(qts, can_base_addr + R_RXDATA1_OFFSET);
+    buf_rx[3] = qtest_readl(qts, can_base_addr + R_RXDATA2_OFFSET);
+
+    /* Clear the RX interrupt. */
+    qtest_writel(qts, CAN1_BASE_ADDR + R_ICR_OFFSET, ISR_RXOK);
+}
+
+static void send_data(QTestState *qts, uint64_t can_base_addr,
+                      const uint32_t *buf_tx)
+{
+    uint32_t int_status;
+
+    /* Write the TX register data for CAN. */
+    qtest_writel(qts, can_base_addr + R_TXID_OFFSET, buf_tx[0]);
+    qtest_writel(qts, can_base_addr + R_TXDLC_OFFSET, buf_tx[1]);
+    qtest_writel(qts, can_base_addr + R_TXDATA1_OFFSET, buf_tx[2]);
+    qtest_writel(qts, can_base_addr + R_TXDATA2_OFFSET, buf_tx[3]);
+
+    /* Read the interrupt on CAN for tx. */
+    int_status = qtest_readl(qts, can_base_addr + R_ISR_OFFSET) & ISR_TXOK;
+
+    g_assert_cmpint(int_status, ==, ISR_TXOK);
+
+    /* Clear the interrupt for tx. */
+    qtest_writel(qts, CAN0_BASE_ADDR + R_ICR_OFFSET, ISR_TXOK);
+}
+
+/*
+ * This test will be transferring data from CAN0 and CAN1 through canbus. CAN0
+ * initiate the data transfer to can-bus, CAN1 receives the data. Test compares
+ * the data sent from CAN0 with received on CAN1.
+ */
+static void test_can_bus(void)
+{
+    const uint32_t buf_tx[4] = { 0xFF, 0x80000000, 0x12345678, 0x87654321 };
+    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
+    uint32_t status = 0;
+    uint8_t can_timestamp = 1;
+
+    QTestState *qts = qtest_init("-machine xlnx-zcu102"
+                " -object can-bus,id=canbus0"
+                " -machine xlnx-zcu102.canbus0=canbus0"
+                " -machine xlnx-zcu102.canbus1=canbus0"
+                );
+
+    /* Configure the CAN0 and CAN1. */
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
+
+    /* Check here if CAN0 and CAN1 are in normal mode. */
+    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    send_data(qts, CAN0_BASE_ADDR, buf_tx);
+
+    read_data(qts, CAN1_BASE_ADDR, buf_rx);
+    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
+
+    qtest_quit(qts);
+}
+
+/*
+ * This test is performing loopback mode on CAN0 and CAN1. Data sent from TX of
+ * each CAN0 and CAN1 are compared with RX register data for respective CAN.
+ */
+static void test_can_loopback(void)
+{
+    uint32_t buf_tx[4] = { 0xFF, 0x80000000, 0x12345678, 0x87654321 };
+    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
+    uint32_t status = 0;
+
+    QTestState *qts = qtest_init("-machine xlnx-zcu102"
+                " -object can-bus,id=canbus0"
+                " -machine xlnx-zcu102.canbus0=canbus0"
+                " -machine xlnx-zcu102.canbus1=canbus0"
+                );
+
+    /* Configure the CAN0 in loopback mode. */
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, LOOPBACK_MODE);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+
+    /* Check here if CAN0 is set in loopback mode. */
+    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
+
+    g_assert_cmpint(status, ==, STATUS_LOOPBACK_MODE);
+
+    send_data(qts, CAN0_BASE_ADDR, buf_tx);
+    read_data(qts, CAN0_BASE_ADDR, buf_rx);
+    match_rx_tx_data(buf_tx, buf_rx, 0);
+
+    /* Configure the CAN1 in loopback mode. */
+    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, LOOPBACK_MODE);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+
+    /* Check here if CAN1 is set in loopback mode. */
+    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
+
+    g_assert_cmpint(status, ==, STATUS_LOOPBACK_MODE);
+
+    send_data(qts, CAN1_BASE_ADDR, buf_tx);
+    read_data(qts, CAN1_BASE_ADDR, buf_rx);
+    match_rx_tx_data(buf_tx, buf_rx, 0);
+
+    qtest_quit(qts);
+}
+
+/*
+ * Enable filters for CAN1. This will filter incoming messages with ID. In this
+ * test message will pass through filter 2.
+ */
+static void test_can_filter(void)
+{
+    uint32_t buf_tx[4] = { 0x14, 0x80000000, 0x12345678, 0x87654321 };
+    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
+    uint32_t status = 0;
+    uint8_t can_timestamp = 1;
+
+    QTestState *qts = qtest_init("-machine xlnx-zcu102"
+                " -object can-bus,id=canbus0"
+                " -machine xlnx-zcu102.canbus0=canbus0"
+                " -machine xlnx-zcu102.canbus1=canbus0"
+                );
+
+    /* Configure the CAN0 and CAN1. */
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
+
+    /* Check here if CAN0 and CAN1 are in normal mode. */
+    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    /* Set filter for CAN1 for incoming messages. */
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFR, 0x0);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR1, 0xF7);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR1, 0x121F);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR2, 0x5431);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR2, 0x14);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR3, 0x1234);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR3, 0x5431);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFMR4, 0xFFF);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFIR4, 0x1234);
+
+    qtest_writel(qts, CAN1_BASE_ADDR + R_AFR, 0xF);
+
+    send_data(qts, CAN0_BASE_ADDR, buf_tx);
+
+    read_data(qts, CAN1_BASE_ADDR, buf_rx);
+    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
+
+    qtest_quit(qts);
+}
+
+/* Testing sleep mode on CAN0 while CAN1 is in normal mode. */
+static void test_can_sleepmode(void)
+{
+    uint32_t buf_tx[4] = { 0x14, 0x80000000, 0x12345678, 0x87654321 };
+    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
+    uint32_t status = 0;
+    uint8_t can_timestamp = 1;
+
+    QTestState *qts = qtest_init("-machine xlnx-zcu102"
+                " -object can-bus,id=canbus0"
+                " -machine xlnx-zcu102.canbus0=canbus0"
+                " -machine xlnx-zcu102.canbus1=canbus0"
+                );
+
+    /* Configure the CAN0. */
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, SLEEP_MODE);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+
+    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
+
+    /* Check here if CAN0 is in SLEEP mode and CAN1 in normal mode. */
+    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_SLEEP_MODE);
+
+    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    send_data(qts, CAN1_BASE_ADDR, buf_tx);
+
+    /*
+     * Once CAN1 sends data on can-bus. CAN0 should exit sleep mode.
+     * Check the CAN0 status now. It should exit the sleep mode and receive the
+     * incoming data.
+     */
+    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    read_data(qts, CAN0_BASE_ADDR, buf_rx);
+
+    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
+
+    qtest_quit(qts);
+}
+
+/* Testing Snoop mode on CAN0 while CAN1 is in normal mode. */
+static void test_can_snoopmode(void)
+{
+    uint32_t buf_tx[4] = { 0x14, 0x80000000, 0x12345678, 0x87654321 };
+    uint32_t buf_rx[4] = { 0x00, 0x00, 0x00, 0x00 };
+    uint32_t status = 0;
+    uint8_t can_timestamp = 1;
+
+    QTestState *qts = qtest_init("-machine xlnx-zcu102"
+                " -object can-bus,id=canbus0"
+                " -machine xlnx-zcu102.canbus0=canbus0"
+                " -machine xlnx-zcu102.canbus1=canbus0"
+                );
+
+    /* Configure the CAN0. */
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, CONFIG_MODE);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_MSR_OFFSET, SNOOP_MODE);
+    qtest_writel(qts, CAN0_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+
+    qtest_writel(qts, CAN1_BASE_ADDR + R_SRR_OFFSET, ENABLE_CAN);
+    qtest_writel(qts, CAN1_BASE_ADDR + R_MSR_OFFSET, NORMAL_MODE);
+
+    /* Check here if CAN0 is in SNOOP mode and CAN1 in normal mode. */
+    status = qtest_readl(qts, CAN0_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_SNOOP_MODE);
+
+    status = qtest_readl(qts, CAN1_BASE_ADDR + R_SR_OFFSET);
+    g_assert_cmpint(status, ==, STATUS_NORMAL_MODE);
+
+    send_data(qts, CAN1_BASE_ADDR, buf_tx);
+
+    read_data(qts, CAN0_BASE_ADDR, buf_rx);
+
+    match_rx_tx_data(buf_tx, buf_rx, can_timestamp);
+
+    qtest_quit(qts);
+}
+
+int main(int argc, char **argv)
+{
+    g_test_init(&argc, &argv, NULL);
+
+    qtest_add_func("/net/can/can_bus", test_can_bus);
+    qtest_add_func("/net/can/can_loopback", test_can_loopback);
+    qtest_add_func("/net/can/can_filter", test_can_filter);
+    qtest_add_func("/net/can/can_test_snoopmode", test_can_snoopmode);
+    qtest_add_func("/net/can/can_test_sleepmode", test_can_sleepmode);
+
+    return g_test_run();
+}
diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/meson.build
+++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qtests_aarch64 = \
   ['arm-cpu-features',
    'numa-test',
    'boot-serial-test',
+   'xlnx-can-test',
    'migration-test']
 
 qtests_s390x = \
-- 
2.20.1

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

Trusted Firmware now supports A72 on sbsa-ref by default [1] so enable
it for QEMU as well. A53 was already enabled there.

1. https://review.trustedfirmware.org/c/TF-A/trusted-firmware-a/+/7117

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201120141705.246690-1-marcin.juszkiewicz@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/sbsa-ref.c | 23 ++++++++++++++++++++---
 1 file changed, 20 insertions(+), 3 deletions(-)

diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sbsa-ref.c
+++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@ static const int sbsa_ref_irqmap[] = {
     [SBSA_GWDT] = 16,
 };
 
+static const char * const valid_cpus[] = {
+    ARM_CPU_TYPE_NAME("cortex-a53"),
+    ARM_CPU_TYPE_NAME("cortex-a57"),
+    ARM_CPU_TYPE_NAME("cortex-a72"),
+};
+
+static bool cpu_type_valid(const char *cpu)
+{
+    int i;
+
+    for (i = 0; i < ARRAY_SIZE(valid_cpus); i++) {
+        if (strcmp(cpu, valid_cpus[i]) == 0) {
+            return true;
+        }
+    }
+    return false;
+}
+
 static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
 {
     uint8_t clustersz = ARM_DEFAULT_CPUS_PER_CLUSTER;
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
     const CPUArchIdList *possible_cpus;
     int n, sbsa_max_cpus;
 
-    if (strcmp(machine->cpu_type, ARM_CPU_TYPE_NAME("cortex-a57"))) {
-        error_report("sbsa-ref: CPU type other than the built-in "
-                     "cortex-a57 not supported");
+    if (!cpu_type_valid(machine->cpu_type)) {
+        error_report("mach-virt: CPU type %s not supported", machine->cpu_type);
         exit(1);
     }
 
-- 
2.20.1

From: Havard Skinnemoen <hskinnemoen@google.com>

Dump the collected random data after a randomness test failure.

Note that this relies on the test having called
g_test_set_nonfatal_assertions() so we don't abort immediately on the
assertion failure.

Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: minor commit message tweak]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/qtest/npcm7xx_rng-test.c | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/tests/qtest/npcm7xx_rng-test.c b/tests/qtest/npcm7xx_rng-test.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/npcm7xx_rng-test.c
+++ b/tests/qtest/npcm7xx_rng-test.c
@@ -XXX,XX +XXX,XX @@
 
 #include "libqtest-single.h"
 #include "qemu/bitops.h"
+#include "qemu-common.h"
 
 #define RNG_BASE_ADDR   0xf000b000
 
@@ -XXX,XX +XXX,XX @@
 /* Number of bits to collect for randomness tests. */
 #define TEST_INPUT_BITS  (128)
 
+static void dump_buf_if_failed(const uint8_t *buf, size_t size)
+{
+    if (g_test_failed()) {
+        qemu_hexdump(stderr, "", buf, size);
+    }
+}
+
 static void rng_writeb(unsigned int offset, uint8_t value)
 {
     writeb(RNG_BASE_ADDR + offset, value);
@@ -XXX,XX +XXX,XX @@ static void test_continuous_monobit(void)
     }
 
     g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
+    dump_buf_if_failed(buf, sizeof(buf));
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static void test_continuous_runs(void)
     }
 
     g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
+    dump_buf_if_failed(buf.c, sizeof(buf));
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static void test_first_byte_monobit(void)
     }
 
     g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
+    dump_buf_if_failed(buf, sizeof(buf));
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static void test_first_byte_runs(void)
     }
 
     g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
+    dump_buf_if_failed(buf.c, sizeof(buf));
 }
 
 int main(int argc, char **argv)
-- 
2.20.1

From: Alex Chen <alex.chen@huawei.com>

We should use printf format specifier "%u" instead of "%d" for
argument of type "unsigned int".

Reported-by: Euler Robot <euler.robot@huawei.com>
Signed-off-by: Alex Chen <alex.chen@huawei.com>
Message-id: 20201126111109.112238-2-alex.chen@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/imx25_ccm.c | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/hw/misc/imx25_ccm.c b/hw/misc/imx25_ccm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/imx25_ccm.c
+++ b/hw/misc/imx25_ccm.c
@@ -XXX,XX +XXX,XX @@ static const char *imx25_ccm_reg_name(uint32_t reg)
     case IMX25_CCM_LPIMR1_REG:
         return "lpimr1";
     default:
-        sprintf(unknown, "[%d ?]", reg);
+        sprintf(unknown, "[%u ?]", reg);
         return unknown;
     }
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_mpll_clk(IMXCCMState *dev)
         freq = imx_ccm_calc_pll(s->reg[IMX25_CCM_MPCTL_REG], CKIH_FREQ);
     }
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_mcu_clk(IMXCCMState *dev)
 
     freq = freq / (1 + EXTRACT(s->reg[IMX25_CCM_CCTL_REG], ARM_CLK_DIV));
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_ahb_clk(IMXCCMState *dev)
     freq = imx25_ccm_get_mcu_clk(dev)
            / (1 + EXTRACT(s->reg[IMX25_CCM_CCTL_REG], AHB_CLK_DIV));
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_ipg_clk(IMXCCMState *dev)
 
     freq = imx25_ccm_get_ahb_clk(dev) / 2;
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx25_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
         break;
     }
 
-    DPRINTF("Clock = %d) = %d\n", clock, freq);
+    DPRINTF("Clock = %d) = %u\n", clock, freq);
 
     return freq;
 }
-- 
2.20.1

From: Alex Chen <alex.chen@huawei.com>

We should use printf format specifier "%u" instead of "%d" for
argument of type "unsigned int".

Reported-by: Euler Robot <euler.robot@huawei.com>
Signed-off-by: Alex Chen <alex.chen@huawei.com>
Message-id: 20201126111109.112238-3-alex.chen@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/imx31_ccm.c | 14 +++++++-------
 hw/misc/imx_ccm.c   |  4 ++--
 2 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/hw/misc/imx31_ccm.c b/hw/misc/imx31_ccm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/imx31_ccm.c
+++ b/hw/misc/imx31_ccm.c
@@ -XXX,XX +XXX,XX @@ static const char *imx31_ccm_reg_name(uint32_t reg)
     case IMX31_CCM_PDR2_REG:
         return "PDR2";
     default:
-        sprintf(unknown, "[%d ?]", reg);
+        sprintf(unknown, "[%u ?]", reg);
         return unknown;
     }
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_pll_ref_clk(IMXCCMState *dev)
         freq = CKIH_FREQ;
     }
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_mpll_clk(IMXCCMState *dev)
     freq = imx_ccm_calc_pll(s->reg[IMX31_CCM_MPCTL_REG],
                             imx31_ccm_get_pll_ref_clk(dev));
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_mcu_main_clk(IMXCCMState *dev)
         freq = imx31_ccm_get_mpll_clk(dev);
     }
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_hclk_clk(IMXCCMState *dev)
     freq = imx31_ccm_get_mcu_main_clk(dev)
            / (1 + EXTRACT(s->reg[IMX31_CCM_PDR0_REG], MAX));
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_ipg_clk(IMXCCMState *dev)
     freq = imx31_ccm_get_hclk_clk(dev)
            / (1 + EXTRACT(s->reg[IMX31_CCM_PDR0_REG], IPG));
 
-    DPRINTF("freq = %d\n", freq);
+    DPRINTF("freq = %u\n", freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx31_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
         break;
     }
 
-    DPRINTF("Clock = %d) = %d\n", clock, freq);
+    DPRINTF("Clock = %d) = %u\n", clock, freq);
 
     return freq;
 }
diff --git a/hw/misc/imx_ccm.c b/hw/misc/imx_ccm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/imx_ccm.c
+++ b/hw/misc/imx_ccm.c
@@ -XXX,XX +XXX,XX @@ uint32_t imx_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
         freq = klass->get_clock_frequency(dev, clock);
     }
 
-    DPRINTF("(clock = %d) = %d\n", clock, freq);
+    DPRINTF("(clock = %d) = %u\n", clock, freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ uint32_t imx_ccm_calc_pll(uint32_t pllreg, uint32_t base_freq)
     freq = ((2 * (base_freq >> 10) * (mfi * mfd + mfn)) /
             (mfd * pd)) << 10;
 
-    DPRINTF("(pllreg = 0x%08x, base_freq = %d) = %d\n", pllreg, base_freq,
+    DPRINTF("(pllreg = 0x%08x, base_freq = %u) = %d\n", pllreg, base_freq,
             freq);
 
     return freq;
-- 
2.20.1

From: Alex Chen <alex.chen@huawei.com>

We should use printf format specifier "%u" instead of "%d" for
argument of type "unsigned int".

Reported-by: Euler Robot <euler.robot@huawei.com>
Signed-off-by: Alex Chen <alex.chen@huawei.com>
Message-id: 20201126111109.112238-4-alex.chen@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/imx6_ccm.c | 20 ++++++++++----------
 hw/misc/imx6_src.c |  2 +-
 2 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/hw/misc/imx6_ccm.c b/hw/misc/imx6_ccm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/imx6_ccm.c
+++ b/hw/misc/imx6_ccm.c
@@ -XXX,XX +XXX,XX @@ static const char *imx6_ccm_reg_name(uint32_t reg)
     case CCM_CMEOR:
         return "CMEOR";
     default:
-        sprintf(unknown, "%d ?", reg);
+        sprintf(unknown, "%u ?", reg);
         return unknown;
     }
 }
@@ -XXX,XX +XXX,XX @@ static const char *imx6_analog_reg_name(uint32_t reg)
     case USB_ANALOG_DIGPROG:
         return "USB_ANALOG_DIGPROG";
     default:
-        sprintf(unknown, "%d ?", reg);
+        sprintf(unknown, "%u ?", reg);
         return unknown;
     }
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_pll2_clk(IMX6CCMState *dev)
         freq *= 20;
     }
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_pll2_pfd0_clk(IMX6CCMState *dev)
     freq = imx6_analog_get_pll2_clk(dev) * 18
            / EXTRACT(dev->analog[CCM_ANALOG_PFD_528], PFD0_FRAC);
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_pll2_pfd2_clk(IMX6CCMState *dev)
     freq = imx6_analog_get_pll2_clk(dev) * 18
            / EXTRACT(dev->analog[CCM_ANALOG_PFD_528], PFD2_FRAC);
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_analog_get_periph_clk(IMX6CCMState *dev)
         break;
     }
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_ccm_get_ahb_clk(IMX6CCMState *dev)
     freq = imx6_analog_get_periph_clk(dev)
            / (1 + EXTRACT(dev->ccm[CCM_CBCDR], AHB_PODF));
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_ccm_get_ipg_clk(IMX6CCMState *dev)
     freq = imx6_ccm_get_ahb_clk(dev)
            / (1 + EXTRACT(dev->ccm[CCM_CBCDR], IPG_PODF));
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t imx6_ccm_get_per_clk(IMX6CCMState *dev)
     freq = imx6_ccm_get_ipg_clk(dev)
            / (1 + EXTRACT(dev->ccm[CCM_CSCMR1], PERCLK_PODF));
 
-    DPRINTF("freq = %d\n", (uint32_t)freq);
+    DPRINTF("freq = %u\n", (uint32_t)freq);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t imx6_ccm_get_clock_frequency(IMXCCMState *dev, IMXClk clock)
         break;
     }
 
-    DPRINTF("Clock = %d) = %d\n", clock, freq);
+    DPRINTF("Clock = %d) = %u\n", clock, freq);
 
     return freq;
 }
diff --git a/hw/misc/imx6_src.c b/hw/misc/imx6_src.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/imx6_src.c
+++ b/hw/misc/imx6_src.c
@@ -XXX,XX +XXX,XX @@ static const char *imx6_src_reg_name(uint32_t reg)
     case SRC_GPR10:
         return "SRC_GPR10";
     default:
-        sprintf(unknown, "%d ?", reg);
+        sprintf(unknown, "%u ?", reg);
         return unknown;
     }
 }
-- 
2.20.1

From: Alex Chen <alex.chen@huawei.com>

We should use printf format specifier "%u" instead of "%d" for
argument of type "unsigned int".

Reported-by: Euler Robot <euler.robot@huawei.com>
Signed-off-by: Alex Chen <alex.chen@huawei.com>
Message-id: 20201126111109.112238-5-alex.chen@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/imx6ul_ccm.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/hw/misc/imx6ul_ccm.c b/hw/misc/imx6ul_ccm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/imx6ul_ccm.c
+++ b/hw/misc/imx6ul_ccm.c
@@ -XXX,XX +XXX,XX @@ static const char *imx6ul_ccm_reg_name(uint32_t reg)
     case CCM_CMEOR:
         return "CMEOR";
     default:
-        sprintf(unknown, "%d ?", reg);
+        sprintf(unknown, "%u ?", reg);
         return unknown;
     }
 }
@@ -XXX,XX +XXX,XX @@ static const char *imx6ul_analog_reg_name(uint32_t reg)
     case USB_ANALOG_DIGPROG:
         return "USB_ANALOG_DIGPROG";
     default:
-        sprintf(unknown, "%d ?", reg);
+        sprintf(unknown, "%u ?", reg);
         return unknown;
     }
 }
-- 
2.20.1

For M-profile CPUs, the range from 0xe0000000 to 0xe00fffff is the
Private Peripheral Bus range, which includes all of the memory mapped
devices and registers that are part of the CPU itself, including the
NVIC, systick timer, and debug and trace components like the Data
Watchpoint and Trace unit (DWT).  Within this large region, the range
0xe000e000 to 0xe000efff is the System Control Space (NVIC, system
registers, systick) and 0xe002e000 to 0exe002efff is its Non-secure
alias.

The architecture is clear that within the SCS unimplemented registers
should be RES0 for privileged accesses and generate BusFault for
unprivileged accesses, and we currently implement this.

It is less clear about how to handle accesses to unimplemented
regions of the wider PPB.  Unprivileged accesses should definitely
cause BusFaults (R_DQQS), but the behaviour of privileged accesses is
not given as a general rule.  However, the register definitions of
individual registers for components like the DWT all state that they
are RES0 if the relevant component is not implemented, so the
simplest way to provide that is to provide RAZ/WI for the whole range
for privileged accesses.  (The v7M Arm ARM does say that reserved
registers should be UNK/SBZP.)

Expand the container MemoryRegion that the NVIC exposes so that
it covers the whole PPB space. This means:
 * moving the address that the ARMV7M device maps it to down by
   0xe000 bytes
 * moving the off and the offsets within the container of all the
   subregions forward by 0xe000 bytes
 * adding a new default MemoryRegion that covers the whole container
   at a lower priority than anything else and which provides the
   RAZWI/BusFault behaviour

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-2-peter.maydell@linaro.org
---
 include/hw/intc/armv7m_nvic.h |  1 +
 hw/arm/armv7m.c               |  2 +-
 hw/intc/armv7m_nvic.c         | 78 ++++++++++++++++++++++++++++++-----
 3 files changed, 69 insertions(+), 12 deletions(-)

diff --git a/include/hw/intc/armv7m_nvic.h b/include/hw/intc/armv7m_nvic.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/intc/armv7m_nvic.h
+++ b/include/hw/intc/armv7m_nvic.h
@@ -XXX,XX +XXX,XX @@ struct NVICState {
     MemoryRegion systickmem;
     MemoryRegion systick_ns_mem;
     MemoryRegion container;
+    MemoryRegion defaultmem;
 
     uint32_t num_irq;
     qemu_irq excpout;
diff --git a/hw/arm/armv7m.c b/hw/arm/armv7m.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/armv7m.c
+++ b/hw/arm/armv7m.c
@@ -XXX,XX +XXX,XX @@ static void armv7m_realize(DeviceState *dev, Error **errp)
     sysbus_connect_irq(sbd, 0,
                        qdev_get_gpio_in(DEVICE(s->cpu), ARM_CPU_IRQ));
 
-    memory_region_add_subregion(&s->container, 0xe000e000,
+    memory_region_add_subregion(&s->container, 0xe0000000,
                                 sysbus_mmio_get_region(sbd, 0));
 
     for (i = 0; i < ARRAY_SIZE(s->bitband); i++) {
diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps nvic_systick_ops = {
     .endianness = DEVICE_NATIVE_ENDIAN,
 };
 
+/*
+ * Unassigned portions of the PPB space are RAZ/WI for privileged
+ * accesses, and fault for non-privileged accesses.
+ */
+static MemTxResult ppb_default_read(void *opaque, hwaddr addr,
+                                    uint64_t *data, unsigned size,
+                                    MemTxAttrs attrs)
+{
+    qemu_log_mask(LOG_UNIMP, "Read of unassigned area of PPB: offset 0x%x\n",
+                  (uint32_t)addr);
+    if (attrs.user) {
+        return MEMTX_ERROR;
+    }
+    *data = 0;
+    return MEMTX_OK;
+}
+
+static MemTxResult ppb_default_write(void *opaque, hwaddr addr,
+                                     uint64_t value, unsigned size,
+                                     MemTxAttrs attrs)
+{
+    qemu_log_mask(LOG_UNIMP, "Write of unassigned area of PPB: offset 0x%x\n",
+                  (uint32_t)addr);
+    if (attrs.user) {
+        return MEMTX_ERROR;
+    }
+    return MEMTX_OK;
+}
+
+static const MemoryRegionOps ppb_default_ops = {
+    .read_with_attrs = ppb_default_read,
+    .write_with_attrs = ppb_default_write,
+    .endianness = DEVICE_NATIVE_ENDIAN,
+    .valid.min_access_size = 1,
+    .valid.max_access_size = 8,
+};
+
 static int nvic_post_load(void *opaque, int version_id)
 {
     NVICState *s = opaque;
@@ -XXX,XX +XXX,XX @@ static void nvic_systick_trigger(void *opaque, int n, int level)
 static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
 {
     NVICState *s = NVIC(dev);
-    int regionlen;
 
     /* The armv7m container object will have set our CPU pointer */
     if (!s->cpu || !arm_feature(&s->cpu->env, ARM_FEATURE_M)) {
@@ -XXX,XX +XXX,XX @@ static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
                                                   M_REG_S));
     }
 
-    /* The NVIC and System Control Space (SCS) starts at 0xe000e000
+    /*
+     * This device provides a single sysbus memory region which
+     * represents the whole of the "System PPB" space. This is the
+     * range from 0xe0000000 to 0xe00fffff and includes the NVIC,
+     * the System Control Space (system registers), the systick timer,
+     * and for CPUs with the Security extension an NS banked version
+     * of all of these.
+     *
+     * The default behaviour for unimplemented registers/ranges
+     * (for instance the Data Watchpoint and Trace unit at 0xe0001000)
+     * is to RAZ/WI for privileged access and BusFault for non-privileged
+     * access.
+     *
+     * The NVIC and System Control Space (SCS) starts at 0xe000e000
      * and looks like this:
      *  0x004 - ICTR
      *  0x010 - 0xff - systick
@@ -XXX,XX +XXX,XX @@ static void armv7m_nvic_realize(DeviceState *dev, Error **errp)
      * generally code determining which banked register to use should
      * use attrs.secure; code determining actual behaviour of the system
      * should use env->v7m.secure.
+     *
+     * The container covers the whole PPB space. Within it the priority
+     * of overlapping regions is:
+     *  - default region (for RAZ/WI and BusFault) : -1
+     *  - system register regions : 0
+     *  - systick : 1
+     * This is because the systick device is a small block of registers
+     * in the middle of the other system control registers.
      */
-    regionlen = arm_feature(&s->cpu->env, ARM_FEATURE_V8) ? 0x21000 : 0x1000;
-    memory_region_init(&s->container, OBJECT(s), "nvic", regionlen);
-    /* The system register region goes at the bottom of the priority
-     * stack as it covers the whole page.
-     */
+    memory_region_init(&s->container, OBJECT(s), "nvic", 0x100000);
+    memory_region_init_io(&s->defaultmem, OBJECT(s), &ppb_default_ops, s,
+                          "nvic-default", 0x100000);
+    memory_region_add_subregion_overlap(&s->container, 0, &s->defaultmem, -1);
     memory_region_init_io(&s->sysregmem, OBJECT(s), &nvic_sysreg_ops, s,
                           "nvic_sysregs", 0x1000);
-    memory_region_add_subregion(&s->container, 0, &s->sysregmem);
+    memory_region_add_subregion(&s->container, 0xe000, &s->sysregmem);
 
     memory_region_init_io(&s->systickmem, OBJECT(s),
                           &nvic_systick_ops, s,
                           "nvic_systick", 0xe0);
 
-    memory_region_add_subregion_overlap(&s->container, 0x10,
+    memory_region_add_subregion_overlap(&s->container, 0xe010,
                                         &s->systickmem, 1);
 
     if (arm_feature(&s->cpu->env, ARM_FEATURE_V8)) {
         memory_region_init_io(&s->sysreg_ns_mem, OBJECT(s),
                               &nvic_sysreg_ns_ops, &s->sysregmem,
                               "nvic_sysregs_ns", 0x1000);
-        memory_region_add_subregion(&s->container, 0x20000, &s->sysreg_ns_mem);
+        memory_region_add_subregion(&s->container, 0x2e000, &s->sysreg_ns_mem);
         memory_region_init_io(&s->systick_ns_mem, OBJECT(s),
                               &nvic_sysreg_ns_ops, &s->systickmem,
                               "nvic_systick_ns", 0xe0);
-        memory_region_add_subregion_overlap(&s->container, 0x20010,
+        memory_region_add_subregion_overlap(&s->container, 0x2e010,
                                             &s->systick_ns_mem, 1);
     }
 
-- 
2.20.1

In v8.1M the PXN architecture extension adds a new PXN bit to the
MPU_RLAR registers, which forbids execution of code in the region
from a privileged mode.

This is another feature which is just in the generic "in v8.1M" set
and has no ID register field indicating its presence.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-3-peter.maydell@linaro.org
---
 target/arm/helper.c | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ bool pmsav8_mpu_lookup(CPUARMState *env, uint32_t address,
     } else {
         uint32_t ap = extract32(env->pmsav8.rbar[secure][matchregion], 1, 2);
         uint32_t xn = extract32(env->pmsav8.rbar[secure][matchregion], 0, 1);
+        bool pxn = false;
+
+        if (arm_feature(env, ARM_FEATURE_V8_1M)) {
+            pxn = extract32(env->pmsav8.rlar[secure][matchregion], 4, 1);
+        }
 
         if (m_is_system_region(env, address)) {
             /* System space is always execute never */
@@ -XXX,XX +XXX,XX @@ bool pmsav8_mpu_lookup(CPUARMState *env, uint32_t address,
         }
 
         *prot = simple_ap_to_rw_prot(env, mmu_idx, ap);
-        if (*prot && !xn) {
+        if (*prot && !xn && !(pxn && !is_user)) {
             *prot |= PAGE_EXEC;
         }
         /* We don't need to look the attribute up in the MAIR0/MAIR1
-- 
2.20.1

In arm_cpu_realizefn() we check whether the board code disabled EL3
via the has_el3 CPU object property, which we create if the CPU
starts with the ARM_FEATURE_EL3 feature bit.  If it is disabled, then
we turn off ARM_FEATURE_EL3 and also zero out the relevant fields in
the ID_PFR1 and ID_AA64PFR0 registers.

This codepath was incorrectly being taken for M-profile CPUs, which
do not have an EL3 and don't set ARM_FEATURE_EL3, but which may have
the M-profile Security extension and so should have non-zero values
in the ID_PFR1.Security field.

Restrict the handling of the feature flag to A/R-profile cores.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-4-peter.maydell@linaro.org
---
 target/arm/cpu.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
         }
     }
 
-    if (!cpu->has_el3) {
+    if (!arm_feature(env, ARM_FEATURE_M) && !cpu->has_el3) {
         /* If the has_el3 CPU property is disabled then we need to disable the
          * feature.
          */
-- 
2.20.1

Implement the v8.1M VSCCLRM insn, which zeros floating point
registers if there is an active floating point context.
This requires support in write_neon_element32() for the MO_32
element size, so add it.

Because we want to use arm_gen_condlabel(), we need to move
the definition of that function up in translate.c so it is
before the #include of translate-vfp.c.inc.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-5-peter.maydell@linaro.org
---
 target/arm/cpu.h               |  9 ++++
 target/arm/m-nocp.decode       |  8 +++-
 target/arm/translate.c         | 21 +++++----
 target/arm/translate-vfp.c.inc | 84 ++++++++++++++++++++++++++++++++++
 4 files changed, 111 insertions(+), 11 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_mprofile(const ARMISARegisters *id)
     return FIELD_EX32(id->id_pfr1, ID_PFR1, MPROGMOD) != 0;
 }
 
+static inline bool isar_feature_aa32_m_sec_state(const ARMISARegisters *id)
+{
+    /*
+     * Return true if M-profile state handling insns
+     * (VSCCLRM, CLRM, FPCTX access insns) are implemented
+     */
+    return FIELD_EX32(id->id_pfr1, ID_PFR1, SECURITY) >= 3;
+}
+
 static inline bool isar_feature_aa32_fp16_arith(const ARMISARegisters *id)
 {
     /* Sadly this is encoded differently for A-profile and M-profile */
diff --git a/target/arm/m-nocp.decode b/target/arm/m-nocp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m-nocp.decode
+++ b/target/arm/m-nocp.decode
@@ -XXX,XX +XXX,XX @@
 # If the coprocessor is not present or disabled then we will generate
 # the NOCP exception; otherwise we let the insn through to the main decode.
 
+%vd_dp  22:1 12:4
+%vd_sp  12:4 22:1
+
 &nocp cp
 
 {
   # Special cases which do not take an early NOCP: VLLDM and VLSTM
   VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 0000 0000
-  # TODO: VSCCLRM (new in v8.1M) is similar:
-  #VSCCLRM      1110 1100 1-01 1111 ---- 1011 ---- ---0
+  # VSCCLRM (new in v8.1M) is similar:
+  VSCCLRM      1110 1100 1.01 1111 .... 1011 imm:7 0   vd=%vd_dp size=3
+  VSCCLRM      1110 1100 1.01 1111 .... 1010 imm:8     vd=%vd_sp size=2
 
   NOCP         111- 1110 ---- ---- ---- cp:4 ---- ---- &nocp
   NOCP         111- 110- ---- ---- ---- cp:4 ---- ---- &nocp
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void arm_translate_init(void)
     a64_translate_init();
 }
 
+/* Generate a label used for skipping this instruction */
+static void arm_gen_condlabel(DisasContext *s)
+{
+    if (!s->condjmp) {
+        s->condlabel = gen_new_label();
+        s->condjmp = 1;
+    }
+}
+
 /* Flags for the disas_set_da_iss info argument:
  * lower bits hold the Rt register number, higher bits are flags.
  */
@@ -XXX,XX +XXX,XX @@ static void write_neon_element64(TCGv_i64 src, int reg, int ele, MemOp memop)
     long off = neon_element_offset(reg, ele, memop);
 
     switch (memop) {
+    case MO_32:
+        tcg_gen_st32_i64(src, cpu_env, off);
+        break;
     case MO_64:
         tcg_gen_st_i64(src, cpu_env, off);
         break;
@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
     s->base.is_jmp = DISAS_UPDATE_EXIT;
 }
 
-/* Generate a label used for skipping this instruction */
-static void arm_gen_condlabel(DisasContext *s)
-{
-    if (!s->condjmp) {
-        s->condlabel = gen_new_label();
-        s->condjmp = 1;
-    }
-}
-
 /* Skip this instruction if the ARM condition is false */
 static void arm_skip_unless(DisasContext *s, uint32_t cond)
 {
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLLDM_VLSTM(DisasContext *s, arg_VLLDM_VLSTM *a)
     return true;
 }
 
+static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
+{
+    int btmreg, topreg;
+    TCGv_i64 zero;
+    TCGv_i32 aspen, sfpa;
+
+    if (!dc_isar_feature(aa32_m_sec_state, s)) {
+        /* Before v8.1M, fall through in decode to NOCP check */
+        return false;
+    }
+
+    /* Explicitly UNDEF because this takes precedence over NOCP */
+    if (!arm_dc_feature(s, ARM_FEATURE_M_MAIN) || !s->v8m_secure) {
+        unallocated_encoding(s);
+        return true;
+    }
+
+    if (!dc_isar_feature(aa32_vfp_simd, s)) {
+        /* NOP if we have neither FP nor MVE */
+        return true;
+    }
+
+    /*
+     * If FPCCR.ASPEN != 0 && CONTROL_S.SFPA == 0 then there is no
+     * active floating point context so we must NOP (without doing
+     * any lazy state preservation or the NOCP check).
+     */
+    aspen = load_cpu_field(v7m.fpccr[M_REG_S]);
+    sfpa = load_cpu_field(v7m.control[M_REG_S]);
+    tcg_gen_andi_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
+    tcg_gen_xori_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
+    tcg_gen_andi_i32(sfpa, sfpa, R_V7M_CONTROL_SFPA_MASK);
+    tcg_gen_or_i32(sfpa, sfpa, aspen);
+    arm_gen_condlabel(s);
+    tcg_gen_brcondi_i32(TCG_COND_EQ, sfpa, 0, s->condlabel);
+
+    if (s->fp_excp_el != 0) {
+        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+                           syn_uncategorized(), s->fp_excp_el);
+        return true;
+    }
+
+    topreg = a->vd + a->imm - 1;
+    btmreg = a->vd;
+
+    /* Convert to Sreg numbers if the insn specified in Dregs */
+    if (a->size == 3) {
+        topreg = topreg * 2 + 1;
+        btmreg *= 2;
+    }
+
+    if (topreg > 63 || (topreg > 31 && !(topreg & 1))) {
+        /* UNPREDICTABLE: we choose to undef */
+        unallocated_encoding(s);
+        return true;
+    }
+
+    /* Silently ignore requests to clear D16-D31 if they don't exist */
+    if (topreg > 31 && !dc_isar_feature(aa32_simd_r32, s)) {
+        topreg = 31;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    /* Zero the Sregs from btmreg to topreg inclusive. */
+    zero = tcg_const_i64(0);
+    if (btmreg & 1) {
+        write_neon_element64(zero, btmreg >> 1, 1, MO_32);
+        btmreg++;
+    }
+    for (; btmreg + 1 <= topreg; btmreg += 2) {
+        write_neon_element64(zero, btmreg >> 1, 0, MO_64);
+    }
+    if (btmreg == topreg) {
+        write_neon_element64(zero, btmreg >> 1, 0, MO_32);
+        btmreg++;
+    }
+    assert(btmreg == topreg + 1);
+    /* TODO: when MVE is implemented, zero VPR here */
+    return true;
+}
+
 static bool trans_NOCP(DisasContext *s, arg_nocp *a)
 {
     /*
-- 
2.20.1

In v8.1M the new CLRM instruction allows zeroing an arbitrary set of
the general-purpose registers and APSR.  Implement this.

The encoding is a subset of the LDMIA T2 encoding, using what would
be Rn=0b1111 (which UNDEFs for LDMIA).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-6-peter.maydell@linaro.org
---
 target/arm/t32.decode  |  6 +++++-
 target/arm/translate.c | 38 ++++++++++++++++++++++++++++++++++++++
 2 files changed, 43 insertions(+), 1 deletion(-)

diff --git a/target/arm/t32.decode b/target/arm/t32.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/t32.decode
+++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@ UXTAB            1111 1010 0101 .... 1111 .... 10.. ....      @rrr_rot
 
 STM_t32          1110 1000 10.0 .... ................         @ldstm i=1 b=0
 STM_t32          1110 1001 00.0 .... ................         @ldstm i=0 b=1
-LDM_t32          1110 1000 10.1 .... ................         @ldstm i=1 b=0
+{
+  # Rn=15 UNDEFs for LDM; M-profile CLRM uses that encoding
+  CLRM           1110 1000 1001 1111 list:16
+  LDM_t32        1110 1000 10.1 .... ................         @ldstm i=1 b=0
+}
 LDM_t32          1110 1001 00.1 .... ................         @ldstm i=0 b=1
 
 &rfe             !extern rn w pu
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_LDM_t16(DisasContext *s, arg_ldst_block *a)
     return do_ldm(s, a, 1);
 }
 
+static bool trans_CLRM(DisasContext *s, arg_CLRM *a)
+{
+    int i;
+    TCGv_i32 zero;
+
+    if (!dc_isar_feature(aa32_m_sec_state, s)) {
+        return false;
+    }
+
+    if (extract32(a->list, 13, 1)) {
+        return false;
+    }
+
+    if (!a->list) {
+        /* UNPREDICTABLE; we choose to UNDEF */
+        return false;
+    }
+
+    zero = tcg_const_i32(0);
+    for (i = 0; i < 15; i++) {
+        if (extract32(a->list, i, 1)) {
+            /* Clear R[i] */
+            tcg_gen_mov_i32(cpu_R[i], zero);
+        }
+    }
+    if (extract32(a->list, 15, 1)) {
+        /*
+         * Clear APSR (by calling the MSR helper with the same argument
+         * as for "MSR APSR_nzcvqg, Rn": mask = 0b1100, SYSM=0)
+         */
+        TCGv_i32 maskreg = tcg_const_i32(0xc << 8);
+        gen_helper_v7m_msr(cpu_env, maskreg, zero);
+        tcg_temp_free_i32(maskreg);
+    }
+    tcg_temp_free_i32(zero);
+    return true;
+}
+
 /*
  * Branch, branch with link
  */
-- 
2.20.1

For M-profile before v8.1M, the only valid register for VMSR/VMRS is
the FPSCR.  We have a comment that states this, but the actual logic
to forbid accesses for any other register value is missing, so we
would end up with A-profile style behaviour.  Add the missing check.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-7-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c.inc | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
          * Accesses to R15 are UNPREDICTABLE; we choose to undef.
          * (FPSCR -> r15 is a special case which writes to the PSR flags.)
          */
-        if (a->rt == 15 && (!a->l || a->reg != ARM_VFP_FPSCR)) {
+        if (a->reg != ARM_VFP_FPSCR) {
+            return false;
+        }
+        if (a->rt == 15 && !a->l) {
             return false;
         }
     }
-- 
2.20.1

Currently M-profile borrows the A-profile code for VMSR and VMRS
(access to the FP system registers), because all it needs to support
is the FPSCR.  In v8.1M things become significantly more complicated
in two ways:

* there are several new FP system registers; some have side effects
   on read, and one (FPCXT_NS) needs to avoid the usual
   vfp_access_check() and the "only if FPU implemented" check

* all sysregs are now accessible both by VMRS/VMSR (which
   reads/writes a general purpose register) and also by VLDR/VSTR
   (which reads/writes them directly to memory)

Refactor the structure of how we handle VMSR/VMRS to cope with this:

* keep the M-profile code entirely separate from the A-profile code

* abstract out the "read or write the general purpose register" part
   of the code into a loadfn or storefn function pointer, so we can
   reuse it for VLDR/VSTR.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-8-peter.maydell@linaro.org
---
 target/arm/cpu.h               |   3 +
 target/arm/translate-vfp.c.inc | 182 ++++++++++++++++++++++++++++++---
 2 files changed, 171 insertions(+), 14 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ enum arm_cpu_mode {
 #define ARM_VFP_FPINST  9
 #define ARM_VFP_FPINST2 10
 
+/* QEMU-internal value meaning "FPSCR, but we care only about NZCV" */
+#define QEMU_VFP_FPSCR_NZCV 0xffff
+
 /* iwMMXt coprocessor control registers.  */
 #define ARM_IWMMXT_wCID  0
 #define ARM_IWMMXT_wCon  1
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
     return true;
 }
 
+/*
+ * M-profile provides two different sets of instructions that can
+ * access floating point system registers: VMSR/VMRS (which move
+ * to/from a general purpose register) and VLDR/VSTR sysreg (which
+ * move directly to/from memory). In some cases there are also side
+ * effects which must happen after any write to memory (which could
+ * cause an exception). So we implement the common logic for the
+ * sysreg access in gen_M_fp_sysreg_write() and gen_M_fp_sysreg_read(),
+ * which take pointers to callback functions which will perform the
+ * actual "read/write general purpose register" and "read/write
+ * memory" operations.
+ */
+
+/*
+ * Emit code to store the sysreg to its final destination; frees the
+ * TCG temp 'value' it is passed.
+ */
+typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
+/*
+ * Emit code to load the value to be copied to the sysreg; returns
+ * a new TCG temporary
+ */
+typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
+
+/* Common decode/access checks for fp sysreg read/write */
+typedef enum FPSysRegCheckResult {
+    FPSysRegCheckFailed, /* caller should return false */
+    FPSysRegCheckDone, /* caller should return true */
+    FPSysRegCheckContinue, /* caller should continue generating code */
+} FPSysRegCheckResult;
+
+static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
+{
+    if (!dc_isar_feature(aa32_fpsp_v2, s)) {
+        return FPSysRegCheckFailed;
+    }
+
+    switch (regno) {
+    case ARM_VFP_FPSCR:
+    case QEMU_VFP_FPSCR_NZCV:
+        break;
+    default:
+        return FPSysRegCheckFailed;
+    }
+
+    if (!vfp_access_check(s)) {
+        return FPSysRegCheckDone;
+    }
+
+    return FPSysRegCheckContinue;
+}
+
+static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
+
+                                  fp_sysreg_loadfn *loadfn,
+                                 void *opaque)
+{
+    /* Do a write to an M-profile floating point system register */
+    TCGv_i32 tmp;
+
+    switch (fp_sysreg_checks(s, regno)) {
+    case FPSysRegCheckFailed:
+        return false;
+    case FPSysRegCheckDone:
+        return true;
+    case FPSysRegCheckContinue:
+        break;
+    }
+
+    switch (regno) {
+    case ARM_VFP_FPSCR:
+        tmp = loadfn(s, opaque);
+        gen_helper_vfp_set_fpscr(cpu_env, tmp);
+        tcg_temp_free_i32(tmp);
+        gen_lookup_tb(s);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
+                                fp_sysreg_storefn *storefn,
+                                void *opaque)
+{
+    /* Do a read from an M-profile floating point system register */
+    TCGv_i32 tmp;
+
+    switch (fp_sysreg_checks(s, regno)) {
+    case FPSysRegCheckFailed:
+        return false;
+    case FPSysRegCheckDone:
+        return true;
+    case FPSysRegCheckContinue:
+        break;
+    }
+
+    switch (regno) {
+    case ARM_VFP_FPSCR:
+        tmp = tcg_temp_new_i32();
+        gen_helper_vfp_get_fpscr(tmp, cpu_env);
+        storefn(s, opaque, tmp);
+        break;
+    case QEMU_VFP_FPSCR_NZCV:
+        /*
+         * Read just NZCV; this is a special case to avoid the
+         * helper call for the "VMRS to CPSR.NZCV" insn.
+         */
+        tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_gen_andi_i32(tmp, tmp, 0xf0000000);
+        storefn(s, opaque, tmp);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
+{
+    arg_VMSR_VMRS *a = opaque;
+
+    if (a->rt == 15) {
+        /* Set the 4 flag bits in the CPSR */
+        gen_set_nzcv(value);
+        tcg_temp_free_i32(value);
+    } else {
+        store_reg(s, a->rt, value);
+    }
+}
+
+static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
+{
+    arg_VMSR_VMRS *a = opaque;
+
+    return load_reg(s, a->rt);
+}
+
+static bool gen_M_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
+{
+    /*
+     * Accesses to R15 are UNPREDICTABLE; we choose to undef.
+     * FPSCR -> r15 is a special case which writes to the PSR flags;
+     * set a->reg to a special value to tell gen_M_fp_sysreg_read()
+     * we only care about the top 4 bits of FPSCR there.
+     */
+    if (a->rt == 15) {
+        if (a->l && a->reg == ARM_VFP_FPSCR) {
+            a->reg = QEMU_VFP_FPSCR_NZCV;
+        } else {
+            return false;
+        }
+    }
+
+    if (a->l) {
+        /* VMRS, move FP system register to gp register */
+        return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_gpr, a);
+    } else {
+        /* VMSR, move gp register to FP system register */
+        return gen_M_fp_sysreg_write(s, a->reg, gpr_to_fp_sysreg, a);
+    }
+}
+
 static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
 {
     TCGv_i32 tmp;
     bool ignore_vfp_enabled = false;
 
-    if (!dc_isar_feature(aa32_fpsp_v2, s)) {
-        return false;
+    if (arm_dc_feature(s, ARM_FEATURE_M)) {
+        return gen_M_VMSR_VMRS(s, a);
     }
 
-    if (arm_dc_feature(s, ARM_FEATURE_M)) {
-        /*
-         * The only M-profile VFP vmrs/vmsr sysreg is FPSCR.
-         * Accesses to R15 are UNPREDICTABLE; we choose to undef.
-         * (FPSCR -> r15 is a special case which writes to the PSR flags.)
-         */
-        if (a->reg != ARM_VFP_FPSCR) {
-            return false;
-        }
-        if (a->rt == 15 && !a->l) {
-            return false;
-        }
+    if (!dc_isar_feature(aa32_fpsp_v2, s)) {
+        return false;
     }
 
     switch (a->reg) {
-- 
2.20.1

The constant-expander functions like negate, plus_2, etc, are
generally useful; move them up in translate.c so we can use them in
the VFP/Neon decoders as well as in the A32/T32/T16 decoders.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-9-peter.maydell@linaro.org
---
 target/arm/translate.c | 46 +++++++++++++++++++++++-------------------
 1 file changed, 25 insertions(+), 21 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_gen_condlabel(DisasContext *s)
     }
 }
 
+/*
+ * Constant expanders for the decoders.
+ */
+
+static int negate(DisasContext *s, int x)
+{
+    return -x;
+}
+
+static int plus_2(DisasContext *s, int x)
+{
+    return x + 2;
+}
+
+static int times_2(DisasContext *s, int x)
+{
+    return x * 2;
+}
+
+static int times_4(DisasContext *s, int x)
+{
+    return x * 4;
+}
+
 /* Flags for the disas_set_da_iss info argument:
  * lower bits hold the Rt register number, higher bits are flags.
  */
@@ -XXX,XX +XXX,XX @@ static void arm_skip_unless(DisasContext *s, uint32_t cond)
 
 
 /*
- * Constant expanders for the decoders.
+ * Constant expanders used by T16/T32 decode
  */
 
-static int negate(DisasContext *s, int x)
-{
-    return -x;
-}
-
-static int plus_2(DisasContext *s, int x)
-{
-    return x + 2;
-}
-
-static int times_2(DisasContext *s, int x)
-{
-    return x * 2;
-}
-
-static int times_4(DisasContext *s, int x)
-{
-    return x * 4;
-}
-
 /* Return only the rotation part of T32ExpandImm.  */
 static int t32_expandimm_rot(DisasContext *s, int x)
 {
-- 
2.20.1

Implement the new-in-v8.1M VLDR/VSTR variants which directly
read or write FP system registers to memory.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-10-peter.maydell@linaro.org
---
 target/arm/vfp.decode          | 14 ++++++
 target/arm/translate-vfp.c.inc | 91 ++++++++++++++++++++++++++++++++++
 2 files changed, 105 insertions(+)

diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VLDR_VSTR_hp ---- 1101 u:1 .0 l:1 rn:4 .... 1001 imm:8      vd=%vd_sp
 VLDR_VSTR_sp ---- 1101 u:1 .0 l:1 rn:4 .... 1010 imm:8      vd=%vd_sp
 VLDR_VSTR_dp ---- 1101 u:1 .0 l:1 rn:4 .... 1011 imm:8      vd=%vd_dp
 
+# M-profile VLDR/VSTR to sysreg
+%vldr_sysreg 22:1 13:3
+%imm7_0x4 0:7 !function=times_4
+
+&vldr_sysreg rn reg imm a w p
+@vldr_sysreg .... ... . a:1 . . . rn:4 ... . ... .. ....... \
+             reg=%vldr_sysreg imm=%imm7_0x4 &vldr_sysreg
+
+# P=0 W=0 is SEE "Related encodings", so split into two patterns
+VLDR_sysreg  ---- 110 1 . . w:1 1 .... ... 0 111 11 ....... @vldr_sysreg p=1
+VLDR_sysreg  ---- 110 0 . . 1   1 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
+VSTR_sysreg  ---- 110 1 . . w:1 0 .... ... 0 111 11 ....... @vldr_sysreg p=1
+VSTR_sysreg  ---- 110 0 . . 1   0 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
+
 # We split the load/store multiple up into two patterns to avoid
 # overlap with other insns in the "Advanced SIMD load/store and 64-bit move"
 # grouping:
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
     return true;
 }
 
+static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
+{
+    arg_vldr_sysreg *a = opaque;
+    uint32_t offset = a->imm;
+    TCGv_i32 addr;
+
+    if (!a->a) {
+        offset = - offset;
+    }
+
+    addr = load_reg(s, a->rn);
+    if (a->p) {
+        tcg_gen_addi_i32(addr, addr, offset);
+    }
+
+    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
+        gen_helper_v8m_stackcheck(cpu_env, addr);
+    }
+
+    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
+                    MO_UL | MO_ALIGN | s->be_data);
+    tcg_temp_free_i32(value);
+
+    if (a->w) {
+        /* writeback */
+        if (!a->p) {
+            tcg_gen_addi_i32(addr, addr, offset);
+        }
+        store_reg(s, a->rn, addr);
+    } else {
+        tcg_temp_free_i32(addr);
+    }
+}
+
+static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
+{
+    arg_vldr_sysreg *a = opaque;
+    uint32_t offset = a->imm;
+    TCGv_i32 addr;
+    TCGv_i32 value = tcg_temp_new_i32();
+
+    if (!a->a) {
+        offset = - offset;
+    }
+
+    addr = load_reg(s, a->rn);
+    if (a->p) {
+        tcg_gen_addi_i32(addr, addr, offset);
+    }
+
+    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
+        gen_helper_v8m_stackcheck(cpu_env, addr);
+    }
+
+    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
+                    MO_UL | MO_ALIGN | s->be_data);
+
+    if (a->w) {
+        /* writeback */
+        if (!a->p) {
+            tcg_gen_addi_i32(addr, addr, offset);
+        }
+        store_reg(s, a->rn, addr);
+    } else {
+        tcg_temp_free_i32(addr);
+    }
+    return value;
+}
+
+static bool trans_VLDR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
+{
+    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+        return false;
+    }
+    if (a->rn == 15) {
+        return false;
+    }
+    return gen_M_fp_sysreg_write(s, a->reg, memory_to_fp_sysreg, a);
+}
+
+static bool trans_VSTR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
+{
+    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+        return false;
+    }
+    if (a->rn == 15) {
+        return false;
+    }
+    return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_memory, a);
+}
+
 static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
 {
     TCGv_i32 tmp;
-- 
2.20.1

v8.1M defines a new FP system register FPSCR_nzcvqc; this behaves
like the existing FPSCR, except that it reads and writes only bits
[31:27] of the FPSCR (the N, Z, C, V and QC flag bits).  (Unlike the
FPSCR, the special case for Rt=15 of writing the CPSR.NZCV is not
permitted.)

Implement the register.  Since we don't yet implement MVE, we handle
the QC bit as RES0, with todo comments for where we will need to add
support later.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-11-peter.maydell@linaro.org
---
 target/arm/cpu.h               | 13 +++++++++++++
 target/arm/translate-vfp.c.inc | 27 +++++++++++++++++++++++++++
 2 files changed, 40 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val);
 #define FPCR_FZ     (1 << 24)   /* Flush-to-zero enable bit */
 #define FPCR_DN     (1 << 25)   /* Default NaN enable bit */
 #define FPCR_QC     (1 << 27)   /* Cumulative saturation bit */
+#define FPCR_V      (1 << 28)   /* FP overflow flag */
+#define FPCR_C      (1 << 29)   /* FP carry flag */
+#define FPCR_Z      (1 << 30)   /* FP zero flag */
+#define FPCR_N      (1 << 31)   /* FP negative flag */
+
+#define FPCR_NZCV_MASK (FPCR_N | FPCR_Z | FPCR_C | FPCR_V)
+#define FPCR_NZCVQC_MASK (FPCR_NZCV_MASK | FPCR_QC)
 
 static inline uint32_t vfp_get_fpsr(CPUARMState *env)
 {
@@ -XXX,XX +XXX,XX @@ enum arm_cpu_mode {
 #define ARM_VFP_FPEXC   8
 #define ARM_VFP_FPINST  9
 #define ARM_VFP_FPINST2 10
+/* These ones are M-profile only */
+#define ARM_VFP_FPSCR_NZCVQC 2
+#define ARM_VFP_VPR 12
+#define ARM_VFP_P0 13
+#define ARM_VFP_FPCXT_NS 14
+#define ARM_VFP_FPCXT_S 15
 
 /* QEMU-internal value meaning "FPSCR, but we care only about NZCV" */
 #define QEMU_VFP_FPSCR_NZCV 0xffff
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
     case ARM_VFP_FPSCR:
     case QEMU_VFP_FPSCR_NZCV:
         break;
+    case ARM_VFP_FPSCR_NZCVQC:
+        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+            return false;
+        }
+        break;
     default:
         return FPSysRegCheckFailed;
     }
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
         tcg_temp_free_i32(tmp);
         gen_lookup_tb(s);
         break;
+    case ARM_VFP_FPSCR_NZCVQC:
+    {
+        TCGv_i32 fpscr;
+        tmp = loadfn(s, opaque);
+        /*
+         * TODO: when we implement MVE, write the QC bit.
+         * For non-MVE, QC is RES0.
+         */
+        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
+        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_gen_andi_i32(fpscr, fpscr, ~FPCR_NZCV_MASK);
+        tcg_gen_or_i32(fpscr, fpscr, tmp);
+        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_temp_free_i32(tmp);
+        break;
+    }
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
         gen_helper_vfp_get_fpscr(tmp, cpu_env);
         storefn(s, opaque, tmp);
         break;
+    case ARM_VFP_FPSCR_NZCVQC:
+        /*
+         * TODO: MVE has a QC bit, which we probably won't store
+         * in the xregs[] field. For non-MVE, where QC is RES0,
+         * we can just fall through to the FPSCR_NZCV case.
+         */
     case QEMU_VFP_FPSCR_NZCV:
         /*
          * Read just NZCV; this is a special case to avoid the
-- 
2.20.1

We defined a constant name for the mask of NZCV bits in the FPCR/FPSCR
in the previous commit; use it in a couple of places in existing code,
where we're masking out everything except NZCV for the "load to Rt=15
sets CPSR.NZCV" special case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-12-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c.inc | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

Factor out the code which handles M-profile lazy FP state preservation
from full_vfp_access_check(); accesses to the FPCXT_NS register are
a special case which need to do just this part (corresponding in the
pseudocode to the PreserveFPState() function), and not the full
set of actions matching the pseudocode ExecuteFPCheck() which
normal FP instructions need to do.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201119215617.29887-13-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c.inc | 45 ++++++++++++++++++++--------------
 1 file changed, 27 insertions(+), 18 deletions(-)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static inline long vfp_f16_offset(unsigned reg, bool top)
     return offs;
 }
 
+/*
+ * Generate code for M-profile lazy FP state preservation if needed;
+ * this corresponds to the pseudocode PreserveFPState() function.
+ */
+static void gen_preserve_fp_state(DisasContext *s)
+{
+    if (s->v7m_lspact) {
+        /*
+         * Lazy state saving affects external memory and also the NVIC,
+         * so we must mark it as an IO operation for icount (and cause
+         * this to be the last insn in the TB).
+         */
+        if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
+            s->base.is_jmp = DISAS_UPDATE_EXIT;
+            gen_io_start();
+        }
+        gen_helper_v7m_preserve_fp_state(cpu_env);
+        /*
+         * If the preserve_fp_state helper doesn't throw an exception
+         * then it will clear LSPACT; we don't need to repeat this for
+         * any further FP insns in this TB.
+         */
+        s->v7m_lspact = false;
+    }
+}
+
 /*
  * Check that VFP access is enabled. If it is, do the necessary
  * M-profile lazy-FP handling and then return true.
@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
         /* Handle M-profile lazy FP state mechanics */
 
         /* Trigger lazy-state preservation if necessary */
-        if (s->v7m_lspact) {
-            /*
-             * Lazy state saving affects external memory and also the NVIC,
-             * so we must mark it as an IO operation for icount (and cause
-             * this to be the last insn in the TB).
-             */
-            if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
-                s->base.is_jmp = DISAS_UPDATE_EXIT;
-                gen_io_start();
-            }
-            gen_helper_v7m_preserve_fp_state(cpu_env);
-            /*
-             * If the preserve_fp_state helper doesn't throw an exception
-             * then it will clear LSPACT; we don't need to repeat this for
-             * any further FP insns in this TB.
-             */
-            s->v7m_lspact = false;
-        }
+        gen_preserve_fp_state(s);
 
         /* Update ownership of FP context: set FPCCR.S to match current state */
         if (s->v8m_fpccr_s_wrong) {
-- 
2.20.1

Implement the new-in-v8.1M FPCXT_S floating point system register.
This is for saving and restoring the secure floating point context,
and it reads and writes bits [27:0] from the FPSCR and the
CONTROL.SFPA bit in bit [31].

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-14-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c.inc | 58 ++++++++++++++++++++++++++++++++++
 1 file changed, 58 insertions(+)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
             return false;
         }
         break;
+    case ARM_VFP_FPCXT_S:
+        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+            return false;
+        }
+        if (!s->v8m_secure) {
+            return false;
+        }
+        break;
     default:
         return FPSysRegCheckFailed;
     }
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
         tcg_temp_free_i32(tmp);
         break;
     }
+    case ARM_VFP_FPCXT_S:
+    {
+        TCGv_i32 sfpa, control, fpscr;
+        /* Set FPSCR[27:0] and CONTROL.SFPA from value */
+        tmp = loadfn(s, opaque);
+        sfpa = tcg_temp_new_i32();
+        tcg_gen_shri_i32(sfpa, tmp, 31);
+        control = load_cpu_field(v7m.control[M_REG_S]);
+        tcg_gen_deposit_i32(control, control, sfpa,
+                            R_V7M_CONTROL_SFPA_SHIFT, 1);
+        store_cpu_field(control, v7m.control[M_REG_S]);
+        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_gen_andi_i32(fpscr, fpscr, FPCR_NZCV_MASK);
+        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
+        tcg_gen_or_i32(fpscr, fpscr, tmp);
+        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_temp_free_i32(tmp);
+        tcg_temp_free_i32(sfpa);
+        break;
+    }
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
         tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
         storefn(s, opaque, tmp);
         break;
+    case ARM_VFP_FPCXT_S:
+    {
+        TCGv_i32 control, sfpa, fpscr;
+        /* Bits [27:0] from FPSCR, bit [31] from CONTROL.SFPA */
+        tmp = tcg_temp_new_i32();
+        sfpa = tcg_temp_new_i32();
+        gen_helper_vfp_get_fpscr(tmp, cpu_env);
+        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
+        control = load_cpu_field(v7m.control[M_REG_S]);
+        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
+        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
+        tcg_gen_or_i32(tmp, tmp, sfpa);
+        tcg_temp_free_i32(sfpa);
+        /*
+         * Store result before updating FPSCR etc, in case
+         * it is a memory write which causes an exception.
+         */
+        storefn(s, opaque, tmp);
+        /*
+         * Now we must reset FPSCR from FPDSCR_NS, and clear
+         * CONTROL.SFPA; so we'll end the TB here.
+         */
+        tcg_gen_andi_i32(control, control, ~R_V7M_CONTROL_SFPA_MASK);
+        store_cpu_field(control, v7m.control[M_REG_S]);
+        fpscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
+        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
+        tcg_temp_free_i32(fpscr);
+        gen_lookup_tb(s);
+        break;
+    }
     default:
         g_assert_not_reached();
     }
-- 
2.20.1

The FPDSCR register has a similar layout to the FPSCR.  In v8.1M it
gains new fields FZ16 (if half-precision floating point is supported)
and LTPSIZE (always reads as 4).  Update the reset value and the code
that handles writes to this register accordingly.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-16-peter.maydell@linaro.org
---
 target/arm/cpu.h      | 5 +++++
 hw/intc/armv7m_nvic.c | 9 ++++++++-
 target/arm/cpu.c      | 3 +++
 3 files changed, 16 insertions(+), 1 deletion(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val);
 #define FPCR_IXE    (1 << 12)   /* Inexact exception trap enable */
 #define FPCR_IDE    (1 << 15)   /* Input Denormal exception trap enable */
 #define FPCR_FZ16   (1 << 19)   /* ARMv8.2+, FP16 flush-to-zero */
+#define FPCR_RMODE_MASK (3 << 22) /* Rounding mode */
 #define FPCR_FZ     (1 << 24)   /* Flush-to-zero enable bit */
 #define FPCR_DN     (1 << 25)   /* Default NaN enable bit */
+#define FPCR_AHP    (1 << 26)   /* Alternative half-precision */
 #define FPCR_QC     (1 << 27)   /* Cumulative saturation bit */
 #define FPCR_V      (1 << 28)   /* FP overflow flag */
 #define FPCR_C      (1 << 29)   /* FP carry flag */
 #define FPCR_Z      (1 << 30)   /* FP zero flag */
 #define FPCR_N      (1 << 31)   /* FP negative flag */
 
+#define FPCR_LTPSIZE_SHIFT 16   /* LTPSIZE, M-profile only */
+#define FPCR_LTPSIZE_MASK (7 << FPCR_LTPSIZE_SHIFT)
+
 #define FPCR_NZCV_MASK (FPCR_N | FPCR_Z | FPCR_C | FPCR_V)
 #define FPCR_NZCVQC_MASK (FPCR_NZCV_MASK | FPCR_QC)
 
diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
         break;
     case 0xf3c: /* FPDSCR */
         if (cpu_isar_feature(aa32_vfp_simd, cpu)) {
-            value &= 0x07c00000;
+            uint32_t mask = FPCR_AHP | FPCR_DN | FPCR_FZ | FPCR_RMODE_MASK;
+            if (cpu_isar_feature(any_fp16, cpu)) {
+                mask |= FPCR_FZ16;
+            }
+            value &= mask;
+            if (cpu_isar_feature(aa32_lob, cpu)) {
+                value |= 4 << FPCR_LTPSIZE_SHIFT;
+            }
             cpu->env.v7m.fpdscr[attrs.secure] = value;
         }
         break;
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(DeviceState *dev)
              * always reset to 4.
              */
             env->v7m.ltpsize = 4;
+            /* The LTPSIZE field in FPDSCR is constant and reads as 4. */
+            env->v7m.fpdscr[M_REG_NS] = 4 << FPCR_LTPSIZE_SHIFT;
+            env->v7m.fpdscr[M_REG_S] = 4 << FPCR_LTPSIZE_SHIFT;
         }
 
         if (arm_feature(env, ARM_FEATURE_M_SECURITY)) {
-- 
2.20.1

In v8.0M, on exception entry the registers R0-R3, R12, APSR and EPSR
are zeroed for an exception taken to Non-secure state; for an
exception taken to Secure state they become UNKNOWN, and we chose to
leave them at their previous values.

In v8.1M the behaviour is specified more tightly and these registers
are always zeroed regardless of the security state that the exception
targets (see rule R_KPZV).  Implement this.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-17-peter.maydell@linaro.org
---
 target/arm/m_helper.c | 16 ++++++++++++----
 1 file changed, 12 insertions(+), 4 deletions(-)

diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m_helper.c
+++ b/target/arm/m_helper.c
@@ -XXX,XX +XXX,XX @@ static void v7m_exception_taken(ARMCPU *cpu, uint32_t lr, bool dotailchain,
          * Clear registers if necessary to prevent non-secure exception
          * code being able to see register values from secure code.
          * Where register values become architecturally UNKNOWN we leave
-         * them with their previous values.
+         * them with their previous values. v8.1M is tighter than v8.0M
+         * here and always zeroes the caller-saved registers regardless
+         * of the security state the exception is targeting.
          */
         if (arm_feature(env, ARM_FEATURE_M_SECURITY)) {
-            if (!targets_secure) {
+            if (!targets_secure || arm_feature(env, ARM_FEATURE_V8_1M)) {
                 /*
                  * Always clear the caller-saved registers (they have been
                  * pushed to the stack earlier in v7m_push_stack()).
@@ -XXX,XX +XXX,XX @@ static void v7m_exception_taken(ARMCPU *cpu, uint32_t lr, bool dotailchain,
                  * v7m_push_callee_stack()).
                  */
                 int i;
+                /*
+                 * r4..r11 are callee-saves, zero only if background
+                 * state was Secure (EXCRET.S == 1) and exception
+                 * targets Non-secure state
+                 */
+                bool zero_callee_saves = !targets_secure &&
+                    (lr & R_V7M_EXCRET_S_MASK);
 
                 for (i = 0; i < 13; i++) {
-                    /* r4..r11 are callee-saves, zero only if EXCRET.S == 1 */
-                    if (i < 4 || i > 11 || (lr & R_V7M_EXCRET_S_MASK)) {
+                    if (i < 4 || i > 11 || zero_callee_saves) {
                         env->regs[i] = 0;
                     }
                 }
-- 
2.20.1

In v8.1M, vector table fetch failures don't set HFSR.FORCED (see rule
R_LLRP).  (In previous versions of the architecture this was either
required or IMPDEF.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-18-peter.maydell@linaro.org
---
 target/arm/m_helper.c | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m_helper.c
+++ b/target/arm/m_helper.c
@@ -XXX,XX +XXX,XX @@ load_fail:
      * The HardFault is Secure if BFHFNMINS is 0 (meaning that all HFs are
      * secure); otherwise it targets the same security state as the
      * underlying exception.
+     * In v8.1M HardFaults from vector table fetch fails don't set FORCED.
      */
     if (!(cpu->env.v7m.aircr & R_V7M_AIRCR_BFHFNMINS_MASK)) {
         exc_secure = true;
     }
-    env->v7m.hfsr |= R_V7M_HFSR_VECTTBL_MASK | R_V7M_HFSR_FORCED_MASK;
+    env->v7m.hfsr |= R_V7M_HFSR_VECTTBL_MASK;
+    if (!arm_feature(env, ARM_FEATURE_V8_1M)) {
+        env->v7m.hfsr |= R_V7M_HFSR_FORCED_MASK;
+    }
     armv7m_nvic_set_pending_derived(env->nvic, ARMV7M_EXCP_HARD, exc_secure);
     return false;
 }
-- 
2.20.1

In v8.1M a REVIDR register is defined, which is at address 0xe00ecfc
and is a read-only IMPDEF register providing implementation specific
minor revision information, like the v8A REVIDR_EL1. Implement this.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-19-peter.maydell@linaro.org
---
 hw/intc/armv7m_nvic.c | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
         }
         return val;
     }
+    case 0xcfc:
+        if (!arm_feature(&cpu->env, ARM_FEATURE_V8_1M)) {
+            goto bad_offset;
+        }
+        return cpu->revidr;
     case 0xd00: /* CPUID Base.  */
         return cpu->midr;
     case 0xd04: /* Interrupt Control State (ICSR) */
-- 
2.20.1

In v8.1M a new exception return check is added which may cause a NOCP
UsageFault (see rule R_XLTP): before we clear s0..s15 and the FPSCR
we must check whether access to CP10 from the Security state of the
returning exception is disabled; if it is then we must take a fault.

(Note that for our implementation CPPWR is always RAZ/WI and so can
never cause CP10 accesses to fail.)

The other v8.1M change to this register-clearing code is that if MVE
is implemented VPR must also be cleared, so add a TODO comment to
that effect.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-20-peter.maydell@linaro.org
---
 target/arm/m_helper.c | 22 +++++++++++++++++++++-
 1 file changed, 21 insertions(+), 1 deletion(-)

diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m_helper.c
+++ b/target/arm/m_helper.c
@@ -XXX,XX +XXX,XX @@ static void do_v7m_exception_exit(ARMCPU *cpu)
             v7m_exception_taken(cpu, excret, true, false);
             return;
         } else {
-            /* Clear s0..s15 and FPSCR */
+            if (arm_feature(env, ARM_FEATURE_V8_1M)) {
+                /* v8.1M adds this NOCP check */
+                bool nsacr_pass = exc_secure ||
+                    extract32(env->v7m.nsacr, 10, 1);
+                bool cpacr_pass = v7m_cpacr_pass(env, exc_secure, true);
+                if (!nsacr_pass) {
+                    armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE, true);
+                    env->v7m.cfsr[M_REG_S] |= R_V7M_CFSR_NOCP_MASK;
+                    qemu_log_mask(CPU_LOG_INT, "...taking UsageFault on existing "
+                        "stackframe: NSACR prevents clearing FPU registers\n");
+                    v7m_exception_taken(cpu, excret, true, false);
+                } else if (!cpacr_pass) {
+                    armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE,
+                                            exc_secure);
+                    env->v7m.cfsr[exc_secure] |= R_V7M_CFSR_NOCP_MASK;
+                    qemu_log_mask(CPU_LOG_INT, "...taking UsageFault on existing "
+                        "stackframe: CPACR prevents clearing FPU registers\n");
+                    v7m_exception_taken(cpu, excret, true, false);
+                }
+            }
+            /* Clear s0..s15 and FPSCR; TODO also VPR when MVE is implemented */
             int i;
 
             for (i = 0; i < 16; i += 2) {
-- 
2.20.1

v8.1M adds new encodings of VLLDM and VLSTM (where bit 7 is set).
The only difference is that:
 * the old T1 encodings UNDEF if the implementation implements 32
   Dregs (this is currently architecturally impossible for M-profile)
 * the new T2 encodings have the implementation-defined option to
   read from memory (discarding the data) or write UNKNOWN values to
   memory for the stack slots that would be D16-D31

We choose not to make those accesses, so for us the two
instructions behave identically assuming they don't UNDEF.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-21-peter.maydell@linaro.org
---
 target/arm/m-nocp.decode       |  2 +-
 target/arm/translate-vfp.c.inc | 25 +++++++++++++++++++++++++
 2 files changed, 26 insertions(+), 1 deletion(-)

diff --git a/target/arm/m-nocp.decode b/target/arm/m-nocp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m-nocp.decode
+++ b/target/arm/m-nocp.decode
@@ -XXX,XX +XXX,XX @@
 
 {
   # Special cases which do not take an early NOCP: VLLDM and VLSTM
-  VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 0000 0000
+  VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 op:1 000 0000
   # VSCCLRM (new in v8.1M) is similar:
   VSCCLRM      1110 1100 1.01 1111 .... 1011 imm:7 0   vd=%vd_dp size=3
   VSCCLRM      1110 1100 1.01 1111 .... 1010 imm:8     vd=%vd_sp size=2
diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLLDM_VLSTM(DisasContext *s, arg_VLLDM_VLSTM *a)
         !arm_dc_feature(s, ARM_FEATURE_V8)) {
         return false;
     }
+
+    if (a->op) {
+        /*
+         * T2 encoding ({D0-D31} reglist): v8.1M and up. We choose not
+         * to take the IMPDEF option to make memory accesses to the stack
+         * slots that correspond to the D16-D31 registers (discarding
+         * read data and writing UNKNOWN values), so for us the T2
+         * encoding behaves identically to the T1 encoding.
+         */
+        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+            return false;
+        }
+    } else {
+        /*
+         * T1 encoding ({D0-D15} reglist); undef if we have 32 Dregs.
+         * This is currently architecturally impossible, but we add the
+         * check to stay in line with the pseudocode. Note that we must
+         * emit code for the UNDEF so it takes precedence over the NOCP.
+         */
+        if (dc_isar_feature(aa32_simd_r32, s)) {
+            unallocated_encoding(s);
+            return true;
+        }
+    }
+
     /*
      * If not secure, UNDEF. We must emit code for this
      * rather than returning false so that this takes
-- 
2.20.1

v8.1M introduces a new TRD flag in the CCR register, which enables
checking for stack frame integrity signatures on SG instructions.
This bit is not banked, and is always RAZ/WI to Non-secure code.
Adjust the code for handling CCR reads and writes to handle this.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-23-peter.maydell@linaro.org
---
 target/arm/cpu.h      |  2 ++
 hw/intc/armv7m_nvic.c | 26 ++++++++++++++++++--------
 2 files changed, 20 insertions(+), 8 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(V7M_CCR, STKOFHFNMIGN, 10, 1)
 FIELD(V7M_CCR, DC, 16, 1)
 FIELD(V7M_CCR, IC, 17, 1)
 FIELD(V7M_CCR, BP, 18, 1)
+FIELD(V7M_CCR, LOB, 19, 1)
+FIELD(V7M_CCR, TRD, 20, 1)
 
 /* V7M SCR bits */
 FIELD(V7M_SCR, SLEEPONEXIT, 1, 1)
diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
         }
         return cpu->env.v7m.scr[attrs.secure];
     case 0xd14: /* Configuration Control.  */
-        /* The BFHFNMIGN bit is the only non-banked bit; we
-         * keep it in the non-secure copy of the register.
+        /*
+         * Non-banked bits: BFHFNMIGN (stored in the NS copy of the register)
+         * and TRD (stored in the S copy of the register)
          */
         val = cpu->env.v7m.ccr[attrs.secure];
         val |= cpu->env.v7m.ccr[M_REG_NS] & R_V7M_CCR_BFHFNMIGN_MASK;
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
         cpu->env.v7m.scr[attrs.secure] = value;
         break;
     case 0xd14: /* Configuration Control.  */
+    {
+        uint32_t mask;
+
         if (!arm_feature(&cpu->env, ARM_FEATURE_M_MAIN)) {
             goto bad_offset;
         }
 
         /* Enforce RAZ/WI on reserved and must-RAZ/WI bits */
-        value &= (R_V7M_CCR_STKALIGN_MASK |
-                  R_V7M_CCR_BFHFNMIGN_MASK |
-                  R_V7M_CCR_DIV_0_TRP_MASK |
-                  R_V7M_CCR_UNALIGN_TRP_MASK |
-                  R_V7M_CCR_USERSETMPEND_MASK |
-                  R_V7M_CCR_NONBASETHRDENA_MASK);
+        mask = R_V7M_CCR_STKALIGN_MASK |
+            R_V7M_CCR_BFHFNMIGN_MASK |
+            R_V7M_CCR_DIV_0_TRP_MASK |
+            R_V7M_CCR_UNALIGN_TRP_MASK |
+            R_V7M_CCR_USERSETMPEND_MASK |
+            R_V7M_CCR_NONBASETHRDENA_MASK;
+        if (arm_feature(&cpu->env, ARM_FEATURE_V8_1M) && attrs.secure) {
+            /* TRD is always RAZ/WI from NS */
+            mask |= R_V7M_CCR_TRD_MASK;
+        }
+        value &= mask;
 
         if (arm_feature(&cpu->env, ARM_FEATURE_V8)) {
             /* v8M makes NONBASETHRDENA and STKALIGN be RES1 */
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
 
         cpu->env.v7m.ccr[attrs.secure] = value;
         break;
+    }
     case 0xd24: /* System Handler Control and State (SHCSR) */
         if (!arm_feature(&cpu->env, ARM_FEATURE_V7)) {
             goto bad_offset;
-- 
2.20.1

v8.1M introduces a new TRD flag in the CCR register, which enables
checking for stack frame integrity signatures on SG instructions.
Add the code in the SG insn implementation for the new behaviour.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-24-peter.maydell@linaro.org
---
 target/arm/m_helper.c | 86 +++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 86 insertions(+)

diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m_helper.c
+++ b/target/arm/m_helper.c
@@ -XXX,XX +XXX,XX @@ static bool v7m_read_half_insn(ARMCPU *cpu, ARMMMUIdx mmu_idx,
     return true;
 }
 
+static bool v7m_read_sg_stack_word(ARMCPU *cpu, ARMMMUIdx mmu_idx,
+                                   uint32_t addr, uint32_t *spdata)
+{
+    /*
+     * Read a word of data from the stack for the SG instruction,
+     * writing the value into *spdata. If the load succeeds, return
+     * true; otherwise pend an appropriate exception and return false.
+     * (We can't use data load helpers here that throw an exception
+     * because of the context we're called in, which is halfway through
+     * arm_v7m_cpu_do_interrupt().)
+     */
+    CPUState *cs = CPU(cpu);
+    CPUARMState *env = &cpu->env;
+    MemTxAttrs attrs = {};
+    MemTxResult txres;
+    target_ulong page_size;
+    hwaddr physaddr;
+    int prot;
+    ARMMMUFaultInfo fi = {};
+    ARMCacheAttrs cacheattrs = {};
+    uint32_t value;
+
+    if (get_phys_addr(env, addr, MMU_DATA_LOAD, mmu_idx, &physaddr,
+                      &attrs, &prot, &page_size, &fi, &cacheattrs)) {
+        /* MPU/SAU lookup failed */
+        if (fi.type == ARMFault_QEMU_SFault) {
+            qemu_log_mask(CPU_LOG_INT,
+                          "...SecureFault during stack word read\n");
+            env->v7m.sfsr |= R_V7M_SFSR_AUVIOL_MASK | R_V7M_SFSR_SFARVALID_MASK;
+            env->v7m.sfar = addr;
+            armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_SECURE, false);
+        } else {
+            qemu_log_mask(CPU_LOG_INT,
+                          "...MemManageFault during stack word read\n");
+            env->v7m.cfsr[M_REG_S] |= R_V7M_CFSR_DACCVIOL_MASK |
+                R_V7M_CFSR_MMARVALID_MASK;
+            env->v7m.mmfar[M_REG_S] = addr;
+            armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_MEM, false);
+        }
+        return false;
+    }
+    value = address_space_ldl(arm_addressspace(cs, attrs), physaddr,
+                              attrs, &txres);
+    if (txres != MEMTX_OK) {
+        /* BusFault trying to read the data */
+        qemu_log_mask(CPU_LOG_INT,
+                      "...BusFault during stack word read\n");
+        env->v7m.cfsr[M_REG_NS] |=
+            (R_V7M_CFSR_PRECISERR_MASK | R_V7M_CFSR_BFARVALID_MASK);
+        env->v7m.bfar = addr;
+        armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_BUS, false);
+        return false;
+    }
+
+    *spdata = value;
+    return true;
+}
+
 static bool v7m_handle_execute_nsc(ARMCPU *cpu)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static bool v7m_handle_execute_nsc(ARMCPU *cpu)
      */
     qemu_log_mask(CPU_LOG_INT, "...really an SG instruction at 0x%08" PRIx32
                   ", executing it\n", env->regs[15]);
+
+    if (cpu_isar_feature(aa32_m_sec_state, cpu) &&
+        !arm_v7m_is_handler_mode(env)) {
+        /*
+         * v8.1M exception stack frame integrity check. Note that we
+         * must perform the memory access even if CCR_S.TRD is zero
+         * and we aren't going to check what the data loaded is.
+         */
+        uint32_t spdata, sp;
+
+        /*
+         * We know we are currently NS, so the S stack pointers must be
+         * in other_ss_{psp,msp}, not in regs[13]/other_sp.
+         */
+        sp = v7m_using_psp(env) ? env->v7m.other_ss_psp : env->v7m.other_ss_msp;
+        if (!v7m_read_sg_stack_word(cpu, mmu_idx, sp, &spdata)) {
+            /* Stack access failed and an exception has been pended */
+            return false;
+        }
+
+        if (env->v7m.ccr[M_REG_S] & R_V7M_CCR_TRD_MASK) {
+            if (((spdata & ~1) == 0xfefa125a) ||
+                !(env->v7m.control[M_REG_S] & 1)) {
+                goto gen_invep;
+            }
+        }
+    }
+
     env->regs[14] &= ~1;
     env->v7m.control[M_REG_S] &= ~R_V7M_CONTROL_SFPA_MASK;
     switch_v7m_security_state(env, true);
-- 
2.20.1

In commit 077d7449100d824a4 we added code to handle the v8M
requirement that returns from NMI or HardFault forcibly deactivate
those exceptions regardless of what interrupt the guest is trying to
deactivate.  Unfortunately this broke the handling of the "illegal
exception return because the returning exception number is not
active" check for those cases.  In the pseudocode this test is done
on the exception the guest asks to return from, but because our
implementation was doing this in armv7m_nvic_complete_irq() after the
new "deactivate NMI/HardFault regardless" code we ended up doing the
test on the VecInfo for that exception instead, which usually meant
failing to raise the illegal exception return fault.

In the case for "configurable exception targeting the opposite
security state" we detected the illegal-return case but went ahead
and deactivated the VecInfo anyway, which is wrong because that is
the VecInfo for the other security state.

Rearrange the code so that we first identify the illegal return
cases, then see if we really need to deactivate NMI or HardFault
instead, and finally do the deactivation.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-25-peter.maydell@linaro.org
---
 hw/intc/armv7m_nvic.c | 59 +++++++++++++++++++++++--------------------
 1 file changed, 32 insertions(+), 27 deletions(-)

diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ int armv7m_nvic_complete_irq(void *opaque, int irq, bool secure)
 {
     NVICState *s = (NVICState *)opaque;
     VecInfo *vec = NULL;
-    int ret;
+    int ret = 0;
 
     assert(irq > ARMV7M_EXCP_RESET && irq < s->num_irq);
 
+    trace_nvic_complete_irq(irq, secure);
+
+    if (secure && exc_is_banked(irq)) {
+        vec = &s->sec_vectors[irq];
+    } else {
+        vec = &s->vectors[irq];
+    }
+
+    /*
+     * Identify illegal exception return cases. We can't immediately
+     * return at this point because we still need to deactivate
+     * (either this exception or NMI/HardFault) first.
+     */
+    if (!exc_is_banked(irq) && exc_targets_secure(s, irq) != secure) {
+        /*
+         * Return from a configurable exception targeting the opposite
+         * security state from the one we're trying to complete it for.
+         * Clear vec because it's not really the VecInfo for this
+         * (irq, secstate) so we mustn't deactivate it.
+         */
+        ret = -1;
+        vec = NULL;
+    } else if (!vec->active) {
+        /* Return from an inactive interrupt */
+        ret = -1;
+    } else {
+        /* Legal return, we will return the RETTOBASE bit value to the caller */
+        ret = nvic_rettobase(s);
+    }
+
     /*
      * For negative priorities, v8M will forcibly deactivate the appropriate
      * NMI or HardFault regardless of what interrupt we're being asked to
@@ -XXX,XX +XXX,XX @@ int armv7m_nvic_complete_irq(void *opaque, int irq, bool secure)
     }
 
     if (!vec) {
-        if (secure && exc_is_banked(irq)) {
-            vec = &s->sec_vectors[irq];
-        } else {
-            vec = &s->vectors[irq];
-        }
-    }
-
-    trace_nvic_complete_irq(irq, secure);
-
-    if (!vec->active) {
-        /* Tell the caller this was an illegal exception return */
-        return -1;
-    }
-
-    /*
-     * If this is a configurable exception and it is currently
-     * targeting the opposite security state from the one we're trying
-     * to complete it for, this counts as an illegal exception return.
-     * We still need to deactivate whatever vector the logic above has
-     * selected, though, as it might not be the same as the one for the
-     * requested exception number.
-     */
-    if (!exc_is_banked(irq) && exc_targets_secure(s, irq) != secure) {
-        ret = -1;
-    } else {
-        ret = nvic_rettobase(s);
+        return ret;
     }
 
     vec->active = 0;
-- 
2.20.1

For v8.1M the architecture mandates that CPUs must provide at
least the "minimal RAS implementation" from the Reliability,
Availability and Serviceability extension. This consists of:
 * an ESB instruction which is a NOP
   -- since it is in the HINT space we need only add a comment
 * an RFSR register which will RAZ/WI
 * a RAZ/WI AIRCR.IESB bit
   -- the code which handles writes to AIRCR does not allow setting
      of RES0 bits, so we already treat this as RAZ/WI; add a comment
      noting that this is deliberate
 * minimal implementation of the RAS register block at 0xe0005000
   -- this will be in a subsequent commit
 * setting the ID_PFR0.RAS field to 0b0010
   -- we will do this when we add the Cortex-M55 CPU model

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-26-peter.maydell@linaro.org
---
 target/arm/cpu.h      | 14 ++++++++++++++
 target/arm/t32.decode |  4 ++++
 hw/intc/armv7m_nvic.c | 13 +++++++++++++
 3 files changed, 31 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(ID_MMFR4, LSM, 20, 4)
 FIELD(ID_MMFR4, CCIDX, 24, 4)
 FIELD(ID_MMFR4, EVT, 28, 4)
 
+FIELD(ID_PFR0, STATE0, 0, 4)
+FIELD(ID_PFR0, STATE1, 4, 4)
+FIELD(ID_PFR0, STATE2, 8, 4)
+FIELD(ID_PFR0, STATE3, 12, 4)
+FIELD(ID_PFR0, CSV2, 16, 4)
+FIELD(ID_PFR0, AMU, 20, 4)
+FIELD(ID_PFR0, DIT, 24, 4)
+FIELD(ID_PFR0, RAS, 28, 4)
+
 FIELD(ID_PFR1, PROGMOD, 0, 4)
 FIELD(ID_PFR1, SECURITY, 4, 4)
 FIELD(ID_PFR1, MPROGMOD, 8, 4)
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_predinv(const ARMISARegisters *id)
     return FIELD_EX32(id->id_isar6, ID_ISAR6, SPECRES) != 0;
 }
 
+static inline bool isar_feature_aa32_ras(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_pfr0, ID_PFR0, RAS) != 0;
+}
+
 static inline bool isar_feature_aa32_mprofile(const ARMISARegisters *id)
 {
     return FIELD_EX32(id->id_pfr1, ID_PFR1, MPROGMOD) != 0;
diff --git a/target/arm/t32.decode b/target/arm/t32.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/t32.decode
+++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@ CLZ              1111 1010 1011 ---- 1111 .... 1000 ....      @rdm
       # SEV      1111 0011 1010 1111 1000 0000 0000 0100
       # SEVL     1111 0011 1010 1111 1000 0000 0000 0101
 
+      # For M-profile minimal-RAS ESB can be a NOP, which is the
+      # default behaviour since it is in the hint space.
+      # ESB      1111 0011 1010 1111 1000 0000 0001 0000
+
       # The canonical nop ends in 0000 0000, but the whole rest
       # of the space is "reserved hint, behaves as nop".
       NOP        1111 0011 1010 1111 1000 0000 ---- ----
diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
             return 0;
         }
         return cpu->env.v7m.sfar;
+    case 0xf04: /* RFSR */
+        if (!cpu_isar_feature(aa32_ras, cpu)) {
+            goto bad_offset;
+        }
+        /* We provide minimal-RAS only: RFSR is RAZ/WI */
+        return 0;
     case 0xf34: /* FPCCR */
         if (!cpu_isar_feature(aa32_vfp_simd, cpu)) {
             return 0;
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
                               R_V7M_AIRCR_PRIGROUP_SHIFT,
                               R_V7M_AIRCR_PRIGROUP_LENGTH);
             }
+            /* AIRCR.IESB is RAZ/WI because we implement only minimal RAS */
             if (attrs.secure) {
                 /* These bits are only writable by secure */
                 cpu->env.v7m.aircr = value &
@@ -XXX,XX +XXX,XX @@ static void nvic_writel(NVICState *s, uint32_t offset, uint32_t value,
         }
         break;
     }
+    case 0xf04: /* RFSR */
+        if (!cpu_isar_feature(aa32_ras, cpu)) {
+            goto bad_offset;
+        }
+        /* We provide minimal-RAS only: RFSR is RAZ/WI */
+        break;
     case 0xf34: /* FPCCR */
         if (cpu_isar_feature(aa32_vfp_simd, cpu)) {
             /* Not all bits here are banked. */
-- 
2.20.1

The RAS feature has a block of memory-mapped registers at offset
0x5000 within the PPB.  For a "minimal RAS" implementation we provide
no error records and so the only registers that exist in the block
are ERRIIDR and ERRDEVID.

The "RAZ/WI for privileged, BusFault for nonprivileged" behaviour
of the "nvic-default" region is actually valid for minimal-RAS,
so the main benefit of providing an explicit implementation of
the register block is more accurate LOG_UNIMP messages, and a
framework for where we could add a real RAS implementation later
if necessary.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201119215617.29887-27-peter.maydell@linaro.org
---
 include/hw/intc/armv7m_nvic.h |  1 +
 hw/intc/armv7m_nvic.c         | 56 +++++++++++++++++++++++++++++++++++
 2 files changed, 57 insertions(+)