Series comparison

-[Qemu-devel] [PULL 00/32] target-arm queue
+[PULL 00/23] target-arm queue
-Another target-arm queue, since we're over 30 patches
+Mostly my decodetree stuff, but also some patches for various
-already. Most of this is RTH's SVE-patches-part-1.
+smaller bugs/features from others.
 thanks
 -- PMM
+The following changes since commit 53550e81e2cafe7c03a39526b95cd21b5194d9b1:
-The following changes since commit d32e41a1188e929cc0fb16829ce3736046951e39:
+  Merge remote-tracking branch 'remotes/berrange/tags/qcrypto-next-pull-request' into staging (2020-06-15 16:36:34 +0100)
   Merge remote-tracking branch 'remotes/famz/tags/docker-and-block-pull-request' into staging (2018-05-18 14:11:52 +0100)
 are available in the Git repository at:
-  git://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20180518
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200616
-for you to fetch changes up to b94f8f60bd841c5b737185cd38263e26822f77ab:
+for you to fetch changes up to 64b397417a26509bcdff44ab94356a35c7901c79:
-  target/arm: Implement SVE Permute - Extract Group (2018-05-18 17:48:09 +0100)
+  hw: arm: Set vendor property for IMX SDHCI emulations (2020-06-16 10:32:29 +0100)
 ----------------------------------------------------------------
-target-arm queue:
+ * hw: arm: Set vendor property for IMX SDHCI emulations
- * Initial part of SVE implementation (currently disabled)
+ * sd: sdhci: Implement basic vendor specific register support
- * smmuv3: fix some minor Coverity issues
+ * hw/net/imx_fec: Convert debug fprintf() to trace events
- * add model of Xilinx ZynqMP generic DMA controller
+ * target/arm/cpu: adjust virtual time for all KVM arm cpus
- * expose (most) Arm coprocessor/system registers to
+ * Implement configurable descriptor size in ftgmac100
-   gdb via QEMU's gdbstub, for reads only
+ * hw/misc/imx6ul_ccm: Implement non writable bits in CCM registers
  * target/arm: More Neon decodetree conversion work
 ----------------------------------------------------------------
-Abdallah Bouassida (3):
+Erik Smit (1):
-      target/arm: Add "ARM_CP_NO_GDB" as a new bit field for ARMCPRegInfo type
+      Implement configurable descriptor size in ftgmac100
       target/arm: Add "_S" suffix to the secure version of a sysreg
       target/arm: Add the XML dynamic generation
-Eric Auger (2):
+Guenter Roeck (2):
-      hw/arm/smmuv3: Fix Coverity issue in smmuv3_record_event
+      sd: sdhci: Implement basic vendor specific register support
-      hw/arm/smmu-common: Fix coverity issue in get_block_pte_address
+      hw: arm: Set vendor property for IMX SDHCI emulations
-Francisco Iglesias (2):
+Jean-Christophe Dubois (2):
-      xlnx-zdma: Add a model of the Xilinx ZynqMP generic DMA
+      hw/misc/imx6ul_ccm: Implement non writable bits in CCM registers
-      xlnx-zynqmp: Connect the ZynqMP GDMA and ADMA
+      hw/net/imx_fec: Convert debug fprintf() to trace events
-Richard Henderson (25):
+Peter Maydell (17):
-      target/arm: Introduce translate-a64.h
+      target/arm: Fix missing temp frees in do_vshll_2sh
-      target/arm: Add SVE decode skeleton
+      target/arm: Convert Neon 3-reg-diff prewidening ops to decodetree
-      target/arm: Implement SVE Bitwise Logical - Unpredicated Group
+      target/arm: Convert Neon 3-reg-diff narrowing ops to decodetree
-      target/arm: Implement SVE load vector/predicate
+      target/arm: Convert Neon 3-reg-diff VABAL, VABDL to decodetree
-      target/arm: Implement SVE predicate test
+      target/arm: Convert Neon 3-reg-diff long multiplies
-      target/arm: Implement SVE Predicate Logical Operations Group
+      target/arm: Convert Neon 3-reg-diff saturating doubling multiplies
-      target/arm: Implement SVE Predicate Misc Group
+      target/arm: Convert Neon 3-reg-diff polynomial VMULL
-      target/arm: Implement SVE Integer Binary Arithmetic - Predicated Group
+      target/arm: Add 'static' and 'const' annotations to VSHLL function arrays
-      target/arm: Implement SVE Integer Reduction Group
+      target/arm: Add missing TCG temp free in do_2shift_env_64()
-      target/arm: Implement SVE bitwise shift by immediate (predicated)
+      target/arm: Convert Neon 2-reg-scalar integer multiplies to decodetree
-      target/arm: Implement SVE bitwise shift by vector (predicated)
+      target/arm: Convert Neon 2-reg-scalar float multiplies to decodetree
-      target/arm: Implement SVE bitwise shift by wide elements (predicated)
+      target/arm: Convert Neon 2-reg-scalar VQDMULH, VQRDMULH to decodetree
-      target/arm: Implement SVE Integer Arithmetic - Unary Predicated Group
+      target/arm: Convert Neon 2-reg-scalar VQRDMLAH, VQRDMLSH to decodetree
-      target/arm: Implement SVE Integer Multiply-Add Group
+      target/arm: Convert Neon 2-reg-scalar long multiplies to decodetree
-      target/arm: Implement SVE Integer Arithmetic - Unpredicated Group
+      target/arm: Convert Neon VEXT to decodetree
-      target/arm: Implement SVE Index Generation Group
+      target/arm: Convert Neon VTBL, VTBX to decodetree
-      target/arm: Implement SVE Stack Allocation Group
+      target/arm: Convert Neon VDUP (scalar) to decodetree
       target/arm: Implement SVE Bitwise Shift - Unpredicated Group
       target/arm: Implement SVE Compute Vector Address Group
       target/arm: Implement SVE floating-point exponential accelerator
       target/arm: Implement SVE floating-point trig select coefficient
       target/arm: Implement SVE Element Count Group
       target/arm: Implement SVE Bitwise Immediate Group
       target/arm: Implement SVE Integer Wide Immediate - Predicated Group
       target/arm: Implement SVE Permute - Extract Group
- hw/dma/Makefile.objs         |    1 +
+fangying (1):
- target/arm/Makefile.objs     |   10 +
+      target/arm/cpu: adjust virtual time for all KVM arm cpus
  include/hw/arm/xlnx-zynqmp.h |    5 +
  include/hw/dma/xlnx-zdma.h   |   84 ++
  include/qom/cpu.h            |    5 +-
  target/arm/cpu.h             |   37 +-
  target/arm/helper-sve.h      |  427 +++++++++
  target/arm/helper.h          |    1 +
  target/arm/translate-a64.h   |  118 +++
  gdbstub.c                    |   10 +
  hw/arm/smmu-common.c         |    4 +-
  hw/arm/smmuv3.c              |    2 +-
  hw/arm/xlnx-zynqmp.c         |   53 ++
  hw/dma/xlnx-zdma.c           |  832 +++++++++++++++++
  target/arm/cpu.c             |    1 +
  target/arm/gdbstub.c         |   76 ++
  target/arm/helper.c          |   57 +-
  target/arm/sve_helper.c      | 1562 +++++++++++++++++++++++++++++++
  target/arm/translate-a64.c   |  119 +--
  target/arm/translate-sve.c   | 2070 ++++++++++++++++++++++++++++++++++++++++++
  .gitignore                   |    1 +
  target/arm/sve.decode        |  419 +++++++++
 files changed, 5778 insertions(+), 116 deletions(-)
  create mode 100644 include/hw/dma/xlnx-zdma.h
  create mode 100644 target/arm/helper-sve.h
  create mode 100644 target/arm/translate-a64.h
  create mode 100644 hw/dma/xlnx-zdma.c
  create mode 100644 target/arm/sve_helper.c
  create mode 100644 target/arm/translate-sve.c
  create mode 100644 target/arm/sve.decode
+ hw/sd/sdhci-internal.h          |    5 +
+ include/hw/sd/sdhci.h           |    5 +
+ target/arm/translate.h          |    1 +
+ target/arm/neon-dp.decode       |  130 +++++
+ hw/arm/fsl-imx25.c              |    6 +
+ hw/arm/fsl-imx6.c               |    6 +
+ hw/arm/fsl-imx6ul.c             |    2 +
+ hw/arm/fsl-imx7.c               |    2 +
+ hw/misc/imx6ul_ccm.c            |   76 ++-
+ hw/net/ftgmac100.c              |   26 +-
+ hw/net/imx_fec.c                |  106 ++--
+ hw/sd/sdhci.c                   |   18 +-
+ target/arm/cpu.c                |    6 +-
+ target/arm/cpu64.c              |    1 -
+ target/arm/kvm.c                |   21 +-
+ target/arm/translate-neon.inc.c | 1148 ++++++++++++++++++++++++++++++++++++++-
+ target/arm/translate.c          |  684 +----------------------
+ hw/net/trace-events             |   18 +
+files changed, 1495 insertions(+), 766 deletions(-)

-[Qemu-devel] [PULL 01/32] target/arm: Add "ARM_CP_NO_GDB" as a new bit field for ARMCPRegInfo type
+Deleted patch
-From: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
-This is a preparation for the coming feature of creating dynamically an XML
-description for the ARM sysregs.
-A register has ARM_CP_NO_GDB enabled will not be shown in the dynamic XML.
-This bit is enabled automatically when creating CP_ANY wildcard aliases.
-This bit could be enabled manually for any register we want to remove from the
-dynamic XML description.
-Signed-off-by: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Tested-by: Alex Bennée <alex.bennee@linaro.org>
-Message-id: 1524153386-3550-2-git-send-email-abdallah.bouassida@lauterbach.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h    | 3 ++-
- target/arm/helper.c | 2 +-
-files changed, 3 insertions(+), 2 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpreg_to_kvm_id(uint32_t cpregid)
- #define ARM_LAST_SPECIAL         ARM_CP_DC_ZVA
- #define ARM_CP_FPU               0x1000
- #define ARM_CP_SVE               0x2000
-+#define ARM_CP_NO_GDB            0x4000
- /* Used only as a terminator for ARMCPRegInfo lists */
- #define ARM_CP_SENTINEL          0xffff
- /* Mask of only the flag bits in a type field */
--#define ARM_CP_FLAG_MASK         0x30ff
-+#define ARM_CP_FLAG_MASK         0x70ff
- /* Valid values for ARMCPRegInfo state field, indicating which of
-  * the AArch32 and AArch64 execution states this register is visible in.
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static void add_cpreg_to_hashtable(ARMCPU *cpu, const ARMCPRegInfo *r,
-     if (((r->crm == CP_ANY) && crm != 0) ||
-         ((r->opc1 == CP_ANY) && opc1 != 0) ||
-         ((r->opc2 == CP_ANY) && opc2 != 0)) {
--        r2->type |= ARM_CP_ALIAS;
-+        r2->type |= ARM_CP_ALIAS | ARM_CP_NO_GDB;
-     }
-     /* Check that raw accesses are either forbidden or handled. Note that
---
-.17.0

-[Qemu-devel] [PULL 02/32] target/arm: Add "_S" suffix to the secure version of a sysreg
+Deleted patch
-From: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
-This is a preparation for the coming feature of creating dynamically an XML
-description for the ARM sysregs.
-Add "_S" suffix to the secure version of sysregs that have both S and NS views
-Replace (S) and (NS) by _S and _NS for the register that are manually defined,
-so all the registers follow the same convention.
-Signed-off-by: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Tested-by: Alex Bennée <alex.bennee@linaro.org>
-Message-id: 1524153386-3550-3-git-send-email-abdallah.bouassida@lauterbach.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper.c | 29 ++++++++++++++++++-----------
-file changed, 18 insertions(+), 11 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo cp_reginfo[] = {
-      * the secure register to be properly reset and migrated. There is also no
-      * v8 EL1 version of the register so the non-secure instance stands alone.
-      */
--    { .name = "FCSEIDR(NS)",
-+    { .name = "FCSEIDR",
-       .cp = 15, .opc1 = 0, .crn = 13, .crm = 0, .opc2 = 0,
-       .access = PL1_RW, .secure = ARM_CP_SECSTATE_NS,
-       .fieldoffset = offsetof(CPUARMState, cp15.fcseidr_ns),
-       .resetvalue = 0, .writefn = fcse_write, .raw_writefn = raw_write, },
--    { .name = "FCSEIDR(S)",
-+    { .name = "FCSEIDR_S",
-       .cp = 15, .opc1 = 0, .crn = 13, .crm = 0, .opc2 = 0,
-       .access = PL1_RW, .secure = ARM_CP_SECSTATE_S,
-       .fieldoffset = offsetof(CPUARMState, cp15.fcseidr_s),
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo cp_reginfo[] = {
-       .access = PL1_RW, .secure = ARM_CP_SECSTATE_NS,
-       .fieldoffset = offsetof(CPUARMState, cp15.contextidr_el[1]),
-       .resetvalue = 0, .writefn = contextidr_write, .raw_writefn = raw_write, },
--    { .name = "CONTEXTIDR(S)", .state = ARM_CP_STATE_AA32,
-+    { .name = "CONTEXTIDR_S", .state = ARM_CP_STATE_AA32,
-       .cp = 15, .opc1 = 0, .crn = 13, .crm = 0, .opc2 = 1,
-       .access = PL1_RW, .secure = ARM_CP_SECSTATE_S,
-       .fieldoffset = offsetof(CPUARMState, cp15.contextidr_s),
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo generic_timer_cp_reginfo[] = {
-                                    cp15.c14_timer[GTIMER_PHYS].ctl),
-       .writefn = gt_phys_ctl_write, .raw_writefn = raw_write,
-     },
--    { .name = "CNTP_CTL(S)",
-+    { .name = "CNTP_CTL_S",
-       .cp = 15, .crn = 14, .crm = 2, .opc1 = 0, .opc2 = 1,
-       .secure = ARM_CP_SECSTATE_S,
-       .type = ARM_CP_IO | ARM_CP_ALIAS, .access = PL1_RW | PL0_R,
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo generic_timer_cp_reginfo[] = {
-       .accessfn = gt_ptimer_access,
-       .readfn = gt_phys_tval_read, .writefn = gt_phys_tval_write,
-     },
--    { .name = "CNTP_TVAL(S)",
-+    { .name = "CNTP_TVAL_S",
-       .cp = 15, .crn = 14, .crm = 2, .opc1 = 0, .opc2 = 0,
-       .secure = ARM_CP_SECSTATE_S,
-       .type = ARM_CP_NO_RAW | ARM_CP_IO, .access = PL1_RW | PL0_R,
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo generic_timer_cp_reginfo[] = {
-       .accessfn = gt_ptimer_access,
-       .writefn = gt_phys_cval_write, .raw_writefn = raw_write,
-     },
--    { .name = "CNTP_CVAL(S)", .cp = 15, .crm = 14, .opc1 = 2,
-+    { .name = "CNTP_CVAL_S", .cp = 15, .crm = 14, .opc1 = 2,
-       .secure = ARM_CP_SECSTATE_S,
-       .access = PL1_RW | PL0_R,
-       .type = ARM_CP_64BIT | ARM_CP_IO | ARM_CP_ALIAS,
-@@ -XXX,XX +XXX,XX @@ CpuDefinitionInfoList *arch_query_cpu_definitions(Error **errp)
- static void add_cpreg_to_hashtable(ARMCPU *cpu, const ARMCPRegInfo *r,
-                                    void *opaque, int state, int secstate,
--                                   int crm, int opc1, int opc2)
-+                                   int crm, int opc1, int opc2,
-+                                   const char *name)
- {
-     /* Private utility function for define_one_arm_cp_reg_with_opaque():
-      * add a single reginfo struct to the hash table.
-@@ -XXX,XX +XXX,XX @@ static void add_cpreg_to_hashtable(ARMCPU *cpu, const ARMCPRegInfo *r,
-     int is64 = (r->type & ARM_CP_64BIT) ? 1 : 0;
-     int ns = (secstate & ARM_CP_SECSTATE_NS) ? 1 : 0;
-+    r2->name = g_strdup(name);
-     /* Reset the secure state to the specific incoming state.  This is
-      * necessary as the register may have been defined with both states.
-      */
-@@ -XXX,XX +XXX,XX @@ void define_one_arm_cp_reg_with_opaque(ARMCPU *cpu,
-                         /* Under AArch32 CP registers can be common
-                          * (same for secure and non-secure world) or banked.
-                          */
-+                        char *name;
-+
-                         switch (r->secure) {
-                         case ARM_CP_SECSTATE_S:
-                         case ARM_CP_SECSTATE_NS:
-                             add_cpreg_to_hashtable(cpu, r, opaque, state,
--                                                   r->secure, crm, opc1, opc2);
-+                                                   r->secure, crm, opc1, opc2,
-+                                                   r->name);
-                             break;
-                         default:
-+                            name = g_strdup_printf("%s_S", r->name);
-                             add_cpreg_to_hashtable(cpu, r, opaque, state,
-                                                    ARM_CP_SECSTATE_S,
--                                                   crm, opc1, opc2);
-+                                                   crm, opc1, opc2, name);
-+                            g_free(name);
-                             add_cpreg_to_hashtable(cpu, r, opaque, state,
-                                                    ARM_CP_SECSTATE_NS,
--                                                   crm, opc1, opc2);
-+                                                   crm, opc1, opc2, r->name);
-                             break;
-                         }
-                     } else {
-@@ -XXX,XX +XXX,XX @@ void define_one_arm_cp_reg_with_opaque(ARMCPU *cpu,
-                          * of AArch32 */
-                         add_cpreg_to_hashtable(cpu, r, opaque, state,
-                                                ARM_CP_SECSTATE_NS,
--                                               crm, opc1, opc2);
-+                                               crm, opc1, opc2, r->name);
-                     }
-                 }
-             }
---
-.17.0

-[Qemu-devel] [PULL 30/32] target/arm: Implement SVE Bitwise Immediate Group
+[PULL 01/23] target/arm: Fix missing temp frees in do_vshll_2sh
-From: Richard Henderson <richard.henderson@linaro.org>
+The widenfn() in do_vshll_2sh() does not free the input 32-bit
 TCGv, so we need to do this in the calling code.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-24-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 ---
- target/arm/translate-sve.c | 49 ++++++++++++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 2 ++
- target/arm/sve.decode      | 17 +++++++++++++
+file changed, 2 insertions(+)
 files changed, 66 insertions(+)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_SINCDEC_v(DisasContext *s, arg_incdec2_cnt *a,
+@@ -XXX,XX +XXX,XX @@ static bool do_vshll_2sh(DisasContext *s, arg_2reg_shift *a,
-     return true;
+     tmp = tcg_temp_new_i64();
- }
+     widenfn(tmp, rm0);
-+/*
++    tcg_temp_free_i32(rm0);
-+ *** SVE Bitwise Immediate Group
+     if (a->shift != 0) {
-+ */
+         tcg_gen_shli_i64(tmp, tmp, a->shift);
-+
+         tcg_gen_andi_i64(tmp, tmp, ~widen_mask);
-+static bool do_zz_dbm(DisasContext *s, arg_rr_dbm *a, GVecGen2iFn *gvec_fn)
+@@ -XXX,XX +XXX,XX @@ static bool do_vshll_2sh(DisasContext *s, arg_2reg_shift *a,
-+{
+     neon_store_reg64(tmp, a->vd);
-+    uint64_t imm;
-+    if (!logic_imm_decode_wmask(&imm, extract32(a->dbm, 12, 1),
+     widenfn(tmp, rm1);
-+                                extract32(a->dbm, 0, 6),
++    tcg_temp_free_i32(rm1);
-+                                extract32(a->dbm, 6, 6))) {
+     if (a->shift != 0) {
-+        return false;
+         tcg_gen_shli_i64(tmp, tmp, a->shift);
-+    }
+         tcg_gen_andi_i64(tmp, tmp, ~widen_mask);
 +    if (sve_access_check(s)) {
 +        unsigned vsz = vec_full_reg_size(s);
 +        gvec_fn(MO_64, vec_full_reg_offset(s, a->rd),
 +                vec_full_reg_offset(s, a->rn), imm, vsz, vsz);
 +    }
 +    return true;
 +}
 +
 +static bool trans_AND_zzi(DisasContext *s, arg_rr_dbm *a, uint32_t insn)
 +{
 +    return do_zz_dbm(s, a, tcg_gen_gvec_andi);
 +}
 +
 +static bool trans_ORR_zzi(DisasContext *s, arg_rr_dbm *a, uint32_t insn)
 +{
 +    return do_zz_dbm(s, a, tcg_gen_gvec_ori);
 +}
 +
 +static bool trans_EOR_zzi(DisasContext *s, arg_rr_dbm *a, uint32_t insn)
 +{
 +    return do_zz_dbm(s, a, tcg_gen_gvec_xori);
 +}
 +
 +static bool trans_DUPM(DisasContext *s, arg_DUPM *a, uint32_t insn)
 +{
 +    uint64_t imm;
 +    if (!logic_imm_decode_wmask(&imm, extract32(a->dbm, 12, 1),
 +                                extract32(a->dbm, 0, 6),
 +                                extract32(a->dbm, 6, 6))) {
 +        return false;
 +    }
 +    if (sve_access_check(s)) {
 +        do_dupi_z(s, a->rd, imm);
 +    }
 +    return true;
 +}
 +
  /*
   *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve.decode
 +++ b/target/arm/sve.decode
@@ -XXX,XX +XXX,XX @@
  &rr_esz         rd rn esz
  &rri            rd rn imm
 +&rr_dbm         rd rn dbm
  &rrri           rd rn rm imm
  &rri_esz        rd rn imm esz
  &rrr_esz        rd rn rm esz
@@ -XXX,XX +XXX,XX @@
  @rd_rn_tszimm   ........ .. ... ... ...... rn:5 rd:5 \
                  &rri_esz esz=%tszimm16_esz
 +# Two register operand, one encoded bitmask.
 +@rdn_dbm        ........ .. .... dbm:13 rd:5 \
 +                &rr_dbm rn=%reg_movprfx
 +
  # Basic Load/Store with 9-bit immediate offset
  @pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
                  &rri imm=%imm9_16_10
@@ -XXX,XX +XXX,XX @@ INCDEC_v        00000100 .. 1 1 .... 1100 0 d:1 ..... .....    @incdec2_cnt u=1
  # Note these require esz != 0.
  SINCDEC_v       00000100 .. 1 0 .... 1100 d:1 u:1 ..... .....   @incdec2_cnt
 +### SVE Bitwise Immediate Group
 +
 +# SVE bitwise logical with immediate (unpredicated)
 +ORR_zzi         00000101 00 0000 ............. .....            @rdn_dbm
 +EOR_zzi         00000101 01 0000 ............. .....            @rdn_dbm
 +AND_zzi         00000101 10 0000 ............. .....            @rdn_dbm
 +
 +# SVE broadcast bitmask immediate
 +DUPM            00000101 11 0000 dbm:13 rd:5
 +
 +### SVE Predicate Logical Operations Group
 +
  # SVE predicate logical operations
  AND_pppp        00100101 0. 00 .... 01 .... 0 .... 0 ....       @pd_pg_pn_pm_s
  BIC_pppp        00100101 0. 00 .... 01 .... 0 .... 1 ....       @pd_pg_pn_pm_s
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 27/32] target/arm: Implement SVE floating-point exponential accelerator
+[PULL 02/23] target/arm: Convert Neon 3-reg-diff prewidening ops to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the "pre-widening" insns VADDL, VSUBL, VADDW and VSUBW
+in the Neon 3-registers-different-lengths group to decodetree.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+These insns work by widening one or both inputs to double their
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+size, performing an add or subtract at the doubled size and
-Message-id: 20180516223007.10256-21-richard.henderson@linaro.org
+then storing the double-size result.
 As usual, rather than copying the loop of the original decoder
 (which needs awkward code to avoid problems when source and
 destination registers overlap) we just unroll the two passes.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    |  4 ++
+ target/arm/neon-dp.decode       |  43 +++++++++++++
- target/arm/sve_helper.c    | 90 ++++++++++++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 104 ++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 24 ++++++++++
+ target/arm/translate.c          |  16 ++---
- target/arm/sve.decode      |  7 +++
+files changed, 151 insertions(+), 12 deletions(-)
-files changed, 125 insertions(+)
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_adr_p64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ VCVT_FU_2sh      1111 001 1 1 . ...... .... 1111 0 . . 1 .... @2reg_vcvt
- DEF_HELPER_FLAGS_4(sve_adr_s32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ # So we have a single decode line and check the cmode/op in the
- DEF_HELPER_FLAGS_4(sve_adr_u32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ # trans function.
+ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
-+DEF_HELPER_FLAGS_3(sve_fexpa_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_3(sve_fexpa_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++######################################################################
-+DEF_HELPER_FLAGS_3(sve_fexpa_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++# Within the "two registers, or three registers of different lengths"
-+
++# grouping ([23,4]=0b10), bits [21:20] are either part of the opcode
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++# decode: 0b11 for VEXT, two-reg-misc, VTBL, and duplicate-scalar;
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++# or they are a size field for the three-reg-different-lengths and
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++# two-reg-and-scalar insn groups (where size cannot be 0b11). This
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
++# is slightly awkward for decodetree: we handle it with this
 +# non-exclusive group which contains within it two exclusive groups:
 +# one for the size=0b11 patterns, and one for the size-not-0b11
 +# patterns. This allows us to check that none of the insns within
 +# each subgroup accidentally overlap each other. Note that all the
 +# trans functions for the size-not-0b11 patterns must check and
 +# return false for size==3.
 +######################################################################
 +{
 +  # 0b11 subgroup will go here
 +
 +  # Subgroup for size != 0b11
 +  [
 +    ##################################################################
 +    # 3-reg-different-length grouping:
 +    # 1111 001 U 1 D sz!=11 Vn:4 Vd:4 opc:4 N 0 M 0 Vm:4
 +    ##################################################################
 +
 +    &3diff vm vn vd size
 +
 +    @3diff       .... ... . . . size:2 .... .... .... . . . . .... \
 +                 &3diff vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +
 +    VADDL_S_3d   1111 001 0 1 . .. .... .... 0000 . 0 . 0 .... @3diff
 +    VADDL_U_3d   1111 001 1 1 . .. .... .... 0000 . 0 . 0 .... @3diff
 +
 +    VADDW_S_3d   1111 001 0 1 . .. .... .... 0001 . 0 . 0 .... @3diff
 +    VADDW_U_3d   1111 001 1 1 . .. .... .... 0001 . 0 . 0 .... @3diff
 +
 +    VSUBL_S_3d   1111 001 0 1 . .. .... .... 0010 . 0 . 0 .... @3diff
 +    VSUBL_U_3d   1111 001 1 1 . .. .... .... 0010 . 0 . 0 .... @3diff
 +
 +    VSUBW_S_3d   1111 001 0 1 . .. .... .... 0011 . 0 . 0 .... @3diff
 +    VSUBW_U_3d   1111 001 1 1 . .. .... .... 0011 . 0 . 0 .... @3diff
 +  ]
 +}
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_adr_u32)(void *vd, void *vn, void *vm, uint32_t desc)
+@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm_1r(DisasContext *s, arg_1reg_imm *a)
          d[i] = n[i] + ((uint64_t)(uint32_t)m[i] << sh);
      }
+     return do_1reg_imm(s, a, fn);
  }
 +
-+void HELPER(sve_fexpa_h)(void *vd, void *vn, uint32_t desc)
++static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
 +                           NeonGenWidenFn *widenfn,
 +                           NeonGenTwo64OpFn *opfn,
 +                           bool src1_wide)
 +{
-+    /* These constants are cut-and-paste directly from the ARM pseudocode.  */
++    /* 3-regs different lengths, prewidening case (VADDL/VSUBL/VAADW/VSUBW) */
-+    static const uint16_t coeff[] = {
++    TCGv_i64 rn0_64, rn1_64, rm_64;
-+        0x0000, 0x0016, 0x002d, 0x0045, 0x005d, 0x0075, 0x008e, 0x00a8,
++    TCGv_i32 rm;
-+        0x00c2, 0x00dc, 0x00f8, 0x0114, 0x0130, 0x014d, 0x016b, 0x0189,
++
-+        0x01a8, 0x01c8, 0x01e8, 0x0209, 0x022b, 0x024e, 0x0271, 0x0295,
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-+        0x02ba, 0x02e0, 0x0306, 0x032e, 0x0356, 0x037f, 0x03a9, 0x03d4,
++        return false;
-+    };
++    }
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 2;
++
-+    uint16_t *d = vd, *n = vn;
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
-+    for (i = 0; i < opr_sz; i++) {
++        ((a->vd | a->vn | a->vm) & 0x10)) {
-+        uint16_t nn = n[i];
++        return false;
-+        intptr_t idx = extract32(nn, 0, 5);
++    }
-+        uint16_t exp = extract32(nn, 5, 5);
++
-+        d[i] = coeff[idx] | (exp << 10);
++    if (!widenfn || !opfn) {
-+    }
++        /* size == 3 case, which is an entirely different insn group */
-+}
++        return false;
-+
++    }
-+void HELPER(sve_fexpa_s)(void *vd, void *vn, uint32_t desc)
++
-+{
++    if ((a->vd & 1) || (src1_wide && (a->vn & 1))) {
-+    /* These constants are cut-and-paste directly from the ARM pseudocode.  */
++        return false;
-+    static const uint32_t coeff[] = {
++    }
-+        0x000000, 0x0164d2, 0x02cd87, 0x043a29,
++
-+        0x05aac3, 0x071f62, 0x08980f, 0x0a14d5,
++    if (!vfp_access_check(s)) {
-+        0x0b95c2, 0x0d1adf, 0x0ea43a, 0x1031dc,
++        return true;
-+        0x11c3d3, 0x135a2b, 0x14f4f0, 0x16942d,
++    }
-+        0x1837f0, 0x19e046, 0x1b8d3a, 0x1d3eda,
++
-+        0x1ef532, 0x20b051, 0x227043, 0x243516,
++    rn0_64 = tcg_temp_new_i64();
-+        0x25fed7, 0x27cd94, 0x29a15b, 0x2b7a3a,
++    rn1_64 = tcg_temp_new_i64();
-+        0x2d583f, 0x2f3b79, 0x3123f6, 0x3311c4,
++    rm_64 = tcg_temp_new_i64();
-+        0x3504f3, 0x36fd92, 0x38fbaf, 0x3aff5b,
++
-+        0x3d08a4, 0x3f179a, 0x412c4d, 0x4346cd,
++    if (src1_wide) {
-+        0x45672a, 0x478d75, 0x49b9be, 0x4bec15,
++        neon_load_reg64(rn0_64, a->vn);
-+        0x4e248c, 0x506334, 0x52a81e, 0x54f35b,
++    } else {
-+        0x5744fd, 0x599d16, 0x5bfbb8, 0x5e60f5,
++        TCGv_i32 tmp = neon_load_reg(a->vn, 0);
-+        0x60ccdf, 0x633f89, 0x65b907, 0x68396a,
++        widenfn(rn0_64, tmp);
-+        0x6ac0c7, 0x6d4f30, 0x6fe4ba, 0x728177,
++        tcg_temp_free_i32(tmp);
-+        0x75257d, 0x77d0df, 0x7a83b3, 0x7d3e0c,
++    }
-+    };
++    rm = neon_load_reg(a->vm, 0);
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 4;
++
-+    uint32_t *d = vd, *n = vn;
++    widenfn(rm_64, rm);
-+
++    tcg_temp_free_i32(rm);
-+    for (i = 0; i < opr_sz; i++) {
++    opfn(rn0_64, rn0_64, rm_64);
-+        uint32_t nn = n[i];
++
-+        intptr_t idx = extract32(nn, 0, 6);
++    /*
-+        uint32_t exp = extract32(nn, 6, 8);
++     * Load second pass inputs before storing the first pass result, to
-+        d[i] = coeff[idx] | (exp << 23);
++     * avoid incorrect results if a narrow input overlaps with the result.
-+    }
++     */
-+}
++    if (src1_wide) {
-+
++        neon_load_reg64(rn1_64, a->vn + 1);
-+void HELPER(sve_fexpa_d)(void *vd, void *vn, uint32_t desc)
++    } else {
-+{
++        TCGv_i32 tmp = neon_load_reg(a->vn, 1);
-+    /* These constants are cut-and-paste directly from the ARM pseudocode.  */
++        widenfn(rn1_64, tmp);
-+    static const uint64_t coeff[] = {
++        tcg_temp_free_i32(tmp);
-+        0x0000000000000ull, 0x02C9A3E778061ull, 0x059B0D3158574ull,
++    }
-+        0x0874518759BC8ull, 0x0B5586CF9890Full, 0x0E3EC32D3D1A2ull,
++    rm = neon_load_reg(a->vm, 1);
-+        0x11301D0125B51ull, 0x1429AAEA92DE0ull, 0x172B83C7D517Bull,
++
-+        0x1A35BEB6FCB75ull, 0x1D4873168B9AAull, 0x2063B88628CD6ull,
++    neon_store_reg64(rn0_64, a->vd);
-+        0x2387A6E756238ull, 0x26B4565E27CDDull, 0x29E9DF51FDEE1ull,
++
-+        0x2D285A6E4030Bull, 0x306FE0A31B715ull, 0x33C08B26416FFull,
++    widenfn(rm_64, rm);
-+        0x371A7373AA9CBull, 0x3A7DB34E59FF7ull, 0x3DEA64C123422ull,
++    tcg_temp_free_i32(rm);
-+        0x4160A21F72E2Aull, 0x44E086061892Dull, 0x486A2B5C13CD0ull,
++    opfn(rn1_64, rn1_64, rm_64);
-+        0x4BFDAD5362A27ull, 0x4F9B2769D2CA7ull, 0x5342B569D4F82ull,
++    neon_store_reg64(rn1_64, a->vd + 1);
-+        0x56F4736B527DAull, 0x5AB07DD485429ull, 0x5E76F15AD2148ull,
++
-+        0x6247EB03A5585ull, 0x6623882552225ull, 0x6A09E667F3BCDull,
++    tcg_temp_free_i64(rn0_64);
-+        0x6DFB23C651A2Full, 0x71F75E8EC5F74ull, 0x75FEB564267C9ull,
++    tcg_temp_free_i64(rn1_64);
-+        0x7A11473EB0187ull, 0x7E2F336CF4E62ull, 0x82589994CCE13ull,
++    tcg_temp_free_i64(rm_64);
-+        0x868D99B4492EDull, 0x8ACE5422AA0DBull, 0x8F1AE99157736ull,
++
 +        0x93737B0CDC5E5ull, 0x97D829FDE4E50ull, 0x9C49182A3F090ull,
 +        0xA0C667B5DE565ull, 0xA5503B23E255Dull, 0xA9E6B5579FDBFull,
 +        0xAE89F995AD3ADull, 0xB33A2B84F15FBull, 0xB7F76F2FB5E47ull,
 +        0xBCC1E904BC1D2ull, 0xC199BDD85529Cull, 0xC67F12E57D14Bull,
 +        0xCB720DCEF9069ull, 0xD072D4A07897Cull, 0xD5818DCFBA487ull,
 +        0xDA9E603DB3285ull, 0xDFC97337B9B5Full, 0xE502EE78B3FF6ull,
 +        0xEA4AFA2A490DAull, 0xEFA1BEE615A27ull, 0xF50765B6E4540ull,
 +        0xFA7C1819E90D8ull,
 +    };
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd, *n = vn;
 +
 +    for (i = 0; i < opr_sz; i++) {
 +        uint64_t nn = n[i];
 +        intptr_t idx = extract32(nn, 0, 6);
 +        uint64_t exp = extract32(nn, 6, 11);
 +        d[i] = coeff[idx] | (exp << 52);
 +    }
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_ADR_u32(DisasContext *s, arg_rrri *a, uint32_t insn)
      return do_adr(s, a, gen_helper_sve_adr_u32);
  }
 +/*
 + *** SVE Integer Misc - Unpredicated Group
 + */
 +
 +static bool trans_FEXPA(DisasContext *s, arg_rr_esz *a, uint32_t insn)
 +{
 +    static gen_helper_gvec_2 * const fns[4] = {
 +        NULL,
 +        gen_helper_sve_fexpa_h,
 +        gen_helper_sve_fexpa_s,
 +        gen_helper_sve_fexpa_d,
 +    };
 +    if (a->esz == 0) {
 +        return false;
 +    }
 +    if (sve_access_check(s)) {
 +        unsigned vsz = vec_full_reg_size(s);
 +        tcg_gen_gvec_2_ool(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vsz, vsz, 0, fns[a->esz]);
 +    }
 +    return true;
 +}
 +
- /*
++#define DO_PREWIDEN(INSN, S, EXT, OP, SRC1WIDE)                         \
-  *** SVE Predicate Logical Operations Group
++    static bool trans_##INSN##_3d(DisasContext *s, arg_3diff *a)        \
-  */
++    {                                                                   \
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
++        static NeonGenWidenFn * const widenfn[] = {                     \
 +            gen_helper_neon_widen_##S##8,                               \
 +            gen_helper_neon_widen_##S##16,                              \
 +            tcg_gen_##EXT##_i32_i64,                                    \
 +            NULL,                                                       \
 +        };                                                              \
 +        static NeonGenTwo64OpFn * const addfn[] = {                     \
 +            gen_helper_neon_##OP##l_u16,                                \
 +            gen_helper_neon_##OP##l_u32,                                \
 +            tcg_gen_##OP##_i64,                                         \
 +            NULL,                                                       \
 +        };                                                              \
 +        return do_prewiden_3d(s, a, widenfn[a->size],                   \
 +                              addfn[a->size], SRC1WIDE);                \
 +    }
 +
 +DO_PREWIDEN(VADDL_S, s, ext, add, false)
 +DO_PREWIDEN(VADDL_U, u, extu, add, false)
 +DO_PREWIDEN(VSUBL_S, s, ext, sub, false)
 +DO_PREWIDEN(VSUBL_U, u, extu, sub, false)
 +DO_PREWIDEN(VADDW_S, s, ext, add, true)
 +DO_PREWIDEN(VADDW_U, u, extu, add, true)
 +DO_PREWIDEN(VSUBW_S, s, ext, sub, true)
 +DO_PREWIDEN(VSUBW_U, u, extu, sub, true)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 /* Three registers of different lengths.  */
- # Two operand
+                 int src1_wide;
- @pd_pn          ........ esz:2 .. .... ....... rn:4 . rd:4      &rr_esz
+                 int src2_wide;
-+@rd_rn          ........ esz:2 ...... ...... rn:5 rd:5          &rr_esz
+-                int prewiden;
+                 /* undefreq: bit 0 : UNDEF if size == 0
- # Three operand with unused vector element size
+                  *           bit 1 : UNDEF if size == 1
- @rd_rn_rm_e0    ........ ... rm:5 ... ... rn:5 rd:5             &rrr_esz esz=0
+                  *           bit 2 : UNDEF if size == 2
-@@ -XXX,XX +XXX,XX @@ ADR_u32         00000100 01 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- ADR_p32         00000100 10 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+                 int undefreq;
- ADR_p64         00000100 11 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+                 /* prewiden, src1_wide, src2_wide, undefreq */
+                 static const int neon_3reg_wide[16][4] = {
-+### SVE Integer Misc - Unpredicated Group
+-                    {1, 0, 0, 0}, /* VADDL */
-+
+-                    {1, 1, 0, 0}, /* VADDW */
-+# SVE floating-point exponential accelerator
+-                    {1, 0, 0, 0}, /* VSUBL */
-+# Note esz != 0
+-                    {1, 1, 0, 0}, /* VSUBW */
-+FEXPA           00000100 .. 1 00000 101110 ..... .....          @rd_rn
++                    {0, 0, 0, 7}, /* VADDL: handled by decodetree */
-+
++                    {0, 0, 0, 7}, /* VADDW: handled by decodetree */
- ### SVE Predicate Logical Operations Group
++                    {0, 0, 0, 7}, /* VSUBL: handled by decodetree */
++                    {0, 0, 0, 7}, /* VSUBW: handled by decodetree */
- # SVE predicate logical operations
+                     {0, 1, 1, 0}, /* VADDHN */
                      {0, 0, 0, 0}, /* VABAL */
                      {0, 1, 1, 0}, /* VSUBHN */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      {0, 0, 0, 7}, /* Reserved: always UNDEF */
                  };
 -                prewiden = neon_3reg_wide[op][0];
                  src1_wide = neon_3reg_wide[op][1];
                  src2_wide = neon_3reg_wide[op][2];
                  undefreq = neon_3reg_wide[op][3];
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          } else {
                              tmp = neon_load_reg(rn, pass);
                          }
 -                        if (prewiden) {
 -                            gen_neon_widen(cpu_V0, tmp, size, u);
 -                        }
                      }
                      if (src2_wide) {
                          neon_load_reg64(cpu_V1, rm + pass);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          } else {
                              tmp2 = neon_load_reg(rm, pass);
                          }
 -                        if (prewiden) {
 -                            gen_neon_widen(cpu_V1, tmp2, size, u);
 -                        }
                      }
                      switch (op) {
                      case 0: case 1: case 4: /* VADDL, VADDW, VADDHN, VRADDHN */
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 08/32] target/arm: Introduce translate-a64.h
+[PULL 03/23] target/arm: Convert Neon 3-reg-diff narrowing ops to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the narrow-to-high-half insns VADDHN, VSUBHN, VRADDHN,
+VRSUBHN in the Neon 3-registers-different-lengths group to
-Move some stuff that will be common to both translate-a64.c
+decodetree.
-and translate-sve.c.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20180516223007.10256-2-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate-a64.h | 118 +++++++++++++++++++++++++++++++++++++
+ target/arm/neon-dp.decode       |  6 +++
- target/arm/translate-a64.c | 112 +++++------------------------------
+ target/arm/translate-neon.inc.c | 87 +++++++++++++++++++++++++++++++
-files changed, 133 insertions(+), 97 deletions(-)
+ target/arm/translate.c          | 91 ++++-----------------------------
- create mode 100644 target/arm/translate-a64.h
+files changed, 104 insertions(+), 80 deletions(-)
-diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-new file mode 100644
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX
+--- a/target/arm/neon-dp.decode
---- /dev/null
++++ b/target/arm/neon-dp.decode
-+++ b/target/arm/translate-a64.h
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
-@@ -XXX,XX +XXX,XX @@
-+/*
+     VSUBW_S_3d   1111 001 0 1 . .. .... .... 0011 . 0 . 0 .... @3diff
-+ *  AArch64 translation, common definitions.
+     VSUBW_U_3d   1111 001 1 1 . .. .... .... 0011 . 0 . 0 .... @3diff
-+ *
++
-+ * This library is free software; you can redistribute it and/or
++    VADDHN_3d    1111 001 0 1 . .. .... .... 0100 . 0 . 0 .... @3diff
-+ * modify it under the terms of the GNU Lesser General Public
++    VRADDHN_3d   1111 001 1 1 . .. .... .... 0100 . 0 . 0 .... @3diff
-+ * License as published by the Free Software Foundation; either
++
-+ * version 2 of the License, or (at your option) any later version.
++    VSUBHN_3d    1111 001 0 1 . .. .... .... 0110 . 0 . 0 .... @3diff
-+ *
++    VRSUBHN_3d   1111 001 1 1 . .. .... .... 0110 . 0 . 0 .... @3diff
-+ * This library is distributed in the hope that it will be useful,
+   ]
-+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ }
-+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-+ * Lesser General Public License for more details.
+index XXXXXXX..XXXXXXX 100644
-+ *
+--- a/target/arm/translate-neon.inc.c
-+ * You should have received a copy of the GNU Lesser General Public
++++ b/target/arm/translate-neon.inc.c
-+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+@@ -XXX,XX +XXX,XX @@ DO_PREWIDEN(VADDW_S, s, ext, add, true)
-+ */
+ DO_PREWIDEN(VADDW_U, u, extu, add, true)
-+
+ DO_PREWIDEN(VSUBW_S, s, ext, sub, true)
-+#ifndef TARGET_ARM_TRANSLATE_A64_H
+ DO_PREWIDEN(VSUBW_U, u, extu, sub, true)
-+#define TARGET_ARM_TRANSLATE_A64_H
++
-+
++static bool do_narrow_3d(DisasContext *s, arg_3diff *a,
-+void unallocated_encoding(DisasContext *s);
++                         NeonGenTwo64OpFn *opfn, NeonGenNarrowFn *narrowfn)
 +
 +#define unsupported_encoding(s, insn)                                    \
 +    do {                                                                 \
 +        qemu_log_mask(LOG_UNIMP,                                         \
 +                      "%s:%d: unsupported instruction encoding 0x%08x "  \
 +                      "at pc=%016" PRIx64 "\n",                          \
 +                      __FILE__, __LINE__, insn, s->pc - 4);              \
 +        unallocated_encoding(s);                                         \
 +    } while (0)
 +
 +TCGv_i64 new_tmp_a64(DisasContext *s);
 +TCGv_i64 new_tmp_a64_zero(DisasContext *s);
 +TCGv_i64 cpu_reg(DisasContext *s, int reg);
 +TCGv_i64 cpu_reg_sp(DisasContext *s, int reg);
 +TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf);
 +TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf);
 +void write_fp_dreg(DisasContext *s, int reg, TCGv_i64 v);
 +TCGv_ptr get_fpstatus_ptr(bool);
 +bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
 +                            unsigned int imms, unsigned int immr);
 +uint64_t vfp_expand_imm(int size, uint8_t imm8);
 +bool sve_access_check(DisasContext *s);
 +
 +/* We should have at some point before trying to access an FP register
 + * done the necessary access check, so assert that
 + * (a) we did the check and
 + * (b) we didn't then just plough ahead anyway if it failed.
 + * Print the instruction pattern in the abort message so we can figure
 + * out what we need to fix if a user encounters this problem in the wild.
 + */
 +static inline void assert_fp_access_checked(DisasContext *s)
 +{
-+#ifdef CONFIG_DEBUG_TCG
++    /* 3-regs different lengths, narrowing (VADDHN/VSUBHN/VRADDHN/VRSUBHN) */
-+    if (unlikely(!s->fp_access_checked || s->fp_excp_el)) {
++    TCGv_i64 rn_64, rm_64;
-+        fprintf(stderr, "target-arm: FP access check missing for "
++    TCGv_i32 rd0, rd1;
-+                "instruction 0x%08x\n", s->insn);
++
-+        abort();
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-+    }
++        return false;
-+#endif
++    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if (!opfn || !narrowfn) {
 +        /* size == 3 case, which is an entirely different insn group */
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    rn_64 = tcg_temp_new_i64();
 +    rm_64 = tcg_temp_new_i64();
 +    rd0 = tcg_temp_new_i32();
 +    rd1 = tcg_temp_new_i32();
 +
 +    neon_load_reg64(rn_64, a->vn);
 +    neon_load_reg64(rm_64, a->vm);
 +
 +    opfn(rn_64, rn_64, rm_64);
 +
 +    narrowfn(rd0, rn_64);
 +
 +    neon_load_reg64(rn_64, a->vn + 1);
 +    neon_load_reg64(rm_64, a->vm + 1);
 +
 +    opfn(rn_64, rn_64, rm_64);
 +
 +    narrowfn(rd1, rn_64);
 +
 +    neon_store_reg(a->vd, 0, rd0);
 +    neon_store_reg(a->vd, 1, rd1);
 +
 +    tcg_temp_free_i64(rn_64);
 +    tcg_temp_free_i64(rm_64);
 +
 +    return true;
 +}
 +
-+/* Return the offset into CPUARMState of an element of specified
++#define DO_NARROW_3D(INSN, OP, NARROWTYPE, EXTOP)                       \
-+ * size, 'element' places in from the least significant end of
++    static bool trans_##INSN##_3d(DisasContext *s, arg_3diff *a)        \
-+ * the FP/vector register Qn.
++    {                                                                   \
-+ */
++        static NeonGenTwo64OpFn * const addfn[] = {                     \
-+static inline int vec_reg_offset(DisasContext *s, int regno,
++            gen_helper_neon_##OP##l_u16,                                \
-+                                 int element, TCGMemOp size)
++            gen_helper_neon_##OP##l_u32,                                \
 +            tcg_gen_##OP##_i64,                                         \
 +            NULL,                                                       \
 +        };                                                              \
 +        static NeonGenNarrowFn * const narrowfn[] = {                   \
 +            gen_helper_neon_##NARROWTYPE##_high_u8,                     \
 +            gen_helper_neon_##NARROWTYPE##_high_u16,                    \
 +            EXTOP,                                                      \
 +            NULL,                                                       \
 +        };                                                              \
 +        return do_narrow_3d(s, a, addfn[a->size], narrowfn[a->size]);   \
 +    }
 +
 +static void gen_narrow_round_high_u32(TCGv_i32 rd, TCGv_i64 rn)
 +{
-+    int offs = 0;
++    tcg_gen_addi_i64(rn, rn, 1u << 31);
-+#ifdef HOST_WORDS_BIGENDIAN
++    tcg_gen_extrh_i64_i32(rd, rn);
 +    /* This is complicated slightly because vfp.zregs[n].d[0] is
 +     * still the low half and vfp.zregs[n].d[1] the high half
 +     * of the 128 bit vector, even on big endian systems.
 +     * Calculate the offset assuming a fully bigendian 128 bits,
 +     * then XOR to account for the order of the two 64 bit halves.
 +     */
 +    offs += (16 - ((element + 1) * (1 << size)));
 +    offs ^= 8;
 +#else
 +    offs += element * (1 << size);
 +#endif
 +    offs += offsetof(CPUARMState, vfp.zregs[regno]);
 +    assert_fp_access_checked(s);
 +    return offs;
 +}
 +
-+/* Return the offset info CPUARMState of the "whole" vector register Qn.  */
++DO_NARROW_3D(VADDHN, add, narrow, tcg_gen_extrh_i64_i32)
-+static inline int vec_full_reg_offset(DisasContext *s, int regno)
++DO_NARROW_3D(VSUBHN, sub, narrow, tcg_gen_extrh_i64_i32)
-+{
++DO_NARROW_3D(VRADDHN, add, narrow_round, gen_narrow_round_high_u32)
-+    assert_fp_access_checked(s);
++DO_NARROW_3D(VRSUBHN, sub, narrow_round, gen_narrow_round_high_u32)
-+    return offsetof(CPUARMState, vfp.zregs[regno]);
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 +}
 +
 +/* Return a newly allocated pointer to the vector register.  */
 +static inline TCGv_ptr vec_full_reg_ptr(DisasContext *s, int regno)
 +{
 +    TCGv_ptr ret = tcg_temp_new_ptr();
 +    tcg_gen_addi_ptr(ret, cpu_env, vec_full_reg_offset(s, regno));
 +    return ret;
 +}
 +
 +/* Return the byte size of the "whole" vector register, VL / 8.  */
 +static inline int vec_full_reg_size(DisasContext *s)
 +{
 +    return s->sve_len;
 +}
 +
 +bool disas_sve(DisasContext *, uint32_t);
 +
 +/* Note that the gvec expanders operate on offsets + sizes.  */
 +typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
 +typedef void GVecGen2iFn(unsigned, uint32_t, uint32_t, int64_t,
 +                         uint32_t, uint32_t);
 +typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
 +                        uint32_t, uint32_t, uint32_t);
 +
 +#endif /* TARGET_ARM_TRANSLATE_A64_H */
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/translate.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static inline void gen_neon_addl(int size)
  #include "exec/log.h"
  #include "trace-tcg.h"
 +#include "translate-a64.h"
  static TCGv_i64 cpu_X[32];
  static TCGv_i64 cpu_pc;
  /* Load/store exclusive handling */
  static TCGv_i64 cpu_exclusive_high;
 -static TCGv_i64 cpu_reg(DisasContext *s, int reg);
  static const char *regnames[] = {
      "x0", "x1", "x2", "x3", "x4", "x5", "x6", "x7",
@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, TCGMemOp);
 -/* Note that the gvec expanders operate on offsets + sizes.  */
 -typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
 -typedef void GVecGen2iFn(unsigned, uint32_t, uint32_t, int64_t,
 -                         uint32_t, uint32_t);
 -typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
 -                        uint32_t, uint32_t, uint32_t);
 -
  /* initialize TCG globals.  */
  void a64_translate_init(void)
  {
@@ -XXX,XX +XXX,XX @@ static inline void gen_goto_tb(DisasContext *s, int n, uint64_t dest)
      }
  }
--static void unallocated_encoding(DisasContext *s)
+-static inline void gen_neon_subl(int size)
 +void unallocated_encoding(DisasContext *s)
  {
      /* Unallocated and reserved encodings are uncategorized */
      gen_exception_insn(s, 4, EXCP_UDEF, syn_uncategorized(),
                         default_exception_el(s));
  }
 -#define unsupported_encoding(s, insn)                                    \
 -    do {                                                                 \
 -        qemu_log_mask(LOG_UNIMP,                                         \
 -                      "%s:%d: unsupported instruction encoding 0x%08x "  \
 -                      "at pc=%016" PRIx64 "\n",                          \
 -                      __FILE__, __LINE__, insn, s->pc - 4);              \
 -        unallocated_encoding(s);                                         \
 -    } while (0)
 -
  static void init_tmp_a64_array(DisasContext *s)
  {
  #ifdef CONFIG_DEBUG_TCG
@@ -XXX,XX +XXX,XX @@ static void free_tmp_a64(DisasContext *s)
      init_tmp_a64_array(s);
  }
 -static TCGv_i64 new_tmp_a64(DisasContext *s)
 +TCGv_i64 new_tmp_a64(DisasContext *s)
  {
      assert(s->tmp_a64_count < TMP_A64_MAX);
      return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_new_i64();
  }
 -static TCGv_i64 new_tmp_a64_zero(DisasContext *s)
 +TCGv_i64 new_tmp_a64_zero(DisasContext *s)
  {
      TCGv_i64 t = new_tmp_a64(s);
      tcg_gen_movi_i64(t, 0);
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 new_tmp_a64_zero(DisasContext *s)
   * to cpu_X[31] and ZR accesses to a temporary which can be discarded.
   * This is the point of the _sp forms.
   */
 -static TCGv_i64 cpu_reg(DisasContext *s, int reg)
 +TCGv_i64 cpu_reg(DisasContext *s, int reg)
  {
      if (reg == 31) {
          return new_tmp_a64_zero(s);
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 cpu_reg(DisasContext *s, int reg)
  }
  /* register access for when 31 == SP */
 -static TCGv_i64 cpu_reg_sp(DisasContext *s, int reg)
 +TCGv_i64 cpu_reg_sp(DisasContext *s, int reg)
  {
      return cpu_X[reg];
  }
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 cpu_reg_sp(DisasContext *s, int reg)
   * representing the register contents. This TCGv is an auto-freed
   * temporary so it need not be explicitly freed, and may be modified.
   */
 -static TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf)
 +TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf)
  {
      TCGv_i64 v = new_tmp_a64(s);
      if (reg != 31) {
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf)
      return v;
  }
 -static TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf)
 +TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf)
  {
      TCGv_i64 v = new_tmp_a64(s);
      if (sf) {
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf)
      return v;
  }
 -/* We should have at some point before trying to access an FP register
 - * done the necessary access check, so assert that
 - * (a) we did the check and
 - * (b) we didn't then just plough ahead anyway if it failed.
 - * Print the instruction pattern in the abort message so we can figure
 - * out what we need to fix if a user encounters this problem in the wild.
 - */
 -static inline void assert_fp_access_checked(DisasContext *s)
 -{
--#ifdef CONFIG_DEBUG_TCG
+-    switch (size) {
--    if (unlikely(!s->fp_access_checked || s->fp_excp_el)) {
+-    case 0: gen_helper_neon_subl_u16(CPU_V001); break;
--        fprintf(stderr, "target-arm: FP access check missing for "
+-    case 1: gen_helper_neon_subl_u32(CPU_V001); break;
--                "instruction 0x%08x\n", s->insn);
+-    case 2: tcg_gen_sub_i64(CPU_V001); break;
--        abort();
+-    default: abort();
 -    }
--#endif
 -}
 -
--/* Return the offset into CPUARMState of an element of specified
+ static inline void gen_neon_negl(TCGv_i64 var, int size)
 - * size, 'element' places in from the least significant end of
 - * the FP/vector register Qn.
 - */
 -static inline int vec_reg_offset(DisasContext *s, int regno,
 -                                 int element, TCGMemOp size)
 -{
 -    int offs = 0;
 -#ifdef HOST_WORDS_BIGENDIAN
 -    /* This is complicated slightly because vfp.zregs[n].d[0] is
 -     * still the low half and vfp.zregs[n].d[1] the high half
 -     * of the 128 bit vector, even on big endian systems.
 -     * Calculate the offset assuming a fully bigendian 128 bits,
 -     * then XOR to account for the order of the two 64 bit halves.
 -     */
 -    offs += (16 - ((element + 1) * (1 << size)));
 -    offs ^= 8;
 -#else
 -    offs += element * (1 << size);
 -#endif
 -    offs += offsetof(CPUARMState, vfp.zregs[regno]);
 -    assert_fp_access_checked(s);
 -    return offs;
 -}
 -
 -/* Return the offset info CPUARMState of the "whole" vector register Qn.  */
 -static inline int vec_full_reg_offset(DisasContext *s, int regno)
 -{
 -    assert_fp_access_checked(s);
 -    return offsetof(CPUARMState, vfp.zregs[regno]);
 -}
 -
 -/* Return a newly allocated pointer to the vector register.  */
 -static TCGv_ptr vec_full_reg_ptr(DisasContext *s, int regno)
 -{
 -    TCGv_ptr ret = tcg_temp_new_ptr();
 -    tcg_gen_addi_ptr(ret, cpu_env, vec_full_reg_offset(s, regno));
 -    return ret;
 -}
 -
 -/* Return the byte size of the "whole" vector register, VL / 8.  */
 -static inline int vec_full_reg_size(DisasContext *s)
 -{
 -    /* FIXME SVE: We should put the composite ZCR_EL* value into tb->flags.
 -       In the meantime this is just the AdvSIMD length of 128.  */
 -    return 128 / 8;
 -}
 -
  /* Return the offset into CPUARMState of a slice (from
   * the least significant end) of FP register Qn (ie
   * Dn, Sn, Hn or Bn).
@@ -XXX,XX +XXX,XX @@ static void clear_vec_high(DisasContext *s, bool is_q, int rd)
      }
  }
 -static void write_fp_dreg(DisasContext *s, int reg, TCGv_i64 v)
 +void write_fp_dreg(DisasContext *s, int reg, TCGv_i64 v)
  {
-     unsigned ofs = fp_reg_offset(s, reg, MO_64);
+     switch (size) {
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static void write_fp_sreg(DisasContext *s, int reg, TCGv_i32 v)
+             op = (insn >> 8) & 0xf;
-     tcg_temp_free_i64(tmp);
+             if ((insn & (1 << 6)) == 0) {
- }
+                 /* Three registers of different lengths.  */
+-                int src1_wide;
--static TCGv_ptr get_fpstatus_ptr(bool is_f16)
+-                int src2_wide;
-+TCGv_ptr get_fpstatus_ptr(bool is_f16)
+                 /* undefreq: bit 0 : UNDEF if size == 0
- {
+                  *           bit 1 : UNDEF if size == 1
-     TCGv_ptr statusptr = tcg_temp_new_ptr();
+                  *           bit 2 : UNDEF if size == 2
-     int offset;
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static inline bool fp_access_check(DisasContext *s)
+                     {0, 0, 0, 7}, /* VADDW: handled by decodetree */
- /* Check that SVE access is enabled.  If it is, return true.
+                     {0, 0, 0, 7}, /* VSUBL: handled by decodetree */
-  * If not, emit code to generate an appropriate exception and return false.
+                     {0, 0, 0, 7}, /* VSUBW: handled by decodetree */
-  */
+-                    {0, 1, 1, 0}, /* VADDHN */
--static inline bool sve_access_check(DisasContext *s)
++                    {0, 0, 0, 7}, /* VADDHN: handled by decodetree */
-+bool sve_access_check(DisasContext *s)
+                     {0, 0, 0, 0}, /* VABAL */
- {
+-                    {0, 1, 1, 0}, /* VSUBHN */
-     if (s->sve_excp_el) {
++                    {0, 0, 0, 7}, /* VSUBHN: handled by decodetree */
-         gen_exception_insn(s, 4, EXCP_UDEF, syn_sve_access_trap(),
+                     {0, 0, 0, 0}, /* VABDL */
-                            s->sve_excp_el);
+                     {0, 0, 0, 0}, /* VMLAL */
-         return false;
+                     {0, 0, 0, 9}, /* VQDMLAL */
-     }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
--    return true;
+                     {0, 0, 0, 7}, /* Reserved: always UNDEF */
-+    return fp_access_check(s);
+                 };
- }
+-                src1_wide = neon_3reg_wide[op][1];
- /*
+-                src2_wide = neon_3reg_wide[op][2];
-@@ -XXX,XX +XXX,XX @@ static inline uint64_t bitmask64(unsigned int length)
+                 undefreq = neon_3reg_wide[op][3];
-  * value (ie should cause a guest UNDEF exception), and true if they are
-  * valid, in which case the decoded bit pattern is written to result.
+                 if ((undefreq & (1 << size)) ||
-  */
+                     ((undefreq & 8) && u)) {
--static bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
+                     return 1;
--                                   unsigned int imms, unsigned int immr)
+                 }
-+bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
+-                if ((src1_wide && (rn & 1)) ||
-+                            unsigned int imms, unsigned int immr)
+-                    (src2_wide && (rm & 1)) ||
- {
+-                    (!src2_wide && (rd & 1))) {
-     uint64_t mask;
++                if (rd & 1) {
-     unsigned e, levels, s, r;
+                     return 1;
-@@ -XXX,XX +XXX,XX @@ static void disas_fp_3src(DisasContext *s, uint32_t insn)
+                 }
-  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
-  * the mantissa; see VFPExpandImm() in the v8 ARM ARM.
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-  */
+                 /* Avoid overlapping operands.  Wide source operands are
--static uint64_t vfp_expand_imm(int size, uint8_t imm8)
+                    always aligned so will never overlap with wide
-+uint64_t vfp_expand_imm(int size, uint8_t imm8)
+                    destinations in problematic ways.  */
- {
+-                if (rd == rm && !src2_wide) {
-     uint64_t imm;
++                if (rd == rm) {
+                     tmp = neon_load_reg(rm, 1);
                      neon_store_scratch(2, tmp);
 -                } else if (rd == rn && !src1_wide) {
 +                } else if (rd == rn) {
                      tmp = neon_load_reg(rn, 1);
                      neon_store_scratch(2, tmp);
                  }
                  tmp3 = NULL;
                  for (pass = 0; pass < 2; pass++) {
 -                    if (src1_wide) {
 -                        neon_load_reg64(cpu_V0, rn + pass);
 -                        tmp = NULL;
 +                    if (pass == 1 && rd == rn) {
 +                        tmp = neon_load_scratch(2);
                      } else {
 -                        if (pass == 1 && rd == rn) {
 -                            tmp = neon_load_scratch(2);
 -                        } else {
 -                            tmp = neon_load_reg(rn, pass);
 -                        }
 +                        tmp = neon_load_reg(rn, pass);
                      }
 -                    if (src2_wide) {
 -                        neon_load_reg64(cpu_V1, rm + pass);
 -                        tmp2 = NULL;
 +                    if (pass == 1 && rd == rm) {
 +                        tmp2 = neon_load_scratch(2);
                      } else {
 -                        if (pass == 1 && rd == rm) {
 -                            tmp2 = neon_load_scratch(2);
 -                        } else {
 -                            tmp2 = neon_load_reg(rm, pass);
 -                        }
 +                        tmp2 = neon_load_reg(rm, pass);
                      }
                      switch (op) {
 -                    case 0: case 1: case 4: /* VADDL, VADDW, VADDHN, VRADDHN */
 -                        gen_neon_addl(size);
 -                        break;
 -                    case 2: case 3: case 6: /* VSUBL, VSUBW, VSUBHN, VRSUBHN */
 -                        gen_neon_subl(size);
 -                        break;
                      case 5: case 7: /* VABAL, VABDL */
                          switch ((size << 1) | u) {
                          case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              abort();
                          }
                          neon_store_reg64(cpu_V0, rd + pass);
 -                    } else if (op == 4 || op == 6) {
 -                        /* Narrowing operation.  */
 -                        tmp = tcg_temp_new_i32();
 -                        if (!u) {
 -                            switch (size) {
 -                            case 0:
 -                                gen_helper_neon_narrow_high_u8(tmp, cpu_V0);
 -                                break;
 -                            case 1:
 -                                gen_helper_neon_narrow_high_u16(tmp, cpu_V0);
 -                                break;
 -                            case 2:
 -                                tcg_gen_extrh_i64_i32(tmp, cpu_V0);
 -                                break;
 -                            default: abort();
 -                            }
 -                        } else {
 -                            switch (size) {
 -                            case 0:
 -                                gen_helper_neon_narrow_round_high_u8(tmp, cpu_V0);
 -                                break;
 -                            case 1:
 -                                gen_helper_neon_narrow_round_high_u16(tmp, cpu_V0);
 -                                break;
 -                            case 2:
 -                                tcg_gen_addi_i64(cpu_V0, cpu_V0, 1u << 31);
 -                                tcg_gen_extrh_i64_i32(tmp, cpu_V0);
 -                                break;
 -                            default: abort();
 -                            }
 -                        }
 -                        if (pass == 0) {
 -                            tmp3 = tmp;
 -                        } else {
 -                            neon_store_reg(rd, 0, tmp3);
 -                            neon_store_reg(rd, 1, tmp);
 -                        }
                      } else {
                          /* Write back the result.  */
                          neon_store_reg64(cpu_V0, rd + pass);
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 16/32] target/arm: Implement SVE Integer Reduction Group
+[PULL 04/23] target/arm: Convert Neon 3-reg-diff VABAL, VABDL to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon 3-reg-diff insns VABAL and VABDL to decodetree.
+Like almost all the remaining insns in this group, these are
-Excepting MOVPRFX, which isn't a reduction.  Presumably it is
+a combination of a two-input operation which returns a double width
-placed within the group because of its encoding.
+result and then a possible accumulation of that double width
+result into the destination.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20180516223007.10256-10-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    | 44 ++++++++++++++++++
+ target/arm/translate.h          |   1 +
- target/arm/sve_helper.c    | 91 ++++++++++++++++++++++++++++++++++++++
+ target/arm/neon-dp.decode       |   6 ++
- target/arm/translate-sve.c | 68 ++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 132 ++++++++++++++++++++++++++++++++
- target/arm/sve.decode      | 22 +++++++++
+ target/arm/translate.c          |  31 +-------
-files changed, 225 insertions(+)
+files changed, 142 insertions(+), 28 deletions(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/translate.h
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve_udiv_zpzz_s, TCG_CALL_NO_RWG,
+@@ -XXX,XX +XXX,XX @@ typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
- DEF_HELPER_FLAGS_5(sve_udiv_zpzz_d, TCG_CALL_NO_RWG,
+ typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
-                    void, ptr, ptr, ptr, ptr, i32)
+ typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
+ typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
-+DEF_HELPER_FLAGS_3(sve_orv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++typedef void NeonGenTwoOpWidenFn(TCGv_i64, TCGv_i32, TCGv_i32);
-+DEF_HELPER_FLAGS_3(sve_orv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+ typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
-+DEF_HELPER_FLAGS_3(sve_orv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+ typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
-+DEF_HELPER_FLAGS_3(sve_orv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+ typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
-+
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-+DEF_HELPER_FLAGS_3(sve_eorv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+index XXXXXXX..XXXXXXX 100644
-+DEF_HELPER_FLAGS_3(sve_eorv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+--- a/target/arm/neon-dp.decode
-+DEF_HELPER_FLAGS_3(sve_eorv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++++ b/target/arm/neon-dp.decode
-+DEF_HELPER_FLAGS_3(sve_eorv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
-+
+     VADDHN_3d    1111 001 0 1 . .. .... .... 0100 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_andv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+     VRADDHN_3d   1111 001 1 1 . .. .... .... 0100 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_andv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(sve_andv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++    VABAL_S_3d   1111 001 0 1 . .. .... .... 0101 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_andv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++    VABAL_U_3d   1111 001 1 1 . .. .... .... 0101 . 0 . 0 .... @3diff
 +
-+DEF_HELPER_FLAGS_3(sve_saddv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+     VSUBHN_3d    1111 001 0 1 . .. .... .... 0110 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_saddv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+     VRSUBHN_3d   1111 001 1 1 . .. .... .... 0110 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_saddv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++
-+
++    VABDL_S_3d   1111 001 0 1 . .. .... .... 0111 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_uaddv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++    VABDL_U_3d   1111 001 1 1 . .. .... .... 0111 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_3(sve_uaddv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+   ]
-+DEF_HELPER_FLAGS_3(sve_uaddv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+ }
-+DEF_HELPER_FLAGS_3(sve_uaddv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-+
+index XXXXXXX..XXXXXXX 100644
-+DEF_HELPER_FLAGS_3(sve_smaxv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+--- a/target/arm/translate-neon.inc.c
-+DEF_HELPER_FLAGS_3(sve_smaxv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++++ b/target/arm/translate-neon.inc.c
-+DEF_HELPER_FLAGS_3(sve_smaxv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ DO_NARROW_3D(VADDHN, add, narrow, tcg_gen_extrh_i64_i32)
-+DEF_HELPER_FLAGS_3(sve_smaxv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+ DO_NARROW_3D(VSUBHN, sub, narrow, tcg_gen_extrh_i64_i32)
-+
+ DO_NARROW_3D(VRADDHN, add, narrow_round, gen_narrow_round_high_u32)
-+DEF_HELPER_FLAGS_3(sve_umaxv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
+ DO_NARROW_3D(VRSUBHN, sub, narrow_round, gen_narrow_round_high_u32)
-+DEF_HELPER_FLAGS_3(sve_umaxv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_3(sve_umaxv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++static bool do_long_3d(DisasContext *s, arg_3diff *a,
-+DEF_HELPER_FLAGS_3(sve_umaxv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++                       NeonGenTwoOpWidenFn *opfn,
-+
++                       NeonGenTwo64OpFn *accfn)
-+DEF_HELPER_FLAGS_3(sve_sminv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++{
-+DEF_HELPER_FLAGS_3(sve_sminv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++    /*
-+DEF_HELPER_FLAGS_3(sve_sminv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++     * 3-regs different lengths, long operations.
-+DEF_HELPER_FLAGS_3(sve_sminv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++     * These perform an operation on two inputs that returns a double-width
-+
++     * result, and then possibly perform an accumulation operation of
-+DEF_HELPER_FLAGS_3(sve_uminv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++     * that result into the double-width destination.
-+DEF_HELPER_FLAGS_3(sve_uminv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++     */
-+DEF_HELPER_FLAGS_3(sve_uminv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++    TCGv_i64 rd0, rd1, tmp;
-+DEF_HELPER_FLAGS_3(sve_uminv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
++    TCGv_i32 rn, rm;
 +
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++        return false;
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    }
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
++
-index XXXXXXX..XXXXXXX 100644
++    /* UNDEF accesses to D16-D31 if they don't exist. */
---- a/target/arm/sve_helper.c
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
-+++ b/target/arm/sve_helper.c
++        ((a->vd | a->vn | a->vm) & 0x10)) {
-@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_D(sve_udiv_zpzz_d, uint64_t, DO_DIV)
++        return false;
++    }
- #undef DO_ZPZZ
++
- #undef DO_ZPZZ_D
++    if (!opfn) {
-+
++        /* size == 3 case, which is an entirely different insn group */
-+/* Two-operand reduction expander, controlled by a predicate.
++        return false;
-+ * The difference between TYPERED and TYPERET has to do with
++    }
-+ * sign-extension.  E.g. for SMAX, TYPERED must be signed,
++
-+ * but TYPERET must be unsigned so that e.g. a 32-bit value
++    if (a->vd & 1) {
-+ * is not sign-extended to the ABI uint64_t return type.
++        return false;
-+ */
++    }
-+/* ??? If we were to vectorize this by hand the reduction ordering
++
-+ * would change.  For integer operands, this is perfectly fine.
++    if (!vfp_access_check(s)) {
 + */
 +#define DO_VPZ(NAME, TYPEELT, TYPERED, TYPERET, H, INIT, OP) \
 +uint64_t HELPER(NAME)(void *vn, void *vg, uint32_t desc)   \
 +{                                                          \
 +    intptr_t i, opr_sz = simd_oprsz(desc);                 \
 +    TYPERED ret = INIT;                                    \
 +    for (i = 0; i < opr_sz; ) {                            \
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 +        do {                                               \
 +            if (pg & 1) {                                  \
 +                TYPEELT nn = *(TYPEELT *)(vn + H(i));      \
 +                ret = OP(ret, nn);                         \
 +            }                                              \
 +            i += sizeof(TYPEELT), pg >>= sizeof(TYPEELT);  \
 +        } while (i & 15);                                  \
 +    }                                                      \
 +    return (TYPERET)ret;                                   \
 +}
 +
 +#define DO_VPZ_D(NAME, TYPEE, TYPER, INIT, OP)             \
 +uint64_t HELPER(NAME)(void *vn, void *vg, uint32_t desc)   \
 +{                                                          \
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;             \
 +    TYPEE *n = vn;                                         \
 +    uint8_t *pg = vg;                                      \
 +    TYPER ret = INIT;                                      \
 +    for (i = 0; i < opr_sz; i += 1) {                      \
 +        if (pg[H1(i)] & 1) {                               \
 +            TYPEE nn = n[i];                               \
 +            ret = OP(ret, nn);                             \
 +        }                                                  \
 +    }                                                      \
 +    return ret;                                            \
 +}
 +
 +DO_VPZ(sve_orv_b, uint8_t, uint8_t, uint8_t, H1, 0, DO_ORR)
 +DO_VPZ(sve_orv_h, uint16_t, uint16_t, uint16_t, H1_2, 0, DO_ORR)
 +DO_VPZ(sve_orv_s, uint32_t, uint32_t, uint32_t, H1_4, 0, DO_ORR)
 +DO_VPZ_D(sve_orv_d, uint64_t, uint64_t, 0, DO_ORR)
 +
 +DO_VPZ(sve_eorv_b, uint8_t, uint8_t, uint8_t, H1, 0, DO_EOR)
 +DO_VPZ(sve_eorv_h, uint16_t, uint16_t, uint16_t, H1_2, 0, DO_EOR)
 +DO_VPZ(sve_eorv_s, uint32_t, uint32_t, uint32_t, H1_4, 0, DO_EOR)
 +DO_VPZ_D(sve_eorv_d, uint64_t, uint64_t, 0, DO_EOR)
 +
 +DO_VPZ(sve_andv_b, uint8_t, uint8_t, uint8_t, H1, -1, DO_AND)
 +DO_VPZ(sve_andv_h, uint16_t, uint16_t, uint16_t, H1_2, -1, DO_AND)
 +DO_VPZ(sve_andv_s, uint32_t, uint32_t, uint32_t, H1_4, -1, DO_AND)
 +DO_VPZ_D(sve_andv_d, uint64_t, uint64_t, -1, DO_AND)
 +
 +DO_VPZ(sve_saddv_b, int8_t, uint64_t, uint64_t, H1, 0, DO_ADD)
 +DO_VPZ(sve_saddv_h, int16_t, uint64_t, uint64_t, H1_2, 0, DO_ADD)
 +DO_VPZ(sve_saddv_s, int32_t, uint64_t, uint64_t, H1_4, 0, DO_ADD)
 +
 +DO_VPZ(sve_uaddv_b, uint8_t, uint64_t, uint64_t, H1, 0, DO_ADD)
 +DO_VPZ(sve_uaddv_h, uint16_t, uint64_t, uint64_t, H1_2, 0, DO_ADD)
 +DO_VPZ(sve_uaddv_s, uint32_t, uint64_t, uint64_t, H1_4, 0, DO_ADD)
 +DO_VPZ_D(sve_uaddv_d, uint64_t, uint64_t, 0, DO_ADD)
 +
 +DO_VPZ(sve_smaxv_b, int8_t, int8_t, uint8_t, H1, INT8_MIN, DO_MAX)
 +DO_VPZ(sve_smaxv_h, int16_t, int16_t, uint16_t, H1_2, INT16_MIN, DO_MAX)
 +DO_VPZ(sve_smaxv_s, int32_t, int32_t, uint32_t, H1_4, INT32_MIN, DO_MAX)
 +DO_VPZ_D(sve_smaxv_d, int64_t, int64_t, INT64_MIN, DO_MAX)
 +
 +DO_VPZ(sve_umaxv_b, uint8_t, uint8_t, uint8_t, H1, 0, DO_MAX)
 +DO_VPZ(sve_umaxv_h, uint16_t, uint16_t, uint16_t, H1_2, 0, DO_MAX)
 +DO_VPZ(sve_umaxv_s, uint32_t, uint32_t, uint32_t, H1_4, 0, DO_MAX)
 +DO_VPZ_D(sve_umaxv_d, uint64_t, uint64_t, 0, DO_MAX)
 +
 +DO_VPZ(sve_sminv_b, int8_t, int8_t, uint8_t, H1, INT8_MAX, DO_MIN)
 +DO_VPZ(sve_sminv_h, int16_t, int16_t, uint16_t, H1_2, INT16_MAX, DO_MIN)
 +DO_VPZ(sve_sminv_s, int32_t, int32_t, uint32_t, H1_4, INT32_MAX, DO_MIN)
 +DO_VPZ_D(sve_sminv_d, int64_t, int64_t, INT64_MAX, DO_MIN)
 +
 +DO_VPZ(sve_uminv_b, uint8_t, uint8_t, uint8_t, H1, -1, DO_MIN)
 +DO_VPZ(sve_uminv_h, uint16_t, uint16_t, uint16_t, H1_2, -1, DO_MIN)
 +DO_VPZ(sve_uminv_s, uint32_t, uint32_t, uint32_t, H1_4, -1, DO_MIN)
 +DO_VPZ_D(sve_uminv_d, uint64_t, uint64_t, -1, DO_MIN)
 +
 +#undef DO_VPZ
 +#undef DO_VPZ_D
 +
  #undef DO_AND
  #undef DO_ORR
  #undef DO_EOR
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_UDIV_zpzz(DisasContext *s, arg_rprr_esz *a, uint32_t insn)
  #undef DO_ZPZZ
 +/*
 + *** SVE Integer Reduction Group
 + */
 +
 +typedef void gen_helper_gvec_reduc(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +static bool do_vpz_ool(DisasContext *s, arg_rpr_esz *a,
 +                       gen_helper_gvec_reduc *fn)
 +{
 +    unsigned vsz = vec_full_reg_size(s);
 +    TCGv_ptr t_zn, t_pg;
 +    TCGv_i32 desc;
 +    TCGv_i64 temp;
 +
 +    if (fn == NULL) {
 +        return false;
 +    }
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
-+    desc = tcg_const_i32(simd_desc(vsz, vsz, 0));
++    rd0 = tcg_temp_new_i64();
-+    temp = tcg_temp_new_i64();
++    rd1 = tcg_temp_new_i64();
-+    t_zn = tcg_temp_new_ptr();
++
-+    t_pg = tcg_temp_new_ptr();
++    rn = neon_load_reg(a->vn, 0);
-+
++    rm = neon_load_reg(a->vm, 0);
-+    tcg_gen_addi_ptr(t_zn, cpu_env, vec_full_reg_offset(s, a->rn));
++    opfn(rd0, rn, rm);
-+    tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, a->pg));
++    tcg_temp_free_i32(rn);
-+    fn(temp, t_zn, t_pg, desc);
++    tcg_temp_free_i32(rm);
-+    tcg_temp_free_ptr(t_zn);
++
-+    tcg_temp_free_ptr(t_pg);
++    rn = neon_load_reg(a->vn, 1);
-+    tcg_temp_free_i32(desc);
++    rm = neon_load_reg(a->vm, 1);
-+
++    opfn(rd1, rn, rm);
-+    write_fp_dreg(s, a->rd, temp);
++    tcg_temp_free_i32(rn);
-+    tcg_temp_free_i64(temp);
++    tcg_temp_free_i32(rm);
 +
 +    /* Don't store results until after all loads: they might overlap */
 +    if (accfn) {
 +        tmp = tcg_temp_new_i64();
 +        neon_load_reg64(tmp, a->vd);
 +        accfn(tmp, tmp, rd0);
 +        neon_store_reg64(tmp, a->vd);
 +        neon_load_reg64(tmp, a->vd + 1);
 +        accfn(tmp, tmp, rd1);
 +        neon_store_reg64(tmp, a->vd + 1);
 +        tcg_temp_free_i64(tmp);
 +    } else {
 +        neon_store_reg64(rd0, a->vd);
 +        neon_store_reg64(rd1, a->vd + 1);
 +    }
 +
 +    tcg_temp_free_i64(rd0);
 +    tcg_temp_free_i64(rd1);
 +
 +    return true;
 +}
 +
-+#define DO_VPZ(NAME, name) \
++static bool trans_VABDL_S_3d(DisasContext *s, arg_3diff *a)
-+static bool trans_##NAME(DisasContext *s, arg_rpr_esz *a, uint32_t insn) \
++{
-+{                                                                        \
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+    static gen_helper_gvec_reduc * const fns[4] = {                      \
++        gen_helper_neon_abdl_s16,
-+        gen_helper_sve_##name##_b, gen_helper_sve_##name##_h,            \
++        gen_helper_neon_abdl_s32,
-+        gen_helper_sve_##name##_s, gen_helper_sve_##name##_d,            \
++        gen_helper_neon_abdl_s64,
-+    };                                                                   \
++        NULL,
-+    return do_vpz_ool(s, a, fns[a->esz]);                                \
++    };
-+}
++
-+
++    return do_long_3d(s, a, opfn[a->size], NULL);
-+DO_VPZ(ORV, orv)
++}
-+DO_VPZ(ANDV, andv)
++
-+DO_VPZ(EORV, eorv)
++static bool trans_VABDL_U_3d(DisasContext *s, arg_3diff *a)
-+
++{
-+DO_VPZ(UADDV, uaddv)
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+DO_VPZ(SMAXV, smaxv)
++        gen_helper_neon_abdl_u16,
-+DO_VPZ(UMAXV, umaxv)
++        gen_helper_neon_abdl_u32,
-+DO_VPZ(SMINV, sminv)
++        gen_helper_neon_abdl_u64,
-+DO_VPZ(UMINV, uminv)
++        NULL,
-+
++    };
-+static bool trans_SADDV(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
++
-+{
++    return do_long_3d(s, a, opfn[a->size], NULL);
-+    static gen_helper_gvec_reduc * const fns[4] = {
++}
-+        gen_helper_sve_saddv_b, gen_helper_sve_saddv_h,
++
-+        gen_helper_sve_saddv_s, NULL
++static bool trans_VABAL_S_3d(DisasContext *s, arg_3diff *a)
-+    };
++{
-+    return do_vpz_ool(s, a, fns[a->esz]);
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+}
++        gen_helper_neon_abdl_s16,
-+
++        gen_helper_neon_abdl_s32,
-+#undef DO_VPZ
++        gen_helper_neon_abdl_s64,
-+
++        NULL,
- /*
++    };
-  *** SVE Predicate Logical Operations Group
++    static NeonGenTwo64OpFn * const addfn[] = {
-  */
++        gen_helper_neon_addl_u16,
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
++        gen_helper_neon_addl_u32,
-index XXXXXXX..XXXXXXX 100644
++        tcg_gen_add_i64,
---- a/target/arm/sve.decode
++        NULL,
-+++ b/target/arm/sve.decode
++    };
-@@ -XXX,XX +XXX,XX @@
++
- &rr_esz         rd rn esz
++    return do_long_3d(s, a, opfn[a->size], addfn[a->size]);
- &rri            rd rn imm
++}
- &rrr_esz        rd rn rm esz
++
-+&rpr_esz        rd pg rn esz
++static bool trans_VABAL_U_3d(DisasContext *s, arg_3diff *a)
- &rprr_s         rd pg rn rm s
++{
- &rprr_esz       rd pg rn rm esz
++    static NeonGenTwoOpWidenFn * const opfn[] = {
++        gen_helper_neon_abdl_u16,
-@@ -XXX,XX +XXX,XX @@
++        gen_helper_neon_abdl_u32,
- @rdm_pg_rn      ........ esz:2 ... ... ... pg:3 rn:5 rd:5 \
++        gen_helper_neon_abdl_u64,
-                 &rprr_esz rm=%reg_movprfx
++        NULL,
++    };
-+# One register operand, with governing predicate, vector element size
++    static NeonGenTwo64OpFn * const addfn[] = {
-+@rd_pg_rn       ........ esz:2 ... ... ... pg:3 rn:5 rd:5       &rpr_esz
++        gen_helper_neon_addl_u16,
-+
++        gen_helper_neon_addl_u32,
- # Basic Load/Store with 9-bit immediate offset
++        tcg_gen_add_i64,
- @pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
++        NULL,
-                 &rri imm=%imm9_16_10
++    };
-@@ -XXX,XX +XXX,XX @@ UDIV_zpzz       00000100 .. 010 101 000 ... ..... .....   @rdn_pg_rm
++
- SDIV_zpzz       00000100 .. 010 110 000 ... ..... .....   @rdm_pg_rn # SDIVR
++    return do_long_3d(s, a, opfn[a->size], addfn[a->size]);
- UDIV_zpzz       00000100 .. 010 111 000 ... ..... .....   @rdm_pg_rn # UDIVR
++}
+diff --git a/target/arm/translate.c b/target/arm/translate.c
-+### SVE Integer Reduction Group
+index XXXXXXX..XXXXXXX 100644
-+
+--- a/target/arm/translate.c
-+# SVE bitwise logical reduction (predicated)
++++ b/target/arm/translate.c
-+ORV             00000100 .. 011 000 001 ... ..... .....         @rd_pg_rn
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+EORV            00000100 .. 011 001 001 ... ..... .....         @rd_pg_rn
+                     {0, 0, 0, 7}, /* VSUBL: handled by decodetree */
-+ANDV            00000100 .. 011 010 001 ... ..... .....         @rd_pg_rn
+                     {0, 0, 0, 7}, /* VSUBW: handled by decodetree */
-+
+                     {0, 0, 0, 7}, /* VADDHN: handled by decodetree */
-+# SVE integer add reduction (predicated)
+-                    {0, 0, 0, 0}, /* VABAL */
-+# Note that saddv requires size != 3.
++                    {0, 0, 0, 7}, /* VABAL */
-+UADDV           00000100 .. 000 001 001 ... ..... .....         @rd_pg_rn
+                     {0, 0, 0, 7}, /* VSUBHN: handled by decodetree */
-+SADDV           00000100 .. 000 000 001 ... ..... .....         @rd_pg_rn
+-                    {0, 0, 0, 0}, /* VABDL */
-+
++                    {0, 0, 0, 7}, /* VABDL */
-+# SVE integer min/max reduction (predicated)
+                     {0, 0, 0, 0}, /* VMLAL */
-+SMAXV           00000100 .. 001 000 001 ... ..... .....         @rd_pg_rn
+                     {0, 0, 0, 9}, /* VQDMLAL */
-+UMAXV           00000100 .. 001 001 001 ... ..... .....         @rd_pg_rn
+                     {0, 0, 0, 0}, /* VMLSL */
-+SMINV           00000100 .. 001 010 001 ... ..... .....         @rd_pg_rn
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+UMINV           00000100 .. 001 011 001 ... ..... .....         @rd_pg_rn
+                         tmp2 = neon_load_reg(rm, pass);
-+
+                     }
- ### SVE Logical - Unpredicated Group
+                     switch (op) {
+-                    case 5: case 7: /* VABAL, VABDL */
- # SVE bitwise logical operations (unpredicated)
+-                        switch ((size << 1) | u) {
 -                        case 0:
 -                            gen_helper_neon_abdl_s16(cpu_V0, tmp, tmp2);
 -                            break;
 -                        case 1:
 -                            gen_helper_neon_abdl_u16(cpu_V0, tmp, tmp2);
 -                            break;
 -                        case 2:
 -                            gen_helper_neon_abdl_s32(cpu_V0, tmp, tmp2);
 -                            break;
 -                        case 3:
 -                            gen_helper_neon_abdl_u32(cpu_V0, tmp, tmp2);
 -                            break;
 -                        case 4:
 -                            gen_helper_neon_abdl_s64(cpu_V0, tmp, tmp2);
 -                            break;
 -                        case 5:
 -                            gen_helper_neon_abdl_u64(cpu_V0, tmp, tmp2);
 -                            break;
 -                        default: abort();
 -                        }
 -                        tcg_temp_free_i32(tmp2);
 -                        tcg_temp_free_i32(tmp);
 -                        break;
                      case 8: case 9: case 10: case 11: case 12: case 13:
                          /* VMLAL, VQDMLAL, VMLSL, VQDMLSL, VMULL, VQDMULL */
                          gen_neon_mull(cpu_V0, tmp, tmp2, size, u);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          case 10: /* VMLSL */
                              gen_neon_negl(cpu_V0, size);
                              /* Fall through */
 -                        case 5: case 8: /* VABAL, VMLAL */
 +                        case 8: /* VABAL, VMLAL */
                              gen_neon_addl(size);
                              break;
                          case 9: case 11: /* VQDMLAL, VQDMLSL */
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 26/32] target/arm: Implement SVE Compute Vector Address Group
+[PULL 05/23] target/arm: Convert Neon 3-reg-diff long multiplies
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon 3-reg-diff insns VMULL, VMLAL and VMLSL; these perform
 a 32x32->64 multiply with possible accumulate.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Note that for VMLSL we do the accumulate directly with a subtraction
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+rather than doing a negate-then-add as the old code did.
-Message-id: 20180516223007.10256-20-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    |  5 +++++
+ target/arm/neon-dp.decode       |  9 +++++
- target/arm/sve_helper.c    | 40 ++++++++++++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 71 +++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 36 ++++++++++++++++++++++++++++++++++
+ target/arm/translate.c          | 21 +++-------
- target/arm/sve.decode      | 12 ++++++++++++
+files changed, 86 insertions(+), 15 deletions(-)
 files changed, 93 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_lsl_zzw_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- DEF_HELPER_FLAGS_4(sve_lsl_zzw_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_4(sve_lsl_zzw_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     VABDL_S_3d   1111 001 0 1 . .. .... .... 0111 . 0 . 0 .... @3diff
+     VABDL_U_3d   1111 001 1 1 . .. .... .... 0111 . 0 . 0 .... @3diff
 +DEF_HELPER_FLAGS_4(sve_adr_p32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(sve_adr_p64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(sve_adr_s32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(sve_adr_u32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    VMLAL_S_3d   1111 001 0 1 . .. .... .... 1000 . 0 . 0 .... @3diff
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    VMLAL_U_3d   1111 001 1 1 . .. .... .... 1000 . 0 . 0 .... @3diff
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
++    VMLSL_S_3d   1111 001 0 1 . .. .... .... 1010 . 0 . 0 .... @3diff
 +    VMLSL_U_3d   1111 001 1 1 . .. .... .... 1010 . 0 . 0 .... @3diff
 +
 +    VMULL_S_3d   1111 001 0 1 . .. .... .... 1100 . 0 . 0 .... @3diff
 +    VMULL_U_3d   1111 001 1 1 . .. .... .... 1100 . 0 . 0 .... @3diff
    ]
  }
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_index_d)(void *vd, uint64_t start,
+@@ -XXX,XX +XXX,XX @@ static bool trans_VABAL_U_3d(DisasContext *s, arg_3diff *a)
-         d[i] = start + i * incr;
-     }
+     return do_long_3d(s, a, opfn[a->size], addfn[a->size]);
  }
 +
-+void HELPER(sve_adr_p32)(void *vd, void *vn, void *vm, uint32_t desc)
++static void gen_mull_s32(TCGv_i64 rd, TCGv_i32 rn, TCGv_i32 rm)
 +{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 4;
++    TCGv_i32 lo = tcg_temp_new_i32();
-+    uint32_t sh = simd_data(desc);
++    TCGv_i32 hi = tcg_temp_new_i32();
-+    uint32_t *d = vd, *n = vn, *m = vm;
++
-+    for (i = 0; i < opr_sz; i += 1) {
++    tcg_gen_muls2_i32(lo, hi, rn, rm);
-+        d[i] = n[i] + (m[i] << sh);
++    tcg_gen_concat_i32_i64(rd, lo, hi);
-+    }
++
 +    tcg_temp_free_i32(lo);
 +    tcg_temp_free_i32(hi);
 +}
 +
-+void HELPER(sve_adr_p64)(void *vd, void *vn, void *vm, uint32_t desc)
++static void gen_mull_u32(TCGv_i64 rd, TCGv_i32 rn, TCGv_i32 rm)
 +{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
++    TCGv_i32 lo = tcg_temp_new_i32();
-+    uint64_t sh = simd_data(desc);
++    TCGv_i32 hi = tcg_temp_new_i32();
-+    uint64_t *d = vd, *n = vn, *m = vm;
++
-+    for (i = 0; i < opr_sz; i += 1) {
++    tcg_gen_mulu2_i32(lo, hi, rn, rm);
-+        d[i] = n[i] + (m[i] << sh);
++    tcg_gen_concat_i32_i64(rd, lo, hi);
-+    }
++
 +    tcg_temp_free_i32(lo);
 +    tcg_temp_free_i32(hi);
 +}
 +
-+void HELPER(sve_adr_s32)(void *vd, void *vn, void *vm, uint32_t desc)
++static bool trans_VMULL_S_3d(DisasContext *s, arg_3diff *a)
 +{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+    uint64_t sh = simd_data(desc);
++        gen_helper_neon_mull_s8,
-+    uint64_t *d = vd, *n = vn, *m = vm;
++        gen_helper_neon_mull_s16,
-+    for (i = 0; i < opr_sz; i += 1) {
++        gen_mull_s32,
-+        d[i] = n[i] + ((uint64_t)(int32_t)m[i] << sh);
++        NULL,
-+    }
++    };
 +
 +    return do_long_3d(s, a, opfn[a->size], NULL);
 +}
 +
-+void HELPER(sve_adr_u32)(void *vd, void *vn, void *vm, uint32_t desc)
++static bool trans_VMULL_U_3d(DisasContext *s, arg_3diff *a)
 +{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+    uint64_t sh = simd_data(desc);
++        gen_helper_neon_mull_u8,
-+    uint64_t *d = vd, *n = vn, *m = vm;
++        gen_helper_neon_mull_u16,
-+    for (i = 0; i < opr_sz; i += 1) {
++        gen_mull_u32,
-+        d[i] = n[i] + ((uint64_t)(uint32_t)m[i] << sh);
++        NULL,
-+    }
++    };
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_RDVL(DisasContext *s, arg_RDVL *a, uint32_t insn)
      return true;
  }
 +/*
 + *** SVE Compute Vector Address Group
 + */
 +
-+static bool do_adr(DisasContext *s, arg_rrri *a, gen_helper_gvec_3 *fn)
++    return do_long_3d(s, a, opfn[a->size], NULL);
 +{
 +    if (sve_access_check(s)) {
 +        unsigned vsz = vec_full_reg_size(s);
 +        tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm),
 +                           vsz, vsz, a->imm, fn);
 +    }
 +    return true;
 +}
 +
-+static bool trans_ADR_p32(DisasContext *s, arg_rrri *a, uint32_t insn)
++#define DO_VMLAL(INSN,MULL,ACC)                                         \
-+{
++    static bool trans_##INSN##_3d(DisasContext *s, arg_3diff *a)        \
-+    return do_adr(s, a, gen_helper_sve_adr_p32);
++    {                                                                   \
-+}
++        static NeonGenTwoOpWidenFn * const opfn[] = {                   \
 +            gen_helper_neon_##MULL##8,                                  \
 +            gen_helper_neon_##MULL##16,                                 \
 +            gen_##MULL##32,                                             \
 +            NULL,                                                       \
 +        };                                                              \
 +        static NeonGenTwo64OpFn * const accfn[] = {                     \
 +            gen_helper_neon_##ACC##l_u16,                               \
 +            gen_helper_neon_##ACC##l_u32,                               \
 +            tcg_gen_##ACC##_i64,                                        \
 +            NULL,                                                       \
 +        };                                                              \
 +        return do_long_3d(s, a, opfn[a->size], accfn[a->size]);         \
 +    }
 +
-+static bool trans_ADR_p64(DisasContext *s, arg_rrri *a, uint32_t insn)
++DO_VMLAL(VMLAL_S,mull_s,add)
-+{
++DO_VMLAL(VMLAL_U,mull_u,add)
-+    return do_adr(s, a, gen_helper_sve_adr_p64);
++DO_VMLAL(VMLSL_S,mull_s,sub)
-+}
++DO_VMLAL(VMLSL_U,mull_u,sub)
-+
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 +static bool trans_ADR_s32(DisasContext *s, arg_rrri *a, uint32_t insn)
 +{
 +    return do_adr(s, a, gen_helper_sve_adr_s32);
 +}
 +
 +static bool trans_ADR_u32(DisasContext *s, arg_rrri *a, uint32_t insn)
 +{
 +    return do_adr(s, a, gen_helper_sve_adr_u32);
 +}
 +
  /*
   *** SVE Predicate Logical Operations Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                     {0, 0, 0, 7}, /* VABAL */
- &rr_esz         rd rn esz
+                     {0, 0, 0, 7}, /* VSUBHN: handled by decodetree */
- &rri            rd rn imm
+                     {0, 0, 0, 7}, /* VABDL */
-+&rrri           rd rn rm imm
+-                    {0, 0, 0, 0}, /* VMLAL */
- &rri_esz        rd rn imm esz
++                    {0, 0, 0, 7}, /* VMLAL */
- &rrr_esz        rd rn rm esz
+                     {0, 0, 0, 9}, /* VQDMLAL */
- &rpr_esz        rd pg rn esz
+-                    {0, 0, 0, 0}, /* VMLSL */
-@@ -XXX,XX +XXX,XX @@
++                    {0, 0, 0, 7}, /* VMLSL */
- # Three operand, vector element size
+                     {0, 0, 0, 9}, /* VQDMLSL */
- @rd_rn_rm       ........ esz:2 . rm:5 ... ... rn:5 rd:5         &rrr_esz
+-                    {0, 0, 0, 0}, /* Integer VMULL */
++                    {0, 0, 0, 7}, /* Integer VMULL */
-+# Three operand with "memory" size, aka immediate left shift
+                     {0, 0, 0, 9}, /* VQDMULL */
-+@rd_rn_msz_rm   ........ ... rm:5 .... imm:2 rn:5 rd:5          &rrri
+                     {0, 0, 0, 0xa}, /* Polynomial VMULL */
-+
+                     {0, 0, 0, 7}, /* Reserved: always UNDEF */
- # Two register operand, with governing predicate, vector element size
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- @rdn_pg_rm      ........ esz:2 ... ... ... pg:3 rm:5 rd:5 \
+                         tmp2 = neon_load_reg(rm, pass);
-                 &rprr_esz rn=%reg_movprfx
+                     }
-@@ -XXX,XX +XXX,XX @@ ASR_zzw         00000100 .. 1 ..... 1000 00 ..... .....         @rd_rn_rm
+                     switch (op) {
- LSR_zzw         00000100 .. 1 ..... 1000 01 ..... .....         @rd_rn_rm
+-                    case 8: case 9: case 10: case 11: case 12: case 13:
- LSL_zzw         00000100 .. 1 ..... 1000 11 ..... .....         @rd_rn_rm
+-                        /* VMLAL, VQDMLAL, VMLSL, VQDMLSL, VMULL, VQDMULL */
++                    case 9: case 11: case 13:
-+### SVE Compute Vector Address Group
++                        /* VQDMLAL, VQDMLSL, VQDMULL */
-+
+                         gen_neon_mull(cpu_V0, tmp, tmp2, size, u);
-+# SVE vector address generation
+                         break;
-+ADR_s32         00000100 00 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+                     default: /* 15 is RESERVED: caught earlier  */
-+ADR_u32         00000100 01 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+ADR_p32         00000100 10 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+                         /* VQDMULL */
-+ADR_p64         00000100 11 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+                         gen_neon_addl_saturate(cpu_V0, cpu_V0, size);
-+
+                         neon_store_reg64(cpu_V0, rd + pass);
- ### SVE Predicate Logical Operations Group
+-                    } else if (op == 5 || (op >= 8 && op <= 11)) {
++                    } else {
- # SVE predicate logical operations
+                         /* Accumulate.  */
                          neon_load_reg64(cpu_V1, rd + pass);
                          switch (op) {
 -                        case 10: /* VMLSL */
 -                            gen_neon_negl(cpu_V0, size);
 -                            /* Fall through */
 -                        case 8: /* VABAL, VMLAL */
 -                            gen_neon_addl(size);
 -                            break;
                          case 9: case 11: /* VQDMLAL, VQDMLSL */
                              gen_neon_addl_saturate(cpu_V0, cpu_V0, size);
                              if (op == 11) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              abort();
                          }
                          neon_store_reg64(cpu_V0, rd + pass);
 -                    } else {
 -                        /* Write back the result.  */
 -                        neon_store_reg64(cpu_V0, rd + pass);
                      }
                  }
              } else {
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 25/32] target/arm: Implement SVE Bitwise Shift - Unpredicated Group
+[PULL 06/23] target/arm: Convert Neon 3-reg-diff saturating doubling multiplies
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon 3-reg-diff insns VQDMULL, VQDMLAL and VQDMLSL:
+these are all saturating doubling long multiplies with a possible
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+accumulate step.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-19-richard.henderson@linaro.org
+These are the last insns in the group which use the pass-over-each
 elements loop, so we can delete that code.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    | 12 ++++++
+ target/arm/neon-dp.decode       |  6 +++
- target/arm/sve_helper.c    | 30 ++++++++++++++
+ target/arm/translate-neon.inc.c | 82 +++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 85 ++++++++++++++++++++++++++++++++++++++
+ target/arm/translate.c          | 59 ++----------------------
- target/arm/sve.decode      | 26 ++++++++++++
+files changed, 92 insertions(+), 55 deletions(-)
-files changed, 153 insertions(+)
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_index_h, TCG_CALL_NO_RWG, void, ptr, i32, i32, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- DEF_HELPER_FLAGS_4(sve_index_s, TCG_CALL_NO_RWG, void, ptr, i32, i32, i32)
+     VMLAL_S_3d   1111 001 0 1 . .. .... .... 1000 . 0 . 0 .... @3diff
- DEF_HELPER_FLAGS_4(sve_index_d, TCG_CALL_NO_RWG, void, ptr, i64, i64, i32)
+     VMLAL_U_3d   1111 001 1 1 . .. .... .... 1000 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_asr_zzw_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    VQDMLAL_3d   1111 001 0 1 . .. .... .... 1001 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_asr_zzw_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_4(sve_asr_zzw_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     VMLSL_S_3d   1111 001 0 1 . .. .... .... 1010 . 0 . 0 .... @3diff
-+
+     VMLSL_U_3d   1111 001 1 1 . .. .... .... 1010 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_lsr_zzw_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsr_zzw_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    VQDMLSL_3d   1111 001 0 1 . .. .... .... 1011 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_lsr_zzw_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
-+
+     VMULL_S_3d   1111 001 0 1 . .. .... .... 1100 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_lsl_zzw_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     VMULL_U_3d   1111 001 1 1 . .. .... .... 1100 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_lsl_zzw_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_4(sve_lsl_zzw_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    VQDMULL_3d   1111 001 0 1 . .. .... .... 1101 . 0 . 0 .... @3diff
-+
+   ]
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ }
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
  DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_ZPZ(sve_neg_h, uint16_t, H1_2, DO_NEG)
+@@ -XXX,XX +XXX,XX @@ DO_VMLAL(VMLAL_S,mull_s,add)
- DO_ZPZ(sve_neg_s, uint32_t, H1_4, DO_NEG)
+ DO_VMLAL(VMLAL_U,mull_u,add)
- DO_ZPZ_D(sve_neg_d, uint64_t, DO_NEG)
+ DO_VMLAL(VMLSL_S,mull_s,sub)
+ DO_VMLAL(VMLSL_U,mull_u,sub)
-+/* Three-operand expander, unpredicated, in which the third operand is "wide".
++
-+ */
++static void gen_VQDMULL_16(TCGv_i64 rd, TCGv_i32 rn, TCGv_i32 rm)
-+#define DO_ZZW(NAME, TYPE, TYPEW, H, OP)                       \
++{
-+void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc) \
++    gen_helper_neon_mull_s16(rd, rn, rm);
-+{                                                              \
++    gen_helper_neon_addl_saturate_s32(rd, cpu_env, rd, rd);
-+    intptr_t i, opr_sz = simd_oprsz(desc);                     \
++}
-+    for (i = 0; i < opr_sz; ) {                                \
++
-+        TYPEW mm = *(TYPEW *)(vm + i);                         \
++static void gen_VQDMULL_32(TCGv_i64 rd, TCGv_i32 rn, TCGv_i32 rm)
-+        do {                                                   \
++{
-+            TYPE nn = *(TYPE *)(vn + H(i));                    \
++    gen_mull_s32(rd, rn, rm);
-+            *(TYPE *)(vd + H(i)) = OP(nn, mm);                 \
++    gen_helper_neon_addl_saturate_s64(rd, cpu_env, rd, rd);
-+            i += sizeof(TYPE);                                 \
++}
-+        } while (i & 7);                                       \
++
-+    }                                                          \
++static bool trans_VQDMULL_3d(DisasContext *s, arg_3diff *a)
-+}
++{
-+
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+DO_ZZW(sve_asr_zzw_b, int8_t, uint64_t, H1, DO_ASR)
++        NULL,
-+DO_ZZW(sve_lsr_zzw_b, uint8_t, uint64_t, H1, DO_LSR)
++        gen_VQDMULL_16,
-+DO_ZZW(sve_lsl_zzw_b, uint8_t, uint64_t, H1, DO_LSL)
++        gen_VQDMULL_32,
-+
++        NULL,
-+DO_ZZW(sve_asr_zzw_h, int16_t, uint64_t, H1_2, DO_ASR)
++    };
-+DO_ZZW(sve_lsr_zzw_h, uint16_t, uint64_t, H1_2, DO_LSR)
++
-+DO_ZZW(sve_lsl_zzw_h, uint16_t, uint64_t, H1_2, DO_LSL)
++    return do_long_3d(s, a, opfn[a->size], NULL);
-+
++}
-+DO_ZZW(sve_asr_zzw_s, int32_t, uint64_t, H1_4, DO_ASR)
++
-+DO_ZZW(sve_lsr_zzw_s, uint32_t, uint64_t, H1_4, DO_LSR)
++static void gen_VQDMLAL_acc_16(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
-+DO_ZZW(sve_lsl_zzw_s, uint32_t, uint64_t, H1_4, DO_LSL)
++{
-+
++    gen_helper_neon_addl_saturate_s32(rd, cpu_env, rn, rm);
-+#undef DO_ZZW
++}
 +
- #undef DO_CLS_B
++static void gen_VQDMLAL_acc_32(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
- #undef DO_CLS_H
++{
- #undef DO_CLZ_B
++    gen_helper_neon_addl_saturate_s64(rd, cpu_env, rn, rm);
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
++}
 +
 +static bool trans_VQDMLAL_3d(DisasContext *s, arg_3diff *a)
 +{
 +    static NeonGenTwoOpWidenFn * const opfn[] = {
 +        NULL,
 +        gen_VQDMULL_16,
 +        gen_VQDMULL_32,
 +        NULL,
 +    };
 +    static NeonGenTwo64OpFn * const accfn[] = {
 +        NULL,
 +        gen_VQDMLAL_acc_16,
 +        gen_VQDMLAL_acc_32,
 +        NULL,
 +    };
 +
 +    return do_long_3d(s, a, opfn[a->size], accfn[a->size]);
 +}
 +
 +static void gen_VQDMLSL_acc_16(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 +{
 +    gen_helper_neon_negl_u32(rm, rm);
 +    gen_helper_neon_addl_saturate_s32(rd, cpu_env, rn, rm);
 +}
 +
 +static void gen_VQDMLSL_acc_32(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 +{
 +    tcg_gen_neg_i64(rm, rm);
 +    gen_helper_neon_addl_saturate_s64(rd, cpu_env, rn, rm);
 +}
 +
 +static bool trans_VQDMLSL_3d(DisasContext *s, arg_3diff *a)
 +{
 +    static NeonGenTwoOpWidenFn * const opfn[] = {
 +        NULL,
 +        gen_VQDMULL_16,
 +        gen_VQDMULL_32,
 +        NULL,
 +    };
 +    static NeonGenTwo64OpFn * const accfn[] = {
 +        NULL,
 +        gen_VQDMLSL_acc_16,
 +        gen_VQDMLSL_acc_32,
 +        NULL,
 +    };
 +
 +    return do_long_3d(s, a, opfn[a->size], accfn[a->size]);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/translate.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool do_mov_z(DisasContext *s, int rd, int rn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-     return do_vector2_z(s, tcg_gen_gvec_mov, 0, rd, rn);
+                     {0, 0, 0, 7}, /* VSUBHN: handled by decodetree */
- }
+                     {0, 0, 0, 7}, /* VABDL */
+                     {0, 0, 0, 7}, /* VMLAL */
-+/* Initialize a Zreg with replications of a 64-bit immediate.  */
+-                    {0, 0, 0, 9}, /* VQDMLAL */
-+static void do_dupi_z(DisasContext *s, int rd, uint64_t word)
++                    {0, 0, 0, 7}, /* VQDMLAL */
-+{
+                     {0, 0, 0, 7}, /* VMLSL */
-+    unsigned vsz = vec_full_reg_size(s);
+-                    {0, 0, 0, 9}, /* VQDMLSL */
-+    tcg_gen_gvec_dup64i(vec_full_reg_offset(s, rd), vsz, vsz, word);
++                    {0, 0, 0, 7}, /* VQDMLSL */
-+}
+                     {0, 0, 0, 7}, /* Integer VMULL */
-+
+-                    {0, 0, 0, 9}, /* VQDMULL */
- /* Invoke a vector expander on two Pregs.  */
++                    {0, 0, 0, 7}, /* VQDMULL */
- static bool do_vector2_p(DisasContext *s, GVecGen2Fn *gvec_fn,
+                     {0, 0, 0, 0xa}, /* Polynomial VMULL */
-                          int esz, int rd, int rn)
+                     {0, 0, 0, 7}, /* Reserved: always UNDEF */
-@@ -XXX,XX +XXX,XX @@ DO_ZPZW(LSL, lsl)
+                 };
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- #undef DO_ZPZW
+                     }
+                     return 0;
-+/*
+                 }
-+ *** SVE Bitwise Shift - Unpredicated Group
+-
-+ */
+-                /* Avoid overlapping operands.  Wide source operands are
-+
+-                   always aligned so will never overlap with wide
-+static bool do_shift_imm(DisasContext *s, arg_rri_esz *a, bool asr,
+-                   destinations in problematic ways.  */
-+                         void (*gvec_fn)(unsigned, uint32_t, uint32_t,
+-                if (rd == rm) {
-+                                         int64_t, uint32_t, uint32_t))
+-                    tmp = neon_load_reg(rm, 1);
-+{
+-                    neon_store_scratch(2, tmp);
-+    if (a->esz < 0) {
+-                } else if (rd == rn) {
-+        /* Invalid tsz encoding -- see tszimm_esz. */
+-                    tmp = neon_load_reg(rn, 1);
-+        return false;
+-                    neon_store_scratch(2, tmp);
-+    }
+-                }
-+    if (sve_access_check(s)) {
+-                tmp3 = NULL;
-+        unsigned vsz = vec_full_reg_size(s);
+-                for (pass = 0; pass < 2; pass++) {
-+        /* Shift by element size is architecturally valid.  For
+-                    if (pass == 1 && rd == rn) {
-+           arithmetic right-shift, it's the same as by one less.
+-                        tmp = neon_load_scratch(2);
-+           Otherwise it is a zeroing operation.  */
+-                    } else {
-+        if (a->imm >= 8 << a->esz) {
+-                        tmp = neon_load_reg(rn, pass);
-+            if (asr) {
+-                    }
-+                a->imm = (8 << a->esz) - 1;
+-                    if (pass == 1 && rd == rm) {
-+            } else {
+-                        tmp2 = neon_load_scratch(2);
-+                do_dupi_z(s, a->rd, 0);
+-                    } else {
-+                return true;
+-                        tmp2 = neon_load_reg(rm, pass);
-+            }
+-                    }
-+        }
+-                    switch (op) {
-+        gvec_fn(a->esz, vec_full_reg_offset(s, a->rd),
+-                    case 9: case 11: case 13:
-+                vec_full_reg_offset(s, a->rn), a->imm, vsz, vsz);
+-                        /* VQDMLAL, VQDMLSL, VQDMULL */
-+    }
+-                        gen_neon_mull(cpu_V0, tmp, tmp2, size, u);
-+    return true;
+-                        break;
-+}
+-                    default: /* 15 is RESERVED: caught earlier  */
-+
+-                        abort();
-+static bool trans_ASR_zzi(DisasContext *s, arg_rri_esz *a, uint32_t insn)
+-                    }
-+{
+-                    if (op == 13) {
-+    return do_shift_imm(s, a, true, tcg_gen_gvec_sari);
+-                        /* VQDMULL */
-+}
+-                        gen_neon_addl_saturate(cpu_V0, cpu_V0, size);
-+
+-                        neon_store_reg64(cpu_V0, rd + pass);
-+static bool trans_LSR_zzi(DisasContext *s, arg_rri_esz *a, uint32_t insn)
+-                    } else {
-+{
+-                        /* Accumulate.  */
-+    return do_shift_imm(s, a, false, tcg_gen_gvec_shri);
+-                        neon_load_reg64(cpu_V1, rd + pass);
-+}
+-                        switch (op) {
-+
+-                        case 9: case 11: /* VQDMLAL, VQDMLSL */
-+static bool trans_LSL_zzi(DisasContext *s, arg_rri_esz *a, uint32_t insn)
+-                            gen_neon_addl_saturate(cpu_V0, cpu_V0, size);
-+{
+-                            if (op == 11) {
-+    return do_shift_imm(s, a, false, tcg_gen_gvec_shli);
+-                                gen_neon_negl(cpu_V0, size);
-+}
+-                            }
-+
+-                            gen_neon_addl_saturate(cpu_V0, cpu_V1, size);
-+static bool do_zzw_ool(DisasContext *s, arg_rrr_esz *a, gen_helper_gvec_3 *fn)
+-                            break;
-+{
+-                        default:
-+    if (fn == NULL) {
+-                            abort();
-+        return false;
+-                        }
-+    }
+-                        neon_store_reg64(cpu_V0, rd + pass);
-+    if (sve_access_check(s)) {
+-                    }
-+        unsigned vsz = vec_full_reg_size(s);
+-                }
-+        tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
++                abort(); /* all others handled by decodetree */
-+                           vec_full_reg_offset(s, a->rn),
+             } else {
-+                           vec_full_reg_offset(s, a->rm),
+                 /* Two registers and a scalar. NB that for ops of this form
-+                           vsz, vsz, 0, fn);
+                  * the ARM ARM labels bit 24 as Q, but it is in our variable
 +    }
 +    return true;
 +}
 +
 +#define DO_ZZW(NAME, name) \
 +static bool trans_##NAME##_zzw(DisasContext *s, arg_rrr_esz *a,           \
 +                               uint32_t insn)                             \
 +{                                                                         \
 +    static gen_helper_gvec_3 * const fns[4] = {                           \
 +        gen_helper_sve_##name##_zzw_b, gen_helper_sve_##name##_zzw_h,     \
 +        gen_helper_sve_##name##_zzw_s, NULL                               \
 +    };                                                                    \
 +    return do_zzw_ool(s, a, fns[a->esz]);                                 \
 +}
 +
 +DO_ZZW(ASR, asr)
 +DO_ZZW(LSR, lsr)
 +DO_ZZW(LSL, lsl)
 +
 +#undef DO_ZZW
 +
  /*
   *** SVE Integer Multiply-Add Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve.decode
 +++ b/target/arm/sve.decode
@@ -XXX,XX +XXX,XX @@
  # A combination of tsz:imm3 -- extract (tsz:imm3) - esize
  %tszimm_shl     22:2 5:5 !function=tszimm_shl
 +# Similarly for the tszh/tszl pair at 22/16 for zzi
 +%tszimm16_esz   22:2 16:5 !function=tszimm_esz
 +%tszimm16_shr   22:2 16:5 !function=tszimm_shr
 +%tszimm16_shl   22:2 16:5 !function=tszimm_shl
 +
  # Either a copy of rd (at bit 0), or a different source
  # as propagated via the MOVPRFX instruction.
  %reg_movprfx    0:5
@@ -XXX,XX +XXX,XX @@
  &rr_esz         rd rn esz
  &rri            rd rn imm
 +&rri_esz        rd rn imm esz
  &rrr_esz        rd rn rm esz
  &rpr_esz        rd pg rn esz
  &rprr_s         rd pg rn rm s
@@ -XXX,XX +XXX,XX @@
  @rdn_pg_tszimm  ........ .. ... ... ... pg:3 ..... rd:5 \
                  &rpri_esz rn=%reg_movprfx esz=%tszimm_esz
 +# Similarly without predicate.
 +@rd_rn_tszimm   ........ .. ... ... ...... rn:5 rd:5 \
 +                &rri_esz esz=%tszimm16_esz
 +
  # Basic Load/Store with 9-bit immediate offset
  @pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
                  &rri imm=%imm9_16_10
@@ -XXX,XX +XXX,XX @@ ADDPL           00000100 011 ..... 01010 ...... .....           @rd_rn_i6
  # SVE stack frame size
  RDVL            00000100 101 11111 01010 imm:s6 rd:5
 +### SVE Bitwise Shift - Unpredicated Group
 +
 +# SVE bitwise shift by immediate (unpredicated)
 +ASR_zzi         00000100 .. 1 ..... 1001 00 ..... ..... \
 +                @rd_rn_tszimm imm=%tszimm16_shr
 +LSR_zzi         00000100 .. 1 ..... 1001 01 ..... ..... \
 +                @rd_rn_tszimm imm=%tszimm16_shr
 +LSL_zzi         00000100 .. 1 ..... 1001 11 ..... ..... \
 +                @rd_rn_tszimm imm=%tszimm16_shl
 +
 +# SVE bitwise shift by wide elements (unpredicated)
 +# Note esz != 3
 +ASR_zzw         00000100 .. 1 ..... 1000 00 ..... .....         @rd_rn_rm
 +LSR_zzw         00000100 .. 1 ..... 1000 01 ..... .....         @rd_rn_rm
 +LSL_zzw         00000100 .. 1 ..... 1000 11 ..... .....         @rd_rn_rm
 +
  ### SVE Predicate Logical Operations Group
  # SVE predicate logical operations
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 32/32] target/arm: Implement SVE Permute - Extract Group
+[PULL 07/23] target/arm: Convert Neon 3-reg-diff polynomial VMULL
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon 3-reg-diff insn polynomial VMULL. This is the last
 insn in this group to be converted.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-26-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    |  2 +
+ target/arm/neon-dp.decode       |  2 ++
- target/arm/sve_helper.c    | 81 ++++++++++++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 43 +++++++++++++++++++++++
- target/arm/translate-sve.c | 34 ++++++++++++++++
+ target/arm/translate.c          | 60 ++-------------------------------
- target/arm/sve.decode      |  7 ++++
+files changed, 48 insertions(+), 57 deletions(-)
 files changed, 124 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_cpy_z_h, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- DEF_HELPER_FLAGS_4(sve_cpy_z_s, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+     VMULL_U_3d   1111 001 1 1 . .. .... .... 1100 . 0 . 0 .... @3diff
- DEF_HELPER_FLAGS_4(sve_cpy_z_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+     VQDMULL_3d   1111 001 0 1 . .. .... .... 1101 . 0 . 0 .... @3diff
 +DEF_HELPER_FLAGS_4(sve_ext, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    VMULL_P_3d   1111 001 0 1 . .. .... .... 1110 . 0 . 0 .... @3diff
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+   ]
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ }
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_cpy_z_d)(void *vd, void *vg, uint64_t val, uint32_t desc)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VQDMLSL_3d(DisasContext *s, arg_3diff *a)
-         d[i] = (pg[H1(i)] & 1 ? val : 0);
-     }
+     return do_long_3d(s, a, opfn[a->size], accfn[a->size]);
  }
 +
-+/* Big-endian hosts need to frob the byte indicies.  If the copy
++static bool trans_VMULL_P_3d(DisasContext *s, arg_3diff *a)
 + * happens to be 8-byte aligned, then no frobbing necessary.
 + */
 +static void swap_memmove(void *vd, void *vs, size_t n)
 +{
-+    uintptr_t d = (uintptr_t)vd;
++    gen_helper_gvec_3 *fn_gvec;
 +    uintptr_t s = (uintptr_t)vs;
 +    uintptr_t o = (d | s | n) & 7;
 +    size_t i;
 +
-+#ifndef HOST_WORDS_BIGENDIAN
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-+    o = 0;
++        return false;
-+#endif
++    }
-+    switch (o) {
++
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if (a->vd & 1) {
 +        return false;
 +    }
 +
 +    switch (a->size) {
 +    case 0:
-+        memmove(vd, vs, n);
++        fn_gvec = gen_helper_neon_pmull_h;
 +        break;
++    case 2:
++        if (!dc_isar_feature(aa32_pmull, s)) {
++            return false;
++        }
++        fn_gvec = gen_helper_gvec_pmull_q;
++        break;
++    default:
++        return false;
++    }
 +
-+    case 4:
++    if (!vfp_access_check(s)) {
 +        if (d < s || d >= s + n) {
 +            for (i = 0; i < n; i += 4) {
 +                *(uint32_t *)H1_4(d + i) = *(uint32_t *)H1_4(s + i);
 +            }
 +        } else {
 +            for (i = n; i > 0; ) {
 +                i -= 4;
 +                *(uint32_t *)H1_4(d + i) = *(uint32_t *)H1_4(s + i);
 +            }
 +        }
 +        break;
 +
 +    case 2:
 +    case 6:
 +        if (d < s || d >= s + n) {
 +            for (i = 0; i < n; i += 2) {
 +                *(uint16_t *)H1_2(d + i) = *(uint16_t *)H1_2(s + i);
 +            }
 +        } else {
 +            for (i = n; i > 0; ) {
 +                i -= 2;
 +                *(uint16_t *)H1_2(d + i) = *(uint16_t *)H1_2(s + i);
 +            }
 +        }
 +        break;
 +
 +    default:
 +        if (d < s || d >= s + n) {
 +            for (i = 0; i < n; i++) {
 +                *(uint8_t *)H1(d + i) = *(uint8_t *)H1(s + i);
 +            }
 +        } else {
 +            for (i = n; i > 0; ) {
 +                i -= 1;
 +                *(uint8_t *)H1(d + i) = *(uint8_t *)H1(s + i);
 +            }
 +        }
 +        break;
 +    }
 +}
 +
 +void HELPER(sve_ext)(void *vd, void *vn, void *vm, uint32_t desc)
 +{
 +    intptr_t opr_sz = simd_oprsz(desc);
 +    size_t n_ofs = simd_data(desc);
 +    size_t n_siz = opr_sz - n_ofs;
 +
 +    if (vd != vm) {
 +        swap_memmove(vd, vn + n_ofs, n_siz);
 +        swap_memmove(vd + n_siz, vm, n_ofs);
 +    } else if (vd != vn) {
 +        swap_memmove(vd + n_siz, vd, n_ofs);
 +        swap_memmove(vd, vn + n_ofs, n_siz);
 +    } else {
 +        /* vd == vn == vm.  Need temp space.  */
 +        ARMVectorReg tmp;
 +        swap_memmove(&tmp, vm, n_ofs);
 +        swap_memmove(vd, vd + n_ofs, n_siz);
 +        memcpy(vd + n_siz, &tmp, n_ofs);
 +    }
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_CPY_z_i(DisasContext *s, arg_CPY_z_i *a, uint32_t insn)
      return true;
  }
 +/*
 + *** SVE Permute Extract Group
 + */
 +
 +static bool trans_EXT(DisasContext *s, arg_EXT *a, uint32_t insn)
 +{
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
-+    unsigned vsz = vec_full_reg_size(s);
++    tcg_gen_gvec_3_ool(neon_reg_offset(a->vd, 0),
-+    unsigned n_ofs = a->imm >= vsz ? 0 : a->imm;
++                       neon_reg_offset(a->vn, 0),
-+    unsigned n_siz = vsz - n_ofs;
++                       neon_reg_offset(a->vm, 0),
-+    unsigned d = vec_full_reg_offset(s, a->rd);
++                       16, 16, 0, fn_gvec);
 +    unsigned n = vec_full_reg_offset(s, a->rn);
 +    unsigned m = vec_full_reg_offset(s, a->rm);
 +
 +    /* Use host vector move insns if we have appropriate sizes
 +     * and no unfortunate overlap.
 +     */
 +    if (m != d
 +        && n_ofs == size_for_gvec(n_ofs)
 +        && n_siz == size_for_gvec(n_siz)
 +        && (d != n || n_siz <= n_ofs)) {
 +        tcg_gen_gvec_mov(0, d, n + n_ofs, n_siz, n_siz);
 +        if (n_ofs != 0) {
 +            tcg_gen_gvec_mov(0, d + n_siz, m, n_ofs, n_ofs);
 +        }
 +    } else {
 +        tcg_gen_gvec_3_ool(d, n, m, vsz, vsz, n_ofs, gen_helper_sve_ext);
 +    }
 +    return true;
 +}
-+
+diff --git a/target/arm/translate.c b/target/arm/translate.c
  /*
   *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+ {
- %imm4_16_p1     16:4 !function=plus1
+     int op;
- %imm6_22_5      22:1 5:5
+     int q;
-+%imm8_16_10     16:5 10:3
+-    int rd, rn, rm, rd_ofs, rn_ofs, rm_ofs;
- %imm9_16_10     16:s6 10:3
++    int rd, rn, rm, rd_ofs, rm_ofs;
+     int size;
- # A combination of tsz:imm3 -- extract esize.
+     int pass;
-@@ -XXX,XX +XXX,XX @@ FCPY            00000101 .. 01 .... 110 imm:8 .....             @rdn_pg4
+     int u;
- CPY_m_i         00000101 .. 01 .... 01 . ........ .....   @rdn_pg4 imm=%sh8_i8s
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- CPY_z_i         00000101 .. 01 .... 00 . ........ .....   @rdn_pg4 imm=%sh8_i8s
+     size = (insn >> 20) & 3;
+     vec_size = q ? 16 : 8;
-+### SVE Permute - Extract Group
+     rd_ofs = neon_reg_offset(rd, 0);
-+
+-    rn_ofs = neon_reg_offset(rn, 0);
-+# SVE extract vector (immediate offset)
+     rm_ofs = neon_reg_offset(rm, 0);
-+EXT             00000101 001 ..... 000 ... rm:5 rd:5 \
-+                &rrri rn=%reg_movprfx imm=%imm8_16_10
+     if ((insn & (1 << 23)) == 0) {
-+
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- ### SVE Predicate Logical Operations Group
+         if (size != 3) {
+             op = (insn >> 8) & 0xf;
- # SVE predicate logical operations
+             if ((insn & (1 << 6)) == 0) {
 -                /* Three registers of different lengths.  */
 -                /* undefreq: bit 0 : UNDEF if size == 0
 -                 *           bit 1 : UNDEF if size == 1
 -                 *           bit 2 : UNDEF if size == 2
 -                 *           bit 3 : UNDEF if U == 1
 -                 * Note that [2:0] set implies 'always UNDEF'
 -                 */
 -                int undefreq;
 -                /* prewiden, src1_wide, src2_wide, undefreq */
 -                static const int neon_3reg_wide[16][4] = {
 -                    {0, 0, 0, 7}, /* VADDL: handled by decodetree */
 -                    {0, 0, 0, 7}, /* VADDW: handled by decodetree */
 -                    {0, 0, 0, 7}, /* VSUBL: handled by decodetree */
 -                    {0, 0, 0, 7}, /* VSUBW: handled by decodetree */
 -                    {0, 0, 0, 7}, /* VADDHN: handled by decodetree */
 -                    {0, 0, 0, 7}, /* VABAL */
 -                    {0, 0, 0, 7}, /* VSUBHN: handled by decodetree */
 -                    {0, 0, 0, 7}, /* VABDL */
 -                    {0, 0, 0, 7}, /* VMLAL */
 -                    {0, 0, 0, 7}, /* VQDMLAL */
 -                    {0, 0, 0, 7}, /* VMLSL */
 -                    {0, 0, 0, 7}, /* VQDMLSL */
 -                    {0, 0, 0, 7}, /* Integer VMULL */
 -                    {0, 0, 0, 7}, /* VQDMULL */
 -                    {0, 0, 0, 0xa}, /* Polynomial VMULL */
 -                    {0, 0, 0, 7}, /* Reserved: always UNDEF */
 -                };
 -
 -                undefreq = neon_3reg_wide[op][3];
 -
 -                if ((undefreq & (1 << size)) ||
 -                    ((undefreq & 8) && u)) {
 -                    return 1;
 -                }
 -                if (rd & 1) {
 -                    return 1;
 -                }
 -
 -                /* Handle polynomial VMULL in a single pass.  */
 -                if (op == 14) {
 -                    if (size == 0) {
 -                        /* VMULL.P8 */
 -                        tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, 16, 16,
 -                                           0, gen_helper_neon_pmull_h);
 -                    } else {
 -                        /* VMULL.P64 */
 -                        if (!dc_isar_feature(aa32_pmull, s)) {
 -                            return 1;
 -                        }
 -                        tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, 16, 16,
 -                                           0, gen_helper_gvec_pmull_q);
 -                    }
 -                    return 0;
 -                }
 -                abort(); /* all others handled by decodetree */
 +                /* Three registers of different lengths: handled by decodetree */
 +                return 1;
              } else {
                  /* Two registers and a scalar. NB that for ops of this form
                   * the ARM ARM labels bit 24 as Q, but it is in our variable
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 07/32] hw/arm/smmu-common: Fix coverity issue in get_block_pte_address
+[PULL 08/23] target/arm: Add 'static' and 'const' annotations to VSHLL function arrays
-From: Eric Auger <eric.auger@redhat.com>
+Mark the arrays of function pointers in trans_VSHLL_S_2sh() and
 trans_VSHLL_U_2sh() as both 'static' and 'const'.
-Coverity points out that this can overflow if n > 31,
-because it's only doing 32-bit arithmetic. Let's use 1ULL instead
-of 1. Also the formulae used to compute n can be replaced by
-the level_shift() macro.
-Reported-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Eric Auger <eric.auger@redhat.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 1526493784-25328-3-git-send-email-eric.auger@redhat.com
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- hw/arm/smmu-common.c | 4 ++--
+ target/arm/translate-neon.inc.c | 4 ++--
 file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/smmu-common.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/hw/arm/smmu-common.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline hwaddr get_table_pte_address(uint64_t pte, int granule_sz)
+@@ -XXX,XX +XXX,XX @@ static bool do_vshll_2sh(DisasContext *s, arg_2reg_shift *a,
- static inline hwaddr get_block_pte_address(uint64_t pte, int level,
-                                            int granule_sz, uint64_t *bsz)
+ static bool trans_VSHLL_S_2sh(DisasContext *s, arg_2reg_shift *a)
  {
--    int n = (granule_sz - 3) * (4 - level) + 3;
+-    NeonGenWidenFn *widenfn[] = {
-+    int n = level_shift(level, granule_sz);
++    static NeonGenWidenFn * const widenfn[] = {
+         gen_helper_neon_widen_s8,
--    *bsz = 1 << n;
+         gen_helper_neon_widen_s16,
-+    *bsz = 1ULL << n;
+         tcg_gen_ext_i32_i64,
-     return PTE_ADDRESS(pte, n);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VSHLL_S_2sh(DisasContext *s, arg_2reg_shift *a)
- }
+ static bool trans_VSHLL_U_2sh(DisasContext *s, arg_2reg_shift *a)
  {
 -    NeonGenWidenFn *widenfn[] = {
 +    static NeonGenWidenFn * const widenfn[] = {
          gen_helper_neon_widen_u8,
          gen_helper_neon_widen_u16,
          tcg_gen_extu_i32_i64,
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 24/32] target/arm: Implement SVE Stack Allocation Group
+[PULL 09/23] target/arm: Add missing TCG temp free in do_2shift_env_64()
-From: Richard Henderson <richard.henderson@linaro.org>
+In commit 37bfce81b10450071 we accidentally introduced a leak of a TCG
 temporary in do_2shift_env_64(); free it.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-18-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/translate-sve.c | 27 +++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 1 +
- target/arm/sve.decode      | 12 ++++++++++++
+file changed, 1 insertion(+)
 files changed, 39 insertions(+)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_INDEX_rr(DisasContext *s, arg_INDEX_rr *a, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static bool do_2shift_env_64(DisasContext *s, arg_2reg_shift *a,
          neon_load_reg64(tmp, a->vm + pass);
          fn(tmp, cpu_env, tmp, constimm);
          neon_store_reg64(tmp, a->vd + pass);
 +        tcg_temp_free_i64(tmp);
      }
      tcg_temp_free_i64(constimm);
      return true;
- }
-+/*
-+ *** SVE Stack Allocation Group
-+ */
-+
-+static bool trans_ADDVL(DisasContext *s, arg_ADDVL *a, uint32_t insn)
-+{
-+    TCGv_i64 rd = cpu_reg_sp(s, a->rd);
-+    TCGv_i64 rn = cpu_reg_sp(s, a->rn);
-+    tcg_gen_addi_i64(rd, rn, a->imm * vec_full_reg_size(s));
-+    return true;
-+}
-+
-+static bool trans_ADDPL(DisasContext *s, arg_ADDPL *a, uint32_t insn)
-+{
-+    TCGv_i64 rd = cpu_reg_sp(s, a->rd);
-+    TCGv_i64 rn = cpu_reg_sp(s, a->rn);
-+    tcg_gen_addi_i64(rd, rn, a->imm * pred_full_reg_size(s));
-+    return true;
-+}
-+
-+static bool trans_RDVL(DisasContext *s, arg_RDVL *a, uint32_t insn)
-+{
-+    TCGv_i64 reg = cpu_reg(s, a->rd);
-+    tcg_gen_movi_i64(reg, a->imm * vec_full_reg_size(s));
-+    return true;
-+}
-+
- /*
-  *** SVE Predicate Logical Operations Group
-  */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@
- # One register operand, with governing predicate, vector element size
- @rd_pg_rn       ........ esz:2 ... ... ... pg:3 rn:5 rd:5       &rpr_esz
-+# Two register operands with a 6-bit signed immediate.
-+@rd_rn_i6       ........ ... rn:5 ..... imm:s6 rd:5             &rri
-+
- # Two register operand, one immediate operand, with predicate,
- # element size encoded as TSZHL.  User must fill in imm.
- @rdn_pg_tszimm  ........ .. ... ... ... pg:3 ..... rd:5 \
-@@ -XXX,XX +XXX,XX @@ INDEX_ri        00000100 esz:2 1 imm:s5 010001 rn:5 rd:5
- # SVE index generation (register start, register increment)
- INDEX_rr        00000100 .. 1 ..... 010011 ..... .....          @rd_rn_rm
-+### SVE Stack Allocation Group
-+
-+# SVE stack frame adjustment
-+ADDVL           00000100 001 ..... 01010 ...... .....           @rd_rn_i6
-+ADDPL           00000100 011 ..... 01010 ...... .....           @rd_rn_i6
-+
-+# SVE stack frame size
-+RDVL            00000100 101 11111 01010 imm:s6 rd:5
-+
- ### SVE Predicate Logical Operations Group
- # SVE predicate logical operations
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 28/32] target/arm: Implement SVE floating-point trig select coefficient
+[PULL 10/23] target/arm: Convert Neon 2-reg-scalar integer multiplies to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the VMLA, VMLS and VMUL insns in the Neon "2 registers and a
+scalar" group to decodetree.  These are 32x32->32 operations where
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+one of the inputs is the scalar, followed by a possible accumulate
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+operation of the 32-bit result.
-Message-id: 20180516223007.10256-22-richard.henderson@linaro.org
 The refactoring removes some of the oddities of the old decoder:
  * operands to the operation and accumulation were often
    reversed (taking advantage of the fact that most of these ops
    are commutative); the new code follows the pseudocode order
  * the Q bit in the insn was in a local variable 'u'; in the
    new code it is decoded into a->q
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    |  4 ++++
+ target/arm/neon-dp.decode       |  15 ++++
- target/arm/sve_helper.c    | 43 ++++++++++++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 133 ++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 21 +++++++++++++++++++
+ target/arm/translate.c          |  77 ++----------------
- target/arm/sve.decode      |  4 ++++
+files changed, 154 insertions(+), 71 deletions(-)
-files changed, 72 insertions(+)
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(sve_fexpa_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- DEF_HELPER_FLAGS_3(sve_fexpa_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+     VQDMULL_3d   1111 001 0 1 . .. .... .... 1101 . 0 . 0 .... @3diff
- DEF_HELPER_FLAGS_3(sve_fexpa_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+     VMULL_P_3d   1111 001 0 1 . .. .... .... 1110 . 0 . 0 .... @3diff
-+DEF_HELPER_FLAGS_4(sve_ftssel_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_4(sve_ftssel_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    ##################################################################
-+DEF_HELPER_FLAGS_4(sve_ftssel_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    # 2-regs-plus-scalar grouping:
-+
++    # 1111 001 Q 1 D sz!=11 Vn:4 Vd:4 opc:4 N 1 M 0 Vm:4
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    ##################################################################
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    &2scalar vm vn vd size q
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
++    @2scalar     .... ... q:1 . . size:2 .... .... .... . . . . .... \
 +                 &2scalar vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +
 +    VMLA_2sc     1111 001 . 1 . .. .... .... 0000 . 1 . 0 .... @2scalar
 +
 +    VMLS_2sc     1111 001 . 1 . .. .... .... 0100 . 1 . 0 .... @2scalar
 +
 +    VMUL_2sc     1111 001 . 1 . .. .... .... 1000 . 1 . 0 .... @2scalar
    ]
  }
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMULL_P_3d(DisasContext *s, arg_3diff *a)
- #include "exec/cpu_ldst.h"
+, 16, 0, fn_gvec);
  #include "exec/helper-proto.h"
  #include "tcg/tcg-gvec-desc.h"
 +#include "fpu/softfloat.h"
  /* Note that vector data is stored in host-endian 64-bit chunks,
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fexpa_d)(void *vd, void *vn, uint32_t desc)
          d[i] = coeff[idx] | (exp << 52);
      }
  }
 +
 +void HELPER(sve_ftssel_h)(void *vd, void *vn, void *vm, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 2;
 +    uint16_t *d = vd, *n = vn, *m = vm;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint16_t nn = n[i];
 +        uint16_t mm = m[i];
 +        if (mm & 1) {
 +            nn = float16_one;
 +        }
 +        d[i] = nn ^ (mm & 2) << 14;
 +    }
 +}
 +
 +void HELPER(sve_ftssel_s)(void *vd, void *vn, void *vm, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 4;
 +    uint32_t *d = vd, *n = vn, *m = vm;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint32_t nn = n[i];
 +        uint32_t mm = m[i];
 +        if (mm & 1) {
 +            nn = float32_one;
 +        }
 +        d[i] = nn ^ (mm & 2) << 30;
 +    }
 +}
 +
 +void HELPER(sve_ftssel_d)(void *vd, void *vn, void *vm, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd, *n = vn, *m = vm;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint64_t nn = n[i];
 +        uint64_t mm = m[i];
 +        if (mm & 1) {
 +            nn = float64_one;
 +        }
 +        d[i] = nn ^ (mm & 2) << 62;
 +    }
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_FEXPA(DisasContext *s, arg_rr_esz *a, uint32_t insn)
      return true;
  }
++
-+static bool trans_FTSSEL(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
++static void gen_neon_dup_low16(TCGv_i32 var)
 +{
-+    static gen_helper_gvec_3 * const fns[4] = {
++    TCGv_i32 tmp = tcg_temp_new_i32();
-+        NULL,
++    tcg_gen_ext16u_i32(var, var);
-+        gen_helper_sve_ftssel_h,
++    tcg_gen_shli_i32(tmp, var, 16);
-+        gen_helper_sve_ftssel_s,
++    tcg_gen_or_i32(var, var, tmp);
-+        gen_helper_sve_ftssel_d,
++    tcg_temp_free_i32(tmp);
-+    };
++}
-+    if (a->esz == 0) {
++
 +static void gen_neon_dup_high16(TCGv_i32 var)
 +{
 +    TCGv_i32 tmp = tcg_temp_new_i32();
 +    tcg_gen_andi_i32(var, var, 0xffff0000);
 +    tcg_gen_shri_i32(tmp, var, 16);
 +    tcg_gen_or_i32(var, var, tmp);
 +    tcg_temp_free_i32(tmp);
 +}
 +
 +static inline TCGv_i32 neon_get_scalar(int size, int reg)
 +{
 +    TCGv_i32 tmp;
 +    if (size == 1) {
 +        tmp = neon_load_reg(reg & 7, reg >> 4);
 +        if (reg & 8) {
 +            gen_neon_dup_high16(tmp);
 +        } else {
 +            gen_neon_dup_low16(tmp);
 +        }
 +    } else {
 +        tmp = neon_load_reg(reg & 15, reg >> 4);
 +    }
 +    return tmp;
 +}
 +
 +static bool do_2scalar(DisasContext *s, arg_2scalar *a,
 +                       NeonGenTwoOpFn *opfn, NeonGenTwoOpFn *accfn)
 +{
 +    /*
 +     * Two registers and a scalar: perform an operation between
 +     * the input elements and the scalar, and then possibly
 +     * perform an accumulation operation of that result into the
 +     * destination.
 +     */
 +    TCGv_i32 scalar;
 +    int pass;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
 +    }
-+    if (sve_access_check(s)) {
++
-+        unsigned vsz = vec_full_reg_size(s);
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+        tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
-+                           vec_full_reg_offset(s, a->rn),
++        ((a->vd | a->vn | a->vm) & 0x10)) {
-+                           vec_full_reg_offset(s, a->rm),
++        return false;
-+                           vsz, vsz, 0, fns[a->esz]);
++    }
-+    }
++
 +    if (!opfn) {
 +        /* Bad size (including size == 3, which is a different insn group) */
 +        return false;
 +    }
 +
 +    if (a->q && ((a->vd | a->vn) & 1)) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    scalar = neon_get_scalar(a->size, a->vm);
 +
 +    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 +        TCGv_i32 tmp = neon_load_reg(a->vn, pass);
 +        opfn(tmp, tmp, scalar);
 +        if (accfn) {
 +            TCGv_i32 rd = neon_load_reg(a->vd, pass);
 +            accfn(tmp, rd, tmp);
 +            tcg_temp_free_i32(rd);
 +        }
 +        neon_store_reg(a->vd, pass, tmp);
 +    }
 +    tcg_temp_free_i32(scalar);
 +    return true;
 +}
 +
- /*
++static bool trans_VMUL_2sc(DisasContext *s, arg_2scalar *a)
-  *** SVE Predicate Logical Operations Group
++{
-  */
++    static NeonGenTwoOpFn * const opfn[] = {
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
++        NULL,
 +        gen_helper_neon_mul_u16,
 +        tcg_gen_mul_i32,
 +        NULL,
 +    };
 +
 +    return do_2scalar(s, a, opfn[a->size], NULL);
 +}
 +
 +static bool trans_VMLA_2sc(DisasContext *s, arg_2scalar *a)
 +{
 +    static NeonGenTwoOpFn * const opfn[] = {
 +        NULL,
 +        gen_helper_neon_mul_u16,
 +        tcg_gen_mul_i32,
 +        NULL,
 +    };
 +    static NeonGenTwoOpFn * const accfn[] = {
 +        NULL,
 +        gen_helper_neon_add_u16,
 +        tcg_gen_add_i32,
 +        NULL,
 +    };
 +
 +    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 +}
 +
 +static bool trans_VMLS_2sc(DisasContext *s, arg_2scalar *a)
 +{
 +    static NeonGenTwoOpFn * const opfn[] = {
 +        NULL,
 +        gen_helper_neon_mul_u16,
 +        tcg_gen_mul_i32,
 +        NULL,
 +    };
 +    static NeonGenTwoOpFn * const accfn[] = {
 +        NULL,
 +        gen_helper_neon_sub_u16,
 +        tcg_gen_sub_i32,
 +        NULL,
 +    };
 +
 +    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ ADR_p64         00000100 11 1 ..... 1010 .. ..... .....         @rd_rn_msz_rm
+@@ -XXX,XX +XXX,XX @@ static int disas_dsp_insn(DisasContext *s, uint32_t insn)
- # Note esz != 0
+ #define VFP_DREG_N(reg, insn) VFP_DREG(reg, insn, 16,  7)
- FEXPA           00000100 .. 1 00000 101110 ..... .....          @rd_rn
+ #define VFP_DREG_M(reg, insn) VFP_DREG(reg, insn,  0,  5)
-+# SVE floating-point trig select coefficient
+-static void gen_neon_dup_low16(TCGv_i32 var)
-+# Note esz != 0
+-{
-+FTSSEL          00000100 .. 1 ..... 101100 ..... .....          @rd_rn_rm
+-    TCGv_i32 tmp = tcg_temp_new_i32();
-+
+-    tcg_gen_ext16u_i32(var, var);
- ### SVE Predicate Logical Operations Group
+-    tcg_gen_shli_i32(tmp, var, 16);
+-    tcg_gen_or_i32(var, var, tmp);
- # SVE predicate logical operations
+-    tcg_temp_free_i32(tmp);
 -}
 -
 -static void gen_neon_dup_high16(TCGv_i32 var)
 -{
 -    TCGv_i32 tmp = tcg_temp_new_i32();
 -    tcg_gen_andi_i32(var, var, 0xffff0000);
 -    tcg_gen_shri_i32(tmp, var, 16);
 -    tcg_gen_or_i32(var, var, tmp);
 -    tcg_temp_free_i32(tmp);
 -}
 -
  static inline bool use_goto_tb(DisasContext *s, target_ulong dest)
  {
  #ifndef CONFIG_USER_ONLY
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
  #define CPU_V001 cpu_V0, cpu_V0, cpu_V1
 -static inline void gen_neon_add(int size, TCGv_i32 t0, TCGv_i32 t1)
 -{
 -    switch (size) {
 -    case 0: gen_helper_neon_add_u8(t0, t0, t1); break;
 -    case 1: gen_helper_neon_add_u16(t0, t0, t1); break;
 -    case 2: tcg_gen_add_i32(t0, t0, t1); break;
 -    default: abort();
 -    }
 -}
 -
 -static inline void gen_neon_rsb(int size, TCGv_i32 t0, TCGv_i32 t1)
 -{
 -    switch (size) {
 -    case 0: gen_helper_neon_sub_u8(t0, t1, t0); break;
 -    case 1: gen_helper_neon_sub_u16(t0, t1, t0); break;
 -    case 2: tcg_gen_sub_i32(t0, t1, t0); break;
 -    default: return;
 -    }
 -}
 -
  static TCGv_i32 neon_load_scratch(int scratch)
  {
      TCGv_i32 tmp = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static void neon_store_scratch(int scratch, TCGv_i32 var)
      tcg_temp_free_i32(var);
  }
 -static inline TCGv_i32 neon_get_scalar(int size, int reg)
 -{
 -    TCGv_i32 tmp;
 -    if (size == 1) {
 -        tmp = neon_load_reg(reg & 7, reg >> 4);
 -        if (reg & 8) {
 -            gen_neon_dup_high16(tmp);
 -        } else {
 -            gen_neon_dup_low16(tmp);
 -        }
 -    } else {
 -        tmp = neon_load_reg(reg & 15, reg >> 4);
 -    }
 -    return tmp;
 -}
 -
  static int gen_neon_unzip(int rd, int rm, int size, int q)
  {
      TCGv_ptr pd, pm;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      return 1;
                  }
                  switch (op) {
 +                case 0: /* Integer VMLA scalar */
 +                case 4: /* Integer VMLS scalar */
 +                case 8: /* Integer VMUL scalar */
 +                    return 1; /* handled by decodetree */
 +
                  case 1: /* Float VMLA scalar */
                  case 5: /* Floating point VMLS scalar */
                  case 9: /* Floating point VMUL scalar */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          return 1;
                      }
                      /* fall through */
 -                case 0: /* Integer VMLA scalar */
 -                case 4: /* Integer VMLS scalar */
 -                case 8: /* Integer VMUL scalar */
                  case 12: /* VQDMULH scalar */
                  case 13: /* VQRDMULH scalar */
                      if (u && ((rd | rn) & 1)) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              } else {
                                  gen_helper_neon_qrdmulh_s32(tmp, cpu_env, tmp, tmp2);
                              }
 -                        } else if (op & 1) {
 +                        } else {
                              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
                              gen_helper_vfp_muls(tmp, tmp, tmp2, fpstatus);
                              tcg_temp_free_ptr(fpstatus);
 -                        } else {
 -                            switch (size) {
 -                            case 0: gen_helper_neon_mul_u8(tmp, tmp, tmp2); break;
 -                            case 1: gen_helper_neon_mul_u16(tmp, tmp, tmp2); break;
 -                            case 2: tcg_gen_mul_i32(tmp, tmp, tmp2); break;
 -                            default: abort();
 -                            }
                          }
                          tcg_temp_free_i32(tmp2);
                          if (op < 8) {
                              /* Accumulate.  */
                              tmp2 = neon_load_reg(rd, pass);
                              switch (op) {
 -                            case 0:
 -                                gen_neon_add(size, tmp, tmp2);
 -                                break;
                              case 1:
                              {
                                  TCGv_ptr fpstatus = get_fpstatus_ptr(1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                  tcg_temp_free_ptr(fpstatus);
                                  break;
                              }
 -                            case 4:
 -                                gen_neon_rsb(size, tmp, tmp2);
 -                                break;
                              case 5:
                              {
                                  TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 11/32] target/arm: Implement SVE load vector/predicate
+[PULL 11/23] target/arm: Convert Neon 2-reg-scalar float multiplies to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the float versions of VMLA, VMLS and VMUL in the Neon
 -reg-scalar group to decodetree.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-sve.c | 127 +++++++++++++++++++++++++++++++++++++
+As noted in the comment on the WRAP_FP_FN macro, we could have
- target/arm/sve.decode      |  20 ++++++
+had a do_2scalar_fp() function, but for 3 insns it seemed
-files changed, 147 insertions(+)
+simpler to just do the wrapping to get hold of the fpstatus ptr.
 (These are the only fp insns in the group.)
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  target/arm/neon-dp.decode       |  3 ++
  target/arm/translate-neon.inc.c | 65 +++++++++++++++++++++++++++++++++
  target/arm/translate.c          | 37 ++-----------------
 files changed, 71 insertions(+), 34 deletions(-)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
-  * Implement all of the translator functions referenced by the decoder.
+                  &2scalar vm=%vm_dp vn=%vn_dp vd=%vd_dp
-  */
+     VMLA_2sc     1111 001 . 1 . .. .... .... 0000 . 1 . 0 .... @2scalar
-+/* Return the offset info CPUARMState of the predicate vector register Pn.
++    VMLA_F_2sc   1111 001 . 1 . .. .... .... 0001 . 1 . 0 .... @2scalar
-+ * Note for this purpose, FFR is P16.
-+ */
+     VMLS_2sc     1111 001 . 1 . .. .... .... 0100 . 1 . 0 .... @2scalar
-+static inline int pred_full_reg_offset(DisasContext *s, int regno)
++    VMLS_F_2sc   1111 001 . 1 . .. .... .... 0101 . 1 . 0 .... @2scalar
-+{
-+    return offsetof(CPUARMState, vfp.pregs[regno]);
+     VMUL_2sc     1111 001 . 1 . .. .... .... 1000 . 1 . 0 .... @2scalar
-+}
++    VMUL_F_2sc   1111 001 . 1 . .. .... .... 1001 . 1 . 0 .... @2scalar
-+
+   ]
-+/* Return the byte size of the whole predicate register, VL / 64.  */
+ }
-+static inline int pred_full_reg_size(DisasContext *s)
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-+{
+index XXXXXXX..XXXXXXX 100644
-+    return s->sve_len >> 3;
+--- a/target/arm/translate-neon.inc.c
-+}
++++ b/target/arm/translate-neon.inc.c
-+
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMLS_2sc(DisasContext *s, arg_2scalar *a)
- /* Invoke a vector expander on two Zregs.  */
- static bool do_vector2_z(DisasContext *s, GVecGen2Fn *gvec_fn,
+     return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
                           int esz, int rd, int rn)
@@ -XXX,XX +XXX,XX @@ static bool trans_BIC_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
  {
      return do_vector3_z(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
  }
 +
 +/*
-+ *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
++ * Rather than have a float-specific version of do_2scalar just for
 + * three insns, we wrap a NeonGenTwoSingleOpFn to turn it into
 + * a NeonGenTwoOpFn.
 + */
-+
++#define WRAP_FP_FN(WRAPNAME, FUNC)                              \
-+/* Subroutine loading a vector register at VOFS of LEN bytes.
++    static void WRAPNAME(TCGv_i32 rd, TCGv_i32 rn, TCGv_i32 rm) \
-+ * The load should begin at the address Rn + IMM.
++    {                                                           \
-+ */
++        TCGv_ptr fpstatus = get_fpstatus_ptr(1);                \
-+
++        FUNC(rd, rn, rm, fpstatus);                             \
-+static void do_ldr(DisasContext *s, uint32_t vofs, uint32_t len,
++        tcg_temp_free_ptr(fpstatus);                            \
 +                   int rn, int imm)
 +{
 +    uint32_t len_align = QEMU_ALIGN_DOWN(len, 8);
 +    uint32_t len_remain = len % 8;
 +    uint32_t nparts = len / 8 + ctpop8(len_remain);
 +    int midx = get_mem_index(s);
 +    TCGv_i64 addr, t0, t1;
 +
 +    addr = tcg_temp_new_i64();
 +    t0 = tcg_temp_new_i64();
 +
 +    /* Note that unpredicated load/store of vector/predicate registers
 +     * are defined as a stream of bytes, which equates to little-endian
 +     * operations on larger quantities.  There is no nice way to force
 +     * a little-endian load for aarch64_be-linux-user out of line.
 +     *
 +     * Attempt to keep code expansion to a minimum by limiting the
 +     * amount of unrolling done.
 +     */
 +    if (nparts <= 4) {
 +        int i;
 +
 +        for (i = 0; i < len_align; i += 8) {
 +            tcg_gen_addi_i64(addr, cpu_reg_sp(s, rn), imm + i);
 +            tcg_gen_qemu_ld_i64(t0, addr, midx, MO_LEQ);
 +            tcg_gen_st_i64(t0, cpu_env, vofs + i);
 +        }
 +    } else {
 +        TCGLabel *loop = gen_new_label();
 +        TCGv_ptr tp, i = tcg_const_local_ptr(0);
 +
 +        gen_set_label(loop);
 +
 +        /* Minimize the number of local temps that must be re-read from
 +         * the stack each iteration.  Instead, re-compute values other
 +         * than the loop counter.
 +         */
 +        tp = tcg_temp_new_ptr();
 +        tcg_gen_addi_ptr(tp, i, imm);
 +        tcg_gen_extu_ptr_i64(addr, tp);
 +        tcg_gen_add_i64(addr, addr, cpu_reg_sp(s, rn));
 +
 +        tcg_gen_qemu_ld_i64(t0, addr, midx, MO_LEQ);
 +
 +        tcg_gen_add_ptr(tp, cpu_env, i);
 +        tcg_gen_addi_ptr(i, i, 8);
 +        tcg_gen_st_i64(t0, tp, vofs);
 +        tcg_temp_free_ptr(tp);
 +
 +        tcg_gen_brcondi_ptr(TCG_COND_LTU, i, len_align, loop);
 +        tcg_temp_free_ptr(i);
 +    }
 +
-+    /* Predicate register loads can be any multiple of 2.
++WRAP_FP_FN(gen_VMUL_F_mul, gen_helper_vfp_muls)
-+     * Note that we still store the entire 64-bit unit into cpu_env.
++WRAP_FP_FN(gen_VMUL_F_add, gen_helper_vfp_adds)
-+     */
++WRAP_FP_FN(gen_VMUL_F_sub, gen_helper_vfp_subs)
 +    if (len_remain) {
 +        tcg_gen_addi_i64(addr, cpu_reg_sp(s, rn), imm + len_align);
 +
-+        switch (len_remain) {
++static bool trans_VMUL_F_2sc(DisasContext *s, arg_2scalar *a)
-+        case 2:
++{
-+        case 4:
++    static NeonGenTwoOpFn * const opfn[] = {
-+        case 8:
++        NULL,
-+            tcg_gen_qemu_ld_i64(t0, addr, midx, MO_LE | ctz32(len_remain));
++        NULL, /* TODO: fp16 support */
-+            break;
++        gen_VMUL_F_mul,
 +        NULL,
 +    };
 +
-+        case 6:
++    return do_2scalar(s, a, opfn[a->size], NULL);
 +            t1 = tcg_temp_new_i64();
 +            tcg_gen_qemu_ld_i64(t0, addr, midx, MO_LEUL);
 +            tcg_gen_addi_i64(addr, addr, 4);
 +            tcg_gen_qemu_ld_i64(t1, addr, midx, MO_LEUW);
 +            tcg_gen_deposit_i64(t0, t0, t1, 32, 32);
 +            tcg_temp_free_i64(t1);
 +            break;
 +
 +        default:
 +            g_assert_not_reached();
 +        }
 +        tcg_gen_st_i64(t0, cpu_env, vofs + len_align);
 +    }
 +    tcg_temp_free_i64(addr);
 +    tcg_temp_free_i64(t0);
 +}
 +
-+static bool trans_LDR_zri(DisasContext *s, arg_rri *a, uint32_t insn)
++static bool trans_VMLA_F_2sc(DisasContext *s, arg_2scalar *a)
 +{
-+    if (sve_access_check(s)) {
++    static NeonGenTwoOpFn * const opfn[] = {
-+        int size = vec_full_reg_size(s);
++        NULL,
-+        int off = vec_full_reg_offset(s, a->rd);
++        NULL, /* TODO: fp16 support */
-+        do_ldr(s, off, size, a->rn, a->imm * size);
++        gen_VMUL_F_mul,
-+    }
++        NULL,
-+    return true;
++    };
 +    static NeonGenTwoOpFn * const accfn[] = {
 +        NULL,
 +        NULL, /* TODO: fp16 support */
 +        gen_VMUL_F_add,
 +        NULL,
 +    };
 +
 +    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 +}
 +
-+static bool trans_LDR_pri(DisasContext *s, arg_rri *a, uint32_t insn)
++static bool trans_VMLS_F_2sc(DisasContext *s, arg_2scalar *a)
 +{
-+    if (sve_access_check(s)) {
++    static NeonGenTwoOpFn * const opfn[] = {
-+        int size = pred_full_reg_size(s);
++        NULL,
-+        int off = pred_full_reg_offset(s, a->rd);
++        NULL, /* TODO: fp16 support */
-+        do_ldr(s, off, size, a->rn, a->imm * size);
++        gen_VMUL_F_mul,
-+    }
++        NULL,
-+    return true;
++    };
 +    static NeonGenTwoOpFn * const accfn[] = {
 +        NULL,
 +        NULL, /* TODO: fp16 support */
 +        gen_VMUL_F_sub,
 +        NULL,
 +    };
 +
 +    return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
 +}
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- # This file is processed by scripts/decodetree.py
+                 case 0: /* Integer VMLA scalar */
- #
+                 case 4: /* Integer VMLS scalar */
+                 case 8: /* Integer VMUL scalar */
-+###########################################################################
+-                    return 1; /* handled by decodetree */
-+# Named fields.  These are primarily for disjoint fields.
+-
                  case 1: /* Float VMLA scalar */
                  case 5: /* Floating point VMLS scalar */
                  case 9: /* Floating point VMUL scalar */
 -                    if (size == 1) {
 -                        return 1;
 -                    }
 -                    /* fall through */
 +                    return 1; /* handled by decodetree */
 +
-+%imm9_16_10     16:s6 10:3
+                 case 12: /* VQDMULH scalar */
-+
+                 case 13: /* VQRDMULH scalar */
- ###########################################################################
+                     if (u && ((rd | rn) & 1)) {
- # Named attribute sets.  These are used to make nice(er) names
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- # when creating helpers common to those for the individual
+                             } else {
- # instruction patterns.
+                                 gen_helper_neon_qdmulh_s32(tmp, cpu_env, tmp, tmp2);
+                             }
-+&rri            rd rn imm
+-                        } else if (op == 13) {
- &rrr_esz        rd rn rm esz
++                        } else {
+                             if (size == 1) {
- ###########################################################################
+                                 gen_helper_neon_qrdmulh_s16(tmp, cpu_env, tmp, tmp2);
-@@ -XXX,XX +XXX,XX @@
+                             } else {
- # Three operand with unused vector element size
+                                 gen_helper_neon_qrdmulh_s32(tmp, cpu_env, tmp, tmp2);
- @rd_rn_rm_e0    ........ ... rm:5 ... ... rn:5 rd:5             &rrr_esz esz=0
+                             }
+-                        } else {
-+# Basic Load/Store with 9-bit immediate offset
+-                            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-+@pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
+-                            gen_helper_vfp_muls(tmp, tmp, tmp2, fpstatus);
-+                &rri imm=%imm9_16_10
+-                            tcg_temp_free_ptr(fpstatus);
-+@rd_rn_i9       ........ ........ ...... rn:5 rd:5      \
+                         }
-+                &rri imm=%imm9_16_10
+                         tcg_temp_free_i32(tmp2);
-+
+-                        if (op < 8) {
- ###########################################################################
+-                            /* Accumulate.  */
- # Instruction patterns.  Grouped according to the SVE encodingindex.xhtml.
+-                            tmp2 = neon_load_reg(rd, pass);
+-                            switch (op) {
-@@ -XXX,XX +XXX,XX @@ AND_zzz         00000100 00 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                            case 1:
- ORR_zzz         00000100 01 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                            {
- EOR_zzz         00000100 10 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                                TCGv_ptr fpstatus = get_fpstatus_ptr(1);
- BIC_zzz         00000100 11 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                                gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
-+
+-                                tcg_temp_free_ptr(fpstatus);
-+### SVE Memory - 32-bit Gather and Unsized Contiguous Group
+-                                break;
-+
+-                            }
-+# SVE load predicate register
+-                            case 5:
-+LDR_pri         10000101 10 ...... 000 ... ..... 0 ....         @pd_rn_i9
+-                            {
-+
+-                                TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-+# SVE load vector register
+-                                gen_helper_vfp_subs(tmp, tmp2, tmp, fpstatus);
-+LDR_zri         10000101 10 ...... 010 ... ..... .....          @rd_rn_i9
+-                                tcg_temp_free_ptr(fpstatus);
 -                                break;
 -                            }
 -                            default:
 -                                abort();
 -                            }
 -                            tcg_temp_free_i32(tmp2);
 -                        }
                          neon_store_reg(rd, pass, tmp);
                      }
                      break;
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 31/32] target/arm: Implement SVE Integer Wide Immediate - Predicated Group
+[PULL 12/23] target/arm: Convert Neon 2-reg-scalar VQDMULH, VQRDMULH to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the VQDMULH and VQRDMULH insns in the 2-reg-scalar group
 to decodetree.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-25-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    |  10 ++++
+ target/arm/neon-dp.decode       |  3 +++
- target/arm/sve_helper.c    | 108 +++++++++++++++++++++++++++++++++++++
+ target/arm/translate-neon.inc.c | 29 +++++++++++++++++++++++
- target/arm/translate-sve.c |  88 ++++++++++++++++++++++++++++++
+ target/arm/translate.c          | 42 ++-------------------------------
- target/arm/sve.decode      |  19 ++++++-
+files changed, 34 insertions(+), 40 deletions(-)
 files changed, 224 insertions(+), 1 deletion(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_uqaddi_s, TCG_CALL_NO_RWG, void, ptr, ptr, s64, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- DEF_HELPER_FLAGS_4(sve_uqaddi_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
- DEF_HELPER_FLAGS_4(sve_uqsubi_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+     VMUL_2sc     1111 001 . 1 . .. .... .... 1000 . 1 . 0 .... @2scalar
+     VMUL_F_2sc   1111 001 . 1 . .. .... .... 1001 . 1 . 0 .... @2scalar
 +DEF_HELPER_FLAGS_5(sve_cpy_m_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i64, i32)
 +DEF_HELPER_FLAGS_5(sve_cpy_m_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i64, i32)
 +DEF_HELPER_FLAGS_5(sve_cpy_m_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i64, i32)
 +DEF_HELPER_FLAGS_5(sve_cpy_m_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i64, i32)
 +
-+DEF_HELPER_FLAGS_4(sve_cpy_z_b, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
++    VQDMULH_2sc  1111 001 . 1 . .. .... .... 1100 . 1 . 0 .... @2scalar
-+DEF_HELPER_FLAGS_4(sve_cpy_z_h, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
++    VQRDMULH_2sc 1111 001 . 1 . .. .... .... 1101 . 1 . 0 .... @2scalar
-+DEF_HELPER_FLAGS_4(sve_cpy_z_s, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+   ]
-+DEF_HELPER_FLAGS_4(sve_cpy_z_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+ }
-+
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
  DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uqsubi_d)(void *d, void *a, uint64_t b, uint32_t desc)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMLS_F_2sc(DisasContext *s, arg_2scalar *a)
-         *(uint64_t *)(d + i) = (ai < b ? 0 : ai - b);
-     }
+     return do_2scalar(s, a, opfn[a->size], accfn[a->size]);
  }
 +
-+/* Two operand predicated copy immediate with merge.  All valid immediates
++WRAP_ENV_FN(gen_VQDMULH_16, gen_helper_neon_qdmulh_s16)
-+ * can fit within 17 signed bits in the simd_data field.
++WRAP_ENV_FN(gen_VQDMULH_32, gen_helper_neon_qdmulh_s32)
-+ */
++WRAP_ENV_FN(gen_VQRDMULH_16, gen_helper_neon_qrdmulh_s16)
-+void HELPER(sve_cpy_m_b)(void *vd, void *vn, void *vg,
++WRAP_ENV_FN(gen_VQRDMULH_32, gen_helper_neon_qrdmulh_s32)
-+                         uint64_t mm, uint32_t desc)
++
 +static bool trans_VQDMULH_2sc(DisasContext *s, arg_2scalar *a)
 +{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
++    static NeonGenTwoOpFn * const opfn[] = {
-+    uint64_t *d = vd, *n = vn;
++        NULL,
-+    uint8_t *pg = vg;
++        gen_VQDMULH_16,
 +        gen_VQDMULH_32,
 +        NULL,
 +    };
 +
-+    mm = dup_const(MO_8, mm);
++    return do_2scalar(s, a, opfn[a->size], NULL);
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint64_t nn = n[i];
 +        uint64_t pp = expand_pred_b(pg[H1(i)]);
 +        d[i] = (mm & pp) | (nn & ~pp);
 +    }
 +}
 +
-+void HELPER(sve_cpy_m_h)(void *vd, void *vn, void *vg,
++static bool trans_VQRDMULH_2sc(DisasContext *s, arg_2scalar *a)
 +                         uint64_t mm, uint32_t desc)
 +{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
++    static NeonGenTwoOpFn * const opfn[] = {
-+    uint64_t *d = vd, *n = vn;
++        NULL,
-+    uint8_t *pg = vg;
++        gen_VQRDMULH_16,
-+
++        gen_VQRDMULH_32,
-+    mm = dup_const(MO_16, mm);
++        NULL,
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint64_t nn = n[i];
 +        uint64_t pp = expand_pred_h(pg[H1(i)]);
 +        d[i] = (mm & pp) | (nn & ~pp);
 +    }
 +}
 +
 +void HELPER(sve_cpy_m_s)(void *vd, void *vn, void *vg,
 +                         uint64_t mm, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd, *n = vn;
 +    uint8_t *pg = vg;
 +
 +    mm = dup_const(MO_32, mm);
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint64_t nn = n[i];
 +        uint64_t pp = expand_pred_s(pg[H1(i)]);
 +        d[i] = (mm & pp) | (nn & ~pp);
 +    }
 +}
 +
 +void HELPER(sve_cpy_m_d)(void *vd, void *vn, void *vg,
 +                         uint64_t mm, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd, *n = vn;
 +    uint8_t *pg = vg;
 +
 +    for (i = 0; i < opr_sz; i += 1) {
 +        uint64_t nn = n[i];
 +        d[i] = (pg[H1(i)] & 1 ? mm : nn);
 +    }
 +}
 +
 +void HELPER(sve_cpy_z_b)(void *vd, void *vg, uint64_t val, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd;
 +    uint8_t *pg = vg;
 +
 +    val = dup_const(MO_8, val);
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[i] = val & expand_pred_b(pg[H1(i)]);
 +    }
 +}
 +
 +void HELPER(sve_cpy_z_h)(void *vd, void *vg, uint64_t val, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd;
 +    uint8_t *pg = vg;
 +
 +    val = dup_const(MO_16, val);
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[i] = val & expand_pred_h(pg[H1(i)]);
 +    }
 +}
 +
 +void HELPER(sve_cpy_z_s)(void *vd, void *vg, uint64_t val, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd;
 +    uint8_t *pg = vg;
 +
 +    val = dup_const(MO_32, val);
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[i] = val & expand_pred_s(pg[H1(i)]);
 +    }
 +}
 +
 +void HELPER(sve_cpy_z_d)(void *vd, void *vg, uint64_t val, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd;
 +    uint8_t *pg = vg;
 +
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[i] = (pg[H1(i)] & 1 ? val : 0);
 +    }
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static inline int plus1(int x)
      return x + 1;
  }
 +/* The SH bit is in bit 8.  Extract the low 8 and shift.  */
 +static inline int expand_imm_sh8s(int x)
 +{
 +    return (int8_t)x << (x & 0x100 ? 8 : 0);
 +}
 +
  /*
   * Include the generated decoder.
   */
@@ -XXX,XX +XXX,XX @@ static bool trans_DUPM(DisasContext *s, arg_DUPM *a, uint32_t insn)
      return true;
  }
 +/*
 + *** SVE Integer Wide Immediate - Predicated Group
 + */
 +
 +/* Implement all merging copies.  This is used for CPY (immediate),
 + * FCPY, CPY (scalar), CPY (SIMD&FP scalar).
 + */
 +static void do_cpy_m(DisasContext *s, int esz, int rd, int rn, int pg,
 +                     TCGv_i64 val)
 +{
 +    typedef void gen_cpy(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64, TCGv_i32);
 +    static gen_cpy * const fns[4] = {
 +        gen_helper_sve_cpy_m_b, gen_helper_sve_cpy_m_h,
 +        gen_helper_sve_cpy_m_s, gen_helper_sve_cpy_m_d,
 +    };
 +    unsigned vsz = vec_full_reg_size(s);
 +    TCGv_i32 desc = tcg_const_i32(simd_desc(vsz, vsz, 0));
 +    TCGv_ptr t_zd = tcg_temp_new_ptr();
 +    TCGv_ptr t_zn = tcg_temp_new_ptr();
 +    TCGv_ptr t_pg = tcg_temp_new_ptr();
 +
 +    tcg_gen_addi_ptr(t_zd, cpu_env, vec_full_reg_offset(s, rd));
 +    tcg_gen_addi_ptr(t_zn, cpu_env, vec_full_reg_offset(s, rn));
 +    tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
 +
 +    fns[esz](t_zd, t_zn, t_pg, val, desc);
 +
 +    tcg_temp_free_ptr(t_zd);
 +    tcg_temp_free_ptr(t_zn);
 +    tcg_temp_free_ptr(t_pg);
 +    tcg_temp_free_i32(desc);
 +}
 +
 +static bool trans_FCPY(DisasContext *s, arg_FCPY *a, uint32_t insn)
 +{
 +    if (a->esz == 0) {
 +        return false;
 +    }
 +    if (sve_access_check(s)) {
 +        /* Decode the VFP immediate.  */
 +        uint64_t imm = vfp_expand_imm(a->esz, a->imm);
 +        TCGv_i64 t_imm = tcg_const_i64(imm);
 +        do_cpy_m(s, a->esz, a->rd, a->rn, a->pg, t_imm);
 +        tcg_temp_free_i64(t_imm);
 +    }
 +    return true;
 +}
 +
 +static bool trans_CPY_m_i(DisasContext *s, arg_rpri_esz *a, uint32_t insn)
 +{
 +    if (a->esz == 0 && extract32(insn, 13, 1)) {
 +        return false;
 +    }
 +    if (sve_access_check(s)) {
 +        TCGv_i64 t_imm = tcg_const_i64(a->imm);
 +        do_cpy_m(s, a->esz, a->rd, a->rn, a->pg, t_imm);
 +        tcg_temp_free_i64(t_imm);
 +    }
 +    return true;
 +}
 +
 +static bool trans_CPY_z_i(DisasContext *s, arg_CPY_z_i *a, uint32_t insn)
 +{
 +    static gen_helper_gvec_2i * const fns[4] = {
 +        gen_helper_sve_cpy_z_b, gen_helper_sve_cpy_z_h,
 +        gen_helper_sve_cpy_z_s, gen_helper_sve_cpy_z_d,
 +    };
 +
-+    if (a->esz == 0 && extract32(insn, 13, 1)) {
++    return do_2scalar(s, a, opfn[a->size], NULL);
 +        return false;
 +    }
 +    if (sve_access_check(s)) {
 +        unsigned vsz = vec_full_reg_size(s);
 +        TCGv_i64 t_imm = tcg_const_i64(a->imm);
 +        tcg_gen_gvec_2i_ool(vec_full_reg_offset(s, a->rd),
 +                            pred_full_reg_offset(s, a->pg),
 +                            t_imm, vsz, vsz, 0, fns[a->esz]);
 +        tcg_temp_free_i64(t_imm);
 +    }
 +    return true;
 +}
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
+ #define CPU_V001 cpu_V0, cpu_V0, cpu_V1
+-static TCGv_i32 neon_load_scratch(int scratch)
+-{
+-    TCGv_i32 tmp = tcg_temp_new_i32();
+-    tcg_gen_ld_i32(tmp, cpu_env, offsetof(CPUARMState, vfp.scratch[scratch]));
+-    return tmp;
+-}
+-
+-static void neon_store_scratch(int scratch, TCGv_i32 var)
+-{
+-    tcg_gen_st_i32(var, cpu_env, offsetof(CPUARMState, vfp.scratch[scratch]));
+-    tcg_temp_free_i32(var);
+-}
+-
+ static int gen_neon_unzip(int rd, int rm, int size, int q)
+ {
+     TCGv_ptr pd, pm;
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 case 1: /* Float VMLA scalar */
+                 case 5: /* Floating point VMLS scalar */
+                 case 9: /* Floating point VMUL scalar */
+-                    return 1; /* handled by decodetree */
+-
+                 case 12: /* VQDMULH scalar */
+                 case 13: /* VQRDMULH scalar */
+-                    if (u && ((rd | rn) & 1)) {
+-                        return 1;
+-                    }
+-                    tmp = neon_get_scalar(size, rm);
+-                    neon_store_scratch(0, tmp);
+-                    for (pass = 0; pass < (u ? 4 : 2); pass++) {
+-                        tmp = neon_load_scratch(0);
+-                        tmp2 = neon_load_reg(rn, pass);
+-                        if (op == 12) {
+-                            if (size == 1) {
+-                                gen_helper_neon_qdmulh_s16(tmp, cpu_env, tmp, tmp2);
+-                            } else {
+-                                gen_helper_neon_qdmulh_s32(tmp, cpu_env, tmp, tmp2);
+-                            }
+-                        } else {
+-                            if (size == 1) {
+-                                gen_helper_neon_qrdmulh_s16(tmp, cpu_env, tmp, tmp2);
+-                            } else {
+-                                gen_helper_neon_qrdmulh_s32(tmp, cpu_env, tmp, tmp2);
+-                            }
+-                        }
+-                        tcg_temp_free_i32(tmp2);
+-                        neon_store_reg(rd, pass, tmp);
+-                    }
+-                    break;
++                    return 1; /* handled by decodetree */
 +
- /*
+                 case 3: /* VQDMLAL scalar */
-  *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
+                 case 7: /* VQDMLSL scalar */
-  */
+                 case 11: /* VQDMULL scalar */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve.decode
 +++ b/target/arm/sve.decode
@@ -XXX,XX +XXX,XX @@
  ###########################################################################
  # Named fields.  These are primarily for disjoint fields.
 -%imm4_16_p1             16:4 !function=plus1
 +%imm4_16_p1     16:4 !function=plus1
  %imm6_22_5      22:1 5:5
  %imm9_16_10     16:s6 10:3
@@ -XXX,XX +XXX,XX @@
  %tszimm16_shr   22:2 16:5 !function=tszimm_shr
  %tszimm16_shl   22:2 16:5 !function=tszimm_shl
 +# Signed 8-bit immediate, optionally shifted left by 8.
 +%sh8_i8s        5:9 !function=expand_imm_sh8s
 +
  # Either a copy of rd (at bit 0), or a different source
  # as propagated via the MOVPRFX instruction.
  %reg_movprfx    0:5
@@ -XXX,XX +XXX,XX @@
  @rd_rn_tszimm   ........ .. ... ... ...... rn:5 rd:5 \
                  &rri_esz esz=%tszimm16_esz
 +# Two register operand, one immediate operand, with 4-bit predicate.
 +# User must fill in imm.
 +@rdn_pg4        ........ esz:2 .. pg:4 ... ........ rd:5 \
 +                &rpri_esz rn=%reg_movprfx
 +
  # Two register operand, one encoded bitmask.
  @rdn_dbm        ........ .. .... dbm:13 rd:5 \
                  &rr_dbm rn=%reg_movprfx
@@ -XXX,XX +XXX,XX @@ AND_zzi         00000101 10 0000 ............. .....            @rdn_dbm
  # SVE broadcast bitmask immediate
  DUPM            00000101 11 0000 dbm:13 rd:5
 +### SVE Integer Wide Immediate - Predicated Group
 +
 +# SVE copy floating-point immediate (predicated)
 +FCPY            00000101 .. 01 .... 110 imm:8 .....             @rdn_pg4
 +
 +# SVE copy integer immediate (predicated)
 +CPY_m_i         00000101 .. 01 .... 01 . ........ .....   @rdn_pg4 imm=%sh8_i8s
 +CPY_z_i         00000101 .. 01 .... 00 . ........ .....   @rdn_pg4 imm=%sh8_i8s
 +
  ### SVE Predicate Logical Operations Group
  # SVE predicate logical operations
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 14/32] target/arm: Implement SVE Predicate Misc Group
+[PULL 13/23] target/arm: Convert Neon 2-reg-scalar VQRDMLAH, VQRDMLSH to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the VQRDMLAH and VQRDMLSH insns in the 2-reg-scalar
 group to decodetree.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-8-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/cpu.h           |   4 +
+ target/arm/neon-dp.decode       |  3 ++
- target/arm/helper-sve.h    |   3 +
+ target/arm/translate-neon.inc.c | 74 +++++++++++++++++++++++++++++++++
- target/arm/sve_helper.c    |  84 +++++++++++++++
+ target/arm/translate.c          | 38 +----------------
- target/arm/translate-sve.c | 209 +++++++++++++++++++++++++++++++++++++
+files changed, 79 insertions(+), 36 deletions(-)
  target/arm/sve.decode      |  31 ++++++
 files changed, 331 insertions(+)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- #ifdef TARGET_AARCH64
+     VQDMULH_2sc  1111 001 . 1 . .. .... .... 1100 . 1 . 0 .... @2scalar
-         /* Store FFR as pregs[16] to make it easier to treat as any other.  */
+     VQRDMULH_2sc 1111 001 . 1 . .. .... .... 1101 . 1 . 0 .... @2scalar
-+#define FFR_PRED_NUM 16
++
-         ARMPredicateReg pregs[17];
++    VQRDMLAH_2sc 1111 001 . 1 . .. .... .... 1110 . 1 . 0 .... @2scalar
-         /* Scratch space for aa64 sve predicate temporary.  */
++    VQRDMLSH_2sc 1111 001 . 1 . .. .... .... 1111 . 1 . 0 .... @2scalar
-         ARMPredicateReg preg_tmp;
+   ]
@@ -XXX,XX +XXX,XX @@ static inline uint64_t *aa64_vfp_qreg(CPUARMState *env, unsigned regno)
      return &env->vfp.zregs[regno].d[0];
  }
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-+/* Shared between translate-sve.c and sve_helper.c.  */
+index XXXXXXX..XXXXXXX 100644
-+extern const uint64_t pred_esz_masks[4];
+--- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VQRDMULH_2sc(DisasContext *s, arg_2scalar *a)
      return do_2scalar(s, a, opfn[a->size], NULL);
  }
 +
- #endif
++static bool do_vqrdmlah_2sc(DisasContext *s, arg_2scalar *a,
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
++                            NeonGenThreeOpEnvFn *opfn)
-index XXXXXXX..XXXXXXX 100644
++{
---- a/target/arm/helper-sve.h
++    /*
-+++ b/target/arm/helper-sve.h
++     * VQRDMLAH/VQRDMLSH: this is like do_2scalar, but the opfn
-@@ -XXX,XX +XXX,XX @@
++     * performs a kind of fused op-then-accumulate using a helper
- DEF_HELPER_FLAGS_2(sve_predtest1, TCG_CALL_NO_WG, i32, i64, i64)
++     * function that takes all of rd, rn and the scalar at once.
- DEF_HELPER_FLAGS_3(sve_predtest, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
++     */
++    TCGv_i32 scalar;
-+DEF_HELPER_FLAGS_3(sve_pfirst, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
++    int pass;
 +DEF_HELPER_FLAGS_3(sve_pnext, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++        return false;
  DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ LOGICAL_PPPP(sve_nand_pppp, DO_NAND)
  #undef DO_NAND
  #undef DO_SEL
  #undef LOGICAL_PPPP
 +
 +/* Similar to the ARM LastActiveElement pseudocode function, except the
 +   result is multiplied by the element size.  This includes the not found
 +   indication; e.g. not found for esz=3 is -8.  */
 +static intptr_t last_active_element(uint64_t *g, intptr_t words, intptr_t esz)
 +{
 +    uint64_t mask = pred_esz_masks[esz];
 +    intptr_t i = words;
 +
 +    do {
 +        uint64_t this_g = g[--i] & mask;
 +        if (this_g) {
 +            return i * 64 + (63 - clz64(this_g));
 +        }
 +    } while (i > 0);
 +    return (intptr_t)-1 << esz;
 +}
 +
 +uint32_t HELPER(sve_pfirst)(void *vd, void *vg, uint32_t words)
 +{
 +    uint32_t flags = PREDTEST_INIT;
 +    uint64_t *d = vd, *g = vg;
 +    intptr_t i = 0;
 +
 +    do {
 +        uint64_t this_d = d[i];
 +        uint64_t this_g = g[i];
 +
 +        if (this_g) {
 +            if (!(flags & 4)) {
 +                /* Set in D the first bit of G.  */
 +                this_d |= this_g & -this_g;
 +                d[i] = this_d;
 +            }
 +            flags = iter_predtest_fwd(this_d, this_g, flags);
 +        }
 +    } while (++i < words);
 +
 +    return flags;
 +}
 +
 +uint32_t HELPER(sve_pnext)(void *vd, void *vg, uint32_t pred_desc)
 +{
 +    intptr_t words = extract32(pred_desc, 0, SIMD_OPRSZ_BITS);
 +    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
 +    uint32_t flags = PREDTEST_INIT;
 +    uint64_t *d = vd, *g = vg, esz_mask;
 +    intptr_t i, next;
 +
 +    next = last_active_element(vd, words, esz) + (1 << esz);
 +    esz_mask = pred_esz_masks[esz];
 +
 +    /* Similar to the pseudocode for pnext, but scaled by ESZ
 +       so that we find the correct bit.  */
 +    if (next < words * 64) {
 +        uint64_t mask = -1;
 +
 +        if (next & 63) {
 +            mask = ~((1ull << (next & 63)) - 1);
 +            next &= -64;
 +        }
 +        do {
 +            uint64_t this_g = g[next / 64] & esz_mask & mask;
 +            if (this_g != 0) {
 +                next = (next & -64) + ctz64(this_g);
 +                break;
 +            }
 +            next += 64;
 +            mask = -1;
 +        } while (next < words * 64);
 +    }
 +
-+    i = 0;
++    if (!dc_isar_feature(aa32_rdm, s)) {
-+    do {
++        return false;
-+        uint64_t this_d = 0;
++    }
 +        if (i == next / 64) {
 +            this_d = 1ull << (next & 63);
 +        }
 +        d[i] = this_d;
 +        flags = iter_predtest_fwd(this_d, g[i] & esz_mask, flags);
 +    } while (++i < words);
 +
-+    return flags;
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+}
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
++        ((a->vd | a->vn | a->vm) & 0x10)) {
-index XXXXXXX..XXXXXXX 100644
++        return false;
---- a/target/arm/translate-sve.c
++    }
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@
  #include "exec/exec-all.h"
  #include "tcg-op.h"
  #include "tcg-op-gvec.h"
 +#include "tcg-gvec-desc.h"
  #include "qemu/log.h"
  #include "arm_ldst.h"
  #include "translate.h"
@@ -XXX,XX +XXX,XX @@ static void do_predtest(DisasContext *s, int dofs, int gofs, int words)
      tcg_temp_free_i32(t);
  }
 +/* For each element size, the bits within a predicate word that are active.  */
 +const uint64_t pred_esz_masks[4] = {
 +    0xffffffffffffffffull, 0x5555555555555555ull,
 +    0x1111111111111111ull, 0x0101010101010101ull
 +};
 +
- /*
++    if (!opfn) {
-  *** SVE Logical - Unpredicated Group
++        /* Bad size (including size == 3, which is a different insn group) */
-  */
++        return false;
-@@ -XXX,XX +XXX,XX @@ static bool trans_PTEST(DisasContext *s, arg_PTEST *a, uint32_t insn)
++    }
      return true;
  }
 +/* See the ARM pseudocode DecodePredCount.  */
 +static unsigned decode_pred_count(unsigned fullsz, int pattern, int esz)
 +{
 +    unsigned elements = fullsz >> esz;
 +    unsigned bound;
 +
-+    switch (pattern) {
++    if (a->q && ((a->vd | a->vn) & 1)) {
-+    case 0x0: /* POW2 */
++        return false;
 +        return pow2floor(elements);
 +    case 0x1: /* VL1 */
 +    case 0x2: /* VL2 */
 +    case 0x3: /* VL3 */
 +    case 0x4: /* VL4 */
 +    case 0x5: /* VL5 */
 +    case 0x6: /* VL6 */
 +    case 0x7: /* VL7 */
 +    case 0x8: /* VL8 */
 +        bound = pattern;
 +        break;
 +    case 0x9: /* VL16 */
 +    case 0xa: /* VL32 */
 +    case 0xb: /* VL64 */
 +    case 0xc: /* VL128 */
 +    case 0xd: /* VL256 */
 +        bound = 16 << (pattern - 9);
 +        break;
 +    case 0x1d: /* MUL4 */
 +        return elements - elements % 4;
 +    case 0x1e: /* MUL3 */
 +        return elements - elements % 3;
 +    case 0x1f: /* ALL */
 +        return elements;
 +    default:   /* #uimm5 */
 +        return 0;
 +    }
-+    return elements >= bound ? bound : 0;
-+}
 +
-+/* This handles all of the predicate initialization instructions,
++    if (!vfp_access_check(s)) {
 + * PTRUE, PFALSE, SETFFR.  For PFALSE, we will have set PAT == 32
 + * so that decode_pred_count returns 0.  For SETFFR, we will have
 + * set RD == 16 == FFR.
 + */
 +static bool do_predset(DisasContext *s, int esz, int rd, int pat, bool setflag)
 +{
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
-+    unsigned fullsz = vec_full_reg_size(s);
++    scalar = neon_get_scalar(a->size, a->vm);
 +    unsigned ofs = pred_full_reg_offset(s, rd);
 +    unsigned numelem, setsz, i;
 +    uint64_t word, lastword;
 +    TCGv_i64 t;
 +
-+    numelem = decode_pred_count(fullsz, pat, esz);
++    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 +        TCGv_i32 rn = neon_load_reg(a->vn, pass);
 +        TCGv_i32 rd = neon_load_reg(a->vd, pass);
 +        opfn(rd, cpu_env, rn, scalar, rd);
 +        tcg_temp_free_i32(rn);
 +        neon_store_reg(a->vd, pass, rd);
 +    }
 +    tcg_temp_free_i32(scalar);
 +
-+    /* Determine what we must store into each bit, and how many.  */
-+    if (numelem == 0) {
-+        lastword = word = 0;
-+        setsz = fullsz;
-+    } else {
-+        setsz = numelem << esz;
-+        lastword = word = pred_esz_masks[esz];
-+        if (setsz % 64) {
-+            lastword &= ~(-1ull << (setsz % 64));
-+        }
-+    }
-+
-+    t = tcg_temp_new_i64();
-+    if (fullsz <= 64) {
-+        tcg_gen_movi_i64(t, lastword);
-+        tcg_gen_st_i64(t, cpu_env, ofs);
-+        goto done;
-+    }
-+
-+    if (word == lastword) {
-+        unsigned maxsz = size_for_gvec(fullsz / 8);
-+        unsigned oprsz = size_for_gvec(setsz / 8);
-+
-+        if (oprsz * 8 == setsz) {
-+            tcg_gen_gvec_dup64i(ofs, oprsz, maxsz, word);
-+            goto done;
-+        }
-+        if (oprsz * 8 == setsz + 8) {
-+            tcg_gen_gvec_dup64i(ofs, oprsz, maxsz, word);
-+            tcg_gen_movi_i64(t, 0);
-+            tcg_gen_st_i64(t, cpu_env, ofs + oprsz - 8);
-+            goto done;
-+        }
-+    }
-+
-+    setsz /= 8;
-+    fullsz /= 8;
-+
-+    tcg_gen_movi_i64(t, word);
-+    for (i = 0; i < setsz; i += 8) {
-+        tcg_gen_st_i64(t, cpu_env, ofs + i);
-+    }
-+    if (lastword != word) {
-+        tcg_gen_movi_i64(t, lastword);
-+        tcg_gen_st_i64(t, cpu_env, ofs + i);
-+        i += 8;
-+    }
-+    if (i < fullsz) {
-+        tcg_gen_movi_i64(t, 0);
-+        for (; i < fullsz; i += 8) {
-+            tcg_gen_st_i64(t, cpu_env, ofs + i);
-+        }
-+    }
-+
-+ done:
-+    tcg_temp_free_i64(t);
-+
-+    /* PTRUES */
-+    if (setflag) {
-+        tcg_gen_movi_i32(cpu_NF, -(word != 0));
-+        tcg_gen_movi_i32(cpu_CF, word == 0);
-+        tcg_gen_movi_i32(cpu_VF, 0);
-+        tcg_gen_mov_i32(cpu_ZF, cpu_NF);
-+    }
 +    return true;
 +}
 +
-+static bool trans_PTRUE(DisasContext *s, arg_PTRUE *a, uint32_t insn)
++static bool trans_VQRDMLAH_2sc(DisasContext *s, arg_2scalar *a)
 +{
-+    return do_predset(s, a->esz, a->rd, a->pat, a->s);
++    static NeonGenThreeOpEnvFn *opfn[] = {
 +        NULL,
 +        gen_helper_neon_qrdmlah_s16,
 +        gen_helper_neon_qrdmlah_s32,
 +        NULL,
 +    };
 +    return do_vqrdmlah_2sc(s, a, opfn[a->size]);
 +}
 +
-+static bool trans_SETFFR(DisasContext *s, arg_SETFFR *a, uint32_t insn)
++static bool trans_VQRDMLSH_2sc(DisasContext *s, arg_2scalar *a)
 +{
-+    /* Note pat == 31 is #all, to set all elements.  */
++    static NeonGenThreeOpEnvFn *opfn[] = {
-+    return do_predset(s, 0, FFR_PRED_NUM, 31, false);
++        NULL,
 +        gen_helper_neon_qrdmlsh_s16,
 +        gen_helper_neon_qrdmlsh_s32,
 +        NULL,
 +    };
 +    return do_vqrdmlah_2sc(s, a, opfn[a->size]);
 +}
-+
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 +static bool trans_PFALSE(DisasContext *s, arg_PFALSE *a, uint32_t insn)
 +{
 +    /* Note pat == 32 is #unimp, to set no elements.  */
 +    return do_predset(s, 0, a->rd, 32, false);
 +}
 +
 +static bool trans_RDFFR_p(DisasContext *s, arg_RDFFR_p *a, uint32_t insn)
 +{
 +    /* The path through do_pppp_flags is complicated enough to want to avoid
 +     * duplication.  Frob the arguments into the form of a predicated AND.
 +     */
 +    arg_rprr_s alt_a = {
 +        .rd = a->rd, .pg = a->pg, .s = a->s,
 +        .rn = FFR_PRED_NUM, .rm = FFR_PRED_NUM,
 +    };
 +    return trans_AND_pppp(s, &alt_a, insn);
 +}
 +
 +static bool trans_RDFFR(DisasContext *s, arg_RDFFR *a, uint32_t insn)
 +{
 +    return do_mov_p(s, a->rd, FFR_PRED_NUM);
 +}
 +
 +static bool trans_WRFFR(DisasContext *s, arg_WRFFR *a, uint32_t insn)
 +{
 +    return do_mov_p(s, FFR_PRED_NUM, a->rn);
 +}
 +
 +static bool do_pfirst_pnext(DisasContext *s, arg_rr_esz *a,
 +                            void (*gen_fn)(TCGv_i32, TCGv_ptr,
 +                                           TCGv_ptr, TCGv_i32))
 +{
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
 +    TCGv_ptr t_pd = tcg_temp_new_ptr();
 +    TCGv_ptr t_pg = tcg_temp_new_ptr();
 +    TCGv_i32 t;
 +    unsigned desc;
 +
 +    desc = DIV_ROUND_UP(pred_full_reg_size(s), 8);
 +    desc = deposit32(desc, SIMD_DATA_SHIFT, 2, a->esz);
 +
 +    tcg_gen_addi_ptr(t_pd, cpu_env, pred_full_reg_offset(s, a->rd));
 +    tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, a->rn));
 +    t = tcg_const_i32(desc);
 +
 +    gen_fn(t, t_pd, t_pg, t);
 +    tcg_temp_free_ptr(t_pd);
 +    tcg_temp_free_ptr(t_pg);
 +
 +    do_pred_flags(t);
 +    tcg_temp_free_i32(t);
 +    return true;
 +}
 +
 +static bool trans_PFIRST(DisasContext *s, arg_rr_esz *a, uint32_t insn)
 +{
 +    return do_pfirst_pnext(s, a, gen_helper_sve_pfirst);
 +}
 +
 +static bool trans_PNEXT(DisasContext *s, arg_rr_esz *a, uint32_t insn)
 +{
 +    return do_pfirst_pnext(s, a, gen_helper_sve_pnext);
 +}
 +
  /*
   *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- # when creating helpers common to those for the individual
+                 case 9: /* Floating point VMUL scalar */
- # instruction patterns.
+                 case 12: /* VQDMULH scalar */
+                 case 13: /* VQRDMULH scalar */
-+&rr_esz         rd rn esz
++                case 14: /* VQRDMLAH scalar */
- &rri            rd rn imm
++                case 15: /* VQRDMLSH scalar */
- &rrr_esz        rd rn rm esz
+                     return 1; /* handled by decodetree */
- &rprr_s         rd pg rn rm s
-@@ -XXX,XX +XXX,XX @@
+                 case 3: /* VQDMLAL scalar */
- # Named instruction formats.  These are generally used to
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- # reduce the amount of duplication between instruction patterns.
+                         neon_store_reg64(cpu_V0, rd + pass);
+                     }
-+# Two operand with unused vector element size
+                     break;
-+@pd_pn_e0       ........ ........ ....... rn:4 . rd:4           &rr_esz esz=0
+-                case 14: /* VQRDMLAH scalar */
-+
+-                case 15: /* VQRDMLSH scalar */
-+# Two operand
+-                    {
-+@pd_pn          ........ esz:2 .. .... ....... rn:4 . rd:4      &rr_esz
+-                        NeonGenThreeOpEnvFn *fn;
-+
+-
- # Three operand with unused vector element size
+-                        if (!dc_isar_feature(aa32_rdm, s)) {
- @rd_rn_rm_e0    ........ ... rm:5 ... ... rn:5 rd:5             &rrr_esz esz=0
+-                            return 1;
+-                        }
-@@ -XXX,XX +XXX,XX @@ NAND_pppp       00100101 1. 00 .... 01 .... 1 .... 1 ....       @pd_pg_pn_pm_s
+-                        if (u && ((rd | rn) & 1)) {
- # SVE predicate test
+-                            return 1;
- PTEST           00100101 01 010000 11 pg:4 0 rn:4 0 0000
+-                        }
+-                        if (op == 14) {
-+# SVE predicate initialize
+-                            if (size == 1) {
-+PTRUE           00100101 esz:2 01100 s:1 111000 pat:5 0 rd:4
+-                                fn = gen_helper_neon_qrdmlah_s16;
-+
+-                            } else {
-+# SVE initialize FFR
+-                                fn = gen_helper_neon_qrdmlah_s32;
-+SETFFR          00100101 0010 1100 1001 0000 0000 0000
+-                            }
-+
+-                        } else {
-+# SVE zero predicate register
+-                            if (size == 1) {
-+PFALSE          00100101 0001 1000 1110 0100 0000 rd:4
+-                                fn = gen_helper_neon_qrdmlsh_s16;
-+
+-                            } else {
-+# SVE predicate read from FFR (predicated)
+-                                fn = gen_helper_neon_qrdmlsh_s32;
-+RDFFR_p         00100101 0 s:1 0110001111000 pg:4 0 rd:4
+-                            }
-+
+-                        }
-+# SVE predicate read from FFR (unpredicated)
+-
-+RDFFR           00100101 0001 1001 1111 0000 0000 rd:4
+-                        tmp2 = neon_get_scalar(size, rm);
-+
+-                        for (pass = 0; pass < (u ? 4 : 2); pass++) {
-+# SVE FFR write from predicate (WRFFR)
+-                            tmp = neon_load_reg(rn, pass);
-+WRFFR           00100101 0010 1000 1001 000 rn:4 00000
+-                            tmp3 = neon_load_reg(rd, pass);
-+
+-                            fn(tmp, cpu_env, tmp, tmp2, tmp3);
-+# SVE predicate first active
+-                            tcg_temp_free_i32(tmp3);
-+PFIRST          00100101 01 011 000 11000 00 .... 0 ....        @pd_pn_e0
+-                            neon_store_reg(rd, pass, tmp);
-+
+-                        }
-+# SVE predicate next active
+-                        tcg_temp_free_i32(tmp2);
-+PNEXT           00100101 .. 011 001 11000 10 .... 0 ....        @pd_pn
+-                    }
-+
+-                    break;
- ### SVE Memory - 32-bit Gather and Unsized Contiguous Group
+                 default:
+                     g_assert_not_reached();
- # SVE load predicate register
+                 }
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 04/32] xlnx-zdma: Add a model of the Xilinx ZynqMP generic DMA
+[PULL 14/23] target/arm: Convert Neon 2-reg-scalar long multiplies to decodetree
-From: Francisco Iglesias <frasse.iglesias@gmail.com>
+Convert the Neon 2-reg-scalar long multiplies to decodetree.
 These are the last instructions in the group.
-Add a model of the generic DMA found on Xilinx ZynqMP.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  target/arm/neon-dp.decode       |  18 ++++
  target/arm/translate-neon.inc.c | 163 ++++++++++++++++++++++++++++
  target/arm/translate.c          | 182 ++------------------------------
 files changed, 187 insertions(+), 176 deletions(-)
-Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Message-id: 20180503214201.29082-2-frasse.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/dma/Makefile.objs       |   1 +
  include/hw/dma/xlnx-zdma.h |  84 ++++
  hw/dma/xlnx-zdma.c         | 832 +++++++++++++++++++++++++++++++++++++
 files changed, 917 insertions(+)
  create mode 100644 include/hw/dma/xlnx-zdma.h
  create mode 100644 hw/dma/xlnx-zdma.c
 diff --git a/hw/dma/Makefile.objs b/hw/dma/Makefile.objs
 index XXXXXXX..XXXXXXX 100644
---- a/hw/dma/Makefile.objs
+--- a/target/arm/neon-dp.decode
-+++ b/hw/dma/Makefile.objs
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ common-obj-$(CONFIG_ETRAXFS) += etraxfs_dma.o
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- common-obj-$(CONFIG_STP2000) += sparc32_dma.o
- obj-$(CONFIG_XLNX_ZYNQMP) += xlnx_dpdma.o
+     @2scalar     .... ... q:1 . . size:2 .... .... .... . . . . .... \
- obj-$(CONFIG_XLNX_ZYNQMP_ARM) += xlnx_dpdma.o
+                  &2scalar vm=%vm_dp vn=%vn_dp vd=%vd_dp
-+common-obj-$(CONFIG_XLNX_ZYNQMP_ARM) += xlnx-zdma.o
++    # For the 'long' ops the Q bit is part of insn decode
++    @2scalar_q0  .... ... . . . size:2 .... .... .... . . . . .... \
- obj-$(CONFIG_OMAP) += omap_dma.o soc_dma.o
++                 &2scalar vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
- obj-$(CONFIG_PXA2XX) += pxa2xx_dma.o
-diff --git a/include/hw/dma/xlnx-zdma.h b/include/hw/dma/xlnx-zdma.h
+     VMLA_2sc     1111 001 . 1 . .. .... .... 0000 . 1 . 0 .... @2scalar
-new file mode 100644
+     VMLA_F_2sc   1111 001 . 1 . .. .... .... 0001 . 1 . 0 .... @2scalar
-index XXXXXXX..XXXXXXX
---- /dev/null
++    VMLAL_S_2sc  1111 001 0 1 . .. .... .... 0010 . 1 . 0 .... @2scalar_q0
-+++ b/include/hw/dma/xlnx-zdma.h
++    VMLAL_U_2sc  1111 001 1 1 . .. .... .... 0010 . 1 . 0 .... @2scalar_q0
-@@ -XXX,XX +XXX,XX @@
++
-+/*
++    VQDMLAL_2sc  1111 001 0 1 . .. .... .... 0011 . 1 . 0 .... @2scalar_q0
-+ * QEMU model of the ZynqMP generic DMA
++
-+ *
+     VMLS_2sc     1111 001 . 1 . .. .... .... 0100 . 1 . 0 .... @2scalar
-+ * Copyright (c) 2014 Xilinx Inc.
+     VMLS_F_2sc   1111 001 . 1 . .. .... .... 0101 . 1 . 0 .... @2scalar
-+ * Copyright (c) 2018 FEIMTECH AB
-+ *
++    VMLSL_S_2sc  1111 001 0 1 . .. .... .... 0110 . 1 . 0 .... @2scalar_q0
-+ * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>,
++    VMLSL_U_2sc  1111 001 1 1 . .. .... .... 0110 . 1 . 0 .... @2scalar_q0
-+ *            Francisco Iglesias <francisco.iglesias@feimtech.se>
++
-+ *
++    VQDMLSL_2sc  1111 001 0 1 . .. .... .... 0111 . 1 . 0 .... @2scalar_q0
-+ * Permission is hereby granted, free of charge, to any person obtaining a copy
++
-+ * of this software and associated documentation files (the "Software"), to deal
+     VMUL_2sc     1111 001 . 1 . .. .... .... 1000 . 1 . 0 .... @2scalar
-+ * in the Software without restriction, including without limitation the rights
+     VMUL_F_2sc   1111 001 . 1 . .. .... .... 1001 . 1 . 0 .... @2scalar
-+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-+ * copies of the Software, and to permit persons to whom the Software is
++    VMULL_S_2sc  1111 001 0 1 . .. .... .... 1010 . 1 . 0 .... @2scalar_q0
-+ * furnished to do so, subject to the following conditions:
++    VMULL_U_2sc  1111 001 1 1 . .. .... .... 1010 . 1 . 0 .... @2scalar_q0
-+ *
++
-+ * The above copyright notice and this permission notice shall be included in
++    VQDMULL_2sc  1111 001 0 1 . .. .... .... 1011 . 1 . 0 .... @2scalar_q0
-+ * all copies or substantial portions of the Software.
++
-+ *
+     VQDMULH_2sc  1111 001 . 1 . .. .... .... 1100 . 1 . 0 .... @2scalar
-+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+     VQRDMULH_2sc 1111 001 . 1 . .. .... .... 1101 . 1 . 0 .... @2scalar
-+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+index XXXXXXX..XXXXXXX 100644
-+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+--- a/target/arm/translate-neon.inc.c
-+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++++ b/target/arm/translate-neon.inc.c
-+ * THE SOFTWARE.
+@@ -XXX,XX +XXX,XX @@ static bool trans_VQRDMLSH_2sc(DisasContext *s, arg_2scalar *a)
-+ */
+     };
-+
+     return do_vqrdmlah_2sc(s, a, opfn[a->size]);
-+#ifndef XLNX_ZDMA_H
+ }
-+#define XLNX_ZDMA_H
++
-+
++static bool do_2scalar_long(DisasContext *s, arg_2scalar *a,
-+#include "hw/sysbus.h"
++                            NeonGenTwoOpWidenFn *opfn,
-+#include "hw/register.h"
++                            NeonGenTwo64OpFn *accfn)
-+#include "sysemu/dma.h"
++{
-+
++    /*
-+#define ZDMA_R_MAX (0x204 / 4)
++     * Two registers and a scalar, long operations: perform an
-+
++     * operation on the input elements and the scalar which produces
-+typedef enum {
++     * a double-width result, and then possibly perform an accumulation
-+    DISABLED = 0,
++     * operation of that result into the destination.
-+    ENABLED = 1,
++     */
-+    PAUSED = 2,
++    TCGv_i32 scalar, rn;
-+} XlnxZDMAState;
++    TCGv_i64 rn0_64, rn1_64;
 +
-+typedef union {
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +    struct {
 +        uint64_t addr;
 +        uint32_t size;
 +        uint32_t attr;
 +    };
 +    uint32_t words[4];
 +} XlnxZDMADescr;
 +
 +typedef struct XlnxZDMA {
 +    SysBusDevice parent_obj;
 +    MemoryRegion iomem;
 +    MemTxAttrs attr;
 +    MemoryRegion *dma_mr;
 +    AddressSpace *dma_as;
 +    qemu_irq irq_zdma_ch_imr;
 +
 +    struct {
 +        uint32_t bus_width;
 +    } cfg;
 +
 +    XlnxZDMAState state;
 +    bool error;
 +
 +    XlnxZDMADescr dsc_src;
 +    XlnxZDMADescr dsc_dst;
 +
 +    uint32_t regs[ZDMA_R_MAX];
 +    RegisterInfo regs_info[ZDMA_R_MAX];
 +
 +    /* We don't model the common bufs. Must be at least 16 bytes
 +       to model write only mode.  */
 +    uint8_t buf[2048];
 +} XlnxZDMA;
 +
 +#define TYPE_XLNX_ZDMA "xlnx.zdma"
 +
 +#define XLNX_ZDMA(obj) \
 +     OBJECT_CHECK(XlnxZDMA, (obj), TYPE_XLNX_ZDMA)
 +
 +#endif /* XLNX_ZDMA_H */
 diff --git a/hw/dma/xlnx-zdma.c b/hw/dma/xlnx-zdma.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/dma/xlnx-zdma.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QEMU model of the ZynqMP generic DMA
 + *
 + * Copyright (c) 2014 Xilinx Inc.
 + * Copyright (c) 2018 FEIMTECH AB
 + *
 + * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>,
 + *            Francisco Iglesias <francisco.iglesias@feimtech.se>
 + *
 + * Permission is hereby granted, free of charge, to any person obtaining a copy
 + * of this software and associated documentation files (the "Software"), to deal
 + * in the Software without restriction, including without limitation the rights
 + * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 + * copies of the Software, and to permit persons to whom the Software is
 + * furnished to do so, subject to the following conditions:
 + *
 + * The above copyright notice and this permission notice shall be included in
 + * all copies or substantial portions of the Software.
 + *
 + * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
 + * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
 + * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
 + * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
 + * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
 + * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
 + * THE SOFTWARE.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "hw/dma/xlnx-zdma.h"
 +#include "qemu/bitops.h"
 +#include "qemu/log.h"
 +#include "qapi/error.h"
 +
 +#ifndef XLNX_ZDMA_ERR_DEBUG
 +#define XLNX_ZDMA_ERR_DEBUG 0
 +#endif
 +
 +REG32(ZDMA_ERR_CTRL, 0x0)
 +    FIELD(ZDMA_ERR_CTRL, APB_ERR_RES, 0, 1)
 +REG32(ZDMA_CH_ISR, 0x100)
 +    FIELD(ZDMA_CH_ISR, DMA_PAUSE, 11, 1)
 +    FIELD(ZDMA_CH_ISR, DMA_DONE, 10, 1)
 +    FIELD(ZDMA_CH_ISR, AXI_WR_DATA, 9, 1)
 +    FIELD(ZDMA_CH_ISR, AXI_RD_DATA, 8, 1)
 +    FIELD(ZDMA_CH_ISR, AXI_RD_DST_DSCR, 7, 1)
 +    FIELD(ZDMA_CH_ISR, AXI_RD_SRC_DSCR, 6, 1)
 +    FIELD(ZDMA_CH_ISR, IRQ_DST_ACCT_ERR, 5, 1)
 +    FIELD(ZDMA_CH_ISR, IRQ_SRC_ACCT_ERR, 4, 1)
 +    FIELD(ZDMA_CH_ISR, BYTE_CNT_OVRFL, 3, 1)
 +    FIELD(ZDMA_CH_ISR, DST_DSCR_DONE, 2, 1)
 +    FIELD(ZDMA_CH_ISR, SRC_DSCR_DONE, 1, 1)
 +    FIELD(ZDMA_CH_ISR, INV_APB, 0, 1)
 +REG32(ZDMA_CH_IMR, 0x104)
 +    FIELD(ZDMA_CH_IMR, DMA_PAUSE, 11, 1)
 +    FIELD(ZDMA_CH_IMR, DMA_DONE, 10, 1)
 +    FIELD(ZDMA_CH_IMR, AXI_WR_DATA, 9, 1)
 +    FIELD(ZDMA_CH_IMR, AXI_RD_DATA, 8, 1)
 +    FIELD(ZDMA_CH_IMR, AXI_RD_DST_DSCR, 7, 1)
 +    FIELD(ZDMA_CH_IMR, AXI_RD_SRC_DSCR, 6, 1)
 +    FIELD(ZDMA_CH_IMR, IRQ_DST_ACCT_ERR, 5, 1)
 +    FIELD(ZDMA_CH_IMR, IRQ_SRC_ACCT_ERR, 4, 1)
 +    FIELD(ZDMA_CH_IMR, BYTE_CNT_OVRFL, 3, 1)
 +    FIELD(ZDMA_CH_IMR, DST_DSCR_DONE, 2, 1)
 +    FIELD(ZDMA_CH_IMR, SRC_DSCR_DONE, 1, 1)
 +    FIELD(ZDMA_CH_IMR, INV_APB, 0, 1)
 +REG32(ZDMA_CH_IEN, 0x108)
 +    FIELD(ZDMA_CH_IEN, DMA_PAUSE, 11, 1)
 +    FIELD(ZDMA_CH_IEN, DMA_DONE, 10, 1)
 +    FIELD(ZDMA_CH_IEN, AXI_WR_DATA, 9, 1)
 +    FIELD(ZDMA_CH_IEN, AXI_RD_DATA, 8, 1)
 +    FIELD(ZDMA_CH_IEN, AXI_RD_DST_DSCR, 7, 1)
 +    FIELD(ZDMA_CH_IEN, AXI_RD_SRC_DSCR, 6, 1)
 +    FIELD(ZDMA_CH_IEN, IRQ_DST_ACCT_ERR, 5, 1)
 +    FIELD(ZDMA_CH_IEN, IRQ_SRC_ACCT_ERR, 4, 1)
 +    FIELD(ZDMA_CH_IEN, BYTE_CNT_OVRFL, 3, 1)
 +    FIELD(ZDMA_CH_IEN, DST_DSCR_DONE, 2, 1)
 +    FIELD(ZDMA_CH_IEN, SRC_DSCR_DONE, 1, 1)
 +    FIELD(ZDMA_CH_IEN, INV_APB, 0, 1)
 +REG32(ZDMA_CH_IDS, 0x10c)
 +    FIELD(ZDMA_CH_IDS, DMA_PAUSE, 11, 1)
 +    FIELD(ZDMA_CH_IDS, DMA_DONE, 10, 1)
 +    FIELD(ZDMA_CH_IDS, AXI_WR_DATA, 9, 1)
 +    FIELD(ZDMA_CH_IDS, AXI_RD_DATA, 8, 1)
 +    FIELD(ZDMA_CH_IDS, AXI_RD_DST_DSCR, 7, 1)
 +    FIELD(ZDMA_CH_IDS, AXI_RD_SRC_DSCR, 6, 1)
 +    FIELD(ZDMA_CH_IDS, IRQ_DST_ACCT_ERR, 5, 1)
 +    FIELD(ZDMA_CH_IDS, IRQ_SRC_ACCT_ERR, 4, 1)
 +    FIELD(ZDMA_CH_IDS, BYTE_CNT_OVRFL, 3, 1)
 +    FIELD(ZDMA_CH_IDS, DST_DSCR_DONE, 2, 1)
 +    FIELD(ZDMA_CH_IDS, SRC_DSCR_DONE, 1, 1)
 +    FIELD(ZDMA_CH_IDS, INV_APB, 0, 1)
 +REG32(ZDMA_CH_CTRL0, 0x110)
 +    FIELD(ZDMA_CH_CTRL0, OVR_FETCH, 7, 1)
 +    FIELD(ZDMA_CH_CTRL0, POINT_TYPE, 6, 1)
 +    FIELD(ZDMA_CH_CTRL0, MODE, 4, 2)
 +    FIELD(ZDMA_CH_CTRL0, RATE_CTRL, 3, 1)
 +    FIELD(ZDMA_CH_CTRL0, CONT_ADDR, 2, 1)
 +    FIELD(ZDMA_CH_CTRL0, CONT, 1, 1)
 +REG32(ZDMA_CH_CTRL1, 0x114)
 +    FIELD(ZDMA_CH_CTRL1, DST_ISSUE, 5, 5)
 +    FIELD(ZDMA_CH_CTRL1, SRC_ISSUE, 0, 5)
 +REG32(ZDMA_CH_FCI, 0x118)
 +    FIELD(ZDMA_CH_FCI, PROG_CELL_CNT, 2, 2)
 +    FIELD(ZDMA_CH_FCI, SIDE, 1, 1)
 +    FIELD(ZDMA_CH_FCI, EN, 0, 1)
 +REG32(ZDMA_CH_STATUS, 0x11c)
 +    FIELD(ZDMA_CH_STATUS, STATE, 0, 2)
 +REG32(ZDMA_CH_DATA_ATTR, 0x120)
 +    FIELD(ZDMA_CH_DATA_ATTR, ARBURST, 26, 2)
 +    FIELD(ZDMA_CH_DATA_ATTR, ARCACHE, 22, 4)
 +    FIELD(ZDMA_CH_DATA_ATTR, ARQOS, 18, 4)
 +    FIELD(ZDMA_CH_DATA_ATTR, ARLEN, 14, 4)
 +    FIELD(ZDMA_CH_DATA_ATTR, AWBURST, 12, 2)
 +    FIELD(ZDMA_CH_DATA_ATTR, AWCACHE, 8, 4)
 +    FIELD(ZDMA_CH_DATA_ATTR, AWQOS, 4, 4)
 +    FIELD(ZDMA_CH_DATA_ATTR, AWLEN, 0, 4)
 +REG32(ZDMA_CH_DSCR_ATTR, 0x124)
 +    FIELD(ZDMA_CH_DSCR_ATTR, AXCOHRNT, 8, 1)
 +    FIELD(ZDMA_CH_DSCR_ATTR, AXCACHE, 4, 4)
 +    FIELD(ZDMA_CH_DSCR_ATTR, AXQOS, 0, 4)
 +REG32(ZDMA_CH_SRC_DSCR_WORD0, 0x128)
 +REG32(ZDMA_CH_SRC_DSCR_WORD1, 0x12c)
 +    FIELD(ZDMA_CH_SRC_DSCR_WORD1, MSB, 0, 17)
 +REG32(ZDMA_CH_SRC_DSCR_WORD2, 0x130)
 +    FIELD(ZDMA_CH_SRC_DSCR_WORD2, SIZE, 0, 30)
 +REG32(ZDMA_CH_SRC_DSCR_WORD3, 0x134)
 +    FIELD(ZDMA_CH_SRC_DSCR_WORD3, CMD, 3, 2)
 +    FIELD(ZDMA_CH_SRC_DSCR_WORD3, INTR, 2, 1)
 +    FIELD(ZDMA_CH_SRC_DSCR_WORD3, TYPE, 1, 1)
 +    FIELD(ZDMA_CH_SRC_DSCR_WORD3, COHRNT, 0, 1)
 +REG32(ZDMA_CH_DST_DSCR_WORD0, 0x138)
 +REG32(ZDMA_CH_DST_DSCR_WORD1, 0x13c)
 +    FIELD(ZDMA_CH_DST_DSCR_WORD1, MSB, 0, 17)
 +REG32(ZDMA_CH_DST_DSCR_WORD2, 0x140)
 +    FIELD(ZDMA_CH_DST_DSCR_WORD2, SIZE, 0, 30)
 +REG32(ZDMA_CH_DST_DSCR_WORD3, 0x144)
 +    FIELD(ZDMA_CH_DST_DSCR_WORD3, INTR, 2, 1)
 +    FIELD(ZDMA_CH_DST_DSCR_WORD3, TYPE, 1, 1)
 +    FIELD(ZDMA_CH_DST_DSCR_WORD3, COHRNT, 0, 1)
 +REG32(ZDMA_CH_WR_ONLY_WORD0, 0x148)
 +REG32(ZDMA_CH_WR_ONLY_WORD1, 0x14c)
 +REG32(ZDMA_CH_WR_ONLY_WORD2, 0x150)
 +REG32(ZDMA_CH_WR_ONLY_WORD3, 0x154)
 +REG32(ZDMA_CH_SRC_START_LSB, 0x158)
 +REG32(ZDMA_CH_SRC_START_MSB, 0x15c)
 +    FIELD(ZDMA_CH_SRC_START_MSB, ADDR, 0, 17)
 +REG32(ZDMA_CH_DST_START_LSB, 0x160)
 +REG32(ZDMA_CH_DST_START_MSB, 0x164)
 +    FIELD(ZDMA_CH_DST_START_MSB, ADDR, 0, 17)
 +REG32(ZDMA_CH_RATE_CTRL, 0x18c)
 +    FIELD(ZDMA_CH_RATE_CTRL, CNT, 0, 12)
 +REG32(ZDMA_CH_SRC_CUR_PYLD_LSB, 0x168)
 +REG32(ZDMA_CH_SRC_CUR_PYLD_MSB, 0x16c)
 +    FIELD(ZDMA_CH_SRC_CUR_PYLD_MSB, ADDR, 0, 17)
 +REG32(ZDMA_CH_DST_CUR_PYLD_LSB, 0x170)
 +REG32(ZDMA_CH_DST_CUR_PYLD_MSB, 0x174)
 +    FIELD(ZDMA_CH_DST_CUR_PYLD_MSB, ADDR, 0, 17)
 +REG32(ZDMA_CH_SRC_CUR_DSCR_LSB, 0x178)
 +REG32(ZDMA_CH_SRC_CUR_DSCR_MSB, 0x17c)
 +    FIELD(ZDMA_CH_SRC_CUR_DSCR_MSB, ADDR, 0, 17)
 +REG32(ZDMA_CH_DST_CUR_DSCR_LSB, 0x180)
 +REG32(ZDMA_CH_DST_CUR_DSCR_MSB, 0x184)
 +    FIELD(ZDMA_CH_DST_CUR_DSCR_MSB, ADDR, 0, 17)
 +REG32(ZDMA_CH_TOTAL_BYTE, 0x188)
 +REG32(ZDMA_CH_RATE_CNTL, 0x18c)
 +    FIELD(ZDMA_CH_RATE_CNTL, CNT, 0, 12)
 +REG32(ZDMA_CH_IRQ_SRC_ACCT, 0x190)
 +    FIELD(ZDMA_CH_IRQ_SRC_ACCT, CNT, 0, 8)
 +REG32(ZDMA_CH_IRQ_DST_ACCT, 0x194)
 +    FIELD(ZDMA_CH_IRQ_DST_ACCT, CNT, 0, 8)
 +REG32(ZDMA_CH_DBG0, 0x198)
 +    FIELD(ZDMA_CH_DBG0, CMN_BUF_FREE, 0, 9)
 +REG32(ZDMA_CH_DBG1, 0x19c)
 +    FIELD(ZDMA_CH_DBG1, CMN_BUF_OCC, 0, 9)
 +REG32(ZDMA_CH_CTRL2, 0x200)
 +    FIELD(ZDMA_CH_CTRL2, EN, 0, 1)
 +
 +enum {
 +    PT_REG = 0,
 +    PT_MEM = 1,
 +};
 +
 +enum {
 +    CMD_HALT = 1,
 +    CMD_STOP = 2,
 +};
 +
 +enum {
 +    RW_MODE_RW = 0,
 +    RW_MODE_WO = 1,
 +    RW_MODE_RO = 2,
 +};
 +
 +enum {
 +    DTYPE_LINEAR = 0,
 +    DTYPE_LINKED = 1,
 +};
 +
 +enum {
 +    AXI_BURST_FIXED = 0,
 +    AXI_BURST_INCR  = 1,
 +};
 +
 +static void zdma_ch_imr_update_irq(XlnxZDMA *s)
 +{
 +    bool pending;
 +
 +    pending = s->regs[R_ZDMA_CH_ISR] & ~s->regs[R_ZDMA_CH_IMR];
 +
 +    qemu_set_irq(s->irq_zdma_ch_imr, pending);
 +}
 +
 +static void zdma_ch_isr_postw(RegisterInfo *reg, uint64_t val64)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
 +    zdma_ch_imr_update_irq(s);
 +}
 +
 +static uint64_t zdma_ch_ien_prew(RegisterInfo *reg, uint64_t val64)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
 +    uint32_t val = val64;
 +
 +    s->regs[R_ZDMA_CH_IMR] &= ~val;
 +    zdma_ch_imr_update_irq(s);
 +    return 0;
 +}
 +
 +static uint64_t zdma_ch_ids_prew(RegisterInfo *reg, uint64_t val64)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
 +    uint32_t val = val64;
 +
 +    s->regs[R_ZDMA_CH_IMR] |= val;
 +    zdma_ch_imr_update_irq(s);
 +    return 0;
 +}
 +
 +static void zdma_set_state(XlnxZDMA *s, XlnxZDMAState state)
 +{
 +    s->state = state;
 +    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_STATUS, STATE, state);
 +
 +    /* Signal error if we have an error condition.  */
 +    if (s->error) {
 +        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_STATUS, STATE, 3);
 +    }
 +}
 +
 +static void zdma_src_done(XlnxZDMA *s)
 +{
 +    unsigned int cnt;
 +    cnt = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_SRC_ACCT, CNT);
 +    cnt++;
 +    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_IRQ_SRC_ACCT, CNT, cnt);
 +    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, SRC_DSCR_DONE, true);
 +
 +    /* Did we overflow?  */
 +    if (cnt != ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_SRC_ACCT, CNT)) {
 +        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, IRQ_SRC_ACCT_ERR, true);
 +    }
 +    zdma_ch_imr_update_irq(s);
 +}
 +
 +static void zdma_dst_done(XlnxZDMA *s)
 +{
 +    unsigned int cnt;
 +    cnt = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_DST_ACCT, CNT);
 +    cnt++;
 +    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_IRQ_DST_ACCT, CNT, cnt);
 +    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, DST_DSCR_DONE, true);
 +
 +    /* Did we overflow?  */
 +    if (cnt != ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_DST_ACCT, CNT)) {
 +        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, IRQ_DST_ACCT_ERR, true);
 +    }
 +    zdma_ch_imr_update_irq(s);
 +}
 +
 +static uint64_t zdma_get_regaddr64(XlnxZDMA *s, unsigned int basereg)
 +{
 +    uint64_t addr;
 +
 +    addr = s->regs[basereg + 1];
 +    addr <<= 32;
 +    addr |= s->regs[basereg];
 +
 +    return addr;
 +}
 +
 +static void zdma_put_regaddr64(XlnxZDMA *s, unsigned int basereg, uint64_t addr)
 +{
 +    s->regs[basereg] = addr;
 +    s->regs[basereg + 1] = addr >> 32;
 +}
 +
 +static bool zdma_load_descriptor(XlnxZDMA *s, uint64_t addr, void *buf)
 +{
 +    /* ZDMA descriptors must be aligned to their own size.  */
 +    if (addr % sizeof(XlnxZDMADescr)) {
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "zdma: unaligned descriptor at %" PRIx64,
 +                      addr);
 +        memset(buf, 0xdeadbeef, sizeof(XlnxZDMADescr));
 +        s->error = true;
 +        return false;
 +    }
 +
-+    address_space_rw(s->dma_as, addr, s->attr,
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+                     buf, sizeof(XlnxZDMADescr), false);
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if (!opfn) {
 +        /* Bad size (including size == 3, which is a different insn group) */
 +        return false;
 +    }
 +
 +    if (a->vd & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    scalar = neon_get_scalar(a->size, a->vm);
 +
 +    /* Load all inputs before writing any outputs, in case of overlap */
 +    rn = neon_load_reg(a->vn, 0);
 +    rn0_64 = tcg_temp_new_i64();
 +    opfn(rn0_64, rn, scalar);
 +    tcg_temp_free_i32(rn);
 +
 +    rn = neon_load_reg(a->vn, 1);
 +    rn1_64 = tcg_temp_new_i64();
 +    opfn(rn1_64, rn, scalar);
 +    tcg_temp_free_i32(rn);
 +    tcg_temp_free_i32(scalar);
 +
 +    if (accfn) {
 +        TCGv_i64 t64 = tcg_temp_new_i64();
 +        neon_load_reg64(t64, a->vd);
 +        accfn(t64, t64, rn0_64);
 +        neon_store_reg64(t64, a->vd);
 +        neon_load_reg64(t64, a->vd + 1);
 +        accfn(t64, t64, rn1_64);
 +        neon_store_reg64(t64, a->vd + 1);
 +        tcg_temp_free_i64(t64);
 +    } else {
 +        neon_store_reg64(rn0_64, a->vd);
 +        neon_store_reg64(rn1_64, a->vd + 1);
 +    }
 +    tcg_temp_free_i64(rn0_64);
 +    tcg_temp_free_i64(rn1_64);
 +    return true;
 +}
 +
-+static void zdma_load_src_descriptor(XlnxZDMA *s)
++static bool trans_VMULL_S_2sc(DisasContext *s, arg_2scalar *a)
 +{
-+    uint64_t src_addr;
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
++        NULL,
-+
++        gen_helper_neon_mull_s16,
-+    if (ptype == PT_REG) {
++        gen_mull_s32,
-+        memcpy(&s->dsc_src, &s->regs[R_ZDMA_CH_SRC_DSCR_WORD0],
++        NULL,
-+               sizeof(s->dsc_src));
++    };
-+        return;
++
-+    }
++    return do_2scalar_long(s, a, opfn[a->size], NULL);
-+
++}
-+    src_addr = zdma_get_regaddr64(s, R_ZDMA_CH_SRC_CUR_DSCR_LSB);
++
-+
++static bool trans_VMULL_U_2sc(DisasContext *s, arg_2scalar *a)
-+    if (!zdma_load_descriptor(s, src_addr, &s->dsc_src)) {
++{
-+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, AXI_RD_SRC_DSCR, true);
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+    }
++        NULL,
-+}
++        gen_helper_neon_mull_u16,
-+
++        gen_mull_u32,
-+static void zdma_load_dst_descriptor(XlnxZDMA *s)
++        NULL,
-+{
++    };
-+    uint64_t dst_addr;
++
-+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
++    return do_2scalar_long(s, a, opfn[a->size], NULL);
-+
++}
-+    if (ptype == PT_REG) {
++
-+        memcpy(&s->dsc_dst, &s->regs[R_ZDMA_CH_DST_DSCR_WORD0],
++#define DO_VMLAL_2SC(INSN, MULL, ACC)                                   \
-+               sizeof(s->dsc_dst));
++    static bool trans_##INSN##_2sc(DisasContext *s, arg_2scalar *a)     \
-+        return;
++    {                                                                   \
-+    }
++        static NeonGenTwoOpWidenFn * const opfn[] = {                   \
-+
++            NULL,                                                       \
-+    dst_addr = zdma_get_regaddr64(s, R_ZDMA_CH_DST_CUR_DSCR_LSB);
++            gen_helper_neon_##MULL##16,                                 \
-+
++            gen_##MULL##32,                                             \
-+    if (!zdma_load_descriptor(s, dst_addr, &s->dsc_dst)) {
++            NULL,                                                       \
-+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, AXI_RD_DST_DSCR, true);
++        };                                                              \
-+    }
++        static NeonGenTwo64OpFn * const accfn[] = {                     \
-+}
++            NULL,                                                       \
-+
++            gen_helper_neon_##ACC##l_u32,                               \
-+static uint64_t zdma_update_descr_addr(XlnxZDMA *s, bool type,
++            tcg_gen_##ACC##_i64,                                        \
-+                                       unsigned int basereg)
++            NULL,                                                       \
-+{
++        };                                                              \
-+    uint64_t addr, next;
++        return do_2scalar_long(s, a, opfn[a->size], accfn[a->size]);    \
-+
++    }
-+    if (type == DTYPE_LINEAR) {
++
-+        next = zdma_get_regaddr64(s, basereg);
++DO_VMLAL_2SC(VMLAL_S, mull_s, add)
-+        next += sizeof(s->dsc_dst);
++DO_VMLAL_2SC(VMLAL_U, mull_u, add)
-+        zdma_put_regaddr64(s, basereg, next);
++DO_VMLAL_2SC(VMLSL_S, mull_s, sub)
-+    } else {
++DO_VMLAL_2SC(VMLSL_U, mull_u, sub)
-+        addr = zdma_get_regaddr64(s, basereg);
++
-+        addr += sizeof(s->dsc_dst);
++static bool trans_VQDMULL_2sc(DisasContext *s, arg_2scalar *a)
-+        address_space_rw(s->dma_as, addr, s->attr, (void *) &next, 8, false);
++{
-+        zdma_put_regaddr64(s, basereg, next);
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+    }
++        NULL,
-+    return next;
++        gen_VQDMULL_16,
-+}
++        gen_VQDMULL_32,
-+
++        NULL,
-+static void zdma_write_dst(XlnxZDMA *s, uint8_t *buf, uint32_t len)
++    };
-+{
++
-+    uint32_t dst_size, dlen;
++    return do_2scalar_long(s, a, opfn[a->size], NULL);
-+    bool dst_intr, dst_type;
++}
-+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
++
-+    unsigned int rw_mode = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, MODE);
++static bool trans_VQDMLAL_2sc(DisasContext *s, arg_2scalar *a)
-+    unsigned int burst_type = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_DATA_ATTR,
++{
-+                                               AWBURST);
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+
++        NULL,
-+    /* FIXED burst types are only supported in simple dma mode.  */
++        gen_VQDMULL_16,
-+    if (ptype != PT_REG) {
++        gen_VQDMULL_32,
-+        burst_type = AXI_BURST_INCR;
++        NULL,
-+    }
++    };
-+
++    static NeonGenTwo64OpFn * const accfn[] = {
-+    while (len) {
++        NULL,
-+        dst_size = FIELD_EX32(s->dsc_dst.words[2], ZDMA_CH_DST_DSCR_WORD2,
++        gen_VQDMLAL_acc_16,
-+                              SIZE);
++        gen_VQDMLAL_acc_32,
-+        dst_type = FIELD_EX32(s->dsc_dst.words[3], ZDMA_CH_DST_DSCR_WORD3,
++        NULL,
-+                              TYPE);
++    };
-+        if (dst_size == 0 && ptype == PT_MEM) {
++
-+            uint64_t next;
++    return do_2scalar_long(s, a, opfn[a->size], accfn[a->size]);
-+            next = zdma_update_descr_addr(s, dst_type,
++}
-+                                          R_ZDMA_CH_DST_CUR_DSCR_LSB);
++
-+            zdma_load_descriptor(s, next, &s->dsc_dst);
++static bool trans_VQDMLSL_2sc(DisasContext *s, arg_2scalar *a)
-+            dst_size = FIELD_EX32(s->dsc_dst.words[2], ZDMA_CH_DST_DSCR_WORD2,
++{
-+                                  SIZE);
++    static NeonGenTwoOpWidenFn * const opfn[] = {
-+            dst_type = FIELD_EX32(s->dsc_dst.words[3], ZDMA_CH_DST_DSCR_WORD3,
++        NULL,
-+                                  TYPE);
++        gen_VQDMULL_16,
-+        }
++        gen_VQDMULL_32,
-+
++        NULL,
-+        /* Match what hardware does by ignoring the dst_size and only using
++    };
-+         * the src size for Simple register mode.  */
++    static NeonGenTwo64OpFn * const accfn[] = {
-+        if (ptype == PT_REG && rw_mode != RW_MODE_WO) {
++        NULL,
-+            dst_size = len;
++        gen_VQDMLSL_acc_16,
-+        }
++        gen_VQDMLSL_acc_32,
-+
++        NULL,
-+        dst_intr = FIELD_EX32(s->dsc_dst.words[3], ZDMA_CH_DST_DSCR_WORD3,
++    };
-+                              INTR);
++
-+
++    return do_2scalar_long(s, a, opfn[a->size], accfn[a->size]);
-+        dlen = len > dst_size ? dst_size : len;
++}
-+        if (burst_type == AXI_BURST_FIXED) {
+diff --git a/target/arm/translate.c b/target/arm/translate.c
-+            if (dlen > (s->cfg.bus_width / 8)) {
+index XXXXXXX..XXXXXXX 100644
-+                dlen = s->cfg.bus_width / 8;
+--- a/target/arm/translate.c
-+            }
++++ b/target/arm/translate.c
-+        }
+@@ -XXX,XX +XXX,XX @@ static void gen_revsh(TCGv_i32 dest, TCGv_i32 var)
-+
+     tcg_gen_ext16s_i32(dest, var);
-+        address_space_rw(s->dma_as, s->dsc_dst.addr, s->attr, buf, dlen,
+ }
-+                         true);
-+        if (burst_type == AXI_BURST_INCR) {
+-/* 32x32->64 multiply.  Marks inputs as dead.  */
-+            s->dsc_dst.addr += dlen;
+-static TCGv_i64 gen_mulu_i64_i32(TCGv_i32 a, TCGv_i32 b)
-+        }
+-{
-+        dst_size -= dlen;
+-    TCGv_i32 lo = tcg_temp_new_i32();
-+        buf += dlen;
+-    TCGv_i32 hi = tcg_temp_new_i32();
-+        len -= dlen;
+-    TCGv_i64 ret;
-+
+-
-+        if (dst_size == 0 && dst_intr) {
+-    tcg_gen_mulu2_i32(lo, hi, a, b);
-+            zdma_dst_done(s);
+-    tcg_temp_free_i32(a);
-+        }
+-    tcg_temp_free_i32(b);
-+
+-
-+        /* Write back to buffered descriptor.  */
+-    ret = tcg_temp_new_i64();
-+        s->dsc_dst.words[2] = FIELD_DP32(s->dsc_dst.words[2],
+-    tcg_gen_concat_i32_i64(ret, lo, hi);
-+                                         ZDMA_CH_DST_DSCR_WORD2,
+-    tcg_temp_free_i32(lo);
-+                                         SIZE,
+-    tcg_temp_free_i32(hi);
-+                                         dst_size);
+-
-+    }
+-    return ret;
-+}
+-}
-+
+-
-+static void zdma_process_descr(XlnxZDMA *s)
+-static TCGv_i64 gen_muls_i64_i32(TCGv_i32 a, TCGv_i32 b)
-+{
+-{
-+    uint64_t src_addr;
+-    TCGv_i32 lo = tcg_temp_new_i32();
-+    uint32_t src_size, len;
+-    TCGv_i32 hi = tcg_temp_new_i32();
-+    unsigned int src_cmd;
+-    TCGv_i64 ret;
-+    bool src_intr, src_type;
+-
-+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
+-    tcg_gen_muls2_i32(lo, hi, a, b);
-+    unsigned int rw_mode = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, MODE);
+-    tcg_temp_free_i32(a);
-+    unsigned int burst_type = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_DATA_ATTR,
+-    tcg_temp_free_i32(b);
-+                                               ARBURST);
+-
-+
+-    ret = tcg_temp_new_i64();
-+    src_addr = s->dsc_src.addr;
+-    tcg_gen_concat_i32_i64(ret, lo, hi);
-+    src_size = FIELD_EX32(s->dsc_src.words[2], ZDMA_CH_SRC_DSCR_WORD2, SIZE);
+-    tcg_temp_free_i32(lo);
-+    src_cmd = FIELD_EX32(s->dsc_src.words[3], ZDMA_CH_SRC_DSCR_WORD3, CMD);
+-    tcg_temp_free_i32(hi);
-+    src_type = FIELD_EX32(s->dsc_src.words[3], ZDMA_CH_SRC_DSCR_WORD3, TYPE);
+-
-+    src_intr = FIELD_EX32(s->dsc_src.words[3], ZDMA_CH_SRC_DSCR_WORD3, INTR);
+-    return ret;
-+
+-}
-+    /* FIXED burst types and non-rw modes are only supported in
+-
-+     * simple dma mode.
+ /* Swap low and high halfwords.  */
-+     */
+ static void gen_swap_half(TCGv_i32 var)
-+    if (ptype != PT_REG) {
+ {
-+        if (rw_mode != RW_MODE_RW) {
+@@ -XXX,XX +XXX,XX @@ static inline void gen_neon_addl(int size)
-+            qemu_log_mask(LOG_GUEST_ERROR,
+     }
-+                          "zDMA: rw-mode=%d but not simple DMA mode.\n",
+ }
-+                          rw_mode);
-+        }
+-static inline void gen_neon_negl(TCGv_i64 var, int size)
-+        if (burst_type != AXI_BURST_INCR) {
+-{
-+            qemu_log_mask(LOG_GUEST_ERROR,
+-    switch (size) {
-+                          "zDMA: burst_type=%d but not simple DMA mode.\n",
+-    case 0: gen_helper_neon_negl_u16(var, var); break;
-+                          burst_type);
+-    case 1: gen_helper_neon_negl_u32(var, var); break;
-+        }
+-    case 2:
-+        burst_type = AXI_BURST_INCR;
+-        tcg_gen_neg_i64(var, var);
-+        rw_mode = RW_MODE_RW;
+-        break;
-+    }
+-    default: abort();
-+
+-    }
-+    if (rw_mode == RW_MODE_WO) {
+-}
-+        /* In Simple DMA Write-Only, we need to push DST size bytes
+-
-+         * regardless of what SRC size is set to.  */
+-static inline void gen_neon_addl_saturate(TCGv_i64 op0, TCGv_i64 op1, int size)
-+        src_size = FIELD_EX32(s->dsc_dst.words[2], ZDMA_CH_DST_DSCR_WORD2,
+-{
-+                              SIZE);
+-    switch (size) {
-+        memcpy(s->buf, &s->regs[R_ZDMA_CH_WR_ONLY_WORD0], s->cfg.bus_width / 8);
+-    case 1: gen_helper_neon_addl_saturate_s32(op0, cpu_env, op0, op1); break;
-+    }
+-    case 2: gen_helper_neon_addl_saturate_s64(op0, cpu_env, op0, op1); break;
-+
+-    default: abort();
-+    while (src_size) {
+-    }
-+        len = src_size > ARRAY_SIZE(s->buf) ? ARRAY_SIZE(s->buf) : src_size;
+-}
-+        if (burst_type == AXI_BURST_FIXED) {
+-
-+            if (len > (s->cfg.bus_width / 8)) {
+-static inline void gen_neon_mull(TCGv_i64 dest, TCGv_i32 a, TCGv_i32 b,
-+                len = s->cfg.bus_width / 8;
+-                                 int size, int u)
-+            }
+-{
-+        }
+-    TCGv_i64 tmp;
-+
+-
-+        if (rw_mode == RW_MODE_WO) {
+-    switch ((size << 1) | u) {
-+            if (len > s->cfg.bus_width / 8) {
+-    case 0: gen_helper_neon_mull_s8(dest, a, b); break;
-+                len = s->cfg.bus_width / 8;
+-    case 1: gen_helper_neon_mull_u8(dest, a, b); break;
-+            }
+-    case 2: gen_helper_neon_mull_s16(dest, a, b); break;
-+        } else {
+-    case 3: gen_helper_neon_mull_u16(dest, a, b); break;
-+            address_space_rw(s->dma_as, src_addr, s->attr, s->buf, len,
+-    case 4:
-+                             false);
+-        tmp = gen_muls_i64_i32(a, b);
-+            if (burst_type == AXI_BURST_INCR) {
+-        tcg_gen_mov_i64(dest, tmp);
-+                src_addr += len;
+-        tcg_temp_free_i64(tmp);
-+            }
+-        break;
-+        }
+-    case 5:
-+
+-        tmp = gen_mulu_i64_i32(a, b);
-+        if (rw_mode != RW_MODE_RO) {
+-        tcg_gen_mov_i64(dest, tmp);
-+            zdma_write_dst(s, s->buf, len);
+-        tcg_temp_free_i64(tmp);
-+        }
+-        break;
-+
+-    default: abort();
-+        s->regs[R_ZDMA_CH_TOTAL_BYTE] += len;
+-    }
-+        src_size -= len;
+-
-+    }
+-    /* gen_helper_neon_mull_[su]{8|16} do not free their parameters.
-+
+-       Don't forget to clean them now.  */
-+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, DMA_DONE, true);
+-    if (size < 2) {
-+
+-        tcg_temp_free_i32(a);
-+    if (src_intr) {
+-        tcg_temp_free_i32(b);
-+        zdma_src_done(s);
+-    }
-+    }
+-}
-+
+-
-+    /* Load next descriptor.  */
+ static void gen_neon_narrow_op(int op, int u, int size,
-+    if (ptype == PT_REG || src_cmd == CMD_STOP) {
+                                TCGv_i32 dest, TCGv_i64 src)
-+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_CTRL2, EN, 0);
+ {
-+        zdma_set_state(s, DISABLED);
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+        return;
+     int u;
-+    }
+     int vec_size;
-+
+     uint32_t imm;
-+    if (src_cmd == CMD_HALT) {
+-    TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
-+        zdma_set_state(s, PAUSED);
++    TCGv_i32 tmp, tmp2, tmp3, tmp5;
-+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, DMA_PAUSE, 1);
+     TCGv_ptr ptr1;
-+        zdma_ch_imr_update_irq(s);
+     TCGv_i64 tmp64;
-+        return;
-+    }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+
+         return 1;
-+    zdma_update_descr_addr(s, src_type, R_ZDMA_CH_SRC_CUR_DSCR_LSB);
+     } else { /* (insn & 0x00800010 == 0x00800000) */
-+}
+         if (size != 3) {
-+
+-            op = (insn >> 8) & 0xf;
-+static void zdma_run(XlnxZDMA *s)
+-            if ((insn & (1 << 6)) == 0) {
-+{
+-                /* Three registers of different lengths: handled by decodetree */
-+    while (s->state == ENABLED && !s->error) {
+-                return 1;
-+        zdma_load_src_descriptor(s);
+-            } else {
-+
+-                /* Two registers and a scalar. NB that for ops of this form
-+        if (s->error) {
+-                 * the ARM ARM labels bit 24 as Q, but it is in our variable
-+            zdma_set_state(s, DISABLED);
+-                 * 'u', not 'q'.
-+        } else {
+-                 */
-+            zdma_process_descr(s);
+-                if (size == 0) {
-+        }
+-                    return 1;
-+    }
+-                }
-+
+-                switch (op) {
-+    zdma_ch_imr_update_irq(s);
+-                case 0: /* Integer VMLA scalar */
-+}
+-                case 4: /* Integer VMLS scalar */
-+
+-                case 8: /* Integer VMUL scalar */
-+static void zdma_update_descr_addr_from_start(XlnxZDMA *s)
+-                case 1: /* Float VMLA scalar */
-+{
+-                case 5: /* Floating point VMLS scalar */
-+    uint64_t src_addr, dst_addr;
+-                case 9: /* Floating point VMUL scalar */
-+
+-                case 12: /* VQDMULH scalar */
-+    src_addr = zdma_get_regaddr64(s, R_ZDMA_CH_SRC_START_LSB);
+-                case 13: /* VQRDMULH scalar */
-+    zdma_put_regaddr64(s, R_ZDMA_CH_SRC_CUR_DSCR_LSB, src_addr);
+-                case 14: /* VQRDMLAH scalar */
-+    dst_addr = zdma_get_regaddr64(s, R_ZDMA_CH_DST_START_LSB);
+-                case 15: /* VQRDMLSH scalar */
-+    zdma_put_regaddr64(s, R_ZDMA_CH_DST_CUR_DSCR_LSB, dst_addr);
+-                    return 1; /* handled by decodetree */
-+    zdma_load_dst_descriptor(s);
+-
-+}
+-                case 3: /* VQDMLAL scalar */
-+
+-                case 7: /* VQDMLSL scalar */
-+static void zdma_ch_ctrlx_postw(RegisterInfo *reg, uint64_t val64)
+-                case 11: /* VQDMULL scalar */
-+{
+-                    if (u == 1) {
-+    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
+-                        return 1;
-+
+-                    }
-+    if (ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL2, EN)) {
+-                    /* fall through */
-+        s->error = false;
+-                case 2: /* VMLAL sclar */
-+
+-                case 6: /* VMLSL scalar */
-+        if (s->state == PAUSED &&
+-                case 10: /* VMULL scalar */
-+            ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, CONT)) {
+-                    if (rd & 1) {
-+            if (ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, CONT_ADDR) == 1) {
+-                        return 1;
-+                zdma_update_descr_addr_from_start(s);
+-                    }
-+            } else {
+-                    tmp2 = neon_get_scalar(size, rm);
-+                bool src_type = FIELD_EX32(s->dsc_src.words[3],
+-                    /* We need a copy of tmp2 because gen_neon_mull
-+                                       ZDMA_CH_SRC_DSCR_WORD3, TYPE);
+-                     * deletes it during pass 0.  */
-+                zdma_update_descr_addr(s, src_type,
+-                    tmp4 = tcg_temp_new_i32();
-+                                          R_ZDMA_CH_SRC_CUR_DSCR_LSB);
+-                    tcg_gen_mov_i32(tmp4, tmp2);
-+            }
+-                    tmp3 = neon_load_reg(rn, 1);
-+            ARRAY_FIELD_DP32(s->regs, ZDMA_CH_CTRL0, CONT, false);
+-
-+            zdma_set_state(s, ENABLED);
+-                    for (pass = 0; pass < 2; pass++) {
-+        } else if (s->state == DISABLED) {
+-                        if (pass == 0) {
-+            zdma_update_descr_addr_from_start(s);
+-                            tmp = neon_load_reg(rn, 0);
-+            zdma_set_state(s, ENABLED);
+-                        } else {
-+        }
+-                            tmp = tmp3;
-+    } else {
+-                            tmp2 = tmp4;
-+        /* Leave Paused state?  */
+-                        }
-+        if (s->state == PAUSED &&
+-                        gen_neon_mull(cpu_V0, tmp, tmp2, size, u);
-+            ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, CONT)) {
+-                        if (op != 11) {
-+            zdma_set_state(s, DISABLED);
+-                            neon_load_reg64(cpu_V1, rd + pass);
-+        }
+-                        }
-+    }
+-                        switch (op) {
-+
+-                        case 6:
-+    zdma_run(s);
+-                            gen_neon_negl(cpu_V0, size);
-+}
+-                            /* Fall through */
-+
+-                        case 2:
-+static RegisterAccessInfo zdma_regs_info[] = {
+-                            gen_neon_addl(size);
-+    {   .name = "ZDMA_ERR_CTRL",  .addr = A_ZDMA_ERR_CTRL,
+-                            break;
-+        .rsvd = 0xfffffffe,
+-                        case 3: case 7:
-+    },{ .name = "ZDMA_CH_ISR",  .addr = A_ZDMA_CH_ISR,
+-                            gen_neon_addl_saturate(cpu_V0, cpu_V0, size);
-+        .rsvd = 0xfffff000,
+-                            if (op == 7) {
-+        .w1c = 0xfff,
+-                                gen_neon_negl(cpu_V0, size);
-+        .post_write = zdma_ch_isr_postw,
+-                            }
-+    },{ .name = "ZDMA_CH_IMR",  .addr = A_ZDMA_CH_IMR,
+-                            gen_neon_addl_saturate(cpu_V0, cpu_V1, size);
-+        .reset = 0xfff,
+-                            break;
-+        .rsvd = 0xfffff000,
+-                        case 10:
-+        .ro = 0xfff,
+-                            /* no-op */
-+    },{ .name = "ZDMA_CH_IEN",  .addr = A_ZDMA_CH_IEN,
+-                            break;
-+        .rsvd = 0xfffff000,
+-                        case 11:
-+        .pre_write = zdma_ch_ien_prew,
+-                            gen_neon_addl_saturate(cpu_V0, cpu_V0, size);
-+    },{ .name = "ZDMA_CH_IDS",  .addr = A_ZDMA_CH_IDS,
+-                            break;
-+        .rsvd = 0xfffff000,
+-                        default:
-+        .pre_write = zdma_ch_ids_prew,
+-                            abort();
-+    },{ .name = "ZDMA_CH_CTRL0",  .addr = A_ZDMA_CH_CTRL0,
+-                        }
-+        .reset = 0x80,
+-                        neon_store_reg64(cpu_V0, rd + pass);
-+        .rsvd = 0xffffff01,
+-                    }
-+        .post_write = zdma_ch_ctrlx_postw,
+-                    break;
-+    },{ .name = "ZDMA_CH_CTRL1",  .addr = A_ZDMA_CH_CTRL1,
+-                default:
-+        .reset = 0x3ff,
+-                    g_assert_not_reached();
-+        .rsvd = 0xfffffc00,
+-                }
-+    },{ .name = "ZDMA_CH_FCI",  .addr = A_ZDMA_CH_FCI,
+-            }
-+        .rsvd = 0xffffffc0,
++            /*
-+    },{ .name = "ZDMA_CH_STATUS",  .addr = A_ZDMA_CH_STATUS,
++             * Three registers of different lengths, or two registers and
-+        .rsvd = 0xfffffffc,
++             * a scalar: handled by decodetree
-+        .ro = 0x3,
++             */
-+    },{ .name = "ZDMA_CH_DATA_ATTR",  .addr = A_ZDMA_CH_DATA_ATTR,
++            return 1;
-+        .reset = 0x483d20f,
+         } else { /* size == 3 */
-+        .rsvd = 0xf0000000,
+             if (!u) {
-+    },{ .name = "ZDMA_CH_DSCR_ATTR",  .addr = A_ZDMA_CH_DSCR_ATTR,
+                 /* Extract.  */
 +        .rsvd = 0xfffffe00,
 +    },{ .name = "ZDMA_CH_SRC_DSCR_WORD0",  .addr = A_ZDMA_CH_SRC_DSCR_WORD0,
 +    },{ .name = "ZDMA_CH_SRC_DSCR_WORD1",  .addr = A_ZDMA_CH_SRC_DSCR_WORD1,
 +        .rsvd = 0xfffe0000,
 +    },{ .name = "ZDMA_CH_SRC_DSCR_WORD2",  .addr = A_ZDMA_CH_SRC_DSCR_WORD2,
 +        .rsvd = 0xc0000000,
 +    },{ .name = "ZDMA_CH_SRC_DSCR_WORD3",  .addr = A_ZDMA_CH_SRC_DSCR_WORD3,
 +        .rsvd = 0xffffffe0,
 +    },{ .name = "ZDMA_CH_DST_DSCR_WORD0",  .addr = A_ZDMA_CH_DST_DSCR_WORD0,
 +    },{ .name = "ZDMA_CH_DST_DSCR_WORD1",  .addr = A_ZDMA_CH_DST_DSCR_WORD1,
 +        .rsvd = 0xfffe0000,
 +    },{ .name = "ZDMA_CH_DST_DSCR_WORD2",  .addr = A_ZDMA_CH_DST_DSCR_WORD2,
 +        .rsvd = 0xc0000000,
 +    },{ .name = "ZDMA_CH_DST_DSCR_WORD3",  .addr = A_ZDMA_CH_DST_DSCR_WORD3,
 +        .rsvd = 0xfffffffa,
 +    },{ .name = "ZDMA_CH_WR_ONLY_WORD0",  .addr = A_ZDMA_CH_WR_ONLY_WORD0,
 +    },{ .name = "ZDMA_CH_WR_ONLY_WORD1",  .addr = A_ZDMA_CH_WR_ONLY_WORD1,
 +    },{ .name = "ZDMA_CH_WR_ONLY_WORD2",  .addr = A_ZDMA_CH_WR_ONLY_WORD2,
 +    },{ .name = "ZDMA_CH_WR_ONLY_WORD3",  .addr = A_ZDMA_CH_WR_ONLY_WORD3,
 +    },{ .name = "ZDMA_CH_SRC_START_LSB",  .addr = A_ZDMA_CH_SRC_START_LSB,
 +    },{ .name = "ZDMA_CH_SRC_START_MSB",  .addr = A_ZDMA_CH_SRC_START_MSB,
 +        .rsvd = 0xfffe0000,
 +    },{ .name = "ZDMA_CH_DST_START_LSB",  .addr = A_ZDMA_CH_DST_START_LSB,
 +    },{ .name = "ZDMA_CH_DST_START_MSB",  .addr = A_ZDMA_CH_DST_START_MSB,
 +        .rsvd = 0xfffe0000,
 +    },{ .name = "ZDMA_CH_SRC_CUR_PYLD_LSB",  .addr = A_ZDMA_CH_SRC_CUR_PYLD_LSB,
 +        .ro = 0xffffffff,
 +    },{ .name = "ZDMA_CH_SRC_CUR_PYLD_MSB",  .addr = A_ZDMA_CH_SRC_CUR_PYLD_MSB,
 +        .rsvd = 0xfffe0000,
 +        .ro = 0x1ffff,
 +    },{ .name = "ZDMA_CH_DST_CUR_PYLD_LSB",  .addr = A_ZDMA_CH_DST_CUR_PYLD_LSB,
 +        .ro = 0xffffffff,
 +    },{ .name = "ZDMA_CH_DST_CUR_PYLD_MSB",  .addr = A_ZDMA_CH_DST_CUR_PYLD_MSB,
 +        .rsvd = 0xfffe0000,
 +        .ro = 0x1ffff,
 +    },{ .name = "ZDMA_CH_SRC_CUR_DSCR_LSB",  .addr = A_ZDMA_CH_SRC_CUR_DSCR_LSB,
 +        .ro = 0xffffffff,
 +    },{ .name = "ZDMA_CH_SRC_CUR_DSCR_MSB",  .addr = A_ZDMA_CH_SRC_CUR_DSCR_MSB,
 +        .rsvd = 0xfffe0000,
 +        .ro = 0x1ffff,
 +    },{ .name = "ZDMA_CH_DST_CUR_DSCR_LSB",  .addr = A_ZDMA_CH_DST_CUR_DSCR_LSB,
 +        .ro = 0xffffffff,
 +    },{ .name = "ZDMA_CH_DST_CUR_DSCR_MSB",  .addr = A_ZDMA_CH_DST_CUR_DSCR_MSB,
 +        .rsvd = 0xfffe0000,
 +        .ro = 0x1ffff,
 +    },{ .name = "ZDMA_CH_TOTAL_BYTE",  .addr = A_ZDMA_CH_TOTAL_BYTE,
 +        .w1c = 0xffffffff,
 +    },{ .name = "ZDMA_CH_RATE_CNTL",  .addr = A_ZDMA_CH_RATE_CNTL,
 +        .rsvd = 0xfffff000,
 +    },{ .name = "ZDMA_CH_IRQ_SRC_ACCT",  .addr = A_ZDMA_CH_IRQ_SRC_ACCT,
 +        .rsvd = 0xffffff00,
 +        .ro = 0xff,
 +        .cor = 0xff,
 +    },{ .name = "ZDMA_CH_IRQ_DST_ACCT",  .addr = A_ZDMA_CH_IRQ_DST_ACCT,
 +        .rsvd = 0xffffff00,
 +        .ro = 0xff,
 +        .cor = 0xff,
 +    },{ .name = "ZDMA_CH_DBG0",  .addr = A_ZDMA_CH_DBG0,
 +        .rsvd = 0xfffffe00,
 +        .ro = 0x1ff,
 +    },{ .name = "ZDMA_CH_DBG1",  .addr = A_ZDMA_CH_DBG1,
 +        .rsvd = 0xfffffe00,
 +        .ro = 0x1ff,
 +    },{ .name = "ZDMA_CH_CTRL2",  .addr = A_ZDMA_CH_CTRL2,
 +        .rsvd = 0xfffffffe,
 +        .post_write = zdma_ch_ctrlx_postw,
 +    }
 +};
 +
 +static void zdma_reset(DeviceState *dev)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(dev);
 +    unsigned int i;
 +
 +    for (i = 0; i < ARRAY_SIZE(s->regs_info); ++i) {
 +        register_reset(&s->regs_info[i]);
 +    }
 +
 +    zdma_ch_imr_update_irq(s);
 +}
 +
 +static uint64_t zdma_read(void *opaque, hwaddr addr, unsigned size)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(opaque);
 +    RegisterInfo *r = &s->regs_info[addr / 4];
 +
 +    if (!r->data) {
 +        qemu_log("%s: Decode error: read from %" HWADDR_PRIx "\n",
 +                 object_get_canonical_path(OBJECT(s)),
 +                 addr);
 +        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
 +        zdma_ch_imr_update_irq(s);
 +        return 0;
 +    }
 +    return register_read(r, ~0, NULL, false);
 +}
 +
 +static void zdma_write(void *opaque, hwaddr addr, uint64_t value,
 +                      unsigned size)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(opaque);
 +    RegisterInfo *r = &s->regs_info[addr / 4];
 +
 +    if (!r->data) {
 +        qemu_log("%s: Decode error: write to %" HWADDR_PRIx "=%" PRIx64 "\n",
 +                 object_get_canonical_path(OBJECT(s)),
 +                 addr, value);
 +        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
 +        zdma_ch_imr_update_irq(s);
 +        return;
 +    }
 +    register_write(r, value, ~0, NULL, false);
 +}
 +
 +static const MemoryRegionOps zdma_ops = {
 +    .read = zdma_read,
 +    .write = zdma_write,
 +    .endianness = DEVICE_LITTLE_ENDIAN,
 +    .valid = {
 +        .min_access_size = 4,
 +        .max_access_size = 4,
 +    },
 +};
 +
 +static void zdma_realize(DeviceState *dev, Error **errp)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(dev);
 +    unsigned int i;
 +
 +    for (i = 0; i < ARRAY_SIZE(zdma_regs_info); ++i) {
 +        RegisterInfo *r = &s->regs_info[zdma_regs_info[i].addr / 4];
 +
 +        *r = (RegisterInfo) {
 +            .data = (uint8_t *)&s->regs[
 +                    zdma_regs_info[i].addr / 4],
 +            .data_size = sizeof(uint32_t),
 +            .access = &zdma_regs_info[i],
 +            .opaque = s,
 +        };
 +    }
 +
 +    if (s->dma_mr) {
 +        s->dma_as = g_malloc0(sizeof(AddressSpace));
 +        address_space_init(s->dma_as, s->dma_mr, NULL);
 +    } else {
 +        s->dma_as = &address_space_memory;
 +    }
 +    s->attr = MEMTXATTRS_UNSPECIFIED;
 +}
 +
 +static void zdma_init(Object *obj)
 +{
 +    XlnxZDMA *s = XLNX_ZDMA(obj);
 +    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
 +
 +    memory_region_init_io(&s->iomem, obj, &zdma_ops, s,
 +                          TYPE_XLNX_ZDMA, ZDMA_R_MAX * 4);
 +    sysbus_init_mmio(sbd, &s->iomem);
 +    sysbus_init_irq(sbd, &s->irq_zdma_ch_imr);
 +
 +    object_property_add_link(obj, "dma", TYPE_MEMORY_REGION,
 +                             (Object **)&s->dma_mr,
 +                             qdev_prop_allow_set_link_before_realize,
 +                             OBJ_PROP_LINK_UNREF_ON_RELEASE,
 +                             &error_abort);
 +}
 +
 +static const VMStateDescription vmstate_zdma = {
 +    .name = TYPE_XLNX_ZDMA,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .minimum_version_id_old = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT32_ARRAY(regs, XlnxZDMA, ZDMA_R_MAX),
 +        VMSTATE_UINT32(state, XlnxZDMA),
 +        VMSTATE_UINT32_ARRAY(dsc_src.words, XlnxZDMA, 4),
 +        VMSTATE_UINT32_ARRAY(dsc_dst.words, XlnxZDMA, 4),
 +        VMSTATE_END_OF_LIST(),
 +    }
 +};
 +
 +static Property zdma_props[] = {
 +    DEFINE_PROP_UINT32("bus-width", XlnxZDMA, cfg.bus_width, 64),
 +    DEFINE_PROP_END_OF_LIST(),
 +};
 +
 +static void zdma_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->reset = zdma_reset;
 +    dc->realize = zdma_realize;
 +    dc->props = zdma_props;
 +    dc->vmsd = &vmstate_zdma;
 +}
 +
 +static const TypeInfo zdma_info = {
 +    .name          = TYPE_XLNX_ZDMA,
 +    .parent        = TYPE_SYS_BUS_DEVICE,
 +    .instance_size = sizeof(XlnxZDMA),
 +    .class_init    = zdma_class_init,
 +    .instance_init = zdma_init,
 +};
 +
 +static void zdma_register_types(void)
 +{
 +    type_register_static(&zdma_info);
 +}
 +
 +type_init(zdma_register_types)
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 12/32] target/arm: Implement SVE predicate test
+[PULL 15/23] target/arm: Convert Neon VEXT to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon VEXT insn to decodetree. Rather than keeping the
+old implementation which used fixed temporaries cpu_V0 and cpu_V1
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+and did the extraction with by-hand shift and logic ops, we use
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+the TCG extract2 insn.
-Message-id: 20180516223007.10256-6-richard.henderson@linaro.org
 We don't need to special case 0 or 8 immediates any more as the
 optimizer is smart enough to throw away the dead code.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/Makefile.objs   |  2 +-
+ target/arm/neon-dp.decode       |  8 +++-
- target/arm/helper-sve.h    | 21 ++++++++++
+ target/arm/translate-neon.inc.c | 76 +++++++++++++++++++++++++++++++++
- target/arm/helper.h        |  1 +
+ target/arm/translate.c          | 58 +------------------------
- target/arm/sve_helper.c    | 78 ++++++++++++++++++++++++++++++++++++++
+files changed, 85 insertions(+), 57 deletions(-)
- target/arm/translate-sve.c | 65 +++++++++++++++++++++++++++++++
- target/arm/sve.decode      |  5 +++
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 files changed, 171 insertions(+), 1 deletion(-)
  create mode 100644 target/arm/helper-sve.h
  create mode 100644 target/arm/sve_helper.c
 diff --git a/target/arm/Makefile.objs b/target/arm/Makefile.objs
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/Makefile.objs
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/Makefile.objs
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ target/arm/decode-sve.inc.c: $(SRC_PATH)/target/arm/sve.decode $(DECODETREE)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
-       "GEN", $(TARGET_DIR)$@)
+ # return false for size==3.
+ ######################################################################
- target/arm/translate-sve.o: target/arm/decode-sve.inc.c
+ {
--obj-$(TARGET_AARCH64) += translate-sve.o
+-  # 0b11 subgroup will go here
-+obj-$(TARGET_AARCH64) += translate-sve.o sve_helper.o
++  [
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
++    ##################################################################
-new file mode 100644
++    # Miscellaneous size=0b11 insns
-index XXXXXXX..XXXXXXX
++    ##################################################################
---- /dev/null
++    VEXT         1111 001 0 1 . 11 .... .... imm:4 . q:1 . 0 .... \
-+++ b/target/arm/helper-sve.h
++                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
-@@ -XXX,XX +XXX,XX @@
++  ]
-+/*
-+ *  AArch64 SVE specific helper definitions
+   # Subgroup for size != 0b11
-+ *
+   [
-+ *  Copyright (c) 2018 Linaro, Ltd
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +DEF_HELPER_FLAGS_2(sve_predtest1, TCG_CALL_NO_WG, i32, i64, i64)
 +DEF_HELPER_FLAGS_3(sve_predtest, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/helper.h
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fcmlad, TCG_CALL_NO_RWG,
+@@ -XXX,XX +XXX,XX @@ static bool trans_VQDMLSL_2sc(DisasContext *s, arg_2scalar *a)
- #ifdef TARGET_AARCH64
+     return do_2scalar_long(s, a, opfn[a->size], accfn[a->size]);
- #include "helper-a64.h"
+ }
-+#include "helper-sve.h"
++
- #endif
++static bool trans_VEXT(DisasContext *s, arg_VEXT *a)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * ARM SVE Operations
 + *
 + * Copyright (c) 2018 Linaro, Ltd.
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "cpu.h"
 +#include "exec/exec-all.h"
 +#include "exec/cpu_ldst.h"
 +#include "exec/helper-proto.h"
 +#include "tcg/tcg-gvec-desc.h"
 +
 +
 +/* Return a value for NZCV as per the ARM PredTest pseudofunction.
 + *
 + * The return value has bit 31 set if N is set, bit 1 set if Z is clear,
 + * and bit 0 set if C is set.  Compare the definitions of these variables
 + * within CPUARMState.
 + */
 +
 +/* For no G bits set, NZCV = C.  */
 +#define PREDTEST_INIT  1
 +
 +/* This is an iterative function, called for each Pd and Pg word
 + * moving forward.
 + */
 +static uint32_t iter_predtest_fwd(uint64_t d, uint64_t g, uint32_t flags)
 +{
-+    if (likely(g)) {
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-+        /* Compute N from first D & G.
++        return false;
-+           Use bit 2 to signal first G bit seen.  */
++    }
-+        if (!(flags & 4)) {
++
-+            flags |= ((d & (g & -g)) != 0) << 31;
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+            flags |= 4;
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & a->q) {
 +        return false;
 +    }
 +
 +    if (a->imm > 7 && !a->q) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    if (!a->q) {
 +        /* Extract 64 bits from <Vm:Vn> */
 +        TCGv_i64 left, right, dest;
 +
 +        left = tcg_temp_new_i64();
 +        right = tcg_temp_new_i64();
 +        dest = tcg_temp_new_i64();
 +
 +        neon_load_reg64(right, a->vn);
 +        neon_load_reg64(left, a->vm);
 +        tcg_gen_extract2_i64(dest, right, left, a->imm * 8);
 +        neon_store_reg64(dest, a->vd);
 +
 +        tcg_temp_free_i64(left);
 +        tcg_temp_free_i64(right);
 +        tcg_temp_free_i64(dest);
 +    } else {
 +        /* Extract 128 bits from <Vm+1:Vm:Vn+1:Vn> */
 +        TCGv_i64 left, middle, right, destleft, destright;
 +
 +        left = tcg_temp_new_i64();
 +        middle = tcg_temp_new_i64();
 +        right = tcg_temp_new_i64();
 +        destleft = tcg_temp_new_i64();
 +        destright = tcg_temp_new_i64();
 +
 +        if (a->imm < 8) {
 +            neon_load_reg64(right, a->vn);
 +            neon_load_reg64(middle, a->vn + 1);
 +            tcg_gen_extract2_i64(destright, right, middle, a->imm * 8);
 +            neon_load_reg64(left, a->vm);
 +            tcg_gen_extract2_i64(destleft, middle, left, a->imm * 8);
 +        } else {
 +            neon_load_reg64(right, a->vn + 1);
 +            neon_load_reg64(middle, a->vm);
 +            tcg_gen_extract2_i64(destright, right, middle, (a->imm - 8) * 8);
 +            neon_load_reg64(left, a->vm + 1);
 +            tcg_gen_extract2_i64(destleft, middle, left, (a->imm - 8) * 8);
 +        }
 +
-+        /* Accumulate Z from each D & G.  */
++        neon_store_reg64(destright, a->vd);
-+        flags |= ((d & g) != 0) << 1;
++        neon_store_reg64(destleft, a->vd + 1);
 +
-+        /* Compute C from last !(D & G).  Replace previous.  */
++        tcg_temp_free_i64(destright);
-+        flags = deposit32(flags, 0, 1, (d & pow2floor(g)) == 0);
++        tcg_temp_free_i64(destleft);
-+    }
++        tcg_temp_free_i64(right);
-+    return flags;
++        tcg_temp_free_i64(middle);
-+}
++        tcg_temp_free_i64(left);
 +
 +/* The same for a single word predicate.  */
 +uint32_t HELPER(sve_predtest1)(uint64_t d, uint64_t g)
 +{
 +    return iter_predtest_fwd(d, g, PREDTEST_INIT);
 +}
 +
 +/* The same for a multi-word predicate.  */
 +uint32_t HELPER(sve_predtest)(void *vd, void *vg, uint32_t words)
 +{
 +    uint32_t flags = PREDTEST_INIT;
 +    uint64_t *d = vd, *g = vg;
 +    uintptr_t i = 0;
 +
 +    do {
 +        flags = iter_predtest_fwd(d[i], g[i], flags);
 +    } while (++i < words);
 +
 +    return flags;
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool do_mov_z(DisasContext *s, int rd, int rn)
      return do_vector2_z(s, tcg_gen_gvec_mov, 0, rd, rn);
  }
 +/* Set the cpu flags as per a return from an SVE helper.  */
 +static void do_pred_flags(TCGv_i32 t)
 +{
 +    tcg_gen_mov_i32(cpu_NF, t);
 +    tcg_gen_andi_i32(cpu_ZF, t, 2);
 +    tcg_gen_andi_i32(cpu_CF, t, 1);
 +    tcg_gen_movi_i32(cpu_VF, 0);
 +}
 +
 +/* Subroutines computing the ARM PredTest psuedofunction.  */
 +static void do_predtest1(TCGv_i64 d, TCGv_i64 g)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    gen_helper_sve_predtest1(t, d, g);
 +    do_pred_flags(t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void do_predtest(DisasContext *s, int dofs, int gofs, int words)
 +{
 +    TCGv_ptr dptr = tcg_temp_new_ptr();
 +    TCGv_ptr gptr = tcg_temp_new_ptr();
 +    TCGv_i32 t;
 +
 +    tcg_gen_addi_ptr(dptr, cpu_env, dofs);
 +    tcg_gen_addi_ptr(gptr, cpu_env, gofs);
 +    t = tcg_const_i32(words);
 +
 +    gen_helper_sve_predtest(t, dptr, gptr, t);
 +    tcg_temp_free_ptr(dptr);
 +    tcg_temp_free_ptr(gptr);
 +
 +    do_pred_flags(t);
 +    tcg_temp_free_i32(t);
 +}
 +
  /*
   *** SVE Logical - Unpredicated Group
   */
@@ -XXX,XX +XXX,XX @@ static bool trans_BIC_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
      return do_vector3_z(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
  }
 +/*
 + *** SVE Predicate Misc Group
 + */
 +
 +static bool trans_PTEST(DisasContext *s, arg_PTEST *a, uint32_t insn)
 +{
 +    if (sve_access_check(s)) {
 +        int nofs = pred_full_reg_offset(s, a->rn);
 +        int gofs = pred_full_reg_offset(s, a->pg);
 +        int words = DIV_ROUND_UP(pred_full_reg_size(s), 8);
 +
 +        if (words == 1) {
 +            TCGv_i64 pn = tcg_temp_new_i64();
 +            TCGv_i64 pg = tcg_temp_new_i64();
 +
 +            tcg_gen_ld_i64(pn, cpu_env, nofs);
 +            tcg_gen_ld_i64(pg, cpu_env, gofs);
 +            do_predtest1(pn, pg);
 +
 +            tcg_temp_free_i64(pn);
 +            tcg_temp_free_i64(pg);
 +        } else {
 +            do_predtest(s, nofs, gofs, words);
 +        }
 +    }
 +    return true;
 +}
-+
+diff --git a/target/arm/translate.c b/target/arm/translate.c
  /*
   *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ ORR_zzz         00000100 01 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- EOR_zzz         00000100 10 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+     int pass;
- BIC_zzz         00000100 11 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+     int u;
+     int vec_size;
-+### SVE Predicate Misc Group
+-    uint32_t imm;
-+
+     TCGv_i32 tmp, tmp2, tmp3, tmp5;
-+# SVE predicate test
+     TCGv_ptr ptr1;
-+PTEST           00100101 01 010000 11 pg:4 0 rn:4 0 0000
+-    TCGv_i64 tmp64;
-+
- ### SVE Memory - 32-bit Gather and Unsized Contiguous Group
+     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+         return 1;
- # SVE load predicate register
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              return 1;
          } else { /* size == 3 */
              if (!u) {
 -                /* Extract.  */
 -                imm = (insn >> 8) & 0xf;
 -
 -                if (imm > 7 && !q)
 -                    return 1;
 -
 -                if (q && ((rd | rn | rm) & 1)) {
 -                    return 1;
 -                }
 -
 -                if (imm == 0) {
 -                    neon_load_reg64(cpu_V0, rn);
 -                    if (q) {
 -                        neon_load_reg64(cpu_V1, rn + 1);
 -                    }
 -                } else if (imm == 8) {
 -                    neon_load_reg64(cpu_V0, rn + 1);
 -                    if (q) {
 -                        neon_load_reg64(cpu_V1, rm);
 -                    }
 -                } else if (q) {
 -                    tmp64 = tcg_temp_new_i64();
 -                    if (imm < 8) {
 -                        neon_load_reg64(cpu_V0, rn);
 -                        neon_load_reg64(tmp64, rn + 1);
 -                    } else {
 -                        neon_load_reg64(cpu_V0, rn + 1);
 -                        neon_load_reg64(tmp64, rm);
 -                    }
 -                    tcg_gen_shri_i64(cpu_V0, cpu_V0, (imm & 7) * 8);
 -                    tcg_gen_shli_i64(cpu_V1, tmp64, 64 - ((imm & 7) * 8));
 -                    tcg_gen_or_i64(cpu_V0, cpu_V0, cpu_V1);
 -                    if (imm < 8) {
 -                        neon_load_reg64(cpu_V1, rm);
 -                    } else {
 -                        neon_load_reg64(cpu_V1, rm + 1);
 -                        imm -= 8;
 -                    }
 -                    tcg_gen_shli_i64(cpu_V1, cpu_V1, 64 - (imm * 8));
 -                    tcg_gen_shri_i64(tmp64, tmp64, imm * 8);
 -                    tcg_gen_or_i64(cpu_V1, cpu_V1, tmp64);
 -                    tcg_temp_free_i64(tmp64);
 -                } else {
 -                    /* BUGFIX */
 -                    neon_load_reg64(cpu_V0, rn);
 -                    tcg_gen_shri_i64(cpu_V0, cpu_V0, imm * 8);
 -                    neon_load_reg64(cpu_V1, rm);
 -                    tcg_gen_shli_i64(cpu_V1, cpu_V1, 64 - (imm * 8));
 -                    tcg_gen_or_i64(cpu_V0, cpu_V0, cpu_V1);
 -                }
 -                neon_store_reg64(cpu_V0, rd);
 -                if (q) {
 -                    neon_store_reg64(cpu_V1, rd + 1);
 -                }
 +                /* Extract: handled by decodetree */
 +                return 1;
              } else if ((insn & (1 << 11)) == 0) {
                  /* Two register misc.  */
                  op = ((insn >> 12) & 0x30) | ((insn >> 7) & 0xf);
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 29/32] target/arm: Implement SVE Element Count Group
+[PULL 16/23] target/arm: Convert Neon VTBL, VTBX to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon VTBL, VTBX instructions to decodetree.  The actual
 implementation of the insn is copied across to the new trans function
 unchanged except for renaming 'tmp5' to 'tmp4'.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-23-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/helper-sve.h    |  11 ++
+ target/arm/neon-dp.decode       |  3 ++
- target/arm/sve_helper.c    | 136 ++++++++++++++++++
+ target/arm/translate-neon.inc.c | 56 +++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 288 +++++++++++++++++++++++++++++++++++++
+ target/arm/translate.c          | 41 +++---------------------
- target/arm/sve.decode      |  31 +++-
+files changed, 63 insertions(+), 37 deletions(-)
 files changed, 465 insertions(+), 1 deletion(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ftssel_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- DEF_HELPER_FLAGS_4(sve_ftssel_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     ##################################################################
- DEF_HELPER_FLAGS_4(sve_ftssel_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+     VEXT         1111 001 0 1 . 11 .... .... imm:4 . q:1 . 0 .... \
+                  vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +DEF_HELPER_FLAGS_4(sve_sqaddi_b, TCG_CALL_NO_RWG, void, ptr, ptr, s32, i32)
 +DEF_HELPER_FLAGS_4(sve_sqaddi_h, TCG_CALL_NO_RWG, void, ptr, ptr, s32, i32)
 +DEF_HELPER_FLAGS_4(sve_sqaddi_s, TCG_CALL_NO_RWG, void, ptr, ptr, s64, i32)
 +DEF_HELPER_FLAGS_4(sve_sqaddi_d, TCG_CALL_NO_RWG, void, ptr, ptr, s64, i32)
 +
-+DEF_HELPER_FLAGS_4(sve_uqaddi_b, TCG_CALL_NO_RWG, void, ptr, ptr, s32, i32)
++    VTBL         1111 001 1 1 . 11 .... .... 10 len:2 . op:1 . 0 .... \
-+DEF_HELPER_FLAGS_4(sve_uqaddi_h, TCG_CALL_NO_RWG, void, ptr, ptr, s32, i32)
++                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
-+DEF_HELPER_FLAGS_4(sve_uqaddi_s, TCG_CALL_NO_RWG, void, ptr, ptr, s64, i32)
+   ]
-+DEF_HELPER_FLAGS_4(sve_uqaddi_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
-+DEF_HELPER_FLAGS_4(sve_uqsubi_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
+   # Subgroup for size != 0b11
-+
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
  DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftssel_d)(void *vd, void *vn, void *vm, uint32_t desc)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VEXT(DisasContext *s, arg_VEXT *a)
          d[i] = nn ^ (mm & 2) << 62;
      }
+     return true;
  }
 +
-+/*
++static bool trans_VTBL(DisasContext *s, arg_VTBL *a)
-+ * Signed saturating addition with scalar operand.
++{
-+ */
++    int n;
 +    TCGv_i32 tmp, tmp2, tmp3, tmp4;
 +    TCGv_ptr ptr1;
 +
-+void HELPER(sve_sqaddi_b)(void *d, void *a, int32_t b, uint32_t desc)
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-+{
++        return false;
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(int8_t)) {
 +        int r = *(int8_t *)(a + i) + b;
 +        if (r > INT8_MAX) {
 +            r = INT8_MAX;
 +        } else if (r < INT8_MIN) {
 +            r = INT8_MIN;
 +        }
 +        *(int8_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_sqaddi_h)(void *d, void *a, int32_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(int16_t)) {
 +        int r = *(int16_t *)(a + i) + b;
 +        if (r > INT16_MAX) {
 +            r = INT16_MAX;
 +        } else if (r < INT16_MIN) {
 +            r = INT16_MIN;
 +        }
 +        *(int16_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_sqaddi_s)(void *d, void *a, int64_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(int32_t)) {
 +        int64_t r = *(int32_t *)(a + i) + b;
 +        if (r > INT32_MAX) {
 +            r = INT32_MAX;
 +        } else if (r < INT32_MIN) {
 +            r = INT32_MIN;
 +        }
 +        *(int32_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_sqaddi_d)(void *d, void *a, int64_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(int64_t)) {
 +        int64_t ai = *(int64_t *)(a + i);
 +        int64_t r = ai + b;
 +        if (((r ^ ai) & ~(ai ^ b)) < 0) {
 +            /* Signed overflow.  */
 +            r = (r < 0 ? INT64_MAX : INT64_MIN);
 +        }
 +        *(int64_t *)(d + i) = r;
 +    }
 +}
 +
 +/*
 + * Unsigned saturating addition with scalar operand.
 + */
 +
 +void HELPER(sve_uqaddi_b)(void *d, void *a, int32_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        int r = *(uint8_t *)(a + i) + b;
 +        if (r > UINT8_MAX) {
 +            r = UINT8_MAX;
 +        } else if (r < 0) {
 +            r = 0;
 +        }
 +        *(uint8_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_uqaddi_h)(void *d, void *a, int32_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        int r = *(uint16_t *)(a + i) + b;
 +        if (r > UINT16_MAX) {
 +            r = UINT16_MAX;
 +        } else if (r < 0) {
 +            r = 0;
 +        }
 +        *(uint16_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_uqaddi_s)(void *d, void *a, int64_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        int64_t r = *(uint32_t *)(a + i) + b;
 +        if (r > UINT32_MAX) {
 +            r = UINT32_MAX;
 +        } else if (r < 0) {
 +            r = 0;
 +        }
 +        *(uint32_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_uqaddi_d)(void *d, void *a, uint64_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        uint64_t r = *(uint64_t *)(a + i) + b;
 +        if (r < b) {
 +            r = UINT64_MAX;
 +        }
 +        *(uint64_t *)(d + i) = r;
 +    }
 +}
 +
 +void HELPER(sve_uqsubi_d)(void *d, void *a, uint64_t b, uint32_t desc)
 +{
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        uint64_t ai = *(uint64_t *)(a + i);
 +        *(uint64_t *)(d + i) = (ai < b ? 0 : ai - b);
 +    }
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static int tszimm_shl(int x)
      return x - (8 << tszimm_esz(x));
  }
 +static inline int plus1(int x)
 +{
 +    return x + 1;
 +}
 +
  /*
   * Include the generated decoder.
   */
@@ -XXX,XX +XXX,XX @@ static bool trans_PNEXT(DisasContext *s, arg_rr_esz *a, uint32_t insn)
      return do_pfirst_pnext(s, a, gen_helper_sve_pnext);
  }
 +/*
 + *** SVE Element Count Group
 + */
 +
 +/* Perform an inline saturating addition of a 32-bit value within
 + * a 64-bit register.  The second operand is known to be positive,
 + * which halves the comparisions we must perform to bound the result.
 + */
 +static void do_sat_addsub_32(TCGv_i64 reg, TCGv_i64 val, bool u, bool d)
 +{
 +    int64_t ibound;
 +    TCGv_i64 bound;
 +    TCGCond cond;
 +
 +    /* Use normal 64-bit arithmetic to detect 32-bit overflow.  */
 +    if (u) {
 +        tcg_gen_ext32u_i64(reg, reg);
 +    } else {
 +        tcg_gen_ext32s_i64(reg, reg);
 +    }
 +    if (d) {
 +        tcg_gen_sub_i64(reg, reg, val);
 +        ibound = (u ? 0 : INT32_MIN);
 +        cond = TCG_COND_LT;
 +    } else {
 +        tcg_gen_add_i64(reg, reg, val);
 +        ibound = (u ? UINT32_MAX : INT32_MAX);
 +        cond = TCG_COND_GT;
 +    }
 +    bound = tcg_const_i64(ibound);
 +    tcg_gen_movcond_i64(cond, reg, reg, bound, bound, reg);
 +    tcg_temp_free_i64(bound);
 +}
 +
 +/* Similarly with 64-bit values.  */
 +static void do_sat_addsub_64(TCGv_i64 reg, TCGv_i64 val, bool u, bool d)
 +{
 +    TCGv_i64 t0 = tcg_temp_new_i64();
 +    TCGv_i64 t1 = tcg_temp_new_i64();
 +    TCGv_i64 t2;
 +
 +    if (u) {
 +        if (d) {
 +            tcg_gen_sub_i64(t0, reg, val);
 +            tcg_gen_movi_i64(t1, 0);
 +            tcg_gen_movcond_i64(TCG_COND_LTU, reg, reg, val, t1, t0);
 +        } else {
 +            tcg_gen_add_i64(t0, reg, val);
 +            tcg_gen_movi_i64(t1, -1);
 +            tcg_gen_movcond_i64(TCG_COND_LTU, reg, t0, reg, t1, t0);
 +        }
 +    } else {
 +        if (d) {
 +            /* Detect signed overflow for subtraction.  */
 +            tcg_gen_xor_i64(t0, reg, val);
 +            tcg_gen_sub_i64(t1, reg, val);
 +            tcg_gen_xor_i64(reg, reg, t0);
 +            tcg_gen_and_i64(t0, t0, reg);
 +
 +            /* Bound the result.  */
 +            tcg_gen_movi_i64(reg, INT64_MIN);
 +            t2 = tcg_const_i64(0);
 +            tcg_gen_movcond_i64(TCG_COND_LT, reg, t0, t2, reg, t1);
 +        } else {
 +            /* Detect signed overflow for addition.  */
 +            tcg_gen_xor_i64(t0, reg, val);
 +            tcg_gen_add_i64(reg, reg, val);
 +            tcg_gen_xor_i64(t1, reg, val);
 +            tcg_gen_andc_i64(t0, t1, t0);
 +
 +            /* Bound the result.  */
 +            tcg_gen_movi_i64(t1, INT64_MAX);
 +            t2 = tcg_const_i64(0);
 +            tcg_gen_movcond_i64(TCG_COND_LT, reg, t0, t2, t1, reg);
 +        }
 +        tcg_temp_free_i64(t2);
 +    }
 +    tcg_temp_free_i64(t0);
 +    tcg_temp_free_i64(t1);
 +}
 +
 +/* Similarly with a vector and a scalar operand.  */
 +static void do_sat_addsub_vec(DisasContext *s, int esz, int rd, int rn,
 +                              TCGv_i64 val, bool u, bool d)
 +{
 +    unsigned vsz = vec_full_reg_size(s);
 +    TCGv_ptr dptr, nptr;
 +    TCGv_i32 t32, desc;
 +    TCGv_i64 t64;
 +
 +    dptr = tcg_temp_new_ptr();
 +    nptr = tcg_temp_new_ptr();
 +    tcg_gen_addi_ptr(dptr, cpu_env, vec_full_reg_offset(s, rd));
 +    tcg_gen_addi_ptr(nptr, cpu_env, vec_full_reg_offset(s, rn));
 +    desc = tcg_const_i32(simd_desc(vsz, vsz, 0));
 +
 +    switch (esz) {
 +    case MO_8:
 +        t32 = tcg_temp_new_i32();
 +        tcg_gen_extrl_i64_i32(t32, val);
 +        if (d) {
 +            tcg_gen_neg_i32(t32, t32);
 +        }
 +        if (u) {
 +            gen_helper_sve_uqaddi_b(dptr, nptr, t32, desc);
 +        } else {
 +            gen_helper_sve_sqaddi_b(dptr, nptr, t32, desc);
 +        }
 +        tcg_temp_free_i32(t32);
 +        break;
 +
 +    case MO_16:
 +        t32 = tcg_temp_new_i32();
 +        tcg_gen_extrl_i64_i32(t32, val);
 +        if (d) {
 +            tcg_gen_neg_i32(t32, t32);
 +        }
 +        if (u) {
 +            gen_helper_sve_uqaddi_h(dptr, nptr, t32, desc);
 +        } else {
 +            gen_helper_sve_sqaddi_h(dptr, nptr, t32, desc);
 +        }
 +        tcg_temp_free_i32(t32);
 +        break;
 +
 +    case MO_32:
 +        t64 = tcg_temp_new_i64();
 +        if (d) {
 +            tcg_gen_neg_i64(t64, val);
 +        } else {
 +            tcg_gen_mov_i64(t64, val);
 +        }
 +        if (u) {
 +            gen_helper_sve_uqaddi_s(dptr, nptr, t64, desc);
 +        } else {
 +            gen_helper_sve_sqaddi_s(dptr, nptr, t64, desc);
 +        }
 +        tcg_temp_free_i64(t64);
 +        break;
 +
 +    case MO_64:
 +        if (u) {
 +            if (d) {
 +                gen_helper_sve_uqsubi_d(dptr, nptr, val, desc);
 +            } else {
 +                gen_helper_sve_uqaddi_d(dptr, nptr, val, desc);
 +            }
 +        } else if (d) {
 +            t64 = tcg_temp_new_i64();
 +            tcg_gen_neg_i64(t64, val);
 +            gen_helper_sve_sqaddi_d(dptr, nptr, t64, desc);
 +            tcg_temp_free_i64(t64);
 +        } else {
 +            gen_helper_sve_sqaddi_d(dptr, nptr, val, desc);
 +        }
 +        break;
 +
 +    default:
 +        g_assert_not_reached();
 +    }
 +
-+    tcg_temp_free_ptr(dptr);
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+    tcg_temp_free_ptr(nptr);
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
-+    tcg_temp_free_i32(desc);
++        ((a->vd | a->vn | a->vm) & 0x10)) {
-+}
++        return false;
 +    }
 +
-+static bool trans_CNT_r(DisasContext *s, arg_CNT_r *a, uint32_t insn)
++    if (!vfp_access_check(s)) {
 +{
 +    if (sve_access_check(s)) {
 +        unsigned fullsz = vec_full_reg_size(s);
 +        unsigned numelem = decode_pred_count(fullsz, a->pat, a->esz);
 +        tcg_gen_movi_i64(cpu_reg(s, a->rd), numelem * a->imm);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INCDEC_r(DisasContext *s, arg_incdec_cnt *a, uint32_t insn)
 +{
 +    if (sve_access_check(s)) {
 +        unsigned fullsz = vec_full_reg_size(s);
 +        unsigned numelem = decode_pred_count(fullsz, a->pat, a->esz);
 +        int inc = numelem * a->imm * (a->d ? -1 : 1);
 +        TCGv_i64 reg = cpu_reg(s, a->rd);
 +
 +        tcg_gen_addi_i64(reg, reg, inc);
 +    }
 +    return true;
 +}
 +
 +static bool trans_SINCDEC_r_32(DisasContext *s, arg_incdec_cnt *a,
 +                               uint32_t insn)
 +{
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
-+    unsigned fullsz = vec_full_reg_size(s);
++    n = a->len + 1;
-+    unsigned numelem = decode_pred_count(fullsz, a->pat, a->esz);
++    if ((a->vn + n) > 32) {
-+    int inc = numelem * a->imm;
++        /*
-+    TCGv_i64 reg = cpu_reg(s, a->rd);
++         * This is UNPREDICTABLE; we choose to UNDEF to avoid the
-+
++         * helper function running off the end of the register file.
-+    /* Use normal 64-bit arithmetic to detect 32-bit overflow.  */
++         */
-+    if (inc == 0) {
++        return false;
-+        if (a->u) {
++    }
-+            tcg_gen_ext32u_i64(reg, reg);
++    n <<= 3;
-+        } else {
++    if (a->op) {
-+            tcg_gen_ext32s_i64(reg, reg);
++        tmp = neon_load_reg(a->vd, 0);
 +        }
 +    } else {
-+        TCGv_i64 t = tcg_const_i64(inc);
++        tmp = tcg_temp_new_i32();
-+        do_sat_addsub_32(reg, t, a->u, a->d);
++        tcg_gen_movi_i32(tmp, 0);
 +        tcg_temp_free_i64(t);
 +    }
++    tmp2 = neon_load_reg(a->vm, 0);
++    ptr1 = vfp_reg_ptr(true, a->vn);
++    tmp4 = tcg_const_i32(n);
++    gen_helper_neon_tbl(tmp2, tmp2, tmp, ptr1, tmp4);
++    tcg_temp_free_i32(tmp);
++    if (a->op) {
++        tmp = neon_load_reg(a->vd, 1);
++    } else {
++        tmp = tcg_temp_new_i32();
++        tcg_gen_movi_i32(tmp, 0);
++    }
++    tmp3 = neon_load_reg(a->vm, 1);
++    gen_helper_neon_tbl(tmp3, tmp3, tmp, ptr1, tmp4);
++    tcg_temp_free_i32(tmp4);
++    tcg_temp_free_ptr(ptr1);
++    neon_store_reg(a->vd, 0, tmp2);
++    neon_store_reg(a->vd, 1, tmp3);
++    tcg_temp_free_i32(tmp);
 +    return true;
 +}
-+
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 +static bool trans_SINCDEC_r_64(DisasContext *s, arg_incdec_cnt *a,
 +                               uint32_t insn)
 +{
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
 +    unsigned fullsz = vec_full_reg_size(s);
 +    unsigned numelem = decode_pred_count(fullsz, a->pat, a->esz);
 +    int inc = numelem * a->imm;
 +    TCGv_i64 reg = cpu_reg(s, a->rd);
 +
 +    if (inc != 0) {
 +        TCGv_i64 t = tcg_const_i64(inc);
 +        do_sat_addsub_64(reg, t, a->u, a->d);
 +        tcg_temp_free_i64(t);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INCDEC_v(DisasContext *s, arg_incdec2_cnt *a, uint32_t insn)
 +{
 +    if (a->esz == 0) {
 +        return false;
 +    }
 +
 +    unsigned fullsz = vec_full_reg_size(s);
 +    unsigned numelem = decode_pred_count(fullsz, a->pat, a->esz);
 +    int inc = numelem * a->imm;
 +
 +    if (inc != 0) {
 +        if (sve_access_check(s)) {
 +            TCGv_i64 t = tcg_const_i64(a->d ? -inc : inc);
 +            tcg_gen_gvec_adds(a->esz, vec_full_reg_offset(s, a->rd),
 +                              vec_full_reg_offset(s, a->rn),
 +                              t, fullsz, fullsz);
 +            tcg_temp_free_i64(t);
 +        }
 +    } else {
 +        do_mov_z(s, a->rd, a->rn);
 +    }
 +    return true;
 +}
 +
 +static bool trans_SINCDEC_v(DisasContext *s, arg_incdec2_cnt *a,
 +                            uint32_t insn)
 +{
 +    if (a->esz == 0) {
 +        return false;
 +    }
 +
 +    unsigned fullsz = vec_full_reg_size(s);
 +    unsigned numelem = decode_pred_count(fullsz, a->pat, a->esz);
 +    int inc = numelem * a->imm;
 +
 +    if (inc != 0) {
 +        if (sve_access_check(s)) {
 +            TCGv_i64 t = tcg_const_i64(inc);
 +            do_sat_addsub_vec(s, a->esz, a->rd, a->rn, t, a->u, a->d);
 +            tcg_temp_free_i64(t);
 +        }
 +    } else {
 +        do_mov_z(s, a->rd, a->rn);
 +    }
 +    return true;
 +}
 +
  /*
   *** SVE Memory - 32-bit Gather and Unsized Contiguous Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- ###########################################################################
+ {
- # Named fields.  These are primarily for disjoint fields.
+     int op;
+     int q;
-+%imm4_16_p1             16:4 !function=plus1
+-    int rd, rn, rm, rd_ofs, rm_ofs;
- %imm6_22_5      22:1 5:5
++    int rd, rm, rd_ofs, rm_ofs;
- %imm9_16_10     16:s6 10:3
+     int size;
+     int pass;
-@@ -XXX,XX +XXX,XX @@
+     int u;
- &rprr_esz       rd pg rn rm esz
+     int vec_size;
- &rprrr_esz      rd pg rn rm ra esz
+-    TCGv_i32 tmp, tmp2, tmp3, tmp5;
- &rpri_esz       rd pg rn imm esz
+-    TCGv_ptr ptr1;
-+&ptrue          rd esz pat s
++    TCGv_i32 tmp, tmp2, tmp3;
-+&incdec_cnt     rd pat esz imm d u
-+&incdec2_cnt    rd rn pat esz imm d u
+     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+         return 1;
- ###########################################################################
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
- # Named instruction formats.  These are generally used to
+     q = (insn & (1 << 6)) != 0;
-@@ -XXX,XX +XXX,XX @@
+     u = (insn >> 24) & 1;
- @rd_rn_i9       ........ ........ ...... rn:5 rd:5      \
+     VFP_DREG_D(rd, insn);
-                 &rri imm=%imm9_16_10
+-    VFP_DREG_N(rn, insn);
+     VFP_DREG_M(rm, insn);
-+# One register, pattern, and uint4+1.
+     size = (insn >> 20) & 3;
-+# User must fill in U and D.
+     vec_size = q ? 16 : 8;
-+@incdec_cnt     ........ esz:2 .. .... ...... pat:5 rd:5 \
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+                &incdec_cnt imm=%imm4_16_p1
+                     break;
-+@incdec2_cnt    ........ esz:2 .. .... ...... pat:5 rd:5 \
+                 }
-+                &incdec2_cnt imm=%imm4_16_p1 rn=%reg_movprfx
+             } else if ((insn & (1 << 10)) == 0) {
-+
+-                /* VTBL, VTBX.  */
- ###########################################################################
+-                int n = ((insn >> 8) & 3) + 1;
- # Instruction patterns.  Grouped according to the SVE encodingindex.xhtml.
+-                if ((rn + n) > 32) {
+-                    /* This is UNPREDICTABLE; we choose to UNDEF to avoid the
-@@ -XXX,XX +XXX,XX @@ FEXPA           00000100 .. 1 00000 101110 ..... .....          @rd_rn
+-                     * helper function running off the end of the register file.
- # Note esz != 0
+-                     */
- FTSSEL          00000100 .. 1 ..... 101100 ..... .....          @rd_rn_rm
+-                    return 1;
+-                }
--### SVE Predicate Logical Operations Group
+-                n <<= 3;
-+### SVE Element Count Group
+-                if (insn & (1 << 6)) {
-+
+-                    tmp = neon_load_reg(rd, 0);
-+# SVE element count
+-                } else {
-+CNT_r           00000100 .. 10 .... 1110 0 0 ..... .....    @incdec_cnt d=0 u=1
+-                    tmp = tcg_temp_new_i32();
-+
+-                    tcg_gen_movi_i32(tmp, 0);
-+# SVE inc/dec register by element count
+-                }
-+INCDEC_r        00000100 .. 11 .... 1110 0 d:1 ..... .....      @incdec_cnt u=1
+-                tmp2 = neon_load_reg(rm, 0);
-+
+-                ptr1 = vfp_reg_ptr(true, rn);
-+# SVE saturating inc/dec register by element count
+-                tmp5 = tcg_const_i32(n);
-+SINCDEC_r_32    00000100 .. 10 .... 1111 d:1 u:1 ..... .....    @incdec_cnt
+-                gen_helper_neon_tbl(tmp2, tmp2, tmp, ptr1, tmp5);
-+SINCDEC_r_64    00000100 .. 11 .... 1111 d:1 u:1 ..... .....    @incdec_cnt
+-                tcg_temp_free_i32(tmp);
-+
+-                if (insn & (1 << 6)) {
-+# SVE inc/dec vector by element count
+-                    tmp = neon_load_reg(rd, 1);
-+# Note this requires esz != 0.
+-                } else {
-+INCDEC_v        00000100 .. 1 1 .... 1100 0 d:1 ..... .....    @incdec2_cnt u=1
+-                    tmp = tcg_temp_new_i32();
-+
+-                    tcg_gen_movi_i32(tmp, 0);
-+# SVE saturating inc/dec vector by element count
+-                }
-+# Note these require esz != 0.
+-                tmp3 = neon_load_reg(rm, 1);
-+SINCDEC_v       00000100 .. 1 0 .... 1100 d:1 u:1 ..... .....   @incdec2_cnt
+-                gen_helper_neon_tbl(tmp3, tmp3, tmp, ptr1, tmp5);
+-                tcg_temp_free_i32(tmp5);
- # SVE predicate logical operations
+-                tcg_temp_free_ptr(ptr1);
- AND_pppp        00100101 0. 00 .... 01 .... 0 .... 0 ....       @pd_pg_pn_pm_s
+-                neon_store_reg(rd, 0, tmp2);
 -                neon_store_reg(rd, 1, tmp3);
 -                tcg_temp_free_i32(tmp);
 +                /* VTBL, VTBX: handled by decodetree */
 +                return 1;
              } else if ((insn & 0x380) == 0) {
                  /* VDUP */
                  int element;
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 13/32] target/arm: Implement SVE Predicate Logical Operations Group
+[PULL 17/23] target/arm: Convert Neon VDUP (scalar) to decodetree
-From: Richard Henderson <richard.henderson@linaro.org>
+Convert the Neon VDUP (scalar) insn to decodetree.  (Note that we
 can't call this just "VDUP" as we used that already in vfp.decode for
 the "VDUP (general purpose register" insn.)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/cpu.h           |   4 +-
+ target/arm/neon-dp.decode       |  7 +++++++
- target/arm/helper-sve.h    |  10 +
+ target/arm/translate-neon.inc.c | 26 ++++++++++++++++++++++++++
- target/arm/sve_helper.c    |  39 ++++
+ target/arm/translate.c          | 25 +------------------------
- target/arm/translate-sve.c | 361 +++++++++++++++++++++++++++++++++++++
+files changed, 34 insertions(+), 24 deletions(-)
  target/arm/sve.decode      |  16 ++
 files changed, 429 insertions(+), 1 deletion(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/neon-dp.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
+@@ -XXX,XX +XXX,XX @@ Vimm_1r          1111 001 . 1 . 000 ... .... cmode:4 0 . op:1 1 .... @1reg_imm
- #ifdef TARGET_AARCH64
-         /* Store FFR as pregs[16] to make it easier to treat as any other.  */
+     VTBL         1111 001 1 1 . 11 .... .... 10 len:2 . op:1 . 0 .... \
-         ARMPredicateReg pregs[17];
+                  vm=%vm_dp vn=%vn_dp vd=%vd_dp
-+        /* Scratch space for aa64 sve predicate temporary.  */
++
-+        ARMPredicateReg preg_tmp;
++    VDUP_scalar  1111 001 1 1 . 11 index:3 1 .... 11 000 q:1 . 0 .... \
- #endif
++                 vm=%vm_dp vd=%vd_dp size=0
++    VDUP_scalar  1111 001 1 1 . 11 index:2 10 .... 11 000 q:1 . 0 .... \
-         uint32_t xregs[16];
++                 vm=%vm_dp vd=%vd_dp size=1
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
++    VDUP_scalar  1111 001 1 1 . 11 index:1 100 .... 11 000 q:1 . 0 .... \
-         int vec_len;
++                 vm=%vm_dp vd=%vd_dp size=2
-         int vec_stride;
+   ]
--        /* scratch space when Tn are not sufficient.  */
+   # Subgroup for size != 0b11
-+        /* Scratch space for aa32 neon expansion.  */
+diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
          uint32_t scratch[8];
          /* There are a number of distinct float control structures:
 diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool trans_VTBL(DisasContext *s, arg_VTBL *a)
+     tcg_temp_free_i32(tmp);
- DEF_HELPER_FLAGS_2(sve_predtest1, TCG_CALL_NO_WG, i32, i64, i64)
+     return true;
  DEF_HELPER_FLAGS_3(sve_predtest, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_sel_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_orr_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_orn_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_nor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_nand_pppp, TCG_CALL_NO_RWG,
 +                   void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_predtest)(void *vd, void *vg, uint32_t words)
      return flags;
  }
 +
-+#define LOGICAL_PPPP(NAME, FUNC) \
++static bool trans_VDUP_scalar(DisasContext *s, arg_VDUP_scalar *a)
-+void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg, uint32_t desc)  \
++{
-+{                                                                         \
++    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-+    uintptr_t opr_sz = simd_oprsz(desc);                                  \
++        return false;
-+    uint64_t *d = vd, *n = vn, *m = vm, *g = vg;                          \
++    }
 +    uintptr_t i;                                                          \
 +    for (i = 0; i < opr_sz / 8; ++i) {                                    \
 +        d[i] = FUNC(n[i], m[i], g[i]);                                    \
 +    }                                                                     \
 +}
 +
-+#define DO_AND(N, M, G)  (((N) & (M)) & (G))
++    /* UNDEF accesses to D16-D31 if they don't exist. */
-+#define DO_BIC(N, M, G)  (((N) & ~(M)) & (G))
++    if (!dc_isar_feature(aa32_simd_r32, s) &&
-+#define DO_EOR(N, M, G)  (((N) ^ (M)) & (G))
++        ((a->vd | a->vm) & 0x10)) {
-+#define DO_ORR(N, M, G)  (((N) | (M)) & (G))
++        return false;
-+#define DO_ORN(N, M, G)  (((N) | ~(M)) & (G))
++    }
 +#define DO_NOR(N, M, G)  (~((N) | (M)) & (G))
 +#define DO_NAND(N, M, G) (~((N) & (M)) & (G))
 +#define DO_SEL(N, M, G)  (((N) & (G)) | ((M) & ~(G)))
 +
-+LOGICAL_PPPP(sve_and_pppp, DO_AND)
++    if (a->vd & a->q) {
-+LOGICAL_PPPP(sve_bic_pppp, DO_BIC)
++        return false;
-+LOGICAL_PPPP(sve_eor_pppp, DO_EOR)
++    }
 +LOGICAL_PPPP(sve_sel_pppp, DO_SEL)
 +LOGICAL_PPPP(sve_orr_pppp, DO_ORR)
 +LOGICAL_PPPP(sve_orn_pppp, DO_ORN)
 +LOGICAL_PPPP(sve_nor_pppp, DO_NOR)
 +LOGICAL_PPPP(sve_nand_pppp, DO_NAND)
 +
-+#undef DO_AND
++    if (!vfp_access_check(s)) {
 +#undef DO_BIC
 +#undef DO_EOR
 +#undef DO_ORR
 +#undef DO_ORN
 +#undef DO_NOR
 +#undef DO_NAND
 +#undef DO_SEL
 +#undef LOGICAL_PPPP
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static inline int pred_full_reg_size(DisasContext *s)
      return s->sve_len >> 3;
  }
 +/* Round up the size of a register to a size allowed by
 + * the tcg vector infrastructure.  Any operation which uses this
 + * size may assume that the bits above pred_full_reg_size are zero,
 + * and must leave them the same way.
 + *
 + * Note that this is not needed for the vector registers as they
 + * are always properly sized for tcg vectors.
 + */
 +static int size_for_gvec(int size)
 +{
 +    if (size <= 8) {
 +        return 8;
 +    } else {
 +        return QEMU_ALIGN_UP(size, 16);
 +    }
 +}
 +
 +static int pred_gvec_reg_size(DisasContext *s)
 +{
 +    return size_for_gvec(pred_full_reg_size(s));
 +}
 +
  /* Invoke a vector expander on two Zregs.  */
  static bool do_vector2_z(DisasContext *s, GVecGen2Fn *gvec_fn,
                           int esz, int rd, int rn)
@@ -XXX,XX +XXX,XX @@ static bool do_mov_z(DisasContext *s, int rd, int rn)
      return do_vector2_z(s, tcg_gen_gvec_mov, 0, rd, rn);
  }
 +/* Invoke a vector expander on two Pregs.  */
 +static bool do_vector2_p(DisasContext *s, GVecGen2Fn *gvec_fn,
 +                         int esz, int rd, int rn)
 +{
 +    if (sve_access_check(s)) {
 +        unsigned psz = pred_gvec_reg_size(s);
 +        gvec_fn(esz, pred_full_reg_offset(s, rd),
 +                pred_full_reg_offset(s, rn), psz, psz);
 +    }
 +    return true;
 +}
 +
 +/* Invoke a vector expander on three Pregs.  */
 +static bool do_vector3_p(DisasContext *s, GVecGen3Fn *gvec_fn,
 +                         int esz, int rd, int rn, int rm)
 +{
 +    if (sve_access_check(s)) {
 +        unsigned psz = pred_gvec_reg_size(s);
 +        gvec_fn(esz, pred_full_reg_offset(s, rd),
 +                pred_full_reg_offset(s, rn),
 +                pred_full_reg_offset(s, rm), psz, psz);
 +    }
 +    return true;
 +}
 +
 +/* Invoke a vector operation on four Pregs.  */
 +static bool do_vecop4_p(DisasContext *s, const GVecGen4 *gvec_op,
 +                        int rd, int rn, int rm, int rg)
 +{
 +    if (sve_access_check(s)) {
 +        unsigned psz = pred_gvec_reg_size(s);
 +        tcg_gen_gvec_4(pred_full_reg_offset(s, rd),
 +                       pred_full_reg_offset(s, rn),
 +                       pred_full_reg_offset(s, rm),
 +                       pred_full_reg_offset(s, rg),
 +                       psz, psz, gvec_op);
 +    }
 +    return true;
 +}
 +
 +/* Invoke a vector move on two Pregs.  */
 +static bool do_mov_p(DisasContext *s, int rd, int rn)
 +{
 +    return do_vector2_p(s, tcg_gen_gvec_mov, 0, rd, rn);
 +}
 +
  /* Set the cpu flags as per a return from an SVE helper.  */
  static void do_pred_flags(TCGv_i32 t)
  {
@@ -XXX,XX +XXX,XX @@ static bool trans_BIC_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
      return do_vector3_z(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
  }
 +/*
 + *** SVE Predicate Logical Operations Group
 + */
 +
 +static bool do_pppp_flags(DisasContext *s, arg_rprr_s *a,
 +                          const GVecGen4 *gvec_op)
 +{
 +    if (!sve_access_check(s)) {
 +        return true;
 +    }
 +
-+    unsigned psz = pred_gvec_reg_size(s);
++    tcg_gen_gvec_dup_mem(a->size, neon_reg_offset(a->vd, 0),
-+    int dofs = pred_full_reg_offset(s, a->rd);
++                         neon_element_offset(a->vm, a->index, a->size),
-+    int nofs = pred_full_reg_offset(s, a->rn);
++                         a->q ? 16 : 8, a->q ? 16 : 8);
 +    int mofs = pred_full_reg_offset(s, a->rm);
 +    int gofs = pred_full_reg_offset(s, a->pg);
 +
 +    if (psz == 8) {
 +        /* Do the operation and the flags generation in temps.  */
 +        TCGv_i64 pd = tcg_temp_new_i64();
 +        TCGv_i64 pn = tcg_temp_new_i64();
 +        TCGv_i64 pm = tcg_temp_new_i64();
 +        TCGv_i64 pg = tcg_temp_new_i64();
 +
 +        tcg_gen_ld_i64(pn, cpu_env, nofs);
 +        tcg_gen_ld_i64(pm, cpu_env, mofs);
 +        tcg_gen_ld_i64(pg, cpu_env, gofs);
 +
 +        gvec_op->fni8(pd, pn, pm, pg);
 +        tcg_gen_st_i64(pd, cpu_env, dofs);
 +
 +        do_predtest1(pd, pg);
 +
 +        tcg_temp_free_i64(pd);
 +        tcg_temp_free_i64(pn);
 +        tcg_temp_free_i64(pm);
 +        tcg_temp_free_i64(pg);
 +    } else {
 +        /* The operation and flags generation is large.  The computation
 +         * of the flags depends on the original contents of the guarding
 +         * predicate.  If the destination overwrites the guarding predicate,
 +         * then the easiest way to get this right is to save a copy.
 +          */
 +        int tofs = gofs;
 +        if (a->rd == a->pg) {
 +            tofs = offsetof(CPUARMState, vfp.preg_tmp);
 +            tcg_gen_gvec_mov(0, tofs, gofs, psz, psz);
 +        }
 +
 +        tcg_gen_gvec_4(dofs, nofs, mofs, gofs, psz, psz, gvec_op);
 +        do_predtest(s, dofs, tofs, psz / 8);
 +    }
 +    return true;
 +}
-+
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 +static void gen_and_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_and_i64(pd, pn, pm);
 +    tcg_gen_and_i64(pd, pd, pg);
 +}
 +
 +static void gen_and_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_and_vec(vece, pd, pn, pm);
 +    tcg_gen_and_vec(vece, pd, pd, pg);
 +}
 +
 +static bool trans_AND_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_and_pg_i64,
 +        .fniv = gen_and_pg_vec,
 +        .fno = gen_helper_sve_and_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else if (a->rn == a->rm) {
 +        if (a->pg == a->rn) {
 +            return do_mov_p(s, a->rd, a->rn);
 +        } else {
 +            return do_vector3_p(s, tcg_gen_gvec_and, 0, a->rd, a->rn, a->pg);
 +        }
 +    } else if (a->pg == a->rn || a->pg == a->rm) {
 +        return do_vector3_p(s, tcg_gen_gvec_and, 0, a->rd, a->rn, a->rm);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_bic_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_andc_i64(pd, pn, pm);
 +    tcg_gen_and_i64(pd, pd, pg);
 +}
 +
 +static void gen_bic_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_andc_vec(vece, pd, pn, pm);
 +    tcg_gen_and_vec(vece, pd, pd, pg);
 +}
 +
 +static bool trans_BIC_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_bic_pg_i64,
 +        .fniv = gen_bic_pg_vec,
 +        .fno = gen_helper_sve_bic_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else if (a->pg == a->rn) {
 +        return do_vector3_p(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_eor_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_xor_i64(pd, pn, pm);
 +    tcg_gen_and_i64(pd, pd, pg);
 +}
 +
 +static void gen_eor_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_xor_vec(vece, pd, pn, pm);
 +    tcg_gen_and_vec(vece, pd, pd, pg);
 +}
 +
 +static bool trans_EOR_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_eor_pg_i64,
 +        .fniv = gen_eor_pg_vec,
 +        .fno = gen_helper_sve_eor_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_sel_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_and_i64(pn, pn, pg);
 +    tcg_gen_andc_i64(pm, pm, pg);
 +    tcg_gen_or_i64(pd, pn, pm);
 +}
 +
 +static void gen_sel_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_and_vec(vece, pn, pn, pg);
 +    tcg_gen_andc_vec(vece, pm, pm, pg);
 +    tcg_gen_or_vec(vece, pd, pn, pm);
 +}
 +
 +static bool trans_SEL_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_sel_pg_i64,
 +        .fniv = gen_sel_pg_vec,
 +        .fno = gen_helper_sve_sel_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return false;
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_orr_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_or_i64(pd, pn, pm);
 +    tcg_gen_and_i64(pd, pd, pg);
 +}
 +
 +static void gen_orr_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_or_vec(vece, pd, pn, pm);
 +    tcg_gen_and_vec(vece, pd, pd, pg);
 +}
 +
 +static bool trans_ORR_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_orr_pg_i64,
 +        .fniv = gen_orr_pg_vec,
 +        .fno = gen_helper_sve_orr_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else if (a->pg == a->rn && a->rn == a->rm) {
 +        return do_mov_p(s, a->rd, a->rn);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_orn_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_orc_i64(pd, pn, pm);
 +    tcg_gen_and_i64(pd, pd, pg);
 +}
 +
 +static void gen_orn_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_orc_vec(vece, pd, pn, pm);
 +    tcg_gen_and_vec(vece, pd, pd, pg);
 +}
 +
 +static bool trans_ORN_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_orn_pg_i64,
 +        .fniv = gen_orn_pg_vec,
 +        .fno = gen_helper_sve_orn_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_nor_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_or_i64(pd, pn, pm);
 +    tcg_gen_andc_i64(pd, pg, pd);
 +}
 +
 +static void gen_nor_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_or_vec(vece, pd, pn, pm);
 +    tcg_gen_andc_vec(vece, pd, pg, pd);
 +}
 +
 +static bool trans_NOR_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_nor_pg_i64,
 +        .fniv = gen_nor_pg_vec,
 +        .fno = gen_helper_sve_nor_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
 +static void gen_nand_pg_i64(TCGv_i64 pd, TCGv_i64 pn, TCGv_i64 pm, TCGv_i64 pg)
 +{
 +    tcg_gen_and_i64(pd, pn, pm);
 +    tcg_gen_andc_i64(pd, pg, pd);
 +}
 +
 +static void gen_nand_pg_vec(unsigned vece, TCGv_vec pd, TCGv_vec pn,
 +                           TCGv_vec pm, TCGv_vec pg)
 +{
 +    tcg_gen_and_vec(vece, pd, pn, pm);
 +    tcg_gen_andc_vec(vece, pd, pg, pd);
 +}
 +
 +static bool trans_NAND_pppp(DisasContext *s, arg_rprr_s *a, uint32_t insn)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_nand_pg_i64,
 +        .fniv = gen_nand_pg_vec,
 +        .fno = gen_helper_sve_nand_pppp,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    if (a->s) {
 +        return do_pppp_flags(s, a, &op);
 +    } else {
 +        return do_vecop4_p(s, &op, a->rd, a->rn, a->rm, a->pg);
 +    }
 +}
 +
  /*
   *** SVE Predicate Misc Group
   */
 diff --git a/target/arm/sve.decode b/target/arm/sve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/target/arm/translate.c
-+++ b/target/arm/sve.decode
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                     }
- &rri            rd rn imm
+                     break;
- &rrr_esz        rd rn rm esz
+                 }
-+&rprr_s         rd pg rn rm s
+-            } else if ((insn & (1 << 10)) == 0) {
+-                /* VTBL, VTBX: handled by decodetree */
- ###########################################################################
+-                return 1;
- # Named instruction formats.  These are generally used to
+-            } else if ((insn & 0x380) == 0) {
-@@ -XXX,XX +XXX,XX @@
+-                /* VDUP */
- # Three operand with unused vector element size
+-                int element;
- @rd_rn_rm_e0    ........ ... rm:5 ... ... rn:5 rd:5             &rrr_esz esz=0
+-                MemOp size;
+-
-+# Three predicate operand, with governing predicate, flag setting
+-                if ((insn & (7 << 16)) == 0 || (q && (rd & 1))) {
-+@pd_pg_pn_pm_s  ........ . s:1 .. rm:4 .. pg:4 . rn:4 . rd:4    &rprr_s
+-                    return 1;
-+
+-                }
- # Basic Load/Store with 9-bit immediate offset
+-                if (insn & (1 << 16)) {
- @pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
+-                    size = MO_8;
-                 &rri imm=%imm9_16_10
+-                    element = (insn >> 17) & 7;
-@@ -XXX,XX +XXX,XX @@ ORR_zzz         00000100 01 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                } else if (insn & (1 << 17)) {
- EOR_zzz         00000100 10 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                    size = MO_16;
- BIC_zzz         00000100 11 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-                    element = (insn >> 18) & 3;
+-                } else {
-+### SVE Predicate Logical Operations Group
+-                    size = MO_32;
-+
+-                    element = (insn >> 19) & 1;
-+# SVE predicate logical operations
+-                }
-+AND_pppp        00100101 0. 00 .... 01 .... 0 .... 0 ....       @pd_pg_pn_pm_s
+-                tcg_gen_gvec_dup_mem(size, neon_reg_offset(rd, 0),
-+BIC_pppp        00100101 0. 00 .... 01 .... 0 .... 1 ....       @pd_pg_pn_pm_s
+-                                     neon_element_offset(rm, element, size),
-+EOR_pppp        00100101 0. 00 .... 01 .... 1 .... 0 ....       @pd_pg_pn_pm_s
+-                                     q ? 16 : 8, q ? 16 : 8);
-+SEL_pppp        00100101 0. 00 .... 01 .... 1 .... 1 ....       @pd_pg_pn_pm_s
+             } else {
-+ORR_pppp        00100101 1. 00 .... 01 .... 0 .... 0 ....       @pd_pg_pn_pm_s
++                /* VTBL, VTBX, VDUP: handled by decodetree */
-+ORN_pppp        00100101 1. 00 .... 01 .... 0 .... 1 ....       @pd_pg_pn_pm_s
+                 return 1;
-+NOR_pppp        00100101 1. 00 .... 01 .... 1 .... 0 ....       @pd_pg_pn_pm_s
+             }
-+NAND_pppp       00100101 1. 00 .... 01 .... 1 .... 1 ....       @pd_pg_pn_pm_s
+         }
 +
  ### SVE Predicate Misc Group
  # SVE predicate test
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 10/32] target/arm: Implement SVE Bitwise Logical - Unpredicated Group
+[PULL 18/23] hw/misc/imx6ul_ccm: Implement non writable bits in CCM registers
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Jean-Christophe Dubois <jcd@tribudubois.net>
-These were the instructions that were stubbed out when
+Some bits of the CCM registers are non writable.
 introducing the decode skeleton.
+This was left undone in the initial commit (all bits of registers were
+writable).
+This patch adds the required code to protect the non writable bits.
+Signed-off-by: Jean-Christophe Dubois <jcd@tribudubois.net>
+Message-id: 20200608133508.550046-1-jcd@tribudubois.net
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-sve.c | 55 ++++++++++++++++++++++++++++++++------
+ hw/misc/imx6ul_ccm.c | 76 ++++++++++++++++++++++++++++++++++++--------
-file changed, 47 insertions(+), 8 deletions(-)
+file changed, 63 insertions(+), 13 deletions(-)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/hw/misc/imx6ul_ccm.c b/hw/misc/imx6ul_ccm.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/hw/misc/imx6ul_ccm.c
-+++ b/target/arm/translate-sve.c
++++ b/hw/misc/imx6ul_ccm.c
 @@ -XXX,XX +XXX,XX @@
-  * Implement all of the translator functions referenced by the decoder.
-  */
+ #include "trace.h"
--static bool trans_AND_zzz(DisasContext *s, arg_AND_zzz *a, uint32_t insn)
++static const uint32_t ccm_mask[CCM_MAX] = {
-+/* Invoke a vector expander on two Zregs.  */
++    [CCM_CCR] = 0xf01fef80,
-+static bool do_vector2_z(DisasContext *s, GVecGen2Fn *gvec_fn,
++    [CCM_CCDR] = 0xfffeffff,
-+                         int esz, int rd, int rn)
++    [CCM_CSR] = 0xffffffff,
 +    [CCM_CCSR] = 0xfffffef2,
 +    [CCM_CACRR] = 0xfffffff8,
 +    [CCM_CBCDR] = 0xc1f8e000,
 +    [CCM_CBCMR] = 0xfc03cfff,
 +    [CCM_CSCMR1] = 0x80700000,
 +    [CCM_CSCMR2] = 0xe01ff003,
 +    [CCM_CSCDR1] = 0xfe00c780,
 +    [CCM_CS1CDR] = 0xfe00fe00,
 +    [CCM_CS2CDR] = 0xf8007000,
 +    [CCM_CDCDR] = 0xf00fffff,
 +    [CCM_CHSCCDR] = 0xfffc01ff,
 +    [CCM_CSCDR2] = 0xfe0001ff,
 +    [CCM_CSCDR3] = 0xffffc1ff,
 +    [CCM_CDHIPR] = 0xffffffff,
 +    [CCM_CTOR] = 0x00000000,
 +    [CCM_CLPCR] = 0xf39ff01c,
 +    [CCM_CISR] = 0xfb85ffbe,
 +    [CCM_CIMR] = 0xfb85ffbf,
 +    [CCM_CCOSR] = 0xfe00fe00,
 +    [CCM_CGPR] = 0xfffc3fea,
 +    [CCM_CCGR0] = 0x00000000,
 +    [CCM_CCGR1] = 0x00000000,
 +    [CCM_CCGR2] = 0x00000000,
 +    [CCM_CCGR3] = 0x00000000,
 +    [CCM_CCGR4] = 0x00000000,
 +    [CCM_CCGR5] = 0x00000000,
 +    [CCM_CCGR6] = 0x00000000,
 +    [CCM_CMEOR] = 0xafffff1f,
 +};
 +
 +static const uint32_t analog_mask[CCM_ANALOG_MAX] = {
 +    [CCM_ANALOG_PLL_ARM] = 0xfff60f80,
 +    [CCM_ANALOG_PLL_USB1] = 0xfffe0fbc,
 +    [CCM_ANALOG_PLL_USB2] = 0xfffe0fbc,
 +    [CCM_ANALOG_PLL_SYS] = 0xfffa0ffe,
 +    [CCM_ANALOG_PLL_SYS_SS] = 0x00000000,
 +    [CCM_ANALOG_PLL_SYS_NUM] = 0xc0000000,
 +    [CCM_ANALOG_PLL_SYS_DENOM] = 0xc0000000,
 +    [CCM_ANALOG_PLL_AUDIO] = 0xffe20f80,
 +    [CCM_ANALOG_PLL_AUDIO_NUM] = 0xc0000000,
 +    [CCM_ANALOG_PLL_AUDIO_DENOM] = 0xc0000000,
 +    [CCM_ANALOG_PLL_VIDEO] = 0xffe20f80,
 +    [CCM_ANALOG_PLL_VIDEO_NUM] = 0xc0000000,
 +    [CCM_ANALOG_PLL_VIDEO_DENOM] = 0xc0000000,
 +    [CCM_ANALOG_PLL_ENET] = 0xffc20ff0,
 +    [CCM_ANALOG_PFD_480] = 0x40404040,
 +    [CCM_ANALOG_PFD_528] = 0x40404040,
 +    [PMU_MISC0] = 0x01fe8306,
 +    [PMU_MISC1] = 0x07fcede0,
 +    [PMU_MISC2] = 0x005f5f5f,
 +};
 +
  static const char *imx6ul_ccm_reg_name(uint32_t reg)
  {
--    return false;
+     static char unknown[20];
-+    if (sve_access_check(s)) {
+@@ -XXX,XX +XXX,XX @@ static void imx6ul_ccm_write(void *opaque, hwaddr offset, uint64_t value,
-+        unsigned vsz = vec_full_reg_size(s);
-+        gvec_fn(esz, vec_full_reg_offset(s, rd),
+     trace_ccm_write_reg(imx6ul_ccm_reg_name(index), (uint32_t)value);
-+                vec_full_reg_offset(s, rn), vsz, vsz);
-+    }
+-    /*
-+    return true;
+-     * We will do a better implementation later. In particular some bits
 -     * cannot be written to.
 -     */
 -    s->ccm[index] = (uint32_t)value;
 +    s->ccm[index] = (s->ccm[index] & ccm_mask[index]) |
 +                           ((uint32_t)value & ~ccm_mask[index]);
  }
--static bool trans_ORR_zzz(DisasContext *s, arg_ORR_zzz *a, uint32_t insn)
+ static uint64_t imx6ul_analog_read(void *opaque, hwaddr offset, unsigned size)
-+/* Invoke a vector expander on three Zregs.  */
+@@ -XXX,XX +XXX,XX @@ static void imx6ul_analog_write(void *opaque, hwaddr offset, uint64_t value,
-+static bool do_vector3_z(DisasContext *s, GVecGen3Fn *gvec_fn,
+          * the REG_NAME register. So we change the value of the
-+                         int esz, int rd, int rn, int rm)
+          * REG_NAME register, setting bits passed in the value.
- {
+          */
--    return false;
+-        s->analog[index - 1] |= value;
-+    if (sve_access_check(s)) {
++        s->analog[index - 1] |= (value & ~analog_mask[index - 1]);
-+        unsigned vsz = vec_full_reg_size(s);
+         break;
-+        gvec_fn(esz, vec_full_reg_offset(s, rd),
+     case CCM_ANALOG_PLL_ARM_CLR:
-+                vec_full_reg_offset(s, rn),
+     case CCM_ANALOG_PLL_USB1_CLR:
-+                vec_full_reg_offset(s, rm), vsz, vsz);
+@@ -XXX,XX +XXX,XX @@ static void imx6ul_analog_write(void *opaque, hwaddr offset, uint64_t value,
-+    }
+          * the REG_NAME register. So we change the value of the
-+    return true;
+          * REG_NAME register, unsetting bits passed in the value.
- }
+          */
+-        s->analog[index - 2] &= ~value;
--static bool trans_EOR_zzz(DisasContext *s, arg_EOR_zzz *a, uint32_t insn)
++        s->analog[index - 2] &= ~(value & ~analog_mask[index - 2]);
-+/* Invoke a vector move on two Zregs.  */
+         break;
-+static bool do_mov_z(DisasContext *s, int rd, int rn)
+     case CCM_ANALOG_PLL_ARM_TOG:
- {
+     case CCM_ANALOG_PLL_USB1_TOG:
--    return false;
+@@ -XXX,XX +XXX,XX @@ static void imx6ul_analog_write(void *opaque, hwaddr offset, uint64_t value,
-+    return do_vector2_z(s, tcg_gen_gvec_mov, 0, rd, rn);
+          * the REG_NAME register. So we change the value of the
- }
+          * REG_NAME register, toggling bits passed in the value.
+          */
--static bool trans_BIC_zzz(DisasContext *s, arg_BIC_zzz *a, uint32_t insn)
+-        s->analog[index - 3] ^= value;
-+/*
++        s->analog[index - 3] ^= (value & ~analog_mask[index - 3]);
-+ *** SVE Logical - Unpredicated Group
+         break;
-+ */
+     default:
-+
+-        /*
-+static bool trans_AND_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+-         * We will do a better implementation later. In particular some bits
- {
+-         * cannot be written to.
--    return false;
+-         */
-+    return do_vector3_z(s, tcg_gen_gvec_and, 0, a->rd, a->rn, a->rm);
+-        s->analog[index] = value;
-+}
++        s->analog[index] = (s->analog[index] & analog_mask[index]) |
-+
++                           (value & ~analog_mask[index]);
-+static bool trans_ORR_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+         break;
-+{
+     }
 +    if (a->rn == a->rm) { /* MOV */
 +        return do_mov_z(s, a->rd, a->rn);
 +    } else {
 +        return do_vector3_z(s, tcg_gen_gvec_or, 0, a->rd, a->rn, a->rm);
 +    }
 +}
 +
 +static bool trans_EOR_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
 +{
 +    return do_vector3_z(s, tcg_gen_gvec_xor, 0, a->rd, a->rn, a->rm);
 +}
 +
 +static bool trans_BIC_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
 +{
 +    return do_vector3_z(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
  }
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 23/32] target/arm: Implement SVE Index Generation Group
+[PULL 19/23] Implement configurable descriptor size in ftgmac100
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Erik Smit <erik.lucas.smit@gmail.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+The hardware supports configurable descriptor sizes, configured in the DBLAC
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+register.
-Message-id: 20180516223007.10256-17-richard.henderson@linaro.org
 Most drivers use the default 4 word descriptor, which is currently hardcoded,
 but Aspeed SDK configures 8 words to store extra data.
 Signed-off-by: Erik Smit <erik.lucas.smit@gmail.com>
 Reviewed-by: Cédric Le Goater <clg@kaod.org>
 [PMM: removed unnecessary parens]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    |  5 +++
+ hw/net/ftgmac100.c | 26 ++++++++++++++++++++++++--
- target/arm/sve_helper.c    | 40 +++++++++++++++++++
+file changed, 24 insertions(+), 2 deletions(-)
  target/arm/translate-sve.c | 79 ++++++++++++++++++++++++++++++++++++++
  target/arm/sve.decode      | 14 +++++++
 files changed, 138 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/hw/net/ftgmac100.c b/hw/net/ftgmac100.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/hw/net/ftgmac100.c
-+++ b/target/arm/helper-sve.h
++++ b/hw/net/ftgmac100.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(sve_mls_s, TCG_CALL_NO_RWG,
+@@ -XXX,XX +XXX,XX @@
- DEF_HELPER_FLAGS_6(sve_mls_d, TCG_CALL_NO_RWG,
+ #define FTGMAC100_APTC_TXPOLL_CNT(x)        (((x) >> 8) & 0xf)
-                    void, ptr, ptr, ptr, ptr, ptr, i32)
+ #define FTGMAC100_APTC_TXPOLL_TIME_SEL      (1 << 12)
 +DEF_HELPER_FLAGS_4(sve_index_b, TCG_CALL_NO_RWG, void, ptr, i32, i32, i32)
 +DEF_HELPER_FLAGS_4(sve_index_h, TCG_CALL_NO_RWG, void, ptr, i32, i32, i32)
 +DEF_HELPER_FLAGS_4(sve_index_s, TCG_CALL_NO_RWG, void, ptr, i32, i32, i32)
 +DEF_HELPER_FLAGS_4(sve_index_d, TCG_CALL_NO_RWG, void, ptr, i64, i64, i32)
 +
  DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ZPZZZ_D(sve_mls_d, uint64_t, DO_MLS)
  #undef DO_MLS
  #undef DO_ZPZZZ
  #undef DO_ZPZZZ_D
 +
 +void HELPER(sve_index_b)(void *vd, uint32_t start,
 +                         uint32_t incr, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc);
 +    uint8_t *d = vd;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[H1(i)] = start + i * incr;
 +    }
 +}
 +
 +void HELPER(sve_index_h)(void *vd, uint32_t start,
 +                         uint32_t incr, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 2;
 +    uint16_t *d = vd;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[H2(i)] = start + i * incr;
 +    }
 +}
 +
 +void HELPER(sve_index_s)(void *vd, uint32_t start,
 +                         uint32_t incr, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 4;
 +    uint32_t *d = vd;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[H4(i)] = start + i * incr;
 +    }
 +}
 +
 +void HELPER(sve_index_d)(void *vd, uint64_t start,
 +                         uint64_t incr, uint32_t desc)
 +{
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
 +    uint64_t *d = vd;
 +    for (i = 0; i < opr_sz; i += 1) {
 +        d[i] = start + i * incr;
 +    }
 +}
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ DO_ZPZZZ(MLS, mls)
  #undef DO_ZPZZZ
 +/*
-+ *** SVE Index Generation Group
++ * DMA burst length and arbitration control register
 + */
-+
++#define FTGMAC100_DBLAC_RXBURST_SIZE(x)     (((x) >> 8) & 0x3)
-+static void do_index(DisasContext *s, int esz, int rd,
++#define FTGMAC100_DBLAC_TXBURST_SIZE(x)     (((x) >> 10) & 0x3)
-+                     TCGv_i64 start, TCGv_i64 incr)
++#define FTGMAC100_DBLAC_RXDES_SIZE(x)       ((((x) >> 12) & 0xf) * 8)
-+{
++#define FTGMAC100_DBLAC_TXDES_SIZE(x)       ((((x) >> 16) & 0xf) * 8)
-+    unsigned vsz = vec_full_reg_size(s);
++#define FTGMAC100_DBLAC_IFG_CNT(x)          (((x) >> 20) & 0x7)
-+    TCGv_i32 desc = tcg_const_i32(simd_desc(vsz, vsz, 0));
++#define FTGMAC100_DBLAC_IFG_INC             (1 << 23)
 +    TCGv_ptr t_zd = tcg_temp_new_ptr();
 +
 +    tcg_gen_addi_ptr(t_zd, cpu_env, vec_full_reg_offset(s, rd));
 +    if (esz == 3) {
 +        gen_helper_sve_index_d(t_zd, start, incr, desc);
 +    } else {
 +        typedef void index_fn(TCGv_ptr, TCGv_i32, TCGv_i32, TCGv_i32);
 +        static index_fn * const fns[3] = {
 +            gen_helper_sve_index_b,
 +            gen_helper_sve_index_h,
 +            gen_helper_sve_index_s,
 +        };
 +        TCGv_i32 s32 = tcg_temp_new_i32();
 +        TCGv_i32 i32 = tcg_temp_new_i32();
 +
 +        tcg_gen_extrl_i64_i32(s32, start);
 +        tcg_gen_extrl_i64_i32(i32, incr);
 +        fns[esz](t_zd, s32, i32, desc);
 +
 +        tcg_temp_free_i32(s32);
 +        tcg_temp_free_i32(i32);
 +    }
 +    tcg_temp_free_ptr(t_zd);
 +    tcg_temp_free_i32(desc);
 +}
 +
 +static bool trans_INDEX_ii(DisasContext *s, arg_INDEX_ii *a, uint32_t insn)
 +{
 +    if (sve_access_check(s)) {
 +        TCGv_i64 start = tcg_const_i64(a->imm1);
 +        TCGv_i64 incr = tcg_const_i64(a->imm2);
 +        do_index(s, a->esz, a->rd, start, incr);
 +        tcg_temp_free_i64(start);
 +        tcg_temp_free_i64(incr);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INDEX_ir(DisasContext *s, arg_INDEX_ir *a, uint32_t insn)
 +{
 +    if (sve_access_check(s)) {
 +        TCGv_i64 start = tcg_const_i64(a->imm);
 +        TCGv_i64 incr = cpu_reg(s, a->rm);
 +        do_index(s, a->esz, a->rd, start, incr);
 +        tcg_temp_free_i64(start);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INDEX_ri(DisasContext *s, arg_INDEX_ri *a, uint32_t insn)
 +{
 +    if (sve_access_check(s)) {
 +        TCGv_i64 start = cpu_reg(s, a->rn);
 +        TCGv_i64 incr = tcg_const_i64(a->imm);
 +        do_index(s, a->esz, a->rd, start, incr);
 +        tcg_temp_free_i64(incr);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INDEX_rr(DisasContext *s, arg_INDEX_rr *a, uint32_t insn)
 +{
 +    if (sve_access_check(s)) {
 +        TCGv_i64 start = cpu_reg(s, a->rn);
 +        TCGv_i64 incr = cpu_reg(s, a->rm);
 +        do_index(s, a->esz, a->rd, start, incr);
 +    }
 +    return true;
 +}
 +
  /*
-  *** SVE Predicate Logical Operations Group
+  * PHY control register
   */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
+@@ -XXX,XX +XXX,XX @@ static void ftgmac100_do_tx(FTGMAC100State *s, uint32_t tx_ring,
-index XXXXXXX..XXXXXXX 100644
+         if (bd.des0 & s->txdes0_edotr) {
---- a/target/arm/sve.decode
+             addr = tx_ring;
-+++ b/target/arm/sve.decode
+         } else {
-@@ -XXX,XX +XXX,XX @@ ORR_zzz         00000100 01 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+-            addr += sizeof(FTGMAC100Desc);
- EOR_zzz         00000100 10 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
++            addr += FTGMAC100_DBLAC_TXDES_SIZE(s->dblac);
- BIC_zzz         00000100 11 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
+         }
+     }
-+### SVE Index Generation Group
-+
+@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
-+# SVE index generation (immediate start, immediate increment)
+         s->phydata = value & 0xffff;
-+INDEX_ii        00000100 esz:2 1 imm2:s5 010000 imm1:s5 rd:5
+         break;
-+
+     case FTGMAC100_DBLAC: /* DMA Burst Length and Arbitration Control */
-+# SVE index generation (immediate start, register increment)
++        if (FTGMAC100_DBLAC_TXDES_SIZE(s->dblac) < sizeof(FTGMAC100Desc)) {
-+INDEX_ir        00000100 esz:2 1 rm:5 010010 imm:s5 rd:5
++            qemu_log_mask(LOG_GUEST_ERROR,
-+
++                          "%s: transmit descriptor too small : %d bytes\n",
-+# SVE index generation (register start, immediate increment)
++                          __func__, FTGMAC100_DBLAC_TXDES_SIZE(s->dblac));
-+INDEX_ri        00000100 esz:2 1 imm:s5 010001 rn:5 rd:5
++            break;
-+
++        }
-+# SVE index generation (register start, register increment)
++        if (FTGMAC100_DBLAC_RXDES_SIZE(s->dblac) < sizeof(FTGMAC100Desc)) {
-+INDEX_rr        00000100 .. 1 ..... 010011 ..... .....          @rd_rn_rm
++            qemu_log_mask(LOG_GUEST_ERROR,
-+
++                          "%s: receive descriptor too small : %d bytes\n",
- ### SVE Predicate Logical Operations Group
++                          __func__, FTGMAC100_DBLAC_RXDES_SIZE(s->dblac));
++            break;
- # SVE predicate logical operations
++        }
          s->dblac = value;
          break;
      case FTGMAC100_REVR:  /* Feature Register */
@@ -XXX,XX +XXX,XX @@ static ssize_t ftgmac100_receive(NetClientState *nc, const uint8_t *buf,
          if (bd.des0 & s->rxdes0_edorr) {
              addr = s->rx_ring;
          } else {
 -            addr += sizeof(FTGMAC100Desc);
 +            addr += FTGMAC100_DBLAC_RXDES_SIZE(s->dblac);
          }
      }
      s->rx_descriptor = addr;
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 03/32] target/arm: Add the XML dynamic generation
+[PULL 20/23] target/arm/cpu: adjust virtual time for all KVM arm cpus
-From: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
+From: fangying <fangying1@huawei.com>
-Generate an XML description for the cp-regs.
+Virtual time adjustment was implemented for virt-5.0 machine type,
-Register these regs with the gdb_register_coprocessor().
+but the cpu property was enabled only for host-passthrough and max
-Add arm_gdb_get_sysreg() to use it as a callback to read those regs.
+cpu model.  Let's add it for any KVM arm cpu which has the generic
-Add a dummy arm_gdb_set_sysreg().
+timer feature enabled.
-Signed-off-by: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
+Signed-off-by: Ying Fang <fangying1@huawei.com>
-Tested-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Andrew Jones <drjones@redhat.com>
-Message-id: 1524153386-3550-4-git-send-email-abdallah.bouassida@lauterbach.com
+Message-id: 20200608121243.2076-1-fangying1@huawei.com
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+[PMM: minor commit message tweak, removed inaccurate
  suggested-by tag]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/qom/cpu.h    |  5 ++-
+ target/arm/cpu.c   |  6 ++++--
- target/arm/cpu.h     | 26 +++++++++++++++
+ target/arm/cpu64.c |  1 -
- gdbstub.c            | 10 ++++++
+ target/arm/kvm.c   | 21 +++++++++++----------
- target/arm/cpu.c     |  1 +
+files changed, 15 insertions(+), 13 deletions(-)
  target/arm/gdbstub.c | 76 ++++++++++++++++++++++++++++++++++++++++++++
  target/arm/helper.c  | 26 +++++++++++++++
 files changed, 143 insertions(+), 1 deletion(-)
-diff --git a/include/qom/cpu.h b/include/qom/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/qom/cpu.h
-+++ b/include/qom/cpu.h
-@@ -XXX,XX +XXX,XX @@ struct TranslationBlock;
-  *           before the insn which triggers a watchpoint rather than after it.
-  * @gdb_arch_name: Optional callback that returns the architecture name known
-  * to GDB. The caller must free the returned string with g_free.
-+ * @gdb_get_dynamic_xml: Callback to return dynamically generated XML for the
-+ *   gdb stub. Returns a pointer to the XML contents for the specified XML file
-+ *   or NULL if the CPU doesn't have a dynamically generated content for it.
-  * @cpu_exec_enter: Callback for cpu_exec preparation.
-  * @cpu_exec_exit: Callback for cpu_exec cleanup.
-  * @cpu_exec_interrupt: Callback for processing interrupts in cpu_exec.
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUClass {
-     const struct VMStateDescription *vmsd;
-     const char *gdb_core_xml_file;
-     gchar * (*gdb_arch_name)(CPUState *cpu);
--
-+    const char * (*gdb_get_dynamic_xml)(CPUState *cpu, const char *xmlname);
-     void (*cpu_exec_enter)(CPUState *cpu);
-     void (*cpu_exec_exit)(CPUState *cpu);
-     bool (*cpu_exec_interrupt)(CPUState *cpu, int interrupt_request);
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ enum {
-    s<2n+1> maps to the most significant half of d<n>
-  */
-+/**
-+ * DynamicGDBXMLInfo:
-+ * @desc: Contains the XML descriptions.
-+ * @num_cpregs: Number of the Coprocessor registers seen by GDB.
-+ * @cpregs_keys: Array that contains the corresponding Key of
-+ * a given cpreg with the same order of the cpreg in the XML description.
-+ */
-+typedef struct DynamicGDBXMLInfo {
-+    char *desc;
-+    int num_cpregs;
-+    uint32_t *cpregs_keys;
-+} DynamicGDBXMLInfo;
-+
- /* CPU state for each instance of a generic timer (in cp15 c14) */
- typedef struct ARMGenericTimer {
-     uint64_t cval; /* Timer CompareValue register */
-@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
-     uint64_t *cpreg_vmstate_values;
-     int32_t cpreg_vmstate_array_len;
-+    DynamicGDBXMLInfo dyn_xml;
-+
-     /* Timers used by the generic (architected) timer */
-     QEMUTimer *gt_timer[NUM_GTIMERS];
-     /* GPIO outputs for generic timer */
-@@ -XXX,XX +XXX,XX @@ hwaddr arm_cpu_get_phys_page_attrs_debug(CPUState *cpu, vaddr addr,
- int arm_cpu_gdb_read_register(CPUState *cpu, uint8_t *buf, int reg);
- int arm_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
-+/* Dynamically generates for gdb stub an XML description of the sysregs from
-+ * the cp_regs hashtable. Returns the registered sysregs number.
-+ */
-+int arm_gen_dynamic_xml(CPUState *cpu);
-+
-+/* Returns the dynamically generated XML for the gdb stub.
-+ * Returns a pointer to the XML contents for the specified XML file or NULL
-+ * if the XML name doesn't match the predefined one.
-+ */
-+const char *arm_gdb_get_dynamic_xml(CPUState *cpu, const char *xmlname);
-+
- int arm_cpu_write_elf64_note(WriteCoreDumpFunction f, CPUState *cs,
-                              int cpuid, void *opaque);
- int arm_cpu_write_elf32_note(WriteCoreDumpFunction f, CPUState *cs,
-diff --git a/gdbstub.c b/gdbstub.c
-index XXXXXXX..XXXXXXX 100644
---- a/gdbstub.c
-+++ b/gdbstub.c
-@@ -XXX,XX +XXX,XX @@ static const char *get_feature_xml(const char *p, const char **newp,
-         }
-         return target_xml;
-     }
-+    if (cc->gdb_get_dynamic_xml) {
-+        CPUState *cpu = first_cpu;
-+        char *xmlname = g_strndup(p, len);
-+        const char *xml = cc->gdb_get_dynamic_xml(cpu, xmlname);
-+
-+        g_free(xmlname);
-+        if (xml) {
-+            return xml;
-+        }
-+    }
-     for (i = 0; ; i++) {
-         name = xml_builtin[i][0];
-         if (!name || (strncmp(name, p, len) == 0 && strlen(name) == len))
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
-@@ -XXX,XX +XXX,XX @@ static void arm_cpu_class_init(ObjectClass *oc, void *data)
+@@ -XXX,XX +XXX,XX @@ void arm_cpu_post_init(Object *obj)
-     cc->gdb_num_core_regs = 26;
+     if (arm_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER)) {
-     cc->gdb_core_xml_file = "arm-core.xml";
+         qdev_property_add_static(DEVICE(cpu), &arm_cpu_gt_cntfrq_property);
-     cc->gdb_arch_name = arm_gdb_arch_name;
+     }
-+    cc->gdb_get_dynamic_xml = arm_gdb_get_dynamic_xml;
++
-     cc->gdb_stop_before_watchpoint = true;
++    if (kvm_enabled()) {
-     cc->debug_excp_handler = arm_debug_excp_handler;
++        kvm_arm_add_vcpu_properties(obj);
-     cc->debug_check_watchpoint = arm_debug_check_watchpoint;
++    }
-diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
+ }
  static void arm_cpu_finalizefn(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
      if (kvm_enabled()) {
          kvm_arm_set_cpu_features_from_host(cpu);
 -        kvm_arm_add_vcpu_properties(obj);
      } else {
          cortex_a15_initfn(obj);
@@ -XXX,XX +XXX,XX @@ static void arm_host_initfn(Object *obj)
      if (arm_feature(&cpu->env, ARM_FEATURE_AARCH64)) {
          aarch64_add_sve_properties(obj);
      }
 -    kvm_arm_add_vcpu_properties(obj);
      arm_cpu_post_init(obj);
  }
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/gdbstub.c
+--- a/target/arm/cpu64.c
-+++ b/target/arm/gdbstub.c
++++ b/target/arm/cpu64.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
- #include "cpu.h"
- #include "exec/gdbstub.h"
+     if (kvm_enabled()) {
+         kvm_arm_set_cpu_features_from_host(cpu);
-+typedef struct RegisterSysregXmlParam {
+-        kvm_arm_add_vcpu_properties(obj);
-+    CPUState *cs;
+     } else {
-+    GString *s;
+         uint64_t t;
-+} RegisterSysregXmlParam;
+         uint32_t u;
-+
+diff --git a/target/arm/kvm.c b/target/arm/kvm.c
- /* Old gdb always expect FPA registers.  Newer (xml-aware) gdb only expect
+index XXXXXXX..XXXXXXX 100644
-    whatever the target description contains.  Due to a historical mishap
+--- a/target/arm/kvm.c
-    the FPA registers appear in between core integer regs and the CPSR.
++++ b/target/arm/kvm.c
-@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
+@@ -XXX,XX +XXX,XX @@ static void kvm_no_adjvtime_set(Object *obj, bool value, Error **errp)
-     /* Unknown register.  */
+ /* KVM VCPU properties should be prefixed with "kvm-". */
-     return 0;
+ void kvm_arm_add_vcpu_properties(Object *obj)
  {
 -    if (!kvm_enabled()) {
 -        return;
 -    }
 +    ARMCPU *cpu = ARM_CPU(obj);
 +    CPUARMState *env = &cpu->env;
 -    ARM_CPU(obj)->kvm_adjvtime = true;
 -    object_property_add_bool(obj, "kvm-no-adjvtime", kvm_no_adjvtime_get,
 -                             kvm_no_adjvtime_set);
 -    object_property_set_description(obj, "kvm-no-adjvtime",
 -                                    "Set on to disable the adjustment of "
 -                                    "the virtual counter. VM stopped time "
 -                                    "will be counted.");
 +    if (arm_feature(env, ARM_FEATURE_GENERIC_TIMER)) {
 +        cpu->kvm_adjvtime = true;
 +        object_property_add_bool(obj, "kvm-no-adjvtime", kvm_no_adjvtime_get,
 +                                 kvm_no_adjvtime_set);
 +        object_property_set_description(obj, "kvm-no-adjvtime",
 +                                        "Set on to disable the adjustment of "
 +                                        "the virtual counter. VM stopped time "
 +                                        "will be counted.");
 +    }
  }
-+
-+static void arm_gen_one_xml_reg_tag(GString *s, DynamicGDBXMLInfo *dyn_xml,
+ bool kvm_arm_pmu_supported(CPUState *cpu)
 +                                    ARMCPRegInfo *ri, uint32_t ri_key,
 +                                    int bitsize)
 +{
 +    g_string_append_printf(s, "<reg name=\"%s\"", ri->name);
 +    g_string_append_printf(s, " bitsize=\"%d\"", bitsize);
 +    g_string_append_printf(s, " group=\"cp_regs\"/>");
 +    dyn_xml->num_cpregs++;
 +    dyn_xml->cpregs_keys[dyn_xml->num_cpregs - 1] = ri_key;
 +}
 +
 +static void arm_register_sysreg_for_xml(gpointer key, gpointer value,
 +                                        gpointer p)
 +{
 +    uint32_t ri_key = *(uint32_t *)key;
 +    ARMCPRegInfo *ri = value;
 +    RegisterSysregXmlParam *param = (RegisterSysregXmlParam *)p;
 +    GString *s = param->s;
 +    ARMCPU *cpu = ARM_CPU(param->cs);
 +    CPUARMState *env = &cpu->env;
 +    DynamicGDBXMLInfo *dyn_xml = &cpu->dyn_xml;
 +
 +    if (!(ri->type & (ARM_CP_NO_RAW | ARM_CP_NO_GDB))) {
 +        if (arm_feature(env, ARM_FEATURE_AARCH64)) {
 +            if (ri->state == ARM_CP_STATE_AA64) {
 +                arm_gen_one_xml_reg_tag(s , dyn_xml, ri, ri_key, 64);
 +            }
 +        } else {
 +            if (ri->state == ARM_CP_STATE_AA32) {
 +                if (!arm_feature(env, ARM_FEATURE_EL3) &&
 +                    (ri->secure & ARM_CP_SECSTATE_S)) {
 +                    return;
 +                }
 +                if (ri->type & ARM_CP_64BIT) {
 +                    arm_gen_one_xml_reg_tag(s , dyn_xml, ri, ri_key, 64);
 +                } else {
 +                    arm_gen_one_xml_reg_tag(s , dyn_xml, ri, ri_key, 32);
 +                }
 +            }
 +        }
 +    }
 +}
 +
 +int arm_gen_dynamic_xml(CPUState *cs)
 +{
 +    ARMCPU *cpu = ARM_CPU(cs);
 +    GString *s = g_string_new(NULL);
 +    RegisterSysregXmlParam param = {cs, s};
 +
 +    cpu->dyn_xml.num_cpregs = 0;
 +    cpu->dyn_xml.cpregs_keys = g_malloc(sizeof(uint32_t *) *
 +                                        g_hash_table_size(cpu->cp_regs));
 +    g_string_printf(s, "<?xml version=\"1.0\"?>");
 +    g_string_append_printf(s, "<!DOCTYPE target SYSTEM \"gdb-target.dtd\">");
 +    g_string_append_printf(s, "<feature name=\"org.qemu.gdb.arm.sys.regs\">");
 +    g_hash_table_foreach(cpu->cp_regs, arm_register_sysreg_for_xml, &param);
 +    g_string_append_printf(s, "</feature>");
 +    cpu->dyn_xml.desc = g_string_free(s, false);
 +    return cpu->dyn_xml.num_cpregs;
 +}
 +
 +const char *arm_gdb_get_dynamic_xml(CPUState *cs, const char *xmlname)
 +{
 +    ARMCPU *cpu = ARM_CPU(cs);
 +
 +    if (strcmp(xmlname, "system-registers.xml") == 0) {
 +        return cpu->dyn_xml.desc;
 +    }
 +    return NULL;
 +}
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void write_raw_cp_reg(CPUARMState *env, const ARMCPRegInfo *ri,
      }
  }
 +static int arm_gdb_get_sysreg(CPUARMState *env, uint8_t *buf, int reg)
 +{
 +    ARMCPU *cpu = arm_env_get_cpu(env);
 +    const ARMCPRegInfo *ri;
 +    uint32_t key;
 +
 +    key = cpu->dyn_xml.cpregs_keys[reg];
 +    ri = get_arm_cp_reginfo(cpu->cp_regs, key);
 +    if (ri) {
 +        if (cpreg_field_is_64bit(ri)) {
 +            return gdb_get_reg64(buf, (uint64_t)read_raw_cp_reg(env, ri));
 +        } else {
 +            return gdb_get_reg32(buf, (uint32_t)read_raw_cp_reg(env, ri));
 +        }
 +    }
 +    return 0;
 +}
 +
 +static int arm_gdb_set_sysreg(CPUARMState *env, uint8_t *buf, int reg)
 +{
 +    return 0;
 +}
 +
  static bool raw_accessors_invalid(const ARMCPRegInfo *ri)
  {
     /* Return true if the regdef would cause an assertion if you called
@@ -XXX,XX +XXX,XX @@ void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu)
          gdb_register_coprocessor(cs, vfp_gdb_get_reg, vfp_gdb_set_reg,
 , "arm-vfp.xml", 0);
      }
 +    gdb_register_coprocessor(cs, arm_gdb_get_sysreg, arm_gdb_set_sysreg,
 +                             arm_gen_dynamic_xml(cs),
 +                             "system-registers.xml", 0);
  }
  /* Sort alphabetically by type name, except for "any". */
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 22/32] target/arm: Implement SVE Integer Arithmetic - Unpredicated Group
+[PULL 21/23] hw/net/imx_fec: Convert debug fprintf() to trace events
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Jean-Christophe Dubois <jcd@tribudubois.net>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Jean-Christophe Dubois <jcd@tribudubois.net>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20180516223007.10256-16-richard.henderson@linaro.org
+Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 [PMD: Fixed 32-bit format string using PRIx32/PRIx64]
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-sve.c | 34 ++++++++++++++++++++++++++++++++++
+ hw/net/imx_fec.c    | 106 +++++++++++++++++++-------------------------
- target/arm/sve.decode      | 13 +++++++++++++
+ hw/net/trace-events |  18 ++++++++
-files changed, 47 insertions(+)
+files changed, 63 insertions(+), 61 deletions(-)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/hw/net/imx_fec.c b/hw/net/imx_fec.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/hw/net/imx_fec.c
-+++ b/target/arm/translate-sve.c
++++ b/hw/net/imx_fec.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_BIC_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@
-     return do_vector3_z(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
+ #include "qemu/module.h"
- }
+ #include "net/checksum.h"
+ #include "net/eth.h"
-+/*
++#include "trace.h"
-+ *** SVE Integer Arithmetic - Unpredicated Group
-+ */
+ /* For crc32 */
-+
+ #include <zlib.h>
-+static bool trans_ADD_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
-+{
+-#ifndef DEBUG_IMX_FEC
-+    return do_vector3_z(s, tcg_gen_gvec_add, a->esz, a->rd, a->rn, a->rm);
+-#define DEBUG_IMX_FEC 0
-+}
+-#endif
-+
+-
-+static bool trans_SUB_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+-#define FEC_PRINTF(fmt, args...) \
-+{
+-    do { \
-+    return do_vector3_z(s, tcg_gen_gvec_sub, a->esz, a->rd, a->rn, a->rm);
+-        if (DEBUG_IMX_FEC) { \
-+}
+-            fprintf(stderr, "[%s]%s: " fmt , TYPE_IMX_FEC, \
-+
+-                                             __func__, ##args); \
-+static bool trans_SQADD_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+-        } \
-+{
+-    } while (0)
-+    return do_vector3_z(s, tcg_gen_gvec_ssadd, a->esz, a->rd, a->rn, a->rm);
+-
-+}
+-#ifndef DEBUG_IMX_PHY
-+
+-#define DEBUG_IMX_PHY 0
-+static bool trans_SQSUB_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+-#endif
-+{
+-
-+    return do_vector3_z(s, tcg_gen_gvec_sssub, a->esz, a->rd, a->rn, a->rm);
+-#define PHY_PRINTF(fmt, args...) \
-+}
+-    do { \
-+
+-        if (DEBUG_IMX_PHY) { \
-+static bool trans_UQADD_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+-            fprintf(stderr, "[%s.phy]%s: " fmt , TYPE_IMX_FEC, \
-+{
+-                                                 __func__, ##args); \
-+    return do_vector3_z(s, tcg_gen_gvec_usadd, a->esz, a->rd, a->rn, a->rm);
+-        } \
-+}
+-    } while (0)
-+
+-
-+static bool trans_UQSUB_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
+ #define IMX_MAX_DESC    1024
-+{
-+    return do_vector3_z(s, tcg_gen_gvec_ussub, a->esz, a->rd, a->rn, a->rm);
+ static const char *imx_default_reg_name(IMXFECState *s, uint32_t index)
-+}
+@@ -XXX,XX +XXX,XX @@ static void imx_eth_update(IMXFECState *s);
-+
+  * For now we don't handle any GPIO/interrupt line, so the OS will
- /*
+  * have to poll for the PHY status.
   *** SVE Integer Arithmetic - Binary Predicated Group
   */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
+-static void phy_update_irq(IMXFECState *s)
 +static void imx_phy_update_irq(IMXFECState *s)
  {
      imx_eth_update(s);
  }
 -static void phy_update_link(IMXFECState *s)
 +static void imx_phy_update_link(IMXFECState *s)
  {
      /* Autonegotiation status mirrors link status.  */
      if (qemu_get_queue(s->nic)->link_down) {
 -        PHY_PRINTF("link is down\n");
 +        trace_imx_phy_update_link("down");
          s->phy_status &= ~0x0024;
          s->phy_int |= PHY_INT_DOWN;
      } else {
 -        PHY_PRINTF("link is up\n");
 +        trace_imx_phy_update_link("up");
          s->phy_status |= 0x0024;
          s->phy_int |= PHY_INT_ENERGYON;
          s->phy_int |= PHY_INT_AUTONEG_COMPLETE;
      }
 -    phy_update_irq(s);
 +    imx_phy_update_irq(s);
  }
  static void imx_eth_set_link(NetClientState *nc)
  {
 -    phy_update_link(IMX_FEC(qemu_get_nic_opaque(nc)));
 +    imx_phy_update_link(IMX_FEC(qemu_get_nic_opaque(nc)));
  }
 -static void phy_reset(IMXFECState *s)
 +static void imx_phy_reset(IMXFECState *s)
  {
 +    trace_imx_phy_reset();
 +
      s->phy_status = 0x7809;
      s->phy_control = 0x3000;
      s->phy_advertise = 0x01e1;
      s->phy_int_mask = 0;
      s->phy_int = 0;
 -    phy_update_link(s);
 +    imx_phy_update_link(s);
  }
 -static uint32_t do_phy_read(IMXFECState *s, int reg)
 +static uint32_t imx_phy_read(IMXFECState *s, int reg)
  {
      uint32_t val;
@@ -XXX,XX +XXX,XX @@ static uint32_t do_phy_read(IMXFECState *s, int reg)
      case 29:    /* Interrupt source.  */
          val = s->phy_int;
          s->phy_int = 0;
 -        phy_update_irq(s);
 +        imx_phy_update_irq(s);
          break;
      case 30:    /* Interrupt mask */
          val = s->phy_int_mask;
@@ -XXX,XX +XXX,XX @@ static uint32_t do_phy_read(IMXFECState *s, int reg)
          break;
      }
 -    PHY_PRINTF("read 0x%04x @ %d\n", val, reg);
 +    trace_imx_phy_read(val, reg);
      return val;
  }
 -static void do_phy_write(IMXFECState *s, int reg, uint32_t val)
 +static void imx_phy_write(IMXFECState *s, int reg, uint32_t val)
  {
 -    PHY_PRINTF("write 0x%04x @ %d\n", val, reg);
 +    trace_imx_phy_write(val, reg);
      if (reg > 31) {
          /* we only advertise one phy */
@@ -XXX,XX +XXX,XX @@ static void do_phy_write(IMXFECState *s, int reg, uint32_t val)
      switch (reg) {
      case 0:     /* Basic Control */
          if (val & 0x8000) {
 -            phy_reset(s);
 +            imx_phy_reset(s);
          } else {
              s->phy_control = val & 0x7980;
              /* Complete autonegotiation immediately.  */
@@ -XXX,XX +XXX,XX @@ static void do_phy_write(IMXFECState *s, int reg, uint32_t val)
          break;
      case 30:    /* Interrupt mask */
          s->phy_int_mask = val & 0xff;
 -        phy_update_irq(s);
 +        imx_phy_update_irq(s);
          break;
      case 17:
      case 18:
@@ -XXX,XX +XXX,XX @@ static void do_phy_write(IMXFECState *s, int reg, uint32_t val)
  static void imx_fec_read_bd(IMXFECBufDesc *bd, dma_addr_t addr)
  {
      dma_memory_read(&address_space_memory, addr, bd, sizeof(*bd));
 +
 +    trace_imx_fec_read_bd(addr, bd->flags, bd->length, bd->data);
  }
  static void imx_fec_write_bd(IMXFECBufDesc *bd, dma_addr_t addr)
@@ -XXX,XX +XXX,XX @@ static void imx_fec_write_bd(IMXFECBufDesc *bd, dma_addr_t addr)
  static void imx_enet_read_bd(IMXENETBufDesc *bd, dma_addr_t addr)
  {
      dma_memory_read(&address_space_memory, addr, bd, sizeof(*bd));
 +
 +    trace_imx_enet_read_bd(addr, bd->flags, bd->length, bd->data,
 +                   bd->option, bd->status);
  }
  static void imx_enet_write_bd(IMXENETBufDesc *bd, dma_addr_t addr)
@@ -XXX,XX +XXX,XX @@ static void imx_fec_do_tx(IMXFECState *s)
          int len;
          imx_fec_read_bd(&bd, addr);
 -        FEC_PRINTF("tx_bd %x flags %04x len %d data %08x\n",
 -                   addr, bd.flags, bd.length, bd.data);
          if ((bd.flags & ENET_BD_R) == 0) {
 +
              /* Run out of descriptors to transmit.  */
 -            FEC_PRINTF("tx_bd ran out of descriptors to transmit\n");
 +            trace_imx_eth_tx_bd_busy();
 +
              break;
          }
          len = bd.length;
@@ -XXX,XX +XXX,XX @@ static void imx_enet_do_tx(IMXFECState *s, uint32_t index)
          int len;
          imx_enet_read_bd(&bd, addr);
 -        FEC_PRINTF("tx_bd %x flags %04x len %d data %08x option %04x "
 -                   "status %04x\n", addr, bd.flags, bd.length, bd.data,
 -                   bd.option, bd.status);
          if ((bd.flags & ENET_BD_R) == 0) {
              /* Run out of descriptors to transmit.  */
 +
 +            trace_imx_eth_tx_bd_busy();
 +
              break;
          }
          len = bd.length;
@@ -XXX,XX +XXX,XX @@ static void imx_eth_enable_rx(IMXFECState *s, bool flush)
      s->regs[ENET_RDAR] = (bd.flags & ENET_BD_E) ? ENET_RDAR_RDAR : 0;
      if (!s->regs[ENET_RDAR]) {
 -        FEC_PRINTF("RX buffer full\n");
 +        trace_imx_eth_rx_bd_full();
      } else if (flush) {
          qemu_flush_queued_packets(qemu_get_queue(s->nic));
      }
@@ -XXX,XX +XXX,XX @@ static void imx_eth_reset(DeviceState *d)
      memset(s->tx_descriptor, 0, sizeof(s->tx_descriptor));
      /* We also reset the PHY */
 -    phy_reset(s);
 +    imx_phy_reset(s);
  }
  static uint32_t imx_default_read(IMXFECState *s, uint32_t index)
@@ -XXX,XX +XXX,XX @@ static uint64_t imx_eth_read(void *opaque, hwaddr offset, unsigned size)
          break;
      }
 -    FEC_PRINTF("reg[%s] => 0x%" PRIx32 "\n", imx_eth_reg_name(s, index),
 -                                              value);
 +    trace_imx_eth_read(index, imx_eth_reg_name(s, index), value);
      return value;
  }
@@ -XXX,XX +XXX,XX @@ static void imx_eth_write(void *opaque, hwaddr offset, uint64_t value,
      const bool single_tx_ring = !imx_eth_is_multi_tx_ring(s);
      uint32_t index = offset >> 2;
 -    FEC_PRINTF("reg[%s] <= 0x%" PRIx32 "\n", imx_eth_reg_name(s, index),
 -                (uint32_t)value);
 +    trace_imx_eth_write(index, imx_eth_reg_name(s, index), value);
      switch (index) {
      case ENET_EIR:
@@ -XXX,XX +XXX,XX @@ static void imx_eth_write(void *opaque, hwaddr offset, uint64_t value,
          if (extract32(value, 29, 1)) {
              /* This is a read operation */
              s->regs[ENET_MMFR] = deposit32(s->regs[ENET_MMFR], 0, 16,
 -                                           do_phy_read(s,
 +                                           imx_phy_read(s,
                                                         extract32(value,
 , 10)));
          } else {
              /* This a write operation */
 -            do_phy_write(s, extract32(value, 18, 10), extract32(value, 0, 16));
 +            imx_phy_write(s, extract32(value, 18, 10), extract32(value, 0, 16));
          }
          /* raise the interrupt as the PHY operation is done */
          s->regs[ENET_EIR] |= ENET_INT_MII;
@@ -XXX,XX +XXX,XX @@ static bool imx_eth_can_receive(NetClientState *nc)
  {
      IMXFECState *s = IMX_FEC(qemu_get_nic_opaque(nc));
 -    FEC_PRINTF("\n");
 -
      return !!s->regs[ENET_RDAR];
  }
@@ -XXX,XX +XXX,XX @@ static ssize_t imx_fec_receive(NetClientState *nc, const uint8_t *buf,
      unsigned int buf_len;
      size_t size = len;
 -    FEC_PRINTF("len %d\n", (int)size);
 +    trace_imx_fec_receive(size);
      if (!s->regs[ENET_RDAR]) {
          qemu_log_mask(LOG_GUEST_ERROR, "[%s]%s: Unexpected packet\n",
@@ -XXX,XX +XXX,XX @@ static ssize_t imx_fec_receive(NetClientState *nc, const uint8_t *buf,
          bd.length = buf_len;
          size -= buf_len;
 -        FEC_PRINTF("rx_bd 0x%x length %d\n", addr, bd.length);
 +        trace_imx_fec_receive_len(addr, bd.length);
          /* The last 4 bytes are the CRC.  */
          if (size < 4) {
@@ -XXX,XX +XXX,XX @@ static ssize_t imx_fec_receive(NetClientState *nc, const uint8_t *buf,
          if (size == 0) {
              /* Last buffer in frame.  */
              bd.flags |= flags | ENET_BD_L;
 -            FEC_PRINTF("rx frame flags %04x\n", bd.flags);
 +
 +            trace_imx_fec_receive_last(bd.flags);
 +
              s->regs[ENET_EIR] |= ENET_INT_RXF;
          } else {
              s->regs[ENET_EIR] |= ENET_INT_RXB;
@@ -XXX,XX +XXX,XX @@ static ssize_t imx_enet_receive(NetClientState *nc, const uint8_t *buf,
      size_t size = len;
      bool shift16 = s->regs[ENET_RACC] & ENET_RACC_SHIFT16;
 -    FEC_PRINTF("len %d\n", (int)size);
 +    trace_imx_enet_receive(size);
      if (!s->regs[ENET_RDAR]) {
          qemu_log_mask(LOG_GUEST_ERROR, "[%s]%s: Unexpected packet\n",
@@ -XXX,XX +XXX,XX @@ static ssize_t imx_enet_receive(NetClientState *nc, const uint8_t *buf,
          bd.length = buf_len;
          size -= buf_len;
 -        FEC_PRINTF("rx_bd 0x%x length %d\n", addr, bd.length);
 +        trace_imx_enet_receive_len(addr, bd.length);
          /* The last 4 bytes are the CRC.  */
          if (size < 4) {
@@ -XXX,XX +XXX,XX @@ static ssize_t imx_enet_receive(NetClientState *nc, const uint8_t *buf,
          if (size == 0) {
              /* Last buffer in frame.  */
              bd.flags |= flags | ENET_BD_L;
 -            FEC_PRINTF("rx frame flags %04x\n", bd.flags);
 +
 +            trace_imx_enet_receive_last(bd.flags);
 +
              /* Indicate that we've updated the last buffer descriptor. */
              bd.last_buffer = ENET_BD_BDU;
              if (bd.option & ENET_BD_RX_INT) {
 diff --git a/hw/net/trace-events b/hw/net/trace-events
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/hw/net/trace-events
-+++ b/target/arm/sve.decode
++++ b/hw/net/trace-events
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ i82596_receive_packet(size_t sz) "len=%zu"
- # Three predicate operand, with governing predicate, flag setting
+ i82596_new_mac(const char *id_with_mac) "New MAC for: %s"
- @pd_pg_pn_pm_s  ........ . s:1 .. rm:4 .. pg:4 . rn:4 . rd:4    &rprr_s
+ i82596_set_multicast(uint16_t count) "Added %d multicast entries"
+ i82596_channel_attention(void *s) "%p: Received CHANNEL ATTENTION"
-+# Three operand, vector element size
++
-+@rd_rn_rm       ........ esz:2 . rm:5 ... ... rn:5 rd:5         &rrr_esz
++# imx_fec.c
-+
++imx_phy_read(uint32_t val, int reg) "0x%04"PRIx32" <= reg[%d]"
- # Two register operand, with governing predicate, vector element size
++imx_phy_write(uint32_t val, int reg) "0x%04"PRIx32" => reg[%d]"
- @rdn_pg_rm      ........ esz:2 ... ... ... pg:3 rm:5 rd:5 \
++imx_phy_update_link(const char *s) "%s"
-                 &rprr_esz rn=%reg_movprfx
++imx_phy_reset(void) ""
-@@ -XXX,XX +XXX,XX @@ MLS             00000100 .. 0 ..... 011 ... ..... .....   @rda_pg_rn_rm
++imx_fec_read_bd(uint64_t addr, int flags, int len, int data) "tx_bd 0x%"PRIx64" flags 0x%04x len %d data 0x%08x"
- MLA             00000100 .. 0 ..... 110 ... ..... .....   @rdn_pg_ra_rm # MAD
++imx_enet_read_bd(uint64_t addr, int flags, int len, int data, int options, int status) "tx_bd 0x%"PRIx64" flags 0x%04x len %d data 0x%08x option 0x%04x status 0x%04x"
- MLS             00000100 .. 0 ..... 111 ... ..... .....   @rdn_pg_ra_rm # MSB
++imx_eth_tx_bd_busy(void) "tx_bd ran out of descriptors to transmit"
++imx_eth_rx_bd_full(void) "RX buffer is full"
-+### SVE Integer Arithmetic - Unpredicated Group
++imx_eth_read(int reg, const char *reg_name, uint32_t value) "reg[%d:%s] => 0x%08"PRIx32
-+
++imx_eth_write(int reg, const char *reg_name, uint64_t value) "reg[%d:%s] <= 0x%08"PRIx64
-+# SVE integer add/subtract vectors (unpredicated)
++imx_fec_receive(size_t size) "len %zu"
-+ADD_zzz         00000100 .. 1 ..... 000 000 ..... .....         @rd_rn_rm
++imx_fec_receive_len(uint64_t addr, int len) "rx_bd 0x%"PRIx64" length %d"
-+SUB_zzz         00000100 .. 1 ..... 000 001 ..... .....         @rd_rn_rm
++imx_fec_receive_last(int last) "rx frame flags 0x%04x"
-+SQADD_zzz       00000100 .. 1 ..... 000 100 ..... .....         @rd_rn_rm
++imx_enet_receive(size_t size) "len %zu"
-+UQADD_zzz       00000100 .. 1 ..... 000 101 ..... .....         @rd_rn_rm
++imx_enet_receive_len(uint64_t addr, int len) "rx_bd 0x%"PRIx64" length %d"
-+SQSUB_zzz       00000100 .. 1 ..... 000 110 ..... .....         @rd_rn_rm
++imx_enet_receive_last(int last) "rx frame flags 0x%04x"
 +UQSUB_zzz       00000100 .. 1 ..... 000 111 ..... .....         @rd_rn_rm
 +
  ### SVE Logical - Unpredicated Group
  # SVE bitwise logical operations (unpredicated)
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 21/32] target/arm: Implement SVE Integer Multiply-Add Group
+[PULL 22/23] sd: sdhci: Implement basic vendor specific register support
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Guenter Roeck <linux@roeck-us.net>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+The Linux kernel's IMX code now uses vendor specific commands.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+This results in endless warnings when booting the Linux kernel.
-Message-id: 20180516223007.10256-15-richard.henderson@linaro.org
 sdhci-esdhc-imx 2194000.usdhc: esdhc_wait_for_card_clock_gate_off:
     card clock still not gate off in 100us!.
 Implement support for the vendor specific command implemented in IMX hardware
 to be able to avoid this warning.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Guenter Roeck <linux@roeck-us.net>
 Message-id: 20200603145258.195920-2-linux@roeck-us.net
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    | 18 ++++++++++++
+ hw/sd/sdhci-internal.h |  5 +++++
- target/arm/sve_helper.c    | 57 ++++++++++++++++++++++++++++++++++++++
+ include/hw/sd/sdhci.h  |  5 +++++
- target/arm/translate-sve.c | 34 +++++++++++++++++++++++
+ hw/sd/sdhci.c          | 18 +++++++++++++++++-
- target/arm/sve.decode      | 17 ++++++++++++
+files changed, 27 insertions(+), 1 deletion(-)
 files changed, 126 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/hw/sd/sdhci-internal.h b/hw/sd/sdhci-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/hw/sd/sdhci-internal.h
-+++ b/target/arm/helper-sve.h
++++ b/hw/sd/sdhci-internal.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_neg_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@
- DEF_HELPER_FLAGS_4(sve_neg_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #define SDHC_CMD_INHIBIT               0x00000001
- DEF_HELPER_FLAGS_4(sve_neg_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ #define SDHC_DATA_INHIBIT              0x00000002
+ #define SDHC_DAT_LINE_ACTIVE           0x00000004
-+DEF_HELPER_FLAGS_6(sve_mla_b, TCG_CALL_NO_RWG,
++#define SDHC_IMX_CLOCK_GATE_OFF        0x00000080
-+                   void, ptr, ptr, ptr, ptr, ptr, i32)
+ #define SDHC_DOING_WRITE               0x00000100
-+DEF_HELPER_FLAGS_6(sve_mla_h, TCG_CALL_NO_RWG,
+ #define SDHC_DOING_READ                0x00000200
-+                   void, ptr, ptr, ptr, ptr, ptr, i32)
+ #define SDHC_SPACE_AVAILABLE           0x00000400
-+DEF_HELPER_FLAGS_6(sve_mla_s, TCG_CALL_NO_RWG,
+@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription sdhci_vmstate;
-+                   void, ptr, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_6(sve_mla_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, ptr, i32)
+ #define ESDHC_MIX_CTRL                  0x48
 +
-+DEF_HELPER_FLAGS_6(sve_mls_b, TCG_CALL_NO_RWG,
+ #define ESDHC_VENDOR_SPEC               0xc0
-+                   void, ptr, ptr, ptr, ptr, ptr, i32)
++#define ESDHC_IMX_FRC_SDCLK_ON          (1 << 8)
 +DEF_HELPER_FLAGS_6(sve_mls_h, TCG_CALL_NO_RWG,
 +                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_6(sve_mls_s, TCG_CALL_NO_RWG,
 +                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_6(sve_mls_d, TCG_CALL_NO_RWG,
 +                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ #define ESDHC_DLL_CTRL                  0x60
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ #define ESDHC_TUNING_CTRL               0xcc
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
+@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription sdhci_vmstate;
  #define DEFINE_SDHCI_COMMON_PROPERTIES(_state) \
      DEFINE_PROP_UINT8("sd-spec-version", _state, sd_spec_version, 2), \
      DEFINE_PROP_UINT8("uhs", _state, uhs_mode, UHS_NOT_SUPPORTED), \
 +    DEFINE_PROP_UINT8("vendor", _state, vendor, SDHCI_VENDOR_NONE), \
      \
      /* Capabilities registers provide information on supported
       * features of this specific host controller implementation */ \
 diff --git a/include/hw/sd/sdhci.h b/include/hw/sd/sdhci.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/include/hw/sd/sdhci.h
-+++ b/target/arm/sve_helper.c
++++ b/include/hw/sd/sdhci.h
-@@ -XXX,XX +XXX,XX @@ DO_ZPZI_D(sve_asrd_d, int64_t, DO_ASRD)
+@@ -XXX,XX +XXX,XX @@ typedef struct SDHCIState {
- #undef DO_ASRD
+     uint16_t acmd12errsts; /* Auto CMD12 error status register */
- #undef DO_ZPZI
+     uint16_t hostctl2;     /* Host Control 2 */
- #undef DO_ZPZI_D
+     uint64_t admasysaddr;  /* ADMA System Address Register */
-+
++    uint16_t vendor_spec;  /* Vendor specific register */
-+/* Fully general four-operand expander, controlled by a predicate.
-+ */
+     /* Read-only registers */
-+#define DO_ZPZZZ(NAME, TYPE, H, OP)                           \
+     uint64_t capareg;      /* Capabilities Register */
-+void HELPER(NAME)(void *vd, void *va, void *vn, void *vm,     \
+@@ -XXX,XX +XXX,XX @@ typedef struct SDHCIState {
-+                  void *vg, uint32_t desc)                    \
+     uint32_t quirks;
-+{                                                             \
+     uint8_t sd_spec_version;
-+    intptr_t i, opr_sz = simd_oprsz(desc);                    \
+     uint8_t uhs_mode;
-+    for (i = 0; i < opr_sz; ) {                               \
++    uint8_t vendor;        /* For vendor specific functionality */
-+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));       \
+ } SDHCIState;
-+        do {                                                  \
-+            if (pg & 1) {                                     \
++#define SDHCI_VENDOR_NONE       0
-+                TYPE nn = *(TYPE *)(vn + H(i));               \
++#define SDHCI_VENDOR_IMX        1
 +                TYPE mm = *(TYPE *)(vm + H(i));               \
 +                TYPE aa = *(TYPE *)(va + H(i));               \
 +                *(TYPE *)(vd + H(i)) = OP(aa, nn, mm);        \
 +            }                                                 \
 +            i += sizeof(TYPE), pg >>= sizeof(TYPE);           \
 +        } while (i & 15);                                     \
 +    }                                                         \
 +}
 +
 +/* Similarly, specialized for 64-bit operands.  */
 +#define DO_ZPZZZ_D(NAME, TYPE, OP)                            \
 +void HELPER(NAME)(void *vd, void *va, void *vn, void *vm,     \
 +                  void *vg, uint32_t desc)                    \
 +{                                                             \
 +    intptr_t i, opr_sz = simd_oprsz(desc) / 8;                \
 +    TYPE *d = vd, *a = va, *n = vn, *m = vm;                  \
 +    uint8_t *pg = vg;                                         \
 +    for (i = 0; i < opr_sz; i += 1) {                         \
 +        if (pg[H1(i)] & 1) {                                  \
 +            TYPE aa = a[i], nn = n[i], mm = m[i];             \
 +            d[i] = OP(aa, nn, mm);                            \
 +        }                                                     \
 +    }                                                         \
 +}
 +
 +#define DO_MLA(A, N, M)  (A + N * M)
 +#define DO_MLS(A, N, M)  (A - N * M)
 +
 +DO_ZPZZZ(sve_mla_b, uint8_t, H1, DO_MLA)
 +DO_ZPZZZ(sve_mls_b, uint8_t, H1, DO_MLS)
 +
 +DO_ZPZZZ(sve_mla_h, uint16_t, H1_2, DO_MLA)
 +DO_ZPZZZ(sve_mls_h, uint16_t, H1_2, DO_MLS)
 +
 +DO_ZPZZZ(sve_mla_s, uint32_t, H1_4, DO_MLA)
 +DO_ZPZZZ(sve_mls_s, uint32_t, H1_4, DO_MLS)
 +
 +DO_ZPZZZ_D(sve_mla_d, uint64_t, DO_MLA)
 +DO_ZPZZZ_D(sve_mls_d, uint64_t, DO_MLS)
 +
 +#undef DO_MLA
 +#undef DO_MLS
 +#undef DO_ZPZZZ
 +#undef DO_ZPZZZ_D
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ DO_ZPZW(LSL, lsl)
  #undef DO_ZPZW
 +/*
 + *** SVE Integer Multiply-Add Group
 + */
 +
 +static bool do_zpzzz_ool(DisasContext *s, arg_rprrr_esz *a,
 +                         gen_helper_gvec_5 *fn)
 +{
 +    if (sve_access_check(s)) {
 +        unsigned vsz = vec_full_reg_size(s);
 +        tcg_gen_gvec_5_ool(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->ra),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm),
 +                           pred_full_reg_offset(s, a->pg),
 +                           vsz, vsz, 0, fn);
 +    }
 +    return true;
 +}
 +
 +#define DO_ZPZZZ(NAME, name) \
 +static bool trans_##NAME(DisasContext *s, arg_rprrr_esz *a, uint32_t insn) \
 +{                                                                    \
 +    static gen_helper_gvec_5 * const fns[4] = {                      \
 +        gen_helper_sve_##name##_b, gen_helper_sve_##name##_h,        \
 +        gen_helper_sve_##name##_s, gen_helper_sve_##name##_d,        \
 +    };                                                               \
 +    return do_zpzzz_ool(s, a, fns[a->esz]);                          \
 +}
 +
 +DO_ZPZZZ(MLA, mla)
 +DO_ZPZZZ(MLS, mls)
 +
 +#undef DO_ZPZZZ
 +
  /*
-  *** SVE Predicate Logical Operations Group
+  * Controller does not provide transfer-complete interrupt when not
-  */
+  * busy.
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
+diff --git a/hw/sd/sdhci.c b/hw/sd/sdhci.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
+--- a/hw/sd/sdhci.c
-+++ b/target/arm/sve.decode
++++ b/hw/sd/sdhci.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static uint64_t usdhc_read(void *opaque, hwaddr offset, unsigned size)
- &rpr_esz        rd pg rn esz
+         }
- &rprr_s         rd pg rn rm s
+         break;
- &rprr_esz       rd pg rn rm esz
-+&rprrr_esz      rd pg rn rm ra esz
++    case ESDHC_VENDOR_SPEC:
- &rpri_esz       rd pg rn imm esz
++        ret = s->vendor_spec;
++        break;
- ###########################################################################
+     case ESDHC_DLL_CTRL:
-@@ -XXX,XX +XXX,XX @@
+     case ESDHC_TUNE_CTRL_STATUS:
- @rdm_pg_rn      ........ esz:2 ... ... ... pg:3 rn:5 rd:5 \
+     case ESDHC_UNDOCUMENTED_REG27:
-                 &rprr_esz rm=%reg_movprfx
+     case ESDHC_TUNING_CTRL:
+-    case ESDHC_VENDOR_SPEC:
-+# Three register operand, with governing predicate, vector element size
+     case ESDHC_MIX_CTRL:
-+@rda_pg_rn_rm   ........ esz:2 . rm:5  ... pg:3 rn:5 rd:5 \
+     case ESDHC_WTMK_LVL:
-+                &rprrr_esz ra=%reg_movprfx
+         ret = 0;
-+@rdn_pg_ra_rm   ........ esz:2 . rm:5  ... pg:3 ra:5 rd:5 \
+@@ -XXX,XX +XXX,XX @@ usdhc_write(void *opaque, hwaddr offset, uint64_t val, unsigned size)
-+                &rprrr_esz rn=%reg_movprfx
+     case ESDHC_UNDOCUMENTED_REG27:
      case ESDHC_TUNING_CTRL:
      case ESDHC_WTMK_LVL:
 +        break;
 +
- # One register operand, with governing predicate, vector element size
+     case ESDHC_VENDOR_SPEC:
- @rd_pg_rn       ........ esz:2 ... ... ... pg:3 rn:5 rd:5       &rpr_esz
++        s->vendor_spec = value;
++        switch (s->vendor) {
-@@ -XXX,XX +XXX,XX @@ UXTH            00000100 .. 010 011 101 ... ..... .....         @rd_pg_rn
++        case SDHCI_VENDOR_IMX:
- SXTW            00000100 .. 010 100 101 ... ..... .....         @rd_pg_rn
++            if (value & ESDHC_IMX_FRC_SDCLK_ON) {
- UXTW            00000100 .. 010 101 101 ... ..... .....         @rd_pg_rn
++                s->prnsts &= ~SDHC_IMX_CLOCK_GATE_OFF;
++            } else {
-+### SVE Integer Multiply-Add Group
++                s->prnsts |= SDHC_IMX_CLOCK_GATE_OFF;
-+
++            }
-+# SVE integer multiply-add writing addend (predicated)
++            break;
-+MLA             00000100 .. 0 ..... 010 ... ..... .....   @rda_pg_rn_rm
++        default:
-+MLS             00000100 .. 0 ..... 011 ... ..... .....   @rda_pg_rn_rm
++            break;
-+
++        }
-+# SVE integer multiply-add writing multiplicand (predicated)
+         break;
-+MLA             00000100 .. 0 ..... 110 ... ..... .....   @rdn_pg_ra_rm # MAD
-+MLS             00000100 .. 0 ..... 111 ... ..... .....   @rdn_pg_ra_rm # MSB
+     case SDHC_HOSTCTL:
 +
  ### SVE Logical - Unpredicated Group
  # SVE bitwise logical operations (unpredicated)
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 05/32] xlnx-zynqmp: Connect the ZynqMP GDMA and ADMA
+[PULL 23/23] hw: arm: Set vendor property for IMX SDHCI emulations
-From: Francisco Iglesias <frasse.iglesias@gmail.com>
+From: Guenter Roeck <linux@roeck-us.net>
-The ZynqMP contains two instances of a generic DMA, the GDMA, located in the
+Set vendor property to IMX to enable IMX specific functionality
-FPD (full power domain), and the ADMA, located in LPD (low power domain).  This
+in sdhci code.
 patch adds these two DMAs to the ZynqMP board.
-Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
+Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Signed-off-by: Guenter Roeck <linux@roeck-us.net>
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20180503214201.29082-3-frasse.iglesias@gmail.com
+Message-id: 20200603145258.195920-3-linux@roeck-us.net
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/arm/xlnx-zynqmp.h |  5 ++++
+ hw/arm/fsl-imx25.c  | 6 ++++++
- hw/arm/xlnx-zynqmp.c         | 53 ++++++++++++++++++++++++++++++++++++
+ hw/arm/fsl-imx6.c   | 6 ++++++
-files changed, 58 insertions(+)
+ hw/arm/fsl-imx6ul.c | 2 ++
  hw/arm/fsl-imx7.c   | 2 ++
 files changed, 16 insertions(+)
-diff --git a/include/hw/arm/xlnx-zynqmp.h b/include/hw/arm/xlnx-zynqmp.h
+diff --git a/hw/arm/fsl-imx25.c b/hw/arm/fsl-imx25.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/xlnx-zynqmp.h
+--- a/hw/arm/fsl-imx25.c
-+++ b/include/hw/arm/xlnx-zynqmp.h
++++ b/hw/arm/fsl-imx25.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx25_realize(DeviceState *dev, Error **errp)
- #include "hw/sd/sdhci.h"
+                                  &err);
- #include "hw/ssi/xilinx_spips.h"
+         object_property_set_uint(OBJECT(&s->esdhc[i]), IMX25_ESDHC_CAPABILITIES,
- #include "hw/dma/xlnx_dpdma.h"
+                                  "capareg", &err);
-+#include "hw/dma/xlnx-zdma.h"
++        object_property_set_uint(OBJECT(&s->esdhc[i]), SDHCI_VENDOR_IMX,
- #include "hw/display/xlnx_dp.h"
++                                 "vendor", &err);
  #include "hw/intc/xlnx-zynqmp-ipi.h"
  #include "hw/timer/xlnx-zynqmp-rtc.h"
@@ -XXX,XX +XXX,XX @@
  #define XLNX_ZYNQMP_NUM_UARTS 2
  #define XLNX_ZYNQMP_NUM_SDHCI 2
  #define XLNX_ZYNQMP_NUM_SPIS 2
 +#define XLNX_ZYNQMP_NUM_GDMA_CH 8
 +#define XLNX_ZYNQMP_NUM_ADMA_CH 8
  #define XLNX_ZYNQMP_NUM_QSPI_BUS 2
  #define XLNX_ZYNQMP_NUM_QSPI_BUS_CS 2
@@ -XXX,XX +XXX,XX @@ typedef struct XlnxZynqMPState {
      XlnxDPDMAState dpdma;
      XlnxZynqMPIPI ipi;
      XlnxZynqMPRTC rtc;
 +    XlnxZDMA gdma[XLNX_ZYNQMP_NUM_GDMA_CH];
 +    XlnxZDMA adma[XLNX_ZYNQMP_NUM_ADMA_CH];
      char *boot_cpu;
      ARMCPU *boot_cpu_ptr;
 diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/xlnx-zynqmp.c
 +++ b/hw/arm/xlnx-zynqmp.c
@@ -XXX,XX +XXX,XX @@ static const int spi_intr[XLNX_ZYNQMP_NUM_SPIS] = {
 , 20,
  };
 +static const uint64_t gdma_ch_addr[XLNX_ZYNQMP_NUM_GDMA_CH] = {
 +    0xFD500000, 0xFD510000, 0xFD520000, 0xFD530000,
 +    0xFD540000, 0xFD550000, 0xFD560000, 0xFD570000
 +};
 +
 +static const int gdma_ch_intr[XLNX_ZYNQMP_NUM_GDMA_CH] = {
 +    124, 125, 126, 127, 128, 129, 130, 131
 +};
 +
 +static const uint64_t adma_ch_addr[XLNX_ZYNQMP_NUM_ADMA_CH] = {
 +    0xFFA80000, 0xFFA90000, 0xFFAA0000, 0xFFAB0000,
 +    0xFFAC0000, 0xFFAD0000, 0xFFAE0000, 0xFFAF0000
 +};
 +
 +static const int adma_ch_intr[XLNX_ZYNQMP_NUM_ADMA_CH] = {
 +    77, 78, 79, 80, 81, 82, 83, 84
 +};
 +
  typedef struct XlnxZynqMPGICRegion {
      int region_index;
      uint32_t address;
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_init(Object *obj)
      object_initialize(&s->rtc, sizeof(s->rtc), TYPE_XLNX_ZYNQMP_RTC);
      qdev_set_parent_bus(DEVICE(&s->rtc), sysbus_get_default());
 +
 +    for (i = 0; i < XLNX_ZYNQMP_NUM_GDMA_CH; i++) {
 +        object_initialize(&s->gdma[i], sizeof(s->gdma[i]), TYPE_XLNX_ZDMA);
 +        qdev_set_parent_bus(DEVICE(&s->gdma[i]), sysbus_get_default());
 +    }
 +
 +    for (i = 0; i < XLNX_ZYNQMP_NUM_ADMA_CH; i++) {
 +        object_initialize(&s->adma[i], sizeof(s->adma[i]), TYPE_XLNX_ZDMA);
 +        qdev_set_parent_bus(DEVICE(&s->adma[i]), sysbus_get_default());
 +    }
  }
  static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
      }
      sysbus_mmio_map(SYS_BUS_DEVICE(&s->rtc), 0, RTC_ADDR);
      sysbus_connect_irq(SYS_BUS_DEVICE(&s->rtc), 0, gic_spi[RTC_IRQ]);
 +
 +    for (i = 0; i < XLNX_ZYNQMP_NUM_GDMA_CH; i++) {
 +        object_property_set_uint(OBJECT(&s->gdma[i]), 128, "bus-width", &err);
 +        object_property_set_bool(OBJECT(&s->gdma[i]), true, "realized", &err);
 +        if (err) {
 +            error_propagate(errp, err);
 +            return;
 +        }
-+
+         object_property_set_bool(OBJECT(&s->esdhc[i]), true, "realized", &err);
-+        sysbus_mmio_map(SYS_BUS_DEVICE(&s->gdma[i]), 0, gdma_ch_addr[i]);
+         if (err) {
-+        sysbus_connect_irq(SYS_BUS_DEVICE(&s->gdma[i]), 0,
+             error_propagate(errp, err);
-+                           gic_spi[gdma_ch_intr[i]]);
+diff --git a/hw/arm/fsl-imx6.c b/hw/arm/fsl-imx6.c
-+    }
+index XXXXXXX..XXXXXXX 100644
-+
+--- a/hw/arm/fsl-imx6.c
-+    for (i = 0; i < XLNX_ZYNQMP_NUM_ADMA_CH; i++) {
++++ b/hw/arm/fsl-imx6.c
-+        object_property_set_bool(OBJECT(&s->adma[i]), true, "realized", &err);
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx6_realize(DeviceState *dev, Error **errp)
                                   &err);
          object_property_set_uint(OBJECT(&s->esdhc[i]), IMX6_ESDHC_CAPABILITIES,
                                   "capareg", &err);
 +        object_property_set_uint(OBJECT(&s->esdhc[i]), SDHCI_VENDOR_IMX,
 +                                 "vendor", &err);
 +        if (err) {
 +            error_propagate(errp, err);
 +            return;
 +        }
-+
+         object_property_set_bool(OBJECT(&s->esdhc[i]), true, "realized", &err);
-+        sysbus_mmio_map(SYS_BUS_DEVICE(&s->adma[i]), 0, adma_ch_addr[i]);
+         if (err) {
-+        sysbus_connect_irq(SYS_BUS_DEVICE(&s->adma[i]), 0,
+             error_propagate(errp, err);
-+                           gic_spi[adma_ch_intr[i]]);
+diff --git a/hw/arm/fsl-imx6ul.c b/hw/arm/fsl-imx6ul.c
-+    }
+index XXXXXXX..XXXXXXX 100644
- }
+--- a/hw/arm/fsl-imx6ul.c
++++ b/hw/arm/fsl-imx6ul.c
- static Property xlnx_zynqmp_props[] = {
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx6ul_realize(DeviceState *dev, Error **errp)
              FSL_IMX6UL_USDHC2_IRQ,
          };
 +        object_property_set_uint(OBJECT(&s->usdhc[i]), SDHCI_VENDOR_IMX,
 +                                        "vendor", &error_abort);
          object_property_set_bool(OBJECT(&s->usdhc[i]), true, "realized",
                                   &error_abort);
 diff --git a/hw/arm/fsl-imx7.c b/hw/arm/fsl-imx7.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/fsl-imx7.c
 +++ b/hw/arm/fsl-imx7.c
@@ -XXX,XX +XXX,XX @@ static void fsl_imx7_realize(DeviceState *dev, Error **errp)
              FSL_IMX7_USDHC3_IRQ,
          };
 +        object_property_set_uint(OBJECT(&s->usdhc[i]), SDHCI_VENDOR_IMX,
 +                                 "vendor", &error_abort);
          object_property_set_bool(OBJECT(&s->usdhc[i]), true, "realized",
                                   &error_abort);
 --
-.17.0
+.20.1

-[Qemu-devel] [PULL 06/32] hw/arm/smmuv3: Fix Coverity issue in smmuv3_record_event
+Deleted patch
-From: Eric Auger <eric.auger@redhat.com>
-Coverity complains about use of uninitialized Evt struct.
-The EVT_SET_TYPE and similar setters use deposit32() on fields
-in the struct, so they read the uninitialized existing values.
-In cases where we don't set all the fields in the event struct
-we'll end up leaking random uninitialized data from QEMU's
-stack into the guest.
-Initializing the struct with "Evt evt = {};" ought to satisfy
-Coverity and fix the data leak.
-Signed-off-by: Eric Auger <eric.auger@redhat.com>
-Reported-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 1526493784-25328-2-git-send-email-eric.auger@redhat.com
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- hw/arm/smmuv3.c | 2 +-
-file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/smmuv3.c
-+++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@ static MemTxResult smmuv3_write_eventq(SMMUv3State *s, Evt *evt)
- void smmuv3_record_event(SMMUv3State *s, SMMUEventInfo *info)
- {
--    Evt evt;
-+    Evt evt = {};
-     MemTxResult r;
-     if (!smmuv3_eventq_enabled(s)) {
---
-.17.0

-[Qemu-devel] [PULL 09/32] target/arm: Add SVE decode skeleton
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Including only 4, as-yet unimplemented, instruction patterns
-so that the whole thing compiles.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-3-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/Makefile.objs   | 10 ++++++
- target/arm/translate-a64.c |  7 ++++-
- target/arm/translate-sve.c | 63 ++++++++++++++++++++++++++++++++++++++
- .gitignore                 |  1 +
- target/arm/sve.decode      | 45 +++++++++++++++++++++++++++
-files changed, 125 insertions(+), 1 deletion(-)
- create mode 100644 target/arm/translate-sve.c
- create mode 100644 target/arm/sve.decode
-diff --git a/target/arm/Makefile.objs b/target/arm/Makefile.objs
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/Makefile.objs
-+++ b/target/arm/Makefile.objs
-@@ -XXX,XX +XXX,XX @@ obj-y += gdbstub.o
- obj-$(TARGET_AARCH64) += cpu64.o translate-a64.o helper-a64.o gdbstub64.o
- obj-y += crypto_helper.o
- obj-$(CONFIG_SOFTMMU) += arm-powerctl.o
-+
-+DECODETREE = $(SRC_PATH)/scripts/decodetree.py
-+
-+target/arm/decode-sve.inc.c: $(SRC_PATH)/target/arm/sve.decode $(DECODETREE)
-+    $(call quiet-command,\
-+      $(PYTHON) $(DECODETREE) --decode disas_sve -o $@ $<,\
-+      "GEN", $(TARGET_DIR)$@)
-+
-+target/arm/translate-sve.o: target/arm/decode-sve.inc.c
-+obj-$(TARGET_AARCH64) += translate-sve.o
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_a64_insn(CPUARMState *env, DisasContext *s)
-     s->fp_access_checked = false;
-     switch (extract32(insn, 25, 4)) {
--    case 0x0: case 0x1: case 0x2: case 0x3: /* UNALLOCATED */
-+    case 0x0: case 0x1: case 0x3: /* UNALLOCATED */
-         unallocated_encoding(s);
-         break;
-+    case 0x2:
-+        if (!arm_dc_feature(s, ARM_FEATURE_SVE) || !disas_sve(s, insn)) {
-+            unallocated_encoding(s);
-+        }
-+        break;
-     case 0x8: case 0x9: /* Data processing - immediate */
-         disas_data_proc_imm(s, insn);
-         break;
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-new file mode 100644
-index XXXXXXX..XXXXXXX
---- /dev/null
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@
-+/*
-+ * AArch64 SVE translation
-+ *
-+ * Copyright (c) 2018 Linaro, Ltd
-+ *
-+ * This library is free software; you can redistribute it and/or
-+ * modify it under the terms of the GNU Lesser General Public
-+ * License as published by the Free Software Foundation; either
-+ * version 2 of the License, or (at your option) any later version.
-+ *
-+ * This library is distributed in the hope that it will be useful,
-+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
-+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-+ * Lesser General Public License for more details.
-+ *
-+ * You should have received a copy of the GNU Lesser General Public
-+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
-+ */
-+
-+#include "qemu/osdep.h"
-+#include "cpu.h"
-+#include "exec/exec-all.h"
-+#include "tcg-op.h"
-+#include "tcg-op-gvec.h"
-+#include "qemu/log.h"
-+#include "arm_ldst.h"
-+#include "translate.h"
-+#include "internals.h"
-+#include "exec/helper-proto.h"
-+#include "exec/helper-gen.h"
-+#include "exec/log.h"
-+#include "trace-tcg.h"
-+#include "translate-a64.h"
-+
-+/*
-+ * Include the generated decoder.
-+ */
-+
-+#include "decode-sve.inc.c"
-+
-+/*
-+ * Implement all of the translator functions referenced by the decoder.
-+ */
-+
-+static bool trans_AND_zzz(DisasContext *s, arg_AND_zzz *a, uint32_t insn)
-+{
-+    return false;
-+}
-+
-+static bool trans_ORR_zzz(DisasContext *s, arg_ORR_zzz *a, uint32_t insn)
-+{
-+    return false;
-+}
-+
-+static bool trans_EOR_zzz(DisasContext *s, arg_EOR_zzz *a, uint32_t insn)
-+{
-+    return false;
-+}
-+
-+static bool trans_BIC_zzz(DisasContext *s, arg_BIC_zzz *a, uint32_t insn)
-+{
-+    return false;
-+}
-diff --git a/.gitignore b/.gitignore
-index XXXXXXX..XXXXXXX 100644
---- a/.gitignore
-+++ b/.gitignore
-@@ -XXX,XX +XXX,XX @@ trace-dtrace-root.h
- trace-dtrace-root.dtrace
- trace-ust-all.h
- trace-ust-all.c
-+/target/arm/decode-sve.inc.c
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-new file mode 100644
-index XXXXXXX..XXXXXXX
---- /dev/null
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@
-+# AArch64 SVE instruction descriptions
-+#
-+#  Copyright (c) 2017 Linaro, Ltd
-+#
-+# This library is free software; you can redistribute it and/or
-+# modify it under the terms of the GNU Lesser General Public
-+# License as published by the Free Software Foundation; either
-+# version 2 of the License, or (at your option) any later version.
-+#
-+# This library is distributed in the hope that it will be useful,
-+# but WITHOUT ANY WARRANTY; without even the implied warranty of
-+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-+# Lesser General Public License for more details.
-+#
-+# You should have received a copy of the GNU Lesser General Public
-+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
-+
-+#
-+# This file is processed by scripts/decodetree.py
-+#
-+
-+###########################################################################
-+# Named attribute sets.  These are used to make nice(er) names
-+# when creating helpers common to those for the individual
-+# instruction patterns.
-+
-+&rrr_esz        rd rn rm esz
-+
-+###########################################################################
-+# Named instruction formats.  These are generally used to
-+# reduce the amount of duplication between instruction patterns.
-+
-+# Three operand with unused vector element size
-+@rd_rn_rm_e0    ........ ... rm:5 ... ... rn:5 rd:5             &rrr_esz esz=0
-+
-+###########################################################################
-+# Instruction patterns.  Grouped according to the SVE encodingindex.xhtml.
-+
-+### SVE Logical - Unpredicated Group
-+
-+# SVE bitwise logical operations (unpredicated)
-+AND_zzz         00000100 00 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
-+ORR_zzz         00000100 01 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
-+EOR_zzz         00000100 10 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
-+BIC_zzz         00000100 11 1 ..... 001 100 ..... .....         @rd_rn_rm_e0
---
-.17.0

-[Qemu-devel] [PULL 15/32] target/arm: Implement SVE Integer Binary Arithmetic - Predicated Group
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-9-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper-sve.h    | 145 +++++++++++++++++++++++++++
- target/arm/sve_helper.c    | 194 +++++++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c |  68 +++++++++++++
- target/arm/sve.decode      |  42 ++++++++
-files changed, 449 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
-+++ b/target/arm/helper-sve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(sve_predtest, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_pfirst, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_pnext, TCG_CALL_NO_WG, i32, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_and_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_and_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_and_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_and_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_eor_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_eor_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_eor_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_eor_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_orr_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_orr_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_orr_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_orr_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_bic_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_bic_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_bic_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_bic_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_add_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_add_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_add_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_add_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_sub_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sub_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sub_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sub_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_smax_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smax_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smax_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smax_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_umax_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umax_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umax_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umax_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_smin_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smin_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smin_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smin_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_umin_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umin_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umin_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umin_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_sabd_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sabd_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sabd_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sabd_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_uabd_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_uabd_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_uabd_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_uabd_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_mul_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_mul_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_mul_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_mul_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_smulh_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smulh_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smulh_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_smulh_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_umulh_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umulh_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umulh_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_umulh_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_sdiv_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_sdiv_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_udiv_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_udiv_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@
- #include "tcg/tcg-gvec-desc.h"
-+/* Note that vector data is stored in host-endian 64-bit chunks,
-+   so addressing units smaller than that needs a host-endian fixup.  */
-+#ifdef HOST_WORDS_BIGENDIAN
-+#define H1(x)   ((x) ^ 7)
-+#define H1_2(x) ((x) ^ 6)
-+#define H1_4(x) ((x) ^ 4)
-+#define H2(x)   ((x) ^ 3)
-+#define H4(x)   ((x) ^ 1)
-+#else
-+#define H1(x)   (x)
-+#define H1_2(x) (x)
-+#define H1_4(x) (x)
-+#define H2(x)   (x)
-+#define H4(x)   (x)
-+#endif
-+
- /* Return a value for NZCV as per the ARM PredTest pseudofunction.
-  *
-  * The return value has bit 31 set if N is set, bit 1 set if Z is clear,
-@@ -XXX,XX +XXX,XX @@ LOGICAL_PPPP(sve_nand_pppp, DO_NAND)
- #undef DO_SEL
- #undef LOGICAL_PPPP
-+/* Fully general three-operand expander, controlled by a predicate.
-+ * This is complicated by the host-endian storage of the register file.
-+ */
-+/* ??? I don't expect the compiler could ever vectorize this itself.
-+ * With some tables we can convert bit masks to byte masks, and with
-+ * extra care wrt byte/word ordering we could use gcc generic vectors
-+ * and do 16 bytes at a time.
-+ */
-+#define DO_ZPZZ(NAME, TYPE, H, OP)                                       \
-+void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg, uint32_t desc) \
-+{                                                                       \
-+    intptr_t i, opr_sz = simd_oprsz(desc);                              \
-+    for (i = 0; i < opr_sz; ) {                                         \
-+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
-+        do {                                                            \
-+            if (pg & 1) {                                               \
-+                TYPE nn = *(TYPE *)(vn + H(i));                         \
-+                TYPE mm = *(TYPE *)(vm + H(i));                         \
-+                *(TYPE *)(vd + H(i)) = OP(nn, mm);                      \
-+            }                                                           \
-+            i += sizeof(TYPE), pg >>= sizeof(TYPE);                     \
-+        } while (i & 15);                                               \
-+    }                                                                   \
-+}
-+
-+/* Similarly, specialized for 64-bit operands.  */
-+#define DO_ZPZZ_D(NAME, TYPE, OP)                                \
-+void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg, uint32_t desc) \
-+{                                                               \
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;                  \
-+    TYPE *d = vd, *n = vn, *m = vm;                             \
-+    uint8_t *pg = vg;                                           \
-+    for (i = 0; i < opr_sz; i += 1) {                           \
-+        if (pg[H1(i)] & 1) {                                    \
-+            TYPE nn = n[i], mm = m[i];                          \
-+            d[i] = OP(nn, mm);                                  \
-+        }                                                       \
-+    }                                                           \
-+}
-+
-+#define DO_AND(N, M)  (N & M)
-+#define DO_EOR(N, M)  (N ^ M)
-+#define DO_ORR(N, M)  (N | M)
-+#define DO_BIC(N, M)  (N & ~M)
-+#define DO_ADD(N, M)  (N + M)
-+#define DO_SUB(N, M)  (N - M)
-+#define DO_MAX(N, M)  ((N) >= (M) ? (N) : (M))
-+#define DO_MIN(N, M)  ((N) >= (M) ? (M) : (N))
-+#define DO_ABD(N, M)  ((N) >= (M) ? (N) - (M) : (M) - (N))
-+#define DO_MUL(N, M)  (N * M)
-+#define DO_DIV(N, M)  (M ? N / M : 0)
-+
-+DO_ZPZZ(sve_and_zpzz_b, uint8_t, H1, DO_AND)
-+DO_ZPZZ(sve_and_zpzz_h, uint16_t, H1_2, DO_AND)
-+DO_ZPZZ(sve_and_zpzz_s, uint32_t, H1_4, DO_AND)
-+DO_ZPZZ_D(sve_and_zpzz_d, uint64_t, DO_AND)
-+
-+DO_ZPZZ(sve_orr_zpzz_b, uint8_t, H1, DO_ORR)
-+DO_ZPZZ(sve_orr_zpzz_h, uint16_t, H1_2, DO_ORR)
-+DO_ZPZZ(sve_orr_zpzz_s, uint32_t, H1_4, DO_ORR)
-+DO_ZPZZ_D(sve_orr_zpzz_d, uint64_t, DO_ORR)
-+
-+DO_ZPZZ(sve_eor_zpzz_b, uint8_t, H1, DO_EOR)
-+DO_ZPZZ(sve_eor_zpzz_h, uint16_t, H1_2, DO_EOR)
-+DO_ZPZZ(sve_eor_zpzz_s, uint32_t, H1_4, DO_EOR)
-+DO_ZPZZ_D(sve_eor_zpzz_d, uint64_t, DO_EOR)
-+
-+DO_ZPZZ(sve_bic_zpzz_b, uint8_t, H1, DO_BIC)
-+DO_ZPZZ(sve_bic_zpzz_h, uint16_t, H1_2, DO_BIC)
-+DO_ZPZZ(sve_bic_zpzz_s, uint32_t, H1_4, DO_BIC)
-+DO_ZPZZ_D(sve_bic_zpzz_d, uint64_t, DO_BIC)
-+
-+DO_ZPZZ(sve_add_zpzz_b, uint8_t, H1, DO_ADD)
-+DO_ZPZZ(sve_add_zpzz_h, uint16_t, H1_2, DO_ADD)
-+DO_ZPZZ(sve_add_zpzz_s, uint32_t, H1_4, DO_ADD)
-+DO_ZPZZ_D(sve_add_zpzz_d, uint64_t, DO_ADD)
-+
-+DO_ZPZZ(sve_sub_zpzz_b, uint8_t, H1, DO_SUB)
-+DO_ZPZZ(sve_sub_zpzz_h, uint16_t, H1_2, DO_SUB)
-+DO_ZPZZ(sve_sub_zpzz_s, uint32_t, H1_4, DO_SUB)
-+DO_ZPZZ_D(sve_sub_zpzz_d, uint64_t, DO_SUB)
-+
-+DO_ZPZZ(sve_smax_zpzz_b, int8_t, H1, DO_MAX)
-+DO_ZPZZ(sve_smax_zpzz_h, int16_t, H1_2, DO_MAX)
-+DO_ZPZZ(sve_smax_zpzz_s, int32_t, H1_4, DO_MAX)
-+DO_ZPZZ_D(sve_smax_zpzz_d, int64_t, DO_MAX)
-+
-+DO_ZPZZ(sve_umax_zpzz_b, uint8_t, H1, DO_MAX)
-+DO_ZPZZ(sve_umax_zpzz_h, uint16_t, H1_2, DO_MAX)
-+DO_ZPZZ(sve_umax_zpzz_s, uint32_t, H1_4, DO_MAX)
-+DO_ZPZZ_D(sve_umax_zpzz_d, uint64_t, DO_MAX)
-+
-+DO_ZPZZ(sve_smin_zpzz_b, int8_t,  H1, DO_MIN)
-+DO_ZPZZ(sve_smin_zpzz_h, int16_t,  H1_2, DO_MIN)
-+DO_ZPZZ(sve_smin_zpzz_s, int32_t,  H1_4, DO_MIN)
-+DO_ZPZZ_D(sve_smin_zpzz_d, int64_t,  DO_MIN)
-+
-+DO_ZPZZ(sve_umin_zpzz_b, uint8_t, H1, DO_MIN)
-+DO_ZPZZ(sve_umin_zpzz_h, uint16_t, H1_2, DO_MIN)
-+DO_ZPZZ(sve_umin_zpzz_s, uint32_t, H1_4, DO_MIN)
-+DO_ZPZZ_D(sve_umin_zpzz_d, uint64_t, DO_MIN)
-+
-+DO_ZPZZ(sve_sabd_zpzz_b, int8_t,  H1, DO_ABD)
-+DO_ZPZZ(sve_sabd_zpzz_h, int16_t,  H1_2, DO_ABD)
-+DO_ZPZZ(sve_sabd_zpzz_s, int32_t,  H1_4, DO_ABD)
-+DO_ZPZZ_D(sve_sabd_zpzz_d, int64_t,  DO_ABD)
-+
-+DO_ZPZZ(sve_uabd_zpzz_b, uint8_t, H1, DO_ABD)
-+DO_ZPZZ(sve_uabd_zpzz_h, uint16_t, H1_2, DO_ABD)
-+DO_ZPZZ(sve_uabd_zpzz_s, uint32_t, H1_4, DO_ABD)
-+DO_ZPZZ_D(sve_uabd_zpzz_d, uint64_t, DO_ABD)
-+
-+/* Because the computation type is at least twice as large as required,
-+   these work for both signed and unsigned source types.  */
-+static inline uint8_t do_mulh_b(int32_t n, int32_t m)
-+{
-+    return (n * m) >> 8;
-+}
-+
-+static inline uint16_t do_mulh_h(int32_t n, int32_t m)
-+{
-+    return (n * m) >> 16;
-+}
-+
-+static inline uint32_t do_mulh_s(int64_t n, int64_t m)
-+{
-+    return (n * m) >> 32;
-+}
-+
-+static inline uint64_t do_smulh_d(uint64_t n, uint64_t m)
-+{
-+    uint64_t lo, hi;
-+    muls64(&lo, &hi, n, m);
-+    return hi;
-+}
-+
-+static inline uint64_t do_umulh_d(uint64_t n, uint64_t m)
-+{
-+    uint64_t lo, hi;
-+    mulu64(&lo, &hi, n, m);
-+    return hi;
-+}
-+
-+DO_ZPZZ(sve_mul_zpzz_b, uint8_t, H1, DO_MUL)
-+DO_ZPZZ(sve_mul_zpzz_h, uint16_t, H1_2, DO_MUL)
-+DO_ZPZZ(sve_mul_zpzz_s, uint32_t, H1_4, DO_MUL)
-+DO_ZPZZ_D(sve_mul_zpzz_d, uint64_t, DO_MUL)
-+
-+DO_ZPZZ(sve_smulh_zpzz_b, int8_t, H1, do_mulh_b)
-+DO_ZPZZ(sve_smulh_zpzz_h, int16_t, H1_2, do_mulh_h)
-+DO_ZPZZ(sve_smulh_zpzz_s, int32_t, H1_4, do_mulh_s)
-+DO_ZPZZ_D(sve_smulh_zpzz_d, uint64_t, do_smulh_d)
-+
-+DO_ZPZZ(sve_umulh_zpzz_b, uint8_t, H1, do_mulh_b)
-+DO_ZPZZ(sve_umulh_zpzz_h, uint16_t, H1_2, do_mulh_h)
-+DO_ZPZZ(sve_umulh_zpzz_s, uint32_t, H1_4, do_mulh_s)
-+DO_ZPZZ_D(sve_umulh_zpzz_d, uint64_t, do_umulh_d)
-+
-+DO_ZPZZ(sve_sdiv_zpzz_s, int32_t, H1_4, DO_DIV)
-+DO_ZPZZ_D(sve_sdiv_zpzz_d, int64_t, DO_DIV)
-+
-+DO_ZPZZ(sve_udiv_zpzz_s, uint32_t, H1_4, DO_DIV)
-+DO_ZPZZ_D(sve_udiv_zpzz_d, uint64_t, DO_DIV)
-+
-+#undef DO_ZPZZ
-+#undef DO_ZPZZ_D
-+#undef DO_AND
-+#undef DO_ORR
-+#undef DO_EOR
-+#undef DO_BIC
-+#undef DO_ADD
-+#undef DO_SUB
-+#undef DO_MAX
-+#undef DO_MIN
-+#undef DO_ABD
-+#undef DO_MUL
-+#undef DO_DIV
-+
- /* Similar to the ARM LastActiveElement pseudocode function, except the
-    result is multiplied by the element size.  This includes the not found
-    indication; e.g. not found for esz=3 is -8.  */
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_BIC_zzz(DisasContext *s, arg_rrr_esz *a, uint32_t insn)
-     return do_vector3_z(s, tcg_gen_gvec_andc, 0, a->rd, a->rn, a->rm);
- }
-+/*
-+ *** SVE Integer Arithmetic - Binary Predicated Group
-+ */
-+
-+static bool do_zpzz_ool(DisasContext *s, arg_rprr_esz *a, gen_helper_gvec_4 *fn)
-+{
-+    unsigned vsz = vec_full_reg_size(s);
-+    if (fn == NULL) {
-+        return false;
-+    }
-+    if (sve_access_check(s)) {
-+        tcg_gen_gvec_4_ool(vec_full_reg_offset(s, a->rd),
-+                           vec_full_reg_offset(s, a->rn),
-+                           vec_full_reg_offset(s, a->rm),
-+                           pred_full_reg_offset(s, a->pg),
-+                           vsz, vsz, 0, fn);
-+    }
-+    return true;
-+}
-+
-+#define DO_ZPZZ(NAME, name) \
-+static bool trans_##NAME##_zpzz(DisasContext *s, arg_rprr_esz *a,         \
-+                                uint32_t insn)                            \
-+{                                                                         \
-+    static gen_helper_gvec_4 * const fns[4] = {                           \
-+        gen_helper_sve_##name##_zpzz_b, gen_helper_sve_##name##_zpzz_h,   \
-+        gen_helper_sve_##name##_zpzz_s, gen_helper_sve_##name##_zpzz_d,   \
-+    };                                                                    \
-+    return do_zpzz_ool(s, a, fns[a->esz]);                                \
-+}
-+
-+DO_ZPZZ(AND, and)
-+DO_ZPZZ(EOR, eor)
-+DO_ZPZZ(ORR, orr)
-+DO_ZPZZ(BIC, bic)
-+
-+DO_ZPZZ(ADD, add)
-+DO_ZPZZ(SUB, sub)
-+
-+DO_ZPZZ(SMAX, smax)
-+DO_ZPZZ(UMAX, umax)
-+DO_ZPZZ(SMIN, smin)
-+DO_ZPZZ(UMIN, umin)
-+DO_ZPZZ(SABD, sabd)
-+DO_ZPZZ(UABD, uabd)
-+
-+DO_ZPZZ(MUL, mul)
-+DO_ZPZZ(SMULH, smulh)
-+DO_ZPZZ(UMULH, umulh)
-+
-+static bool trans_SDIV_zpzz(DisasContext *s, arg_rprr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_4 * const fns[4] = {
-+        NULL, NULL, gen_helper_sve_sdiv_zpzz_s, gen_helper_sve_sdiv_zpzz_d
-+    };
-+    return do_zpzz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_UDIV_zpzz(DisasContext *s, arg_rprr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_4 * const fns[4] = {
-+        NULL, NULL, gen_helper_sve_udiv_zpzz_s, gen_helper_sve_udiv_zpzz_d
-+    };
-+    return do_zpzz_ool(s, a, fns[a->esz]);
-+}
-+
-+#undef DO_ZPZZ
-+
- /*
-  *** SVE Predicate Logical Operations Group
-  */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@
- %imm9_16_10     16:s6 10:3
-+# Either a copy of rd (at bit 0), or a different source
-+# as propagated via the MOVPRFX instruction.
-+%reg_movprfx    0:5
-+
- ###########################################################################
- # Named attribute sets.  These are used to make nice(er) names
- # when creating helpers common to those for the individual
-@@ -XXX,XX +XXX,XX @@
- &rri            rd rn imm
- &rrr_esz        rd rn rm esz
- &rprr_s         rd pg rn rm s
-+&rprr_esz       rd pg rn rm esz
- ###########################################################################
- # Named instruction formats.  These are generally used to
-@@ -XXX,XX +XXX,XX @@
- # Three predicate operand, with governing predicate, flag setting
- @pd_pg_pn_pm_s  ........ . s:1 .. rm:4 .. pg:4 . rn:4 . rd:4    &rprr_s
-+# Two register operand, with governing predicate, vector element size
-+@rdn_pg_rm      ........ esz:2 ... ... ... pg:3 rm:5 rd:5 \
-+                &rprr_esz rn=%reg_movprfx
-+@rdm_pg_rn      ........ esz:2 ... ... ... pg:3 rn:5 rd:5 \
-+                &rprr_esz rm=%reg_movprfx
-+
- # Basic Load/Store with 9-bit immediate offset
- @pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
-                 &rri imm=%imm9_16_10
-@@ -XXX,XX +XXX,XX @@
- ###########################################################################
- # Instruction patterns.  Grouped according to the SVE encodingindex.xhtml.
-+### SVE Integer Arithmetic - Binary Predicated Group
-+
-+# SVE bitwise logical vector operations (predicated)
-+ORR_zpzz        00000100 .. 011 000 000 ... ..... .....   @rdn_pg_rm
-+EOR_zpzz        00000100 .. 011 001 000 ... ..... .....   @rdn_pg_rm
-+AND_zpzz        00000100 .. 011 010 000 ... ..... .....   @rdn_pg_rm
-+BIC_zpzz        00000100 .. 011 011 000 ... ..... .....   @rdn_pg_rm
-+
-+# SVE integer add/subtract vectors (predicated)
-+ADD_zpzz        00000100 .. 000 000 000 ... ..... .....   @rdn_pg_rm
-+SUB_zpzz        00000100 .. 000 001 000 ... ..... .....   @rdn_pg_rm
-+SUB_zpzz        00000100 .. 000 011 000 ... ..... .....   @rdm_pg_rn # SUBR
-+
-+# SVE integer min/max/difference (predicated)
-+SMAX_zpzz       00000100 .. 001 000 000 ... ..... .....   @rdn_pg_rm
-+UMAX_zpzz       00000100 .. 001 001 000 ... ..... .....   @rdn_pg_rm
-+SMIN_zpzz       00000100 .. 001 010 000 ... ..... .....   @rdn_pg_rm
-+UMIN_zpzz       00000100 .. 001 011 000 ... ..... .....   @rdn_pg_rm
-+SABD_zpzz       00000100 .. 001 100 000 ... ..... .....   @rdn_pg_rm
-+UABD_zpzz       00000100 .. 001 101 000 ... ..... .....   @rdn_pg_rm
-+
-+# SVE integer multiply/divide (predicated)
-+MUL_zpzz        00000100 .. 010 000 000 ... ..... .....   @rdn_pg_rm
-+SMULH_zpzz      00000100 .. 010 010 000 ... ..... .....   @rdn_pg_rm
-+UMULH_zpzz      00000100 .. 010 011 000 ... ..... .....   @rdn_pg_rm
-+# Note that divide requires size >= 2; below 2 is unallocated.
-+SDIV_zpzz       00000100 .. 010 100 000 ... ..... .....   @rdn_pg_rm
-+UDIV_zpzz       00000100 .. 010 101 000 ... ..... .....   @rdn_pg_rm
-+SDIV_zpzz       00000100 .. 010 110 000 ... ..... .....   @rdm_pg_rn # SDIVR
-+UDIV_zpzz       00000100 .. 010 111 000 ... ..... .....   @rdm_pg_rn # UDIVR
-+
- ### SVE Logical - Unpredicated Group
- # SVE bitwise logical operations (unpredicated)
---
-.17.0

-[Qemu-devel] [PULL 17/32] target/arm: Implement SVE bitwise shift by immediate (predicated)
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-11-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper-sve.h    |  25 ++++
- target/arm/sve_helper.c    | 264 +++++++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 130 ++++++++++++++++++
- target/arm/sve.decode      |  26 ++++
-files changed, 445 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
-+++ b/target/arm/helper-sve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(sve_uminv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_uminv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_uminv_d, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(sve_clr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(sve_clr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(sve_clr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(sve_clr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_asr_zpzi_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_asr_zpzi_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_asr_zpzi_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_asr_zpzi_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_lsr_zpzi_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsr_zpzi_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsr_zpzi_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsr_zpzi_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_lsl_zpzi_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsl_zpzi_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsl_zpzi_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_lsl_zpzi_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_asrd_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_asrd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_asrd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_asrd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_predtest)(void *vd, void *vg, uint32_t words)
-     return flags;
- }
-+/* Expand active predicate bits to bytes, for byte elements.
-+ *  for (i = 0; i < 256; ++i) {
-+ *      unsigned long m = 0;
-+ *      for (j = 0; j < 8; j++) {
-+ *          if ((i >> j) & 1) {
-+ *              m |= 0xfful << (j << 3);
-+ *          }
-+ *      }
-+ *      printf("0x%016lx,\n", m);
-+ *  }
-+ */
-+static inline uint64_t expand_pred_b(uint8_t byte)
-+{
-+    static const uint64_t word[256] = {
-+        0x0000000000000000, 0x00000000000000ff, 0x000000000000ff00,
-+        0x000000000000ffff, 0x0000000000ff0000, 0x0000000000ff00ff,
-+        0x0000000000ffff00, 0x0000000000ffffff, 0x00000000ff000000,
-+        0x00000000ff0000ff, 0x00000000ff00ff00, 0x00000000ff00ffff,
-+        0x00000000ffff0000, 0x00000000ffff00ff, 0x00000000ffffff00,
-+        0x00000000ffffffff, 0x000000ff00000000, 0x000000ff000000ff,
-+        0x000000ff0000ff00, 0x000000ff0000ffff, 0x000000ff00ff0000,
-+        0x000000ff00ff00ff, 0x000000ff00ffff00, 0x000000ff00ffffff,
-+        0x000000ffff000000, 0x000000ffff0000ff, 0x000000ffff00ff00,
-+        0x000000ffff00ffff, 0x000000ffffff0000, 0x000000ffffff00ff,
-+        0x000000ffffffff00, 0x000000ffffffffff, 0x0000ff0000000000,
-+        0x0000ff00000000ff, 0x0000ff000000ff00, 0x0000ff000000ffff,
-+        0x0000ff0000ff0000, 0x0000ff0000ff00ff, 0x0000ff0000ffff00,
-+        0x0000ff0000ffffff, 0x0000ff00ff000000, 0x0000ff00ff0000ff,
-+        0x0000ff00ff00ff00, 0x0000ff00ff00ffff, 0x0000ff00ffff0000,
-+        0x0000ff00ffff00ff, 0x0000ff00ffffff00, 0x0000ff00ffffffff,
-+        0x0000ffff00000000, 0x0000ffff000000ff, 0x0000ffff0000ff00,
-+        0x0000ffff0000ffff, 0x0000ffff00ff0000, 0x0000ffff00ff00ff,
-+        0x0000ffff00ffff00, 0x0000ffff00ffffff, 0x0000ffffff000000,
-+        0x0000ffffff0000ff, 0x0000ffffff00ff00, 0x0000ffffff00ffff,
-+        0x0000ffffffff0000, 0x0000ffffffff00ff, 0x0000ffffffffff00,
-+        0x0000ffffffffffff, 0x00ff000000000000, 0x00ff0000000000ff,
-+        0x00ff00000000ff00, 0x00ff00000000ffff, 0x00ff000000ff0000,
-+        0x00ff000000ff00ff, 0x00ff000000ffff00, 0x00ff000000ffffff,
-+        0x00ff0000ff000000, 0x00ff0000ff0000ff, 0x00ff0000ff00ff00,
-+        0x00ff0000ff00ffff, 0x00ff0000ffff0000, 0x00ff0000ffff00ff,
-+        0x00ff0000ffffff00, 0x00ff0000ffffffff, 0x00ff00ff00000000,
-+        0x00ff00ff000000ff, 0x00ff00ff0000ff00, 0x00ff00ff0000ffff,
-+        0x00ff00ff00ff0000, 0x00ff00ff00ff00ff, 0x00ff00ff00ffff00,
-+        0x00ff00ff00ffffff, 0x00ff00ffff000000, 0x00ff00ffff0000ff,
-+        0x00ff00ffff00ff00, 0x00ff00ffff00ffff, 0x00ff00ffffff0000,
-+        0x00ff00ffffff00ff, 0x00ff00ffffffff00, 0x00ff00ffffffffff,
-+        0x00ffff0000000000, 0x00ffff00000000ff, 0x00ffff000000ff00,
-+        0x00ffff000000ffff, 0x00ffff0000ff0000, 0x00ffff0000ff00ff,
-+        0x00ffff0000ffff00, 0x00ffff0000ffffff, 0x00ffff00ff000000,
-+        0x00ffff00ff0000ff, 0x00ffff00ff00ff00, 0x00ffff00ff00ffff,
-+        0x00ffff00ffff0000, 0x00ffff00ffff00ff, 0x00ffff00ffffff00,
-+        0x00ffff00ffffffff, 0x00ffffff00000000, 0x00ffffff000000ff,
-+        0x00ffffff0000ff00, 0x00ffffff0000ffff, 0x00ffffff00ff0000,
-+        0x00ffffff00ff00ff, 0x00ffffff00ffff00, 0x00ffffff00ffffff,
-+        0x00ffffffff000000, 0x00ffffffff0000ff, 0x00ffffffff00ff00,
-+        0x00ffffffff00ffff, 0x00ffffffffff0000, 0x00ffffffffff00ff,
-+        0x00ffffffffffff00, 0x00ffffffffffffff, 0xff00000000000000,
-+        0xff000000000000ff, 0xff0000000000ff00, 0xff0000000000ffff,
-+        0xff00000000ff0000, 0xff00000000ff00ff, 0xff00000000ffff00,
-+        0xff00000000ffffff, 0xff000000ff000000, 0xff000000ff0000ff,
-+        0xff000000ff00ff00, 0xff000000ff00ffff, 0xff000000ffff0000,
-+        0xff000000ffff00ff, 0xff000000ffffff00, 0xff000000ffffffff,
-+        0xff0000ff00000000, 0xff0000ff000000ff, 0xff0000ff0000ff00,
-+        0xff0000ff0000ffff, 0xff0000ff00ff0000, 0xff0000ff00ff00ff,
-+        0xff0000ff00ffff00, 0xff0000ff00ffffff, 0xff0000ffff000000,
-+        0xff0000ffff0000ff, 0xff0000ffff00ff00, 0xff0000ffff00ffff,
-+        0xff0000ffffff0000, 0xff0000ffffff00ff, 0xff0000ffffffff00,
-+        0xff0000ffffffffff, 0xff00ff0000000000, 0xff00ff00000000ff,
-+        0xff00ff000000ff00, 0xff00ff000000ffff, 0xff00ff0000ff0000,
-+        0xff00ff0000ff00ff, 0xff00ff0000ffff00, 0xff00ff0000ffffff,
-+        0xff00ff00ff000000, 0xff00ff00ff0000ff, 0xff00ff00ff00ff00,
-+        0xff00ff00ff00ffff, 0xff00ff00ffff0000, 0xff00ff00ffff00ff,
-+        0xff00ff00ffffff00, 0xff00ff00ffffffff, 0xff00ffff00000000,
-+        0xff00ffff000000ff, 0xff00ffff0000ff00, 0xff00ffff0000ffff,
-+        0xff00ffff00ff0000, 0xff00ffff00ff00ff, 0xff00ffff00ffff00,
-+        0xff00ffff00ffffff, 0xff00ffffff000000, 0xff00ffffff0000ff,
-+        0xff00ffffff00ff00, 0xff00ffffff00ffff, 0xff00ffffffff0000,
-+        0xff00ffffffff00ff, 0xff00ffffffffff00, 0xff00ffffffffffff,
-+        0xffff000000000000, 0xffff0000000000ff, 0xffff00000000ff00,
-+        0xffff00000000ffff, 0xffff000000ff0000, 0xffff000000ff00ff,
-+        0xffff000000ffff00, 0xffff000000ffffff, 0xffff0000ff000000,
-+        0xffff0000ff0000ff, 0xffff0000ff00ff00, 0xffff0000ff00ffff,
-+        0xffff0000ffff0000, 0xffff0000ffff00ff, 0xffff0000ffffff00,
-+        0xffff0000ffffffff, 0xffff00ff00000000, 0xffff00ff000000ff,
-+        0xffff00ff0000ff00, 0xffff00ff0000ffff, 0xffff00ff00ff0000,
-+        0xffff00ff00ff00ff, 0xffff00ff00ffff00, 0xffff00ff00ffffff,
-+        0xffff00ffff000000, 0xffff00ffff0000ff, 0xffff00ffff00ff00,
-+        0xffff00ffff00ffff, 0xffff00ffffff0000, 0xffff00ffffff00ff,
-+        0xffff00ffffffff00, 0xffff00ffffffffff, 0xffffff0000000000,
-+        0xffffff00000000ff, 0xffffff000000ff00, 0xffffff000000ffff,
-+        0xffffff0000ff0000, 0xffffff0000ff00ff, 0xffffff0000ffff00,
-+        0xffffff0000ffffff, 0xffffff00ff000000, 0xffffff00ff0000ff,
-+        0xffffff00ff00ff00, 0xffffff00ff00ffff, 0xffffff00ffff0000,
-+        0xffffff00ffff00ff, 0xffffff00ffffff00, 0xffffff00ffffffff,
-+        0xffffffff00000000, 0xffffffff000000ff, 0xffffffff0000ff00,
-+        0xffffffff0000ffff, 0xffffffff00ff0000, 0xffffffff00ff00ff,
-+        0xffffffff00ffff00, 0xffffffff00ffffff, 0xffffffffff000000,
-+        0xffffffffff0000ff, 0xffffffffff00ff00, 0xffffffffff00ffff,
-+        0xffffffffffff0000, 0xffffffffffff00ff, 0xffffffffffffff00,
-+        0xffffffffffffffff,
-+    };
-+    return word[byte];
-+}
-+
-+/* Similarly for half-word elements.
-+ *  for (i = 0; i < 256; ++i) {
-+ *      unsigned long m = 0;
-+ *      if (i & 0xaa) {
-+ *          continue;
-+ *      }
-+ *      for (j = 0; j < 8; j += 2) {
-+ *          if ((i >> j) & 1) {
-+ *              m |= 0xfffful << (j << 3);
-+ *          }
-+ *      }
-+ *      printf("[0x%x] = 0x%016lx,\n", i, m);
-+ *  }
-+ */
-+static inline uint64_t expand_pred_h(uint8_t byte)
-+{
-+    static const uint64_t word[] = {
-+        [0x01] = 0x000000000000ffff, [0x04] = 0x00000000ffff0000,
-+        [0x05] = 0x00000000ffffffff, [0x10] = 0x0000ffff00000000,
-+        [0x11] = 0x0000ffff0000ffff, [0x14] = 0x0000ffffffff0000,
-+        [0x15] = 0x0000ffffffffffff, [0x40] = 0xffff000000000000,
-+        [0x41] = 0xffff00000000ffff, [0x44] = 0xffff0000ffff0000,
-+        [0x45] = 0xffff0000ffffffff, [0x50] = 0xffffffff00000000,
-+        [0x51] = 0xffffffff0000ffff, [0x54] = 0xffffffffffff0000,
-+        [0x55] = 0xffffffffffffffff,
-+    };
-+    return word[byte & 0x55];
-+}
-+
-+/* Similarly for single word elements.  */
-+static inline uint64_t expand_pred_s(uint8_t byte)
-+{
-+    static const uint64_t word[] = {
-+        [0x01] = 0x00000000ffffffffull,
-+        [0x10] = 0xffffffff00000000ull,
-+        [0x11] = 0xffffffffffffffffull,
-+    };
-+    return word[byte & 0x11];
-+}
-+
- #define LOGICAL_PPPP(NAME, FUNC) \
- void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg, uint32_t desc)  \
- {                                                                         \
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_pnext)(void *vd, void *vg, uint32_t pred_desc)
-     return flags;
- }
-+
-+/* Store zero into every active element of Zd.  We will use this for two
-+ * and three-operand predicated instructions for which logic dictates a
-+ * zero result.  In particular, logical shift by element size, which is
-+ * otherwise undefined on the host.
-+ *
-+ * For element sizes smaller than uint64_t, we use tables to expand
-+ * the N bits of the controlling predicate to a byte mask, and clear
-+ * those bytes.
-+ */
-+void HELPER(sve_clr_b)(void *vd, void *vg, uint32_t desc)
-+{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
-+    uint64_t *d = vd;
-+    uint8_t *pg = vg;
-+    for (i = 0; i < opr_sz; i += 1) {
-+        d[i] &= ~expand_pred_b(pg[H1(i)]);
-+    }
-+}
-+
-+void HELPER(sve_clr_h)(void *vd, void *vg, uint32_t desc)
-+{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
-+    uint64_t *d = vd;
-+    uint8_t *pg = vg;
-+    for (i = 0; i < opr_sz; i += 1) {
-+        d[i] &= ~expand_pred_h(pg[H1(i)]);
-+    }
-+}
-+
-+void HELPER(sve_clr_s)(void *vd, void *vg, uint32_t desc)
-+{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
-+    uint64_t *d = vd;
-+    uint8_t *pg = vg;
-+    for (i = 0; i < opr_sz; i += 1) {
-+        d[i] &= ~expand_pred_s(pg[H1(i)]);
-+    }
-+}
-+
-+void HELPER(sve_clr_d)(void *vd, void *vg, uint32_t desc)
-+{
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
-+    uint64_t *d = vd;
-+    uint8_t *pg = vg;
-+    for (i = 0; i < opr_sz; i += 1) {
-+        if (pg[H1(i)] & 1) {
-+            d[i] = 0;
-+        }
-+    }
-+}
-+
-+/* Three-operand expander, immediate operand, controlled by a predicate.
-+ */
-+#define DO_ZPZI(NAME, TYPE, H, OP)                              \
-+void HELPER(NAME)(void *vd, void *vn, void *vg, uint32_t desc)  \
-+{                                                               \
-+    intptr_t i, opr_sz = simd_oprsz(desc);                      \
-+    TYPE imm = simd_data(desc);                                 \
-+    for (i = 0; i < opr_sz; ) {                                 \
-+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));         \
-+        do {                                                    \
-+            if (pg & 1) {                                       \
-+                TYPE nn = *(TYPE *)(vn + H(i));                 \
-+                *(TYPE *)(vd + H(i)) = OP(nn, imm);             \
-+            }                                                   \
-+            i += sizeof(TYPE), pg >>= sizeof(TYPE);             \
-+        } while (i & 15);                                       \
-+    }                                                           \
-+}
-+
-+/* Similarly, specialized for 64-bit operands.  */
-+#define DO_ZPZI_D(NAME, TYPE, OP)                               \
-+void HELPER(NAME)(void *vd, void *vn, void *vg, uint32_t desc)  \
-+{                                                               \
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;                  \
-+    TYPE *d = vd, *n = vn;                                      \
-+    TYPE imm = simd_data(desc);                                 \
-+    uint8_t *pg = vg;                                           \
-+    for (i = 0; i < opr_sz; i += 1) {                           \
-+        if (pg[H1(i)] & 1) {                                    \
-+            TYPE nn = n[i];                                     \
-+            d[i] = OP(nn, imm);                                 \
-+        }                                                       \
-+    }                                                           \
-+}
-+
-+#define DO_SHR(N, M)  (N >> M)
-+#define DO_SHL(N, M)  (N << M)
-+
-+/* Arithmetic shift right for division.  This rounds negative numbers
-+   toward zero as per signed division.  Therefore before shifting,
-+   when N is negative, add 2**M-1.  */
-+#define DO_ASRD(N, M) ((N + (N < 0 ? ((__typeof(N))1 << M) - 1 : 0)) >> M)
-+
-+DO_ZPZI(sve_asr_zpzi_b, int8_t, H1, DO_SHR)
-+DO_ZPZI(sve_asr_zpzi_h, int16_t, H1_2, DO_SHR)
-+DO_ZPZI(sve_asr_zpzi_s, int32_t, H1_4, DO_SHR)
-+DO_ZPZI_D(sve_asr_zpzi_d, int64_t, DO_SHR)
-+
-+DO_ZPZI(sve_lsr_zpzi_b, uint8_t, H1, DO_SHR)
-+DO_ZPZI(sve_lsr_zpzi_h, uint16_t, H1_2, DO_SHR)
-+DO_ZPZI(sve_lsr_zpzi_s, uint32_t, H1_4, DO_SHR)
-+DO_ZPZI_D(sve_lsr_zpzi_d, uint64_t, DO_SHR)
-+
-+DO_ZPZI(sve_lsl_zpzi_b, uint8_t, H1, DO_SHL)
-+DO_ZPZI(sve_lsl_zpzi_h, uint16_t, H1_2, DO_SHL)
-+DO_ZPZI(sve_lsl_zpzi_s, uint32_t, H1_4, DO_SHL)
-+DO_ZPZI_D(sve_lsl_zpzi_d, uint64_t, DO_SHL)
-+
-+DO_ZPZI(sve_asrd_b, int8_t, H1, DO_ASRD)
-+DO_ZPZI(sve_asrd_h, int16_t, H1_2, DO_ASRD)
-+DO_ZPZI(sve_asrd_s, int32_t, H1_4, DO_ASRD)
-+DO_ZPZI_D(sve_asrd_d, int64_t, DO_ASRD)
-+
-+#undef DO_SHR
-+#undef DO_SHL
-+#undef DO_ASRD
-+#undef DO_ZPZI
-+#undef DO_ZPZI_D
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@
- #include "trace-tcg.h"
- #include "translate-a64.h"
-+/*
-+ * Helpers for extracting complex instruction fields.
-+ */
-+
-+/* See e.g. ASR (immediate, predicated).
-+ * Returns -1 for unallocated encoding; diagnose later.
-+ */
-+static int tszimm_esz(int x)
-+{
-+    x >>= 3;  /* discard imm3 */
-+    return 31 - clz32(x);
-+}
-+
-+static int tszimm_shr(int x)
-+{
-+    return (16 << tszimm_esz(x)) - x;
-+}
-+
-+/* See e.g. LSL (immediate, predicated).  */
-+static int tszimm_shl(int x)
-+{
-+    return x - (8 << tszimm_esz(x));
-+}
-+
- /*
-  * Include the generated decoder.
-  */
-@@ -XXX,XX +XXX,XX @@ static bool trans_SADDV(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
- #undef DO_VPZ
-+/*
-+ *** SVE Shift by Immediate - Predicated Group
-+ */
-+
-+/* Store zero into every active element of Zd.  We will use this for two
-+ * and three-operand predicated instructions for which logic dictates a
-+ * zero result.
-+ */
-+static bool do_clr_zp(DisasContext *s, int rd, int pg, int esz)
-+{
-+    static gen_helper_gvec_2 * const fns[4] = {
-+        gen_helper_sve_clr_b, gen_helper_sve_clr_h,
-+        gen_helper_sve_clr_s, gen_helper_sve_clr_d,
-+    };
-+    if (sve_access_check(s)) {
-+        unsigned vsz = vec_full_reg_size(s);
-+        tcg_gen_gvec_2_ool(vec_full_reg_offset(s, rd),
-+                           pred_full_reg_offset(s, pg),
-+                           vsz, vsz, 0, fns[esz]);
-+    }
-+    return true;
-+}
-+
-+static bool do_zpzi_ool(DisasContext *s, arg_rpri_esz *a,
-+                        gen_helper_gvec_3 *fn)
-+{
-+    if (sve_access_check(s)) {
-+        unsigned vsz = vec_full_reg_size(s);
-+        tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
-+                           vec_full_reg_offset(s, a->rn),
-+                           pred_full_reg_offset(s, a->pg),
-+                           vsz, vsz, a->imm, fn);
-+    }
-+    return true;
-+}
-+
-+static bool trans_ASR_zpzi(DisasContext *s, arg_rpri_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        gen_helper_sve_asr_zpzi_b, gen_helper_sve_asr_zpzi_h,
-+        gen_helper_sve_asr_zpzi_s, gen_helper_sve_asr_zpzi_d,
-+    };
-+    if (a->esz < 0) {
-+        /* Invalid tsz encoding -- see tszimm_esz. */
-+        return false;
-+    }
-+    /* Shift by element size is architecturally valid.  For
-+       arithmetic right-shift, it's the same as by one less. */
-+    a->imm = MIN(a->imm, (8 << a->esz) - 1);
-+    return do_zpzi_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_LSR_zpzi(DisasContext *s, arg_rpri_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        gen_helper_sve_lsr_zpzi_b, gen_helper_sve_lsr_zpzi_h,
-+        gen_helper_sve_lsr_zpzi_s, gen_helper_sve_lsr_zpzi_d,
-+    };
-+    if (a->esz < 0) {
-+        return false;
-+    }
-+    /* Shift by element size is architecturally valid.
-+       For logical shifts, it is a zeroing operation.  */
-+    if (a->imm >= (8 << a->esz)) {
-+        return do_clr_zp(s, a->rd, a->pg, a->esz);
-+    } else {
-+        return do_zpzi_ool(s, a, fns[a->esz]);
-+    }
-+}
-+
-+static bool trans_LSL_zpzi(DisasContext *s, arg_rpri_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        gen_helper_sve_lsl_zpzi_b, gen_helper_sve_lsl_zpzi_h,
-+        gen_helper_sve_lsl_zpzi_s, gen_helper_sve_lsl_zpzi_d,
-+    };
-+    if (a->esz < 0) {
-+        return false;
-+    }
-+    /* Shift by element size is architecturally valid.
-+       For logical shifts, it is a zeroing operation.  */
-+    if (a->imm >= (8 << a->esz)) {
-+        return do_clr_zp(s, a->rd, a->pg, a->esz);
-+    } else {
-+        return do_zpzi_ool(s, a, fns[a->esz]);
-+    }
-+}
-+
-+static bool trans_ASRD(DisasContext *s, arg_rpri_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        gen_helper_sve_asrd_b, gen_helper_sve_asrd_h,
-+        gen_helper_sve_asrd_s, gen_helper_sve_asrd_d,
-+    };
-+    if (a->esz < 0) {
-+        return false;
-+    }
-+    /* Shift by element size is architecturally valid.  For arithmetic
-+       right shift for division, it is a zeroing operation.  */
-+    if (a->imm >= (8 << a->esz)) {
-+        return do_clr_zp(s, a->rd, a->pg, a->esz);
-+    } else {
-+        return do_zpzi_ool(s, a, fns[a->esz]);
-+    }
-+}
-+
- /*
-  *** SVE Predicate Logical Operations Group
-  */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@
- ###########################################################################
- # Named fields.  These are primarily for disjoint fields.
-+%imm6_22_5      22:1 5:5
- %imm9_16_10     16:s6 10:3
-+# A combination of tsz:imm3 -- extract esize.
-+%tszimm_esz     22:2 5:5 !function=tszimm_esz
-+# A combination of tsz:imm3 -- extract (2 * esize) - (tsz:imm3)
-+%tszimm_shr     22:2 5:5 !function=tszimm_shr
-+# A combination of tsz:imm3 -- extract (tsz:imm3) - esize
-+%tszimm_shl     22:2 5:5 !function=tszimm_shl
-+
- # Either a copy of rd (at bit 0), or a different source
- # as propagated via the MOVPRFX instruction.
- %reg_movprfx    0:5
-@@ -XXX,XX +XXX,XX @@
- &rpr_esz        rd pg rn esz
- &rprr_s         rd pg rn rm s
- &rprr_esz       rd pg rn rm esz
-+&rpri_esz       rd pg rn imm esz
- ###########################################################################
- # Named instruction formats.  These are generally used to
-@@ -XXX,XX +XXX,XX @@
- # One register operand, with governing predicate, vector element size
- @rd_pg_rn       ........ esz:2 ... ... ... pg:3 rn:5 rd:5       &rpr_esz
-+# Two register operand, one immediate operand, with predicate,
-+# element size encoded as TSZHL.  User must fill in imm.
-+@rdn_pg_tszimm  ........ .. ... ... ... pg:3 ..... rd:5 \
-+                &rpri_esz rn=%reg_movprfx esz=%tszimm_esz
-+
- # Basic Load/Store with 9-bit immediate offset
- @pd_rn_i9       ........ ........ ...... rn:5 . rd:4    \
-                 &rri imm=%imm9_16_10
-@@ -XXX,XX +XXX,XX @@ UMAXV           00000100 .. 001 001 001 ... ..... .....         @rd_pg_rn
- SMINV           00000100 .. 001 010 001 ... ..... .....         @rd_pg_rn
- UMINV           00000100 .. 001 011 001 ... ..... .....         @rd_pg_rn
-+### SVE Shift by Immediate - Predicated Group
-+
-+# SVE bitwise shift by immediate (predicated)
-+ASR_zpzi        00000100 .. 000 000 100 ... .. ... ..... \
-+                @rdn_pg_tszimm imm=%tszimm_shr
-+LSR_zpzi        00000100 .. 000 001 100 ... .. ... ..... \
-+                @rdn_pg_tszimm imm=%tszimm_shr
-+LSL_zpzi        00000100 .. 000 011 100 ... .. ... ..... \
-+                @rdn_pg_tszimm imm=%tszimm_shl
-+ASRD            00000100 .. 000 100 100 ... .. ... ..... \
-+                @rdn_pg_tszimm imm=%tszimm_shr
-+
- ### SVE Logical - Unpredicated Group
- # SVE bitwise logical operations (unpredicated)
---
-.17.0

-[Qemu-devel] [PULL 18/32] target/arm: Implement SVE bitwise shift by vector (predicated)
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-12-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper-sve.h    | 27 +++++++++++++++++++++++++++
- target/arm/sve_helper.c    | 25 +++++++++++++++++++++++++
- target/arm/translate-sve.c |  4 ++++
- target/arm/sve.decode      |  8 ++++++++
-files changed, 64 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
-+++ b/target/arm/helper-sve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve_udiv_zpzz_s, TCG_CALL_NO_RWG,
- DEF_HELPER_FLAGS_5(sve_udiv_zpzz_d, TCG_CALL_NO_RWG,
-                    void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzz_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzz_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzz_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzz_d, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_3(sve_orv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_orv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_orv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_D(sve_sdiv_zpzz_d, int64_t, DO_DIV)
- DO_ZPZZ(sve_udiv_zpzz_s, uint32_t, H1_4, DO_DIV)
- DO_ZPZZ_D(sve_udiv_zpzz_d, uint64_t, DO_DIV)
-+/* Note that all bits of the shift are significant
-+   and not modulo the element size.  */
-+#define DO_ASR(N, M)  (N >> MIN(M, sizeof(N) * 8 - 1))
-+#define DO_LSR(N, M)  (M < sizeof(N) * 8 ? N >> M : 0)
-+#define DO_LSL(N, M)  (M < sizeof(N) * 8 ? N << M : 0)
-+
-+DO_ZPZZ(sve_asr_zpzz_b, int8_t, H1, DO_ASR)
-+DO_ZPZZ(sve_lsr_zpzz_b, uint8_t, H1_2, DO_LSR)
-+DO_ZPZZ(sve_lsl_zpzz_b, uint8_t, H1_4, DO_LSL)
-+
-+DO_ZPZZ(sve_asr_zpzz_h, int16_t, H1, DO_ASR)
-+DO_ZPZZ(sve_lsr_zpzz_h, uint16_t, H1_2, DO_LSR)
-+DO_ZPZZ(sve_lsl_zpzz_h, uint16_t, H1_4, DO_LSL)
-+
-+DO_ZPZZ(sve_asr_zpzz_s, int32_t, H1, DO_ASR)
-+DO_ZPZZ(sve_lsr_zpzz_s, uint32_t, H1_2, DO_LSR)
-+DO_ZPZZ(sve_lsl_zpzz_s, uint32_t, H1_4, DO_LSL)
-+
-+DO_ZPZZ_D(sve_asr_zpzz_d, int64_t, DO_ASR)
-+DO_ZPZZ_D(sve_lsr_zpzz_d, uint64_t, DO_LSR)
-+DO_ZPZZ_D(sve_lsl_zpzz_d, uint64_t, DO_LSL)
-+
- #undef DO_ZPZZ
- #undef DO_ZPZZ_D
-@@ -XXX,XX +XXX,XX @@ DO_VPZ_D(sve_uminv_d, uint64_t, uint64_t, -1, DO_MIN)
- #undef DO_ABD
- #undef DO_MUL
- #undef DO_DIV
-+#undef DO_ASR
-+#undef DO_LSR
-+#undef DO_LSL
- /* Similar to the ARM LastActiveElement pseudocode function, except the
-    result is multiplied by the element size.  This includes the not found
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ DO_ZPZZ(MUL, mul)
- DO_ZPZZ(SMULH, smulh)
- DO_ZPZZ(UMULH, umulh)
-+DO_ZPZZ(ASR, asr)
-+DO_ZPZZ(LSR, lsr)
-+DO_ZPZZ(LSL, lsl)
-+
- static bool trans_SDIV_zpzz(DisasContext *s, arg_rprr_esz *a, uint32_t insn)
- {
-     static gen_helper_gvec_4 * const fns[4] = {
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@ LSL_zpzi        00000100 .. 000 011 100 ... .. ... ..... \
- ASRD            00000100 .. 000 100 100 ... .. ... ..... \
-                 @rdn_pg_tszimm imm=%tszimm_shr
-+# SVE bitwise shift by vector (predicated)
-+ASR_zpzz        00000100 .. 010 000 100 ... ..... .....   @rdn_pg_rm
-+LSR_zpzz        00000100 .. 010 001 100 ... ..... .....   @rdn_pg_rm
-+LSL_zpzz        00000100 .. 010 011 100 ... ..... .....   @rdn_pg_rm
-+ASR_zpzz        00000100 .. 010 100 100 ... ..... .....   @rdm_pg_rn # ASRR
-+LSR_zpzz        00000100 .. 010 101 100 ... ..... .....   @rdm_pg_rn # LSRR
-+LSL_zpzz        00000100 .. 010 111 100 ... ..... .....   @rdm_pg_rn # LSLR
-+
- ### SVE Logical - Unpredicated Group
- # SVE bitwise logical operations (unpredicated)
---
-.17.0

-[Qemu-devel] [PULL 19/32] target/arm: Implement SVE bitwise shift by wide elements (predicated)
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-13-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper-sve.h    | 21 +++++++++++++++++++++
- target/arm/sve_helper.c    | 35 +++++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 24 ++++++++++++++++++++++++
- target/arm/sve.decode      |  6 ++++++
-files changed, 86 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
-+++ b/target/arm/helper-sve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve_lsl_zpzz_s, TCG_CALL_NO_RWG,
- DEF_HELPER_FLAGS_5(sve_lsl_zpzz_d, TCG_CALL_NO_RWG,
-                    void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzw_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzw_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_asr_zpzw_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzw_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzw_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsr_zpzw_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzw_b, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzw_h, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_5(sve_lsl_zpzw_s, TCG_CALL_NO_RWG,
-+                   void, ptr, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_3(sve_orv_b, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_orv_h, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sve_orv_s, TCG_CALL_NO_RWG, i64, ptr, ptr, i32)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_D(sve_lsl_zpzz_d, uint64_t, DO_LSL)
- #undef DO_ZPZZ
- #undef DO_ZPZZ_D
-+/* Three-operand expander, controlled by a predicate, in which the
-+ * third operand is "wide".  That is, for D = N op M, the same 64-bit
-+ * value of M is used with all of the narrower values of N.
-+ */
-+#define DO_ZPZW(NAME, TYPE, TYPEW, H, OP)                               \
-+void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg, uint32_t desc) \
-+{                                                                       \
-+    intptr_t i, opr_sz = simd_oprsz(desc);                              \
-+    for (i = 0; i < opr_sz; ) {                                         \
-+        uint8_t pg = *(uint8_t *)(vg + H1(i >> 3));                     \
-+        TYPEW mm = *(TYPEW *)(vm + i);                                  \
-+        do {                                                            \
-+            if (pg & 1) {                                               \
-+                TYPE nn = *(TYPE *)(vn + H(i));                         \
-+                *(TYPE *)(vd + H(i)) = OP(nn, mm);                      \
-+            }                                                           \
-+            i += sizeof(TYPE), pg >>= sizeof(TYPE);                     \
-+        } while (i & 7);                                                \
-+    }                                                                   \
-+}
-+
-+DO_ZPZW(sve_asr_zpzw_b, int8_t, uint64_t, H1, DO_ASR)
-+DO_ZPZW(sve_lsr_zpzw_b, uint8_t, uint64_t, H1, DO_LSR)
-+DO_ZPZW(sve_lsl_zpzw_b, uint8_t, uint64_t, H1, DO_LSL)
-+
-+DO_ZPZW(sve_asr_zpzw_h, int16_t, uint64_t, H1_2, DO_ASR)
-+DO_ZPZW(sve_lsr_zpzw_h, uint16_t, uint64_t, H1_2, DO_LSR)
-+DO_ZPZW(sve_lsl_zpzw_h, uint16_t, uint64_t, H1_2, DO_LSL)
-+
-+DO_ZPZW(sve_asr_zpzw_s, int32_t, uint64_t, H1_4, DO_ASR)
-+DO_ZPZW(sve_lsr_zpzw_s, uint32_t, uint64_t, H1_4, DO_LSR)
-+DO_ZPZW(sve_lsl_zpzw_s, uint32_t, uint64_t, H1_4, DO_LSL)
-+
-+#undef DO_ZPZW
-+
- /* Two-operand reduction expander, controlled by a predicate.
-  * The difference between TYPERED and TYPERET has to do with
-  * sign-extension.  E.g. for SMAX, TYPERED must be signed,
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_ASRD(DisasContext *s, arg_rpri_esz *a, uint32_t insn)
-     }
- }
-+/*
-+ *** SVE Bitwise Shift - Predicated Group
-+ */
-+
-+#define DO_ZPZW(NAME, name) \
-+static bool trans_##NAME##_zpzw(DisasContext *s, arg_rprr_esz *a,         \
-+                                uint32_t insn)                            \
-+{                                                                         \
-+    static gen_helper_gvec_4 * const fns[3] = {                           \
-+        gen_helper_sve_##name##_zpzw_b, gen_helper_sve_##name##_zpzw_h,   \
-+        gen_helper_sve_##name##_zpzw_s,                                   \
-+    };                                                                    \
-+    if (a->esz < 0 || a->esz >= 3) {                                      \
-+        return false;                                                     \
-+    }                                                                     \
-+    return do_zpzz_ool(s, a, fns[a->esz]);                                \
-+}
-+
-+DO_ZPZW(ASR, asr)
-+DO_ZPZW(LSR, lsr)
-+DO_ZPZW(LSL, lsl)
-+
-+#undef DO_ZPZW
-+
- /*
-  *** SVE Predicate Logical Operations Group
-  */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@ ASR_zpzz        00000100 .. 010 100 100 ... ..... .....   @rdm_pg_rn # ASRR
- LSR_zpzz        00000100 .. 010 101 100 ... ..... .....   @rdm_pg_rn # LSRR
- LSL_zpzz        00000100 .. 010 111 100 ... ..... .....   @rdm_pg_rn # LSLR
-+# SVE bitwise shift by wide elements (predicated)
-+# Note these require size != 3.
-+ASR_zpzw        00000100 .. 011 000 100 ... ..... .....         @rdn_pg_rm
-+LSR_zpzw        00000100 .. 011 001 100 ... ..... .....         @rdn_pg_rm
-+LSL_zpzw        00000100 .. 011 011 100 ... ..... .....         @rdn_pg_rm
-+
- ### SVE Logical - Unpredicated Group
- # SVE bitwise logical operations (unpredicated)
---
-.17.0

-[Qemu-devel] [PULL 20/32] target/arm: Implement SVE Integer Arithmetic - Unary Predicated Group
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180516223007.10256-14-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper-sve.h    |  60 ++++++++++++++++++
- target/arm/sve_helper.c    | 127 +++++++++++++++++++++++++++++++++++++
- target/arm/translate-sve.c | 113 +++++++++++++++++++++++++++++++++
- target/arm/sve.decode      |  23 +++++++
-files changed, 323 insertions(+)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
-+++ b/target/arm/helper-sve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_asrd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_4(sve_asrd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_4(sve_asrd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cls_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cls_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_clz_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_clz_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_clz_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_clz_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_cnt_zpz_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cnt_zpz_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cnt_zpz_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cnt_zpz_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_cnot_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cnot_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cnot_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_cnot_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_fabs_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_fabs_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_fabs_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_fneg_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_fneg_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_fneg_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_not_zpz_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_not_zpz_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_not_zpz_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_not_zpz_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_sxtb_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_sxtb_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_sxtb_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_uxtb_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_uxtb_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_uxtb_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_sxth_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_sxth_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_uxth_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_uxth_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_sxtw_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_uxtw_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_abs_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_abs_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_abs_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_abs_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_4(sve_neg_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_neg_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_neg_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(sve_neg_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
- DEF_HELPER_FLAGS_5(sve_and_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_bic_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(sve_eor_pppp, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_ZPZW(sve_lsl_zpzw_s, uint32_t, uint64_t, H1_4, DO_LSL)
- #undef DO_ZPZW
-+/* Fully general two-operand expander, controlled by a predicate.
-+ */
-+#define DO_ZPZ(NAME, TYPE, H, OP)                               \
-+void HELPER(NAME)(void *vd, void *vn, void *vg, uint32_t desc)  \
-+{                                                               \
-+    intptr_t i, opr_sz = simd_oprsz(desc);                      \
-+    for (i = 0; i < opr_sz; ) {                                 \
-+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));         \
-+        do {                                                    \
-+            if (pg & 1) {                                       \
-+                TYPE nn = *(TYPE *)(vn + H(i));                 \
-+                *(TYPE *)(vd + H(i)) = OP(nn);                  \
-+            }                                                   \
-+            i += sizeof(TYPE), pg >>= sizeof(TYPE);             \
-+        } while (i & 15);                                       \
-+    }                                                           \
-+}
-+
-+/* Similarly, specialized for 64-bit operands.  */
-+#define DO_ZPZ_D(NAME, TYPE, OP)                                \
-+void HELPER(NAME)(void *vd, void *vn, void *vg, uint32_t desc)  \
-+{                                                               \
-+    intptr_t i, opr_sz = simd_oprsz(desc) / 8;                  \
-+    TYPE *d = vd, *n = vn;                                      \
-+    uint8_t *pg = vg;                                           \
-+    for (i = 0; i < opr_sz; i += 1) {                           \
-+        if (pg[H1(i)] & 1) {                                    \
-+            TYPE nn = n[i];                                     \
-+            d[i] = OP(nn);                                      \
-+        }                                                       \
-+    }                                                           \
-+}
-+
-+#define DO_CLS_B(N)   (clrsb32(N) - 24)
-+#define DO_CLS_H(N)   (clrsb32(N) - 16)
-+
-+DO_ZPZ(sve_cls_b, int8_t, H1, DO_CLS_B)
-+DO_ZPZ(sve_cls_h, int16_t, H1_2, DO_CLS_H)
-+DO_ZPZ(sve_cls_s, int32_t, H1_4, clrsb32)
-+DO_ZPZ_D(sve_cls_d, int64_t, clrsb64)
-+
-+#define DO_CLZ_B(N)   (clz32(N) - 24)
-+#define DO_CLZ_H(N)   (clz32(N) - 16)
-+
-+DO_ZPZ(sve_clz_b, uint8_t, H1, DO_CLZ_B)
-+DO_ZPZ(sve_clz_h, uint16_t, H1_2, DO_CLZ_H)
-+DO_ZPZ(sve_clz_s, uint32_t, H1_4, clz32)
-+DO_ZPZ_D(sve_clz_d, uint64_t, clz64)
-+
-+DO_ZPZ(sve_cnt_zpz_b, uint8_t, H1, ctpop8)
-+DO_ZPZ(sve_cnt_zpz_h, uint16_t, H1_2, ctpop16)
-+DO_ZPZ(sve_cnt_zpz_s, uint32_t, H1_4, ctpop32)
-+DO_ZPZ_D(sve_cnt_zpz_d, uint64_t, ctpop64)
-+
-+#define DO_CNOT(N)    (N == 0)
-+
-+DO_ZPZ(sve_cnot_b, uint8_t, H1, DO_CNOT)
-+DO_ZPZ(sve_cnot_h, uint16_t, H1_2, DO_CNOT)
-+DO_ZPZ(sve_cnot_s, uint32_t, H1_4, DO_CNOT)
-+DO_ZPZ_D(sve_cnot_d, uint64_t, DO_CNOT)
-+
-+#define DO_FABS(N)    (N & ((__typeof(N))-1 >> 1))
-+
-+DO_ZPZ(sve_fabs_h, uint16_t, H1_2, DO_FABS)
-+DO_ZPZ(sve_fabs_s, uint32_t, H1_4, DO_FABS)
-+DO_ZPZ_D(sve_fabs_d, uint64_t, DO_FABS)
-+
-+#define DO_FNEG(N)    (N ^ ~((__typeof(N))-1 >> 1))
-+
-+DO_ZPZ(sve_fneg_h, uint16_t, H1_2, DO_FNEG)
-+DO_ZPZ(sve_fneg_s, uint32_t, H1_4, DO_FNEG)
-+DO_ZPZ_D(sve_fneg_d, uint64_t, DO_FNEG)
-+
-+#define DO_NOT(N)    (~N)
-+
-+DO_ZPZ(sve_not_zpz_b, uint8_t, H1, DO_NOT)
-+DO_ZPZ(sve_not_zpz_h, uint16_t, H1_2, DO_NOT)
-+DO_ZPZ(sve_not_zpz_s, uint32_t, H1_4, DO_NOT)
-+DO_ZPZ_D(sve_not_zpz_d, uint64_t, DO_NOT)
-+
-+#define DO_SXTB(N)    ((int8_t)N)
-+#define DO_SXTH(N)    ((int16_t)N)
-+#define DO_SXTS(N)    ((int32_t)N)
-+#define DO_UXTB(N)    ((uint8_t)N)
-+#define DO_UXTH(N)    ((uint16_t)N)
-+#define DO_UXTS(N)    ((uint32_t)N)
-+
-+DO_ZPZ(sve_sxtb_h, uint16_t, H1_2, DO_SXTB)
-+DO_ZPZ(sve_sxtb_s, uint32_t, H1_4, DO_SXTB)
-+DO_ZPZ(sve_sxth_s, uint32_t, H1_4, DO_SXTH)
-+DO_ZPZ_D(sve_sxtb_d, uint64_t, DO_SXTB)
-+DO_ZPZ_D(sve_sxth_d, uint64_t, DO_SXTH)
-+DO_ZPZ_D(sve_sxtw_d, uint64_t, DO_SXTS)
-+
-+DO_ZPZ(sve_uxtb_h, uint16_t, H1_2, DO_UXTB)
-+DO_ZPZ(sve_uxtb_s, uint32_t, H1_4, DO_UXTB)
-+DO_ZPZ(sve_uxth_s, uint32_t, H1_4, DO_UXTH)
-+DO_ZPZ_D(sve_uxtb_d, uint64_t, DO_UXTB)
-+DO_ZPZ_D(sve_uxth_d, uint64_t, DO_UXTH)
-+DO_ZPZ_D(sve_uxtw_d, uint64_t, DO_UXTS)
-+
-+#define DO_ABS(N)    (N < 0 ? -N : N)
-+
-+DO_ZPZ(sve_abs_b, int8_t, H1, DO_ABS)
-+DO_ZPZ(sve_abs_h, int16_t, H1_2, DO_ABS)
-+DO_ZPZ(sve_abs_s, int32_t, H1_4, DO_ABS)
-+DO_ZPZ_D(sve_abs_d, int64_t, DO_ABS)
-+
-+#define DO_NEG(N)    (-N)
-+
-+DO_ZPZ(sve_neg_b, uint8_t, H1, DO_NEG)
-+DO_ZPZ(sve_neg_h, uint16_t, H1_2, DO_NEG)
-+DO_ZPZ(sve_neg_s, uint32_t, H1_4, DO_NEG)
-+DO_ZPZ_D(sve_neg_d, uint64_t, DO_NEG)
-+
-+#undef DO_CLS_B
-+#undef DO_CLS_H
-+#undef DO_CLZ_B
-+#undef DO_CLZ_H
-+#undef DO_CNOT
-+#undef DO_FABS
-+#undef DO_FNEG
-+#undef DO_ABS
-+#undef DO_NEG
-+#undef DO_ZPZ
-+#undef DO_ZPZ_D
-+
- /* Two-operand reduction expander, controlled by a predicate.
-  * The difference between TYPERED and TYPERET has to do with
-  * sign-extension.  E.g. for SMAX, TYPERED must be signed,
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_UDIV_zpzz(DisasContext *s, arg_rprr_esz *a, uint32_t insn)
- #undef DO_ZPZZ
-+/*
-+ *** SVE Integer Arithmetic - Unary Predicated Group
-+ */
-+
-+static bool do_zpz_ool(DisasContext *s, arg_rpr_esz *a, gen_helper_gvec_3 *fn)
-+{
-+    if (fn == NULL) {
-+        return false;
-+    }
-+    if (sve_access_check(s)) {
-+        unsigned vsz = vec_full_reg_size(s);
-+        tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
-+                           vec_full_reg_offset(s, a->rn),
-+                           pred_full_reg_offset(s, a->pg),
-+                           vsz, vsz, 0, fn);
-+    }
-+    return true;
-+}
-+
-+#define DO_ZPZ(NAME, name) \
-+static bool trans_##NAME(DisasContext *s, arg_rpr_esz *a, uint32_t insn) \
-+{                                                                   \
-+    static gen_helper_gvec_3 * const fns[4] = {                     \
-+        gen_helper_sve_##name##_b, gen_helper_sve_##name##_h,       \
-+        gen_helper_sve_##name##_s, gen_helper_sve_##name##_d,       \
-+    };                                                              \
-+    return do_zpz_ool(s, a, fns[a->esz]);                           \
-+}
-+
-+DO_ZPZ(CLS, cls)
-+DO_ZPZ(CLZ, clz)
-+DO_ZPZ(CNT_zpz, cnt_zpz)
-+DO_ZPZ(CNOT, cnot)
-+DO_ZPZ(NOT_zpz, not_zpz)
-+DO_ZPZ(ABS, abs)
-+DO_ZPZ(NEG, neg)
-+
-+static bool trans_FABS(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        NULL,
-+        gen_helper_sve_fabs_h,
-+        gen_helper_sve_fabs_s,
-+        gen_helper_sve_fabs_d
-+    };
-+    return do_zpz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_FNEG(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        NULL,
-+        gen_helper_sve_fneg_h,
-+        gen_helper_sve_fneg_s,
-+        gen_helper_sve_fneg_d
-+    };
-+    return do_zpz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_SXTB(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        NULL,
-+        gen_helper_sve_sxtb_h,
-+        gen_helper_sve_sxtb_s,
-+        gen_helper_sve_sxtb_d
-+    };
-+    return do_zpz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_UXTB(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        NULL,
-+        gen_helper_sve_uxtb_h,
-+        gen_helper_sve_uxtb_s,
-+        gen_helper_sve_uxtb_d
-+    };
-+    return do_zpz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_SXTH(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        NULL, NULL,
-+        gen_helper_sve_sxth_s,
-+        gen_helper_sve_sxth_d
-+    };
-+    return do_zpz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_UXTH(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    static gen_helper_gvec_3 * const fns[4] = {
-+        NULL, NULL,
-+        gen_helper_sve_uxth_s,
-+        gen_helper_sve_uxth_d
-+    };
-+    return do_zpz_ool(s, a, fns[a->esz]);
-+}
-+
-+static bool trans_SXTW(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    return do_zpz_ool(s, a, a->esz == 3 ? gen_helper_sve_sxtw_d : NULL);
-+}
-+
-+static bool trans_UXTW(DisasContext *s, arg_rpr_esz *a, uint32_t insn)
-+{
-+    return do_zpz_ool(s, a, a->esz == 3 ? gen_helper_sve_uxtw_d : NULL);
-+}
-+
-+#undef DO_ZPZ
-+
- /*
-  *** SVE Integer Reduction Group
-  */
-diff --git a/target/arm/sve.decode b/target/arm/sve.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve.decode
-+++ b/target/arm/sve.decode
-@@ -XXX,XX +XXX,XX @@ ASR_zpzw        00000100 .. 011 000 100 ... ..... .....         @rdn_pg_rm
- LSR_zpzw        00000100 .. 011 001 100 ... ..... .....         @rdn_pg_rm
- LSL_zpzw        00000100 .. 011 011 100 ... ..... .....         @rdn_pg_rm
-+### SVE Integer Arithmetic - Unary Predicated Group
-+
-+# SVE unary bit operations (predicated)
-+# Note esz != 0 for FABS and FNEG.
-+CLS             00000100 .. 011 000 101 ... ..... .....         @rd_pg_rn
-+CLZ             00000100 .. 011 001 101 ... ..... .....         @rd_pg_rn
-+CNT_zpz         00000100 .. 011 010 101 ... ..... .....         @rd_pg_rn
-+CNOT            00000100 .. 011 011 101 ... ..... .....         @rd_pg_rn
-+NOT_zpz         00000100 .. 011 110 101 ... ..... .....         @rd_pg_rn
-+FABS            00000100 .. 011 100 101 ... ..... .....         @rd_pg_rn
-+FNEG            00000100 .. 011 101 101 ... ..... .....         @rd_pg_rn
-+
-+# SVE integer unary operations (predicated)
-+# Note esz > original size for extensions.
-+ABS             00000100 .. 010 110 101 ... ..... .....         @rd_pg_rn
-+NEG             00000100 .. 010 111 101 ... ..... .....         @rd_pg_rn
-+SXTB            00000100 .. 010 000 101 ... ..... .....         @rd_pg_rn
-+UXTB            00000100 .. 010 001 101 ... ..... .....         @rd_pg_rn
-+SXTH            00000100 .. 010 010 101 ... ..... .....         @rd_pg_rn
-+UXTH            00000100 .. 010 011 101 ... ..... .....         @rd_pg_rn
-+SXTW            00000100 .. 010 100 101 ... ..... .....         @rd_pg_rn
-+UXTW            00000100 .. 010 101 101 ... ..... .....         @rd_pg_rn
-+
- ### SVE Logical - Unpredicated Group
- # SVE bitwise logical operations (unpredicated)
---
-.17.0

Another target-arm queue, since we're over 30 patches
already. Most of this is RTH's SVE-patches-part-1.

thanks
-- PMM

The following changes since commit d32e41a1188e929cc0fb16829ce3736046951e39:

Merge remote-tracking branch 'remotes/famz/tags/docker-and-block-pull-request' into staging (2018-05-18 14:11:52 +0100)

are available in the Git repository at:

git://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20180518

for you to fetch changes up to b94f8f60bd841c5b737185cd38263e26822f77ab:

target/arm: Implement SVE Permute - Extract Group (2018-05-18 17:48:09 +0100)

----------------------------------------------------------------
target-arm queue:
 * Initial part of SVE implementation (currently disabled)
 * smmuv3: fix some minor Coverity issues
 * add model of Xilinx ZynqMP generic DMA controller
 * expose (most) Arm coprocessor/system registers to
   gdb via QEMU's gdbstub, for reads only

----------------------------------------------------------------
Abdallah Bouassida (3):
      target/arm: Add "ARM_CP_NO_GDB" as a new bit field for ARMCPRegInfo type
      target/arm: Add "_S" suffix to the secure version of a sysreg
      target/arm: Add the XML dynamic generation

Eric Auger (2):
      hw/arm/smmuv3: Fix Coverity issue in smmuv3_record_event
      hw/arm/smmu-common: Fix coverity issue in get_block_pte_address

Francisco Iglesias (2):
      xlnx-zdma: Add a model of the Xilinx ZynqMP generic DMA
      xlnx-zynqmp: Connect the ZynqMP GDMA and ADMA

Richard Henderson (25):
      target/arm: Introduce translate-a64.h
      target/arm: Add SVE decode skeleton
      target/arm: Implement SVE Bitwise Logical - Unpredicated Group
      target/arm: Implement SVE load vector/predicate
      target/arm: Implement SVE predicate test
      target/arm: Implement SVE Predicate Logical Operations Group
      target/arm: Implement SVE Predicate Misc Group
      target/arm: Implement SVE Integer Binary Arithmetic - Predicated Group
      target/arm: Implement SVE Integer Reduction Group
      target/arm: Implement SVE bitwise shift by immediate (predicated)
      target/arm: Implement SVE bitwise shift by vector (predicated)
      target/arm: Implement SVE bitwise shift by wide elements (predicated)
      target/arm: Implement SVE Integer Arithmetic - Unary Predicated Group
      target/arm: Implement SVE Integer Multiply-Add Group
      target/arm: Implement SVE Integer Arithmetic - Unpredicated Group
      target/arm: Implement SVE Index Generation Group
      target/arm: Implement SVE Stack Allocation Group
      target/arm: Implement SVE Bitwise Shift - Unpredicated Group
      target/arm: Implement SVE Compute Vector Address Group
      target/arm: Implement SVE floating-point exponential accelerator
      target/arm: Implement SVE floating-point trig select coefficient
      target/arm: Implement SVE Element Count Group
      target/arm: Implement SVE Bitwise Immediate Group
      target/arm: Implement SVE Integer Wide Immediate - Predicated Group
      target/arm: Implement SVE Permute - Extract Group

hw/dma/Makefile.objs         |    1 +
 target/arm/Makefile.objs     |   10 +
 include/hw/arm/xlnx-zynqmp.h |    5 +
 include/hw/dma/xlnx-zdma.h   |   84 ++
 include/qom/cpu.h            |    5 +-
 target/arm/cpu.h             |   37 +-
 target/arm/helper-sve.h      |  427 +++++++++
 target/arm/helper.h          |    1 +
 target/arm/translate-a64.h   |  118 +++
 gdbstub.c                    |   10 +
 hw/arm/smmu-common.c         |    4 +-
 hw/arm/smmuv3.c              |    2 +-
 hw/arm/xlnx-zynqmp.c         |   53 ++
 hw/dma/xlnx-zdma.c           |  832 +++++++++++++++++
 target/arm/cpu.c             |    1 +
 target/arm/gdbstub.c         |   76 ++
 target/arm/helper.c          |   57 +-
 target/arm/sve_helper.c      | 1562 +++++++++++++++++++++++++++++++
 target/arm/translate-a64.c   |  119 +--
 target/arm/translate-sve.c   | 2070 ++++++++++++++++++++++++++++++++++++++++++
 .gitignore                   |    1 +
 target/arm/sve.decode        |  419 +++++++++
 22 files changed, 5778 insertions(+), 116 deletions(-)
 create mode 100644 include/hw/dma/xlnx-zdma.h
 create mode 100644 target/arm/helper-sve.h
 create mode 100644 target/arm/translate-a64.h
 create mode 100644 hw/dma/xlnx-zdma.c
 create mode 100644 target/arm/sve_helper.c
 create mode 100644 target/arm/translate-sve.c
 create mode 100644 target/arm/sve.decode

From: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>

This is a preparation for the coming feature of creating dynamically an XML
description for the ARM sysregs.
A register has ARM_CP_NO_GDB enabled will not be shown in the dynamic XML.
This bit is enabled automatically when creating CP_ANY wildcard aliases.
This bit could be enabled manually for any register we want to remove from the
dynamic XML description.

Signed-off-by: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Tested-by: Alex Bennée <alex.bennee@linaro.org>
Message-id: 1524153386-3550-2-git-send-email-abdallah.bouassida@lauterbach.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 3 ++-
 target/arm/helper.c | 2 +-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t cpreg_to_kvm_id(uint32_t cpregid)
 #define ARM_LAST_SPECIAL         ARM_CP_DC_ZVA
 #define ARM_CP_FPU               0x1000
 #define ARM_CP_SVE               0x2000
+#define ARM_CP_NO_GDB            0x4000
 /* Used only as a terminator for ARMCPRegInfo lists */
 #define ARM_CP_SENTINEL          0xffff
 /* Mask of only the flag bits in a type field */
-#define ARM_CP_FLAG_MASK         0x30ff
+#define ARM_CP_FLAG_MASK         0x70ff
 
 /* Valid values for ARMCPRegInfo state field, indicating which of
  * the AArch32 and AArch64 execution states this register is visible in.
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void add_cpreg_to_hashtable(ARMCPU *cpu, const ARMCPRegInfo *r,
     if (((r->crm == CP_ANY) && crm != 0) ||
         ((r->opc1 == CP_ANY) && opc1 != 0) ||
         ((r->opc2 == CP_ANY) && opc2 != 0)) {
-        r2->type |= ARM_CP_ALIAS;
+        r2->type |= ARM_CP_ALIAS | ARM_CP_NO_GDB;
     }
 
     /* Check that raw accesses are either forbidden or handled. Note that
-- 
2.17.0

From: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>

This is a preparation for the coming feature of creating dynamically an XML
description for the ARM sysregs.
Add "_S" suffix to the secure version of sysregs that have both S and NS views
Replace (S) and (NS) by _S and _NS for the register that are manually defined,
so all the registers follow the same convention.

Signed-off-by: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Tested-by: Alex Bennée <alex.bennee@linaro.org>
Message-id: 1524153386-3550-3-git-send-email-abdallah.bouassida@lauterbach.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 29 ++++++++++++++++++-----------
 1 file changed, 18 insertions(+), 11 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo cp_reginfo[] = {
      * the secure register to be properly reset and migrated. There is also no
      * v8 EL1 version of the register so the non-secure instance stands alone.
      */
-    { .name = "FCSEIDR(NS)",
+    { .name = "FCSEIDR",
       .cp = 15, .opc1 = 0, .crn = 13, .crm = 0, .opc2 = 0,
       .access = PL1_RW, .secure = ARM_CP_SECSTATE_NS,
       .fieldoffset = offsetof(CPUARMState, cp15.fcseidr_ns),
       .resetvalue = 0, .writefn = fcse_write, .raw_writefn = raw_write, },
-    { .name = "FCSEIDR(S)",
+    { .name = "FCSEIDR_S",
       .cp = 15, .opc1 = 0, .crn = 13, .crm = 0, .opc2 = 0,
       .access = PL1_RW, .secure = ARM_CP_SECSTATE_S,
       .fieldoffset = offsetof(CPUARMState, cp15.fcseidr_s),
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo cp_reginfo[] = {
       .access = PL1_RW, .secure = ARM_CP_SECSTATE_NS,
       .fieldoffset = offsetof(CPUARMState, cp15.contextidr_el[1]),
       .resetvalue = 0, .writefn = contextidr_write, .raw_writefn = raw_write, },
-    { .name = "CONTEXTIDR(S)", .state = ARM_CP_STATE_AA32,
+    { .name = "CONTEXTIDR_S", .state = ARM_CP_STATE_AA32,
       .cp = 15, .opc1 = 0, .crn = 13, .crm = 0, .opc2 = 1,
       .access = PL1_RW, .secure = ARM_CP_SECSTATE_S,
       .fieldoffset = offsetof(CPUARMState, cp15.contextidr_s),
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo generic_timer_cp_reginfo[] = {
                                    cp15.c14_timer[GTIMER_PHYS].ctl),
       .writefn = gt_phys_ctl_write, .raw_writefn = raw_write,
     },
-    { .name = "CNTP_CTL(S)",
+    { .name = "CNTP_CTL_S",
       .cp = 15, .crn = 14, .crm = 2, .opc1 = 0, .opc2 = 1,
       .secure = ARM_CP_SECSTATE_S,
       .type = ARM_CP_IO | ARM_CP_ALIAS, .access = PL1_RW | PL0_R,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo generic_timer_cp_reginfo[] = {
       .accessfn = gt_ptimer_access,
       .readfn = gt_phys_tval_read, .writefn = gt_phys_tval_write,
     },
-    { .name = "CNTP_TVAL(S)",
+    { .name = "CNTP_TVAL_S",
       .cp = 15, .crn = 14, .crm = 2, .opc1 = 0, .opc2 = 0,
       .secure = ARM_CP_SECSTATE_S,
       .type = ARM_CP_NO_RAW | ARM_CP_IO, .access = PL1_RW | PL0_R,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo generic_timer_cp_reginfo[] = {
       .accessfn = gt_ptimer_access,
       .writefn = gt_phys_cval_write, .raw_writefn = raw_write,
     },
-    { .name = "CNTP_CVAL(S)", .cp = 15, .crm = 14, .opc1 = 2,
+    { .name = "CNTP_CVAL_S", .cp = 15, .crm = 14, .opc1 = 2,
       .secure = ARM_CP_SECSTATE_S,
       .access = PL1_RW | PL0_R,
       .type = ARM_CP_64BIT | ARM_CP_IO | ARM_CP_ALIAS,
@@ -XXX,XX +XXX,XX @@ CpuDefinitionInfoList *arch_query_cpu_definitions(Error **errp)
 
 static void add_cpreg_to_hashtable(ARMCPU *cpu, const ARMCPRegInfo *r,
                                    void *opaque, int state, int secstate,
-                                   int crm, int opc1, int opc2)
+                                   int crm, int opc1, int opc2,
+                                   const char *name)
 {
     /* Private utility function for define_one_arm_cp_reg_with_opaque():
      * add a single reginfo struct to the hash table.
@@ -XXX,XX +XXX,XX @@ static void add_cpreg_to_hashtable(ARMCPU *cpu, const ARMCPRegInfo *r,
     int is64 = (r->type & ARM_CP_64BIT) ? 1 : 0;
     int ns = (secstate & ARM_CP_SECSTATE_NS) ? 1 : 0;
 
+    r2->name = g_strdup(name);
     /* Reset the secure state to the specific incoming state.  This is
      * necessary as the register may have been defined with both states.
      */
@@ -XXX,XX +XXX,XX @@ void define_one_arm_cp_reg_with_opaque(ARMCPU *cpu,
                         /* Under AArch32 CP registers can be common
                          * (same for secure and non-secure world) or banked.
                          */
+                        char *name;
+
                         switch (r->secure) {
                         case ARM_CP_SECSTATE_S:
                         case ARM_CP_SECSTATE_NS:
                             add_cpreg_to_hashtable(cpu, r, opaque, state,
-                                                   r->secure, crm, opc1, opc2);
+                                                   r->secure, crm, opc1, opc2,
+                                                   r->name);
                             break;
                         default:
+                            name = g_strdup_printf("%s_S", r->name);
                             add_cpreg_to_hashtable(cpu, r, opaque, state,
                                                    ARM_CP_SECSTATE_S,
-                                                   crm, opc1, opc2);
+                                                   crm, opc1, opc2, name);
+                            g_free(name);
                             add_cpreg_to_hashtable(cpu, r, opaque, state,
                                                    ARM_CP_SECSTATE_NS,
-                                                   crm, opc1, opc2);
+                                                   crm, opc1, opc2, r->name);
                             break;
                         }
                     } else {
@@ -XXX,XX +XXX,XX @@ void define_one_arm_cp_reg_with_opaque(ARMCPU *cpu,
                          * of AArch32 */
                         add_cpreg_to_hashtable(cpu, r, opaque, state,
                                                ARM_CP_SECSTATE_NS,
-                                               crm, opc1, opc2);
+                                               crm, opc1, opc2, r->name);
                     }
                 }
             }
-- 
2.17.0

From: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>

Generate an XML description for the cp-regs.
Register these regs with the gdb_register_coprocessor().
Add arm_gdb_get_sysreg() to use it as a callback to read those regs.
Add a dummy arm_gdb_set_sysreg().

Signed-off-by: Abdallah Bouassida <abdallah.bouassida@lauterbach.com>
Tested-by: Alex Bennée <alex.bennee@linaro.org>
Message-id: 1524153386-3550-4-git-send-email-abdallah.bouassida@lauterbach.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/qom/cpu.h    |  5 ++-
 target/arm/cpu.h     | 26 +++++++++++++++
 gdbstub.c            | 10 ++++++
 target/arm/cpu.c     |  1 +
 target/arm/gdbstub.c | 76 ++++++++++++++++++++++++++++++++++++++++++++
 target/arm/helper.c  | 26 +++++++++++++++
 6 files changed, 143 insertions(+), 1 deletion(-)

diff --git a/include/qom/cpu.h b/include/qom/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qom/cpu.h
+++ b/include/qom/cpu.h
@@ -XXX,XX +XXX,XX @@ struct TranslationBlock;
  *           before the insn which triggers a watchpoint rather than after it.
  * @gdb_arch_name: Optional callback that returns the architecture name known
  * to GDB. The caller must free the returned string with g_free.
+ * @gdb_get_dynamic_xml: Callback to return dynamically generated XML for the
+ *   gdb stub. Returns a pointer to the XML contents for the specified XML file
+ *   or NULL if the CPU doesn't have a dynamically generated content for it.
  * @cpu_exec_enter: Callback for cpu_exec preparation.
  * @cpu_exec_exit: Callback for cpu_exec cleanup.
  * @cpu_exec_interrupt: Callback for processing interrupts in cpu_exec.
@@ -XXX,XX +XXX,XX @@ typedef struct CPUClass {
     const struct VMStateDescription *vmsd;
     const char *gdb_core_xml_file;
     gchar * (*gdb_arch_name)(CPUState *cpu);
-
+    const char * (*gdb_get_dynamic_xml)(CPUState *cpu, const char *xmlname);
     void (*cpu_exec_enter)(CPUState *cpu);
     void (*cpu_exec_exit)(CPUState *cpu);
     bool (*cpu_exec_interrupt)(CPUState *cpu, int interrupt_request);
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
    s<2n+1> maps to the most significant half of d<n>
  */
 
+/**
+ * DynamicGDBXMLInfo:
+ * @desc: Contains the XML descriptions.
+ * @num_cpregs: Number of the Coprocessor registers seen by GDB.
+ * @cpregs_keys: Array that contains the corresponding Key of
+ * a given cpreg with the same order of the cpreg in the XML description.
+ */
+typedef struct DynamicGDBXMLInfo {
+    char *desc;
+    int num_cpregs;
+    uint32_t *cpregs_keys;
+} DynamicGDBXMLInfo;
+
 /* CPU state for each instance of a generic timer (in cp15 c14) */
 typedef struct ARMGenericTimer {
     uint64_t cval; /* Timer CompareValue register */
@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
     uint64_t *cpreg_vmstate_values;
     int32_t cpreg_vmstate_array_len;
 
+    DynamicGDBXMLInfo dyn_xml;
+
     /* Timers used by the generic (architected) timer */
     QEMUTimer *gt_timer[NUM_GTIMERS];
     /* GPIO outputs for generic timer */
@@ -XXX,XX +XXX,XX @@ hwaddr arm_cpu_get_phys_page_attrs_debug(CPUState *cpu, vaddr addr,
 int arm_cpu_gdb_read_register(CPUState *cpu, uint8_t *buf, int reg);
 int arm_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
+/* Dynamically generates for gdb stub an XML description of the sysregs from
+ * the cp_regs hashtable. Returns the registered sysregs number.
+ */
+int arm_gen_dynamic_xml(CPUState *cpu);
+
+/* Returns the dynamically generated XML for the gdb stub.
+ * Returns a pointer to the XML contents for the specified XML file or NULL
+ * if the XML name doesn't match the predefined one.
+ */
+const char *arm_gdb_get_dynamic_xml(CPUState *cpu, const char *xmlname);
+
 int arm_cpu_write_elf64_note(WriteCoreDumpFunction f, CPUState *cs,
                              int cpuid, void *opaque);
 int arm_cpu_write_elf32_note(WriteCoreDumpFunction f, CPUState *cs,
diff --git a/gdbstub.c b/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/gdbstub.c
+++ b/gdbstub.c
@@ -XXX,XX +XXX,XX @@ static const char *get_feature_xml(const char *p, const char **newp,
         }
         return target_xml;
     }
+    if (cc->gdb_get_dynamic_xml) {
+        CPUState *cpu = first_cpu;
+        char *xmlname = g_strndup(p, len);
+        const char *xml = cc->gdb_get_dynamic_xml(cpu, xmlname);
+
+        g_free(xmlname);
+        if (xml) {
+            return xml;
+        }
+    }
     for (i = 0; ; i++) {
         name = xml_builtin[i][0];
         if (!name || (strncmp(name, p, len) == 0 && strlen(name) == len))
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_class_init(ObjectClass *oc, void *data)
     cc->gdb_num_core_regs = 26;
     cc->gdb_core_xml_file = "arm-core.xml";
     cc->gdb_arch_name = arm_gdb_arch_name;
+    cc->gdb_get_dynamic_xml = arm_gdb_get_dynamic_xml;
     cc->gdb_stop_before_watchpoint = true;
     cc->debug_excp_handler = arm_debug_excp_handler;
     cc->debug_check_watchpoint = arm_debug_check_watchpoint;
diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/gdbstub.c
+++ b/target/arm/gdbstub.c
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 #include "exec/gdbstub.h"
 
+typedef struct RegisterSysregXmlParam {
+    CPUState *cs;
+    GString *s;
+} RegisterSysregXmlParam;
+
 /* Old gdb always expect FPA registers.  Newer (xml-aware) gdb only expect
    whatever the target description contains.  Due to a historical mishap
    the FPA registers appear in between core integer regs and the CPSR.
@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
     /* Unknown register.  */
     return 0;
 }
+
+static void arm_gen_one_xml_reg_tag(GString *s, DynamicGDBXMLInfo *dyn_xml,
+                                    ARMCPRegInfo *ri, uint32_t ri_key,
+                                    int bitsize)
+{
+    g_string_append_printf(s, "<reg name=\"%s\"", ri->name);
+    g_string_append_printf(s, " bitsize=\"%d\"", bitsize);
+    g_string_append_printf(s, " group=\"cp_regs\"/>");
+    dyn_xml->num_cpregs++;
+    dyn_xml->cpregs_keys[dyn_xml->num_cpregs - 1] = ri_key;
+}
+
+static void arm_register_sysreg_for_xml(gpointer key, gpointer value,
+                                        gpointer p)
+{
+    uint32_t ri_key = *(uint32_t *)key;
+    ARMCPRegInfo *ri = value;
+    RegisterSysregXmlParam *param = (RegisterSysregXmlParam *)p;
+    GString *s = param->s;
+    ARMCPU *cpu = ARM_CPU(param->cs);
+    CPUARMState *env = &cpu->env;
+    DynamicGDBXMLInfo *dyn_xml = &cpu->dyn_xml;
+
+    if (!(ri->type & (ARM_CP_NO_RAW | ARM_CP_NO_GDB))) {
+        if (arm_feature(env, ARM_FEATURE_AARCH64)) {
+            if (ri->state == ARM_CP_STATE_AA64) {
+                arm_gen_one_xml_reg_tag(s , dyn_xml, ri, ri_key, 64);
+            }
+        } else {
+            if (ri->state == ARM_CP_STATE_AA32) {
+                if (!arm_feature(env, ARM_FEATURE_EL3) &&
+                    (ri->secure & ARM_CP_SECSTATE_S)) {
+                    return;
+                }
+                if (ri->type & ARM_CP_64BIT) {
+                    arm_gen_one_xml_reg_tag(s , dyn_xml, ri, ri_key, 64);
+                } else {
+                    arm_gen_one_xml_reg_tag(s , dyn_xml, ri, ri_key, 32);
+                }
+            }
+        }
+    }
+}
+
+int arm_gen_dynamic_xml(CPUState *cs)
+{
+    ARMCPU *cpu = ARM_CPU(cs);
+    GString *s = g_string_new(NULL);
+    RegisterSysregXmlParam param = {cs, s};
+
+    cpu->dyn_xml.num_cpregs = 0;
+    cpu->dyn_xml.cpregs_keys = g_malloc(sizeof(uint32_t *) *
+                                        g_hash_table_size(cpu->cp_regs));
+    g_string_printf(s, "<?xml version=\"1.0\"?>");
+    g_string_append_printf(s, "<!DOCTYPE target SYSTEM \"gdb-target.dtd\">");
+    g_string_append_printf(s, "<feature name=\"org.qemu.gdb.arm.sys.regs\">");
+    g_hash_table_foreach(cpu->cp_regs, arm_register_sysreg_for_xml, &param);
+    g_string_append_printf(s, "</feature>");
+    cpu->dyn_xml.desc = g_string_free(s, false);
+    return cpu->dyn_xml.num_cpregs;
+}
+
+const char *arm_gdb_get_dynamic_xml(CPUState *cs, const char *xmlname)
+{
+    ARMCPU *cpu = ARM_CPU(cs);
+
+    if (strcmp(xmlname, "system-registers.xml") == 0) {
+        return cpu->dyn_xml.desc;
+    }
+    return NULL;
+}
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void write_raw_cp_reg(CPUARMState *env, const ARMCPRegInfo *ri,
     }
 }
 
+static int arm_gdb_get_sysreg(CPUARMState *env, uint8_t *buf, int reg)
+{
+    ARMCPU *cpu = arm_env_get_cpu(env);
+    const ARMCPRegInfo *ri;
+    uint32_t key;
+
+    key = cpu->dyn_xml.cpregs_keys[reg];
+    ri = get_arm_cp_reginfo(cpu->cp_regs, key);
+    if (ri) {
+        if (cpreg_field_is_64bit(ri)) {
+            return gdb_get_reg64(buf, (uint64_t)read_raw_cp_reg(env, ri));
+        } else {
+            return gdb_get_reg32(buf, (uint32_t)read_raw_cp_reg(env, ri));
+        }
+    }
+    return 0;
+}
+
+static int arm_gdb_set_sysreg(CPUARMState *env, uint8_t *buf, int reg)
+{
+    return 0;
+}
+
 static bool raw_accessors_invalid(const ARMCPRegInfo *ri)
 {
    /* Return true if the regdef would cause an assertion if you called
@@ -XXX,XX +XXX,XX @@ void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu)
         gdb_register_coprocessor(cs, vfp_gdb_get_reg, vfp_gdb_set_reg,
                                  19, "arm-vfp.xml", 0);
     }
+    gdb_register_coprocessor(cs, arm_gdb_get_sysreg, arm_gdb_set_sysreg,
+                             arm_gen_dynamic_xml(cs),
+                             "system-registers.xml", 0);
 }
 
 /* Sort alphabetically by type name, except for "any". */
-- 
2.17.0

From: Francisco Iglesias <frasse.iglesias@gmail.com>

Add a model of the generic DMA found on Xilinx ZynqMP.

Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20180503214201.29082-2-frasse.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/dma/Makefile.objs       |   1 +
 include/hw/dma/xlnx-zdma.h |  84 ++++
 hw/dma/xlnx-zdma.c         | 832 +++++++++++++++++++++++++++++++++++++
 3 files changed, 917 insertions(+)
 create mode 100644 include/hw/dma/xlnx-zdma.h
 create mode 100644 hw/dma/xlnx-zdma.c

diff --git a/hw/dma/Makefile.objs b/hw/dma/Makefile.objs
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/Makefile.objs
+++ b/hw/dma/Makefile.objs
@@ -XXX,XX +XXX,XX @@ common-obj-$(CONFIG_ETRAXFS) += etraxfs_dma.o
 common-obj-$(CONFIG_STP2000) += sparc32_dma.o
 obj-$(CONFIG_XLNX_ZYNQMP) += xlnx_dpdma.o
 obj-$(CONFIG_XLNX_ZYNQMP_ARM) += xlnx_dpdma.o
+common-obj-$(CONFIG_XLNX_ZYNQMP_ARM) += xlnx-zdma.o
 
 obj-$(CONFIG_OMAP) += omap_dma.o soc_dma.o
 obj-$(CONFIG_PXA2XX) += pxa2xx_dma.o
diff --git a/include/hw/dma/xlnx-zdma.h b/include/hw/dma/xlnx-zdma.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/dma/xlnx-zdma.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * QEMU model of the ZynqMP generic DMA
+ *
+ * Copyright (c) 2014 Xilinx Inc.
+ * Copyright (c) 2018 FEIMTECH AB
+ *
+ * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>,
+ *            Francisco Iglesias <francisco.iglesias@feimtech.se>
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+ * THE SOFTWARE.
+ */
+
+#ifndef XLNX_ZDMA_H
+#define XLNX_ZDMA_H
+
+#include "hw/sysbus.h"
+#include "hw/register.h"
+#include "sysemu/dma.h"
+
+#define ZDMA_R_MAX (0x204 / 4)
+
+typedef enum {
+    DISABLED = 0,
+    ENABLED = 1,
+    PAUSED = 2,
+} XlnxZDMAState;
+
+typedef union {
+    struct {
+        uint64_t addr;
+        uint32_t size;
+        uint32_t attr;
+    };
+    uint32_t words[4];
+} XlnxZDMADescr;
+
+typedef struct XlnxZDMA {
+    SysBusDevice parent_obj;
+    MemoryRegion iomem;
+    MemTxAttrs attr;
+    MemoryRegion *dma_mr;
+    AddressSpace *dma_as;
+    qemu_irq irq_zdma_ch_imr;
+
+    struct {
+        uint32_t bus_width;
+    } cfg;
+
+    XlnxZDMAState state;
+    bool error;
+
+    XlnxZDMADescr dsc_src;
+    XlnxZDMADescr dsc_dst;
+
+    uint32_t regs[ZDMA_R_MAX];
+    RegisterInfo regs_info[ZDMA_R_MAX];
+
+    /* We don't model the common bufs. Must be at least 16 bytes
+       to model write only mode.  */
+    uint8_t buf[2048];
+} XlnxZDMA;
+
+#define TYPE_XLNX_ZDMA "xlnx.zdma"
+
+#define XLNX_ZDMA(obj) \
+     OBJECT_CHECK(XlnxZDMA, (obj), TYPE_XLNX_ZDMA)
+
+#endif /* XLNX_ZDMA_H */
diff --git a/hw/dma/xlnx-zdma.c b/hw/dma/xlnx-zdma.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/dma/xlnx-zdma.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QEMU model of the ZynqMP generic DMA
+ *
+ * Copyright (c) 2014 Xilinx Inc.
+ * Copyright (c) 2018 FEIMTECH AB
+ *
+ * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>,
+ *            Francisco Iglesias <francisco.iglesias@feimtech.se>
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a copy
+ * of this software and associated documentation files (the "Software"), to deal
+ * in the Software without restriction, including without limitation the rights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+ * THE SOFTWARE.
+ */
+
+#include "qemu/osdep.h"
+#include "hw/dma/xlnx-zdma.h"
+#include "qemu/bitops.h"
+#include "qemu/log.h"
+#include "qapi/error.h"
+
+#ifndef XLNX_ZDMA_ERR_DEBUG
+#define XLNX_ZDMA_ERR_DEBUG 0
+#endif
+
+REG32(ZDMA_ERR_CTRL, 0x0)
+    FIELD(ZDMA_ERR_CTRL, APB_ERR_RES, 0, 1)
+REG32(ZDMA_CH_ISR, 0x100)
+    FIELD(ZDMA_CH_ISR, DMA_PAUSE, 11, 1)
+    FIELD(ZDMA_CH_ISR, DMA_DONE, 10, 1)
+    FIELD(ZDMA_CH_ISR, AXI_WR_DATA, 9, 1)
+    FIELD(ZDMA_CH_ISR, AXI_RD_DATA, 8, 1)
+    FIELD(ZDMA_CH_ISR, AXI_RD_DST_DSCR, 7, 1)
+    FIELD(ZDMA_CH_ISR, AXI_RD_SRC_DSCR, 6, 1)
+    FIELD(ZDMA_CH_ISR, IRQ_DST_ACCT_ERR, 5, 1)
+    FIELD(ZDMA_CH_ISR, IRQ_SRC_ACCT_ERR, 4, 1)
+    FIELD(ZDMA_CH_ISR, BYTE_CNT_OVRFL, 3, 1)
+    FIELD(ZDMA_CH_ISR, DST_DSCR_DONE, 2, 1)
+    FIELD(ZDMA_CH_ISR, SRC_DSCR_DONE, 1, 1)
+    FIELD(ZDMA_CH_ISR, INV_APB, 0, 1)
+REG32(ZDMA_CH_IMR, 0x104)
+    FIELD(ZDMA_CH_IMR, DMA_PAUSE, 11, 1)
+    FIELD(ZDMA_CH_IMR, DMA_DONE, 10, 1)
+    FIELD(ZDMA_CH_IMR, AXI_WR_DATA, 9, 1)
+    FIELD(ZDMA_CH_IMR, AXI_RD_DATA, 8, 1)
+    FIELD(ZDMA_CH_IMR, AXI_RD_DST_DSCR, 7, 1)
+    FIELD(ZDMA_CH_IMR, AXI_RD_SRC_DSCR, 6, 1)
+    FIELD(ZDMA_CH_IMR, IRQ_DST_ACCT_ERR, 5, 1)
+    FIELD(ZDMA_CH_IMR, IRQ_SRC_ACCT_ERR, 4, 1)
+    FIELD(ZDMA_CH_IMR, BYTE_CNT_OVRFL, 3, 1)
+    FIELD(ZDMA_CH_IMR, DST_DSCR_DONE, 2, 1)
+    FIELD(ZDMA_CH_IMR, SRC_DSCR_DONE, 1, 1)
+    FIELD(ZDMA_CH_IMR, INV_APB, 0, 1)
+REG32(ZDMA_CH_IEN, 0x108)
+    FIELD(ZDMA_CH_IEN, DMA_PAUSE, 11, 1)
+    FIELD(ZDMA_CH_IEN, DMA_DONE, 10, 1)
+    FIELD(ZDMA_CH_IEN, AXI_WR_DATA, 9, 1)
+    FIELD(ZDMA_CH_IEN, AXI_RD_DATA, 8, 1)
+    FIELD(ZDMA_CH_IEN, AXI_RD_DST_DSCR, 7, 1)
+    FIELD(ZDMA_CH_IEN, AXI_RD_SRC_DSCR, 6, 1)
+    FIELD(ZDMA_CH_IEN, IRQ_DST_ACCT_ERR, 5, 1)
+    FIELD(ZDMA_CH_IEN, IRQ_SRC_ACCT_ERR, 4, 1)
+    FIELD(ZDMA_CH_IEN, BYTE_CNT_OVRFL, 3, 1)
+    FIELD(ZDMA_CH_IEN, DST_DSCR_DONE, 2, 1)
+    FIELD(ZDMA_CH_IEN, SRC_DSCR_DONE, 1, 1)
+    FIELD(ZDMA_CH_IEN, INV_APB, 0, 1)
+REG32(ZDMA_CH_IDS, 0x10c)
+    FIELD(ZDMA_CH_IDS, DMA_PAUSE, 11, 1)
+    FIELD(ZDMA_CH_IDS, DMA_DONE, 10, 1)
+    FIELD(ZDMA_CH_IDS, AXI_WR_DATA, 9, 1)
+    FIELD(ZDMA_CH_IDS, AXI_RD_DATA, 8, 1)
+    FIELD(ZDMA_CH_IDS, AXI_RD_DST_DSCR, 7, 1)
+    FIELD(ZDMA_CH_IDS, AXI_RD_SRC_DSCR, 6, 1)
+    FIELD(ZDMA_CH_IDS, IRQ_DST_ACCT_ERR, 5, 1)
+    FIELD(ZDMA_CH_IDS, IRQ_SRC_ACCT_ERR, 4, 1)
+    FIELD(ZDMA_CH_IDS, BYTE_CNT_OVRFL, 3, 1)
+    FIELD(ZDMA_CH_IDS, DST_DSCR_DONE, 2, 1)
+    FIELD(ZDMA_CH_IDS, SRC_DSCR_DONE, 1, 1)
+    FIELD(ZDMA_CH_IDS, INV_APB, 0, 1)
+REG32(ZDMA_CH_CTRL0, 0x110)
+    FIELD(ZDMA_CH_CTRL0, OVR_FETCH, 7, 1)
+    FIELD(ZDMA_CH_CTRL0, POINT_TYPE, 6, 1)
+    FIELD(ZDMA_CH_CTRL0, MODE, 4, 2)
+    FIELD(ZDMA_CH_CTRL0, RATE_CTRL, 3, 1)
+    FIELD(ZDMA_CH_CTRL0, CONT_ADDR, 2, 1)
+    FIELD(ZDMA_CH_CTRL0, CONT, 1, 1)
+REG32(ZDMA_CH_CTRL1, 0x114)
+    FIELD(ZDMA_CH_CTRL1, DST_ISSUE, 5, 5)
+    FIELD(ZDMA_CH_CTRL1, SRC_ISSUE, 0, 5)
+REG32(ZDMA_CH_FCI, 0x118)
+    FIELD(ZDMA_CH_FCI, PROG_CELL_CNT, 2, 2)
+    FIELD(ZDMA_CH_FCI, SIDE, 1, 1)
+    FIELD(ZDMA_CH_FCI, EN, 0, 1)
+REG32(ZDMA_CH_STATUS, 0x11c)
+    FIELD(ZDMA_CH_STATUS, STATE, 0, 2)
+REG32(ZDMA_CH_DATA_ATTR, 0x120)
+    FIELD(ZDMA_CH_DATA_ATTR, ARBURST, 26, 2)
+    FIELD(ZDMA_CH_DATA_ATTR, ARCACHE, 22, 4)
+    FIELD(ZDMA_CH_DATA_ATTR, ARQOS, 18, 4)
+    FIELD(ZDMA_CH_DATA_ATTR, ARLEN, 14, 4)
+    FIELD(ZDMA_CH_DATA_ATTR, AWBURST, 12, 2)
+    FIELD(ZDMA_CH_DATA_ATTR, AWCACHE, 8, 4)
+    FIELD(ZDMA_CH_DATA_ATTR, AWQOS, 4, 4)
+    FIELD(ZDMA_CH_DATA_ATTR, AWLEN, 0, 4)
+REG32(ZDMA_CH_DSCR_ATTR, 0x124)
+    FIELD(ZDMA_CH_DSCR_ATTR, AXCOHRNT, 8, 1)
+    FIELD(ZDMA_CH_DSCR_ATTR, AXCACHE, 4, 4)
+    FIELD(ZDMA_CH_DSCR_ATTR, AXQOS, 0, 4)
+REG32(ZDMA_CH_SRC_DSCR_WORD0, 0x128)
+REG32(ZDMA_CH_SRC_DSCR_WORD1, 0x12c)
+    FIELD(ZDMA_CH_SRC_DSCR_WORD1, MSB, 0, 17)
+REG32(ZDMA_CH_SRC_DSCR_WORD2, 0x130)
+    FIELD(ZDMA_CH_SRC_DSCR_WORD2, SIZE, 0, 30)
+REG32(ZDMA_CH_SRC_DSCR_WORD3, 0x134)
+    FIELD(ZDMA_CH_SRC_DSCR_WORD3, CMD, 3, 2)
+    FIELD(ZDMA_CH_SRC_DSCR_WORD3, INTR, 2, 1)
+    FIELD(ZDMA_CH_SRC_DSCR_WORD3, TYPE, 1, 1)
+    FIELD(ZDMA_CH_SRC_DSCR_WORD3, COHRNT, 0, 1)
+REG32(ZDMA_CH_DST_DSCR_WORD0, 0x138)
+REG32(ZDMA_CH_DST_DSCR_WORD1, 0x13c)
+    FIELD(ZDMA_CH_DST_DSCR_WORD1, MSB, 0, 17)
+REG32(ZDMA_CH_DST_DSCR_WORD2, 0x140)
+    FIELD(ZDMA_CH_DST_DSCR_WORD2, SIZE, 0, 30)
+REG32(ZDMA_CH_DST_DSCR_WORD3, 0x144)
+    FIELD(ZDMA_CH_DST_DSCR_WORD3, INTR, 2, 1)
+    FIELD(ZDMA_CH_DST_DSCR_WORD3, TYPE, 1, 1)
+    FIELD(ZDMA_CH_DST_DSCR_WORD3, COHRNT, 0, 1)
+REG32(ZDMA_CH_WR_ONLY_WORD0, 0x148)
+REG32(ZDMA_CH_WR_ONLY_WORD1, 0x14c)
+REG32(ZDMA_CH_WR_ONLY_WORD2, 0x150)
+REG32(ZDMA_CH_WR_ONLY_WORD3, 0x154)
+REG32(ZDMA_CH_SRC_START_LSB, 0x158)
+REG32(ZDMA_CH_SRC_START_MSB, 0x15c)
+    FIELD(ZDMA_CH_SRC_START_MSB, ADDR, 0, 17)
+REG32(ZDMA_CH_DST_START_LSB, 0x160)
+REG32(ZDMA_CH_DST_START_MSB, 0x164)
+    FIELD(ZDMA_CH_DST_START_MSB, ADDR, 0, 17)
+REG32(ZDMA_CH_RATE_CTRL, 0x18c)
+    FIELD(ZDMA_CH_RATE_CTRL, CNT, 0, 12)
+REG32(ZDMA_CH_SRC_CUR_PYLD_LSB, 0x168)
+REG32(ZDMA_CH_SRC_CUR_PYLD_MSB, 0x16c)
+    FIELD(ZDMA_CH_SRC_CUR_PYLD_MSB, ADDR, 0, 17)
+REG32(ZDMA_CH_DST_CUR_PYLD_LSB, 0x170)
+REG32(ZDMA_CH_DST_CUR_PYLD_MSB, 0x174)
+    FIELD(ZDMA_CH_DST_CUR_PYLD_MSB, ADDR, 0, 17)
+REG32(ZDMA_CH_SRC_CUR_DSCR_LSB, 0x178)
+REG32(ZDMA_CH_SRC_CUR_DSCR_MSB, 0x17c)
+    FIELD(ZDMA_CH_SRC_CUR_DSCR_MSB, ADDR, 0, 17)
+REG32(ZDMA_CH_DST_CUR_DSCR_LSB, 0x180)
+REG32(ZDMA_CH_DST_CUR_DSCR_MSB, 0x184)
+    FIELD(ZDMA_CH_DST_CUR_DSCR_MSB, ADDR, 0, 17)
+REG32(ZDMA_CH_TOTAL_BYTE, 0x188)
+REG32(ZDMA_CH_RATE_CNTL, 0x18c)
+    FIELD(ZDMA_CH_RATE_CNTL, CNT, 0, 12)
+REG32(ZDMA_CH_IRQ_SRC_ACCT, 0x190)
+    FIELD(ZDMA_CH_IRQ_SRC_ACCT, CNT, 0, 8)
+REG32(ZDMA_CH_IRQ_DST_ACCT, 0x194)
+    FIELD(ZDMA_CH_IRQ_DST_ACCT, CNT, 0, 8)
+REG32(ZDMA_CH_DBG0, 0x198)
+    FIELD(ZDMA_CH_DBG0, CMN_BUF_FREE, 0, 9)
+REG32(ZDMA_CH_DBG1, 0x19c)
+    FIELD(ZDMA_CH_DBG1, CMN_BUF_OCC, 0, 9)
+REG32(ZDMA_CH_CTRL2, 0x200)
+    FIELD(ZDMA_CH_CTRL2, EN, 0, 1)
+
+enum {
+    PT_REG = 0,
+    PT_MEM = 1,
+};
+
+enum {
+    CMD_HALT = 1,
+    CMD_STOP = 2,
+};
+
+enum {
+    RW_MODE_RW = 0,
+    RW_MODE_WO = 1,
+    RW_MODE_RO = 2,
+};
+
+enum {
+    DTYPE_LINEAR = 0,
+    DTYPE_LINKED = 1,
+};
+
+enum {
+    AXI_BURST_FIXED = 0,
+    AXI_BURST_INCR  = 1,
+};
+
+static void zdma_ch_imr_update_irq(XlnxZDMA *s)
+{
+    bool pending;
+
+    pending = s->regs[R_ZDMA_CH_ISR] & ~s->regs[R_ZDMA_CH_IMR];
+
+    qemu_set_irq(s->irq_zdma_ch_imr, pending);
+}
+
+static void zdma_ch_isr_postw(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
+    zdma_ch_imr_update_irq(s);
+}
+
+static uint64_t zdma_ch_ien_prew(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
+    uint32_t val = val64;
+
+    s->regs[R_ZDMA_CH_IMR] &= ~val;
+    zdma_ch_imr_update_irq(s);
+    return 0;
+}
+
+static uint64_t zdma_ch_ids_prew(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
+    uint32_t val = val64;
+
+    s->regs[R_ZDMA_CH_IMR] |= val;
+    zdma_ch_imr_update_irq(s);
+    return 0;
+}
+
+static void zdma_set_state(XlnxZDMA *s, XlnxZDMAState state)
+{
+    s->state = state;
+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_STATUS, STATE, state);
+
+    /* Signal error if we have an error condition.  */
+    if (s->error) {
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_STATUS, STATE, 3);
+    }
+}
+
+static void zdma_src_done(XlnxZDMA *s)
+{
+    unsigned int cnt;
+    cnt = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_SRC_ACCT, CNT);
+    cnt++;
+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_IRQ_SRC_ACCT, CNT, cnt);
+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, SRC_DSCR_DONE, true);
+
+    /* Did we overflow?  */
+    if (cnt != ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_SRC_ACCT, CNT)) {
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, IRQ_SRC_ACCT_ERR, true);
+    }
+    zdma_ch_imr_update_irq(s);
+}
+
+static void zdma_dst_done(XlnxZDMA *s)
+{
+    unsigned int cnt;
+    cnt = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_DST_ACCT, CNT);
+    cnt++;
+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_IRQ_DST_ACCT, CNT, cnt);
+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, DST_DSCR_DONE, true);
+
+    /* Did we overflow?  */
+    if (cnt != ARRAY_FIELD_EX32(s->regs, ZDMA_CH_IRQ_DST_ACCT, CNT)) {
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, IRQ_DST_ACCT_ERR, true);
+    }
+    zdma_ch_imr_update_irq(s);
+}
+
+static uint64_t zdma_get_regaddr64(XlnxZDMA *s, unsigned int basereg)
+{
+    uint64_t addr;
+
+    addr = s->regs[basereg + 1];
+    addr <<= 32;
+    addr |= s->regs[basereg];
+
+    return addr;
+}
+
+static void zdma_put_regaddr64(XlnxZDMA *s, unsigned int basereg, uint64_t addr)
+{
+    s->regs[basereg] = addr;
+    s->regs[basereg + 1] = addr >> 32;
+}
+
+static bool zdma_load_descriptor(XlnxZDMA *s, uint64_t addr, void *buf)
+{
+    /* ZDMA descriptors must be aligned to their own size.  */
+    if (addr % sizeof(XlnxZDMADescr)) {
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "zdma: unaligned descriptor at %" PRIx64,
+                      addr);
+        memset(buf, 0xdeadbeef, sizeof(XlnxZDMADescr));
+        s->error = true;
+        return false;
+    }
+
+    address_space_rw(s->dma_as, addr, s->attr,
+                     buf, sizeof(XlnxZDMADescr), false);
+    return true;
+}
+
+static void zdma_load_src_descriptor(XlnxZDMA *s)
+{
+    uint64_t src_addr;
+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
+
+    if (ptype == PT_REG) {
+        memcpy(&s->dsc_src, &s->regs[R_ZDMA_CH_SRC_DSCR_WORD0],
+               sizeof(s->dsc_src));
+        return;
+    }
+
+    src_addr = zdma_get_regaddr64(s, R_ZDMA_CH_SRC_CUR_DSCR_LSB);
+
+    if (!zdma_load_descriptor(s, src_addr, &s->dsc_src)) {
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, AXI_RD_SRC_DSCR, true);
+    }
+}
+
+static void zdma_load_dst_descriptor(XlnxZDMA *s)
+{
+    uint64_t dst_addr;
+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
+
+    if (ptype == PT_REG) {
+        memcpy(&s->dsc_dst, &s->regs[R_ZDMA_CH_DST_DSCR_WORD0],
+               sizeof(s->dsc_dst));
+        return;
+    }
+
+    dst_addr = zdma_get_regaddr64(s, R_ZDMA_CH_DST_CUR_DSCR_LSB);
+
+    if (!zdma_load_descriptor(s, dst_addr, &s->dsc_dst)) {
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, AXI_RD_DST_DSCR, true);
+    }
+}
+
+static uint64_t zdma_update_descr_addr(XlnxZDMA *s, bool type,
+                                       unsigned int basereg)
+{
+    uint64_t addr, next;
+
+    if (type == DTYPE_LINEAR) {
+        next = zdma_get_regaddr64(s, basereg);
+        next += sizeof(s->dsc_dst);
+        zdma_put_regaddr64(s, basereg, next);
+    } else {
+        addr = zdma_get_regaddr64(s, basereg);
+        addr += sizeof(s->dsc_dst);
+        address_space_rw(s->dma_as, addr, s->attr, (void *) &next, 8, false);
+        zdma_put_regaddr64(s, basereg, next);
+    }
+    return next;
+}
+
+static void zdma_write_dst(XlnxZDMA *s, uint8_t *buf, uint32_t len)
+{
+    uint32_t dst_size, dlen;
+    bool dst_intr, dst_type;
+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
+    unsigned int rw_mode = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, MODE);
+    unsigned int burst_type = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_DATA_ATTR,
+                                               AWBURST);
+
+    /* FIXED burst types are only supported in simple dma mode.  */
+    if (ptype != PT_REG) {
+        burst_type = AXI_BURST_INCR;
+    }
+
+    while (len) {
+        dst_size = FIELD_EX32(s->dsc_dst.words[2], ZDMA_CH_DST_DSCR_WORD2,
+                              SIZE);
+        dst_type = FIELD_EX32(s->dsc_dst.words[3], ZDMA_CH_DST_DSCR_WORD3,
+                              TYPE);
+        if (dst_size == 0 && ptype == PT_MEM) {
+            uint64_t next;
+            next = zdma_update_descr_addr(s, dst_type,
+                                          R_ZDMA_CH_DST_CUR_DSCR_LSB);
+            zdma_load_descriptor(s, next, &s->dsc_dst);
+            dst_size = FIELD_EX32(s->dsc_dst.words[2], ZDMA_CH_DST_DSCR_WORD2,
+                                  SIZE);
+            dst_type = FIELD_EX32(s->dsc_dst.words[3], ZDMA_CH_DST_DSCR_WORD3,
+                                  TYPE);
+        }
+
+        /* Match what hardware does by ignoring the dst_size and only using
+         * the src size for Simple register mode.  */
+        if (ptype == PT_REG && rw_mode != RW_MODE_WO) {
+            dst_size = len;
+        }
+
+        dst_intr = FIELD_EX32(s->dsc_dst.words[3], ZDMA_CH_DST_DSCR_WORD3,
+                              INTR);
+
+        dlen = len > dst_size ? dst_size : len;
+        if (burst_type == AXI_BURST_FIXED) {
+            if (dlen > (s->cfg.bus_width / 8)) {
+                dlen = s->cfg.bus_width / 8;
+            }
+        }
+
+        address_space_rw(s->dma_as, s->dsc_dst.addr, s->attr, buf, dlen,
+                         true);
+        if (burst_type == AXI_BURST_INCR) {
+            s->dsc_dst.addr += dlen;
+        }
+        dst_size -= dlen;
+        buf += dlen;
+        len -= dlen;
+
+        if (dst_size == 0 && dst_intr) {
+            zdma_dst_done(s);
+        }
+
+        /* Write back to buffered descriptor.  */
+        s->dsc_dst.words[2] = FIELD_DP32(s->dsc_dst.words[2],
+                                         ZDMA_CH_DST_DSCR_WORD2,
+                                         SIZE,
+                                         dst_size);
+    }
+}
+
+static void zdma_process_descr(XlnxZDMA *s)
+{
+    uint64_t src_addr;
+    uint32_t src_size, len;
+    unsigned int src_cmd;
+    bool src_intr, src_type;
+    unsigned int ptype = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, POINT_TYPE);
+    unsigned int rw_mode = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, MODE);
+    unsigned int burst_type = ARRAY_FIELD_EX32(s->regs, ZDMA_CH_DATA_ATTR,
+                                               ARBURST);
+
+    src_addr = s->dsc_src.addr;
+    src_size = FIELD_EX32(s->dsc_src.words[2], ZDMA_CH_SRC_DSCR_WORD2, SIZE);
+    src_cmd = FIELD_EX32(s->dsc_src.words[3], ZDMA_CH_SRC_DSCR_WORD3, CMD);
+    src_type = FIELD_EX32(s->dsc_src.words[3], ZDMA_CH_SRC_DSCR_WORD3, TYPE);
+    src_intr = FIELD_EX32(s->dsc_src.words[3], ZDMA_CH_SRC_DSCR_WORD3, INTR);
+
+    /* FIXED burst types and non-rw modes are only supported in
+     * simple dma mode.
+     */
+    if (ptype != PT_REG) {
+        if (rw_mode != RW_MODE_RW) {
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "zDMA: rw-mode=%d but not simple DMA mode.\n",
+                          rw_mode);
+        }
+        if (burst_type != AXI_BURST_INCR) {
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "zDMA: burst_type=%d but not simple DMA mode.\n",
+                          burst_type);
+        }
+        burst_type = AXI_BURST_INCR;
+        rw_mode = RW_MODE_RW;
+    }
+
+    if (rw_mode == RW_MODE_WO) {
+        /* In Simple DMA Write-Only, we need to push DST size bytes
+         * regardless of what SRC size is set to.  */
+        src_size = FIELD_EX32(s->dsc_dst.words[2], ZDMA_CH_DST_DSCR_WORD2,
+                              SIZE);
+        memcpy(s->buf, &s->regs[R_ZDMA_CH_WR_ONLY_WORD0], s->cfg.bus_width / 8);
+    }
+
+    while (src_size) {
+        len = src_size > ARRAY_SIZE(s->buf) ? ARRAY_SIZE(s->buf) : src_size;
+        if (burst_type == AXI_BURST_FIXED) {
+            if (len > (s->cfg.bus_width / 8)) {
+                len = s->cfg.bus_width / 8;
+            }
+        }
+
+        if (rw_mode == RW_MODE_WO) {
+            if (len > s->cfg.bus_width / 8) {
+                len = s->cfg.bus_width / 8;
+            }
+        } else {
+            address_space_rw(s->dma_as, src_addr, s->attr, s->buf, len,
+                             false);
+            if (burst_type == AXI_BURST_INCR) {
+                src_addr += len;
+            }
+        }
+
+        if (rw_mode != RW_MODE_RO) {
+            zdma_write_dst(s, s->buf, len);
+        }
+
+        s->regs[R_ZDMA_CH_TOTAL_BYTE] += len;
+        src_size -= len;
+    }
+
+    ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, DMA_DONE, true);
+
+    if (src_intr) {
+        zdma_src_done(s);
+    }
+
+    /* Load next descriptor.  */
+    if (ptype == PT_REG || src_cmd == CMD_STOP) {
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_CTRL2, EN, 0);
+        zdma_set_state(s, DISABLED);
+        return;
+    }
+
+    if (src_cmd == CMD_HALT) {
+        zdma_set_state(s, PAUSED);
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, DMA_PAUSE, 1);
+        zdma_ch_imr_update_irq(s);
+        return;
+    }
+
+    zdma_update_descr_addr(s, src_type, R_ZDMA_CH_SRC_CUR_DSCR_LSB);
+}
+
+static void zdma_run(XlnxZDMA *s)
+{
+    while (s->state == ENABLED && !s->error) {
+        zdma_load_src_descriptor(s);
+
+        if (s->error) {
+            zdma_set_state(s, DISABLED);
+        } else {
+            zdma_process_descr(s);
+        }
+    }
+
+    zdma_ch_imr_update_irq(s);
+}
+
+static void zdma_update_descr_addr_from_start(XlnxZDMA *s)
+{
+    uint64_t src_addr, dst_addr;
+
+    src_addr = zdma_get_regaddr64(s, R_ZDMA_CH_SRC_START_LSB);
+    zdma_put_regaddr64(s, R_ZDMA_CH_SRC_CUR_DSCR_LSB, src_addr);
+    dst_addr = zdma_get_regaddr64(s, R_ZDMA_CH_DST_START_LSB);
+    zdma_put_regaddr64(s, R_ZDMA_CH_DST_CUR_DSCR_LSB, dst_addr);
+    zdma_load_dst_descriptor(s);
+}
+
+static void zdma_ch_ctrlx_postw(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxZDMA *s = XLNX_ZDMA(reg->opaque);
+
+    if (ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL2, EN)) {
+        s->error = false;
+
+        if (s->state == PAUSED &&
+            ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, CONT)) {
+            if (ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, CONT_ADDR) == 1) {
+                zdma_update_descr_addr_from_start(s);
+            } else {
+                bool src_type = FIELD_EX32(s->dsc_src.words[3],
+                                       ZDMA_CH_SRC_DSCR_WORD3, TYPE);
+                zdma_update_descr_addr(s, src_type,
+                                          R_ZDMA_CH_SRC_CUR_DSCR_LSB);
+            }
+            ARRAY_FIELD_DP32(s->regs, ZDMA_CH_CTRL0, CONT, false);
+            zdma_set_state(s, ENABLED);
+        } else if (s->state == DISABLED) {
+            zdma_update_descr_addr_from_start(s);
+            zdma_set_state(s, ENABLED);
+        }
+    } else {
+        /* Leave Paused state?  */
+        if (s->state == PAUSED &&
+            ARRAY_FIELD_EX32(s->regs, ZDMA_CH_CTRL0, CONT)) {
+            zdma_set_state(s, DISABLED);
+        }
+    }
+
+    zdma_run(s);
+}
+
+static RegisterAccessInfo zdma_regs_info[] = {
+    {   .name = "ZDMA_ERR_CTRL",  .addr = A_ZDMA_ERR_CTRL,
+        .rsvd = 0xfffffffe,
+    },{ .name = "ZDMA_CH_ISR",  .addr = A_ZDMA_CH_ISR,
+        .rsvd = 0xfffff000,
+        .w1c = 0xfff,
+        .post_write = zdma_ch_isr_postw,
+    },{ .name = "ZDMA_CH_IMR",  .addr = A_ZDMA_CH_IMR,
+        .reset = 0xfff,
+        .rsvd = 0xfffff000,
+        .ro = 0xfff,
+    },{ .name = "ZDMA_CH_IEN",  .addr = A_ZDMA_CH_IEN,
+        .rsvd = 0xfffff000,
+        .pre_write = zdma_ch_ien_prew,
+    },{ .name = "ZDMA_CH_IDS",  .addr = A_ZDMA_CH_IDS,
+        .rsvd = 0xfffff000,
+        .pre_write = zdma_ch_ids_prew,
+    },{ .name = "ZDMA_CH_CTRL0",  .addr = A_ZDMA_CH_CTRL0,
+        .reset = 0x80,
+        .rsvd = 0xffffff01,
+        .post_write = zdma_ch_ctrlx_postw,
+    },{ .name = "ZDMA_CH_CTRL1",  .addr = A_ZDMA_CH_CTRL1,
+        .reset = 0x3ff,
+        .rsvd = 0xfffffc00,
+    },{ .name = "ZDMA_CH_FCI",  .addr = A_ZDMA_CH_FCI,
+        .rsvd = 0xffffffc0,
+    },{ .name = "ZDMA_CH_STATUS",  .addr = A_ZDMA_CH_STATUS,
+        .rsvd = 0xfffffffc,
+        .ro = 0x3,
+    },{ .name = "ZDMA_CH_DATA_ATTR",  .addr = A_ZDMA_CH_DATA_ATTR,
+        .reset = 0x483d20f,
+        .rsvd = 0xf0000000,
+    },{ .name = "ZDMA_CH_DSCR_ATTR",  .addr = A_ZDMA_CH_DSCR_ATTR,
+        .rsvd = 0xfffffe00,
+    },{ .name = "ZDMA_CH_SRC_DSCR_WORD0",  .addr = A_ZDMA_CH_SRC_DSCR_WORD0,
+    },{ .name = "ZDMA_CH_SRC_DSCR_WORD1",  .addr = A_ZDMA_CH_SRC_DSCR_WORD1,
+        .rsvd = 0xfffe0000,
+    },{ .name = "ZDMA_CH_SRC_DSCR_WORD2",  .addr = A_ZDMA_CH_SRC_DSCR_WORD2,
+        .rsvd = 0xc0000000,
+    },{ .name = "ZDMA_CH_SRC_DSCR_WORD3",  .addr = A_ZDMA_CH_SRC_DSCR_WORD3,
+        .rsvd = 0xffffffe0,
+    },{ .name = "ZDMA_CH_DST_DSCR_WORD0",  .addr = A_ZDMA_CH_DST_DSCR_WORD0,
+    },{ .name = "ZDMA_CH_DST_DSCR_WORD1",  .addr = A_ZDMA_CH_DST_DSCR_WORD1,
+        .rsvd = 0xfffe0000,
+    },{ .name = "ZDMA_CH_DST_DSCR_WORD2",  .addr = A_ZDMA_CH_DST_DSCR_WORD2,
+        .rsvd = 0xc0000000,
+    },{ .name = "ZDMA_CH_DST_DSCR_WORD3",  .addr = A_ZDMA_CH_DST_DSCR_WORD3,
+        .rsvd = 0xfffffffa,
+    },{ .name = "ZDMA_CH_WR_ONLY_WORD0",  .addr = A_ZDMA_CH_WR_ONLY_WORD0,
+    },{ .name = "ZDMA_CH_WR_ONLY_WORD1",  .addr = A_ZDMA_CH_WR_ONLY_WORD1,
+    },{ .name = "ZDMA_CH_WR_ONLY_WORD2",  .addr = A_ZDMA_CH_WR_ONLY_WORD2,
+    },{ .name = "ZDMA_CH_WR_ONLY_WORD3",  .addr = A_ZDMA_CH_WR_ONLY_WORD3,
+    },{ .name = "ZDMA_CH_SRC_START_LSB",  .addr = A_ZDMA_CH_SRC_START_LSB,
+    },{ .name = "ZDMA_CH_SRC_START_MSB",  .addr = A_ZDMA_CH_SRC_START_MSB,
+        .rsvd = 0xfffe0000,
+    },{ .name = "ZDMA_CH_DST_START_LSB",  .addr = A_ZDMA_CH_DST_START_LSB,
+    },{ .name = "ZDMA_CH_DST_START_MSB",  .addr = A_ZDMA_CH_DST_START_MSB,
+        .rsvd = 0xfffe0000,
+    },{ .name = "ZDMA_CH_SRC_CUR_PYLD_LSB",  .addr = A_ZDMA_CH_SRC_CUR_PYLD_LSB,
+        .ro = 0xffffffff,
+    },{ .name = "ZDMA_CH_SRC_CUR_PYLD_MSB",  .addr = A_ZDMA_CH_SRC_CUR_PYLD_MSB,
+        .rsvd = 0xfffe0000,
+        .ro = 0x1ffff,
+    },{ .name = "ZDMA_CH_DST_CUR_PYLD_LSB",  .addr = A_ZDMA_CH_DST_CUR_PYLD_LSB,
+        .ro = 0xffffffff,
+    },{ .name = "ZDMA_CH_DST_CUR_PYLD_MSB",  .addr = A_ZDMA_CH_DST_CUR_PYLD_MSB,
+        .rsvd = 0xfffe0000,
+        .ro = 0x1ffff,
+    },{ .name = "ZDMA_CH_SRC_CUR_DSCR_LSB",  .addr = A_ZDMA_CH_SRC_CUR_DSCR_LSB,
+        .ro = 0xffffffff,
+    },{ .name = "ZDMA_CH_SRC_CUR_DSCR_MSB",  .addr = A_ZDMA_CH_SRC_CUR_DSCR_MSB,
+        .rsvd = 0xfffe0000,
+        .ro = 0x1ffff,
+    },{ .name = "ZDMA_CH_DST_CUR_DSCR_LSB",  .addr = A_ZDMA_CH_DST_CUR_DSCR_LSB,
+        .ro = 0xffffffff,
+    },{ .name = "ZDMA_CH_DST_CUR_DSCR_MSB",  .addr = A_ZDMA_CH_DST_CUR_DSCR_MSB,
+        .rsvd = 0xfffe0000,
+        .ro = 0x1ffff,
+    },{ .name = "ZDMA_CH_TOTAL_BYTE",  .addr = A_ZDMA_CH_TOTAL_BYTE,
+        .w1c = 0xffffffff,
+    },{ .name = "ZDMA_CH_RATE_CNTL",  .addr = A_ZDMA_CH_RATE_CNTL,
+        .rsvd = 0xfffff000,
+    },{ .name = "ZDMA_CH_IRQ_SRC_ACCT",  .addr = A_ZDMA_CH_IRQ_SRC_ACCT,
+        .rsvd = 0xffffff00,
+        .ro = 0xff,
+        .cor = 0xff,
+    },{ .name = "ZDMA_CH_IRQ_DST_ACCT",  .addr = A_ZDMA_CH_IRQ_DST_ACCT,
+        .rsvd = 0xffffff00,
+        .ro = 0xff,
+        .cor = 0xff,
+    },{ .name = "ZDMA_CH_DBG0",  .addr = A_ZDMA_CH_DBG0,
+        .rsvd = 0xfffffe00,
+        .ro = 0x1ff,
+    },{ .name = "ZDMA_CH_DBG1",  .addr = A_ZDMA_CH_DBG1,
+        .rsvd = 0xfffffe00,
+        .ro = 0x1ff,
+    },{ .name = "ZDMA_CH_CTRL2",  .addr = A_ZDMA_CH_CTRL2,
+        .rsvd = 0xfffffffe,
+        .post_write = zdma_ch_ctrlx_postw,
+    }
+};
+
+static void zdma_reset(DeviceState *dev)
+{
+    XlnxZDMA *s = XLNX_ZDMA(dev);
+    unsigned int i;
+
+    for (i = 0; i < ARRAY_SIZE(s->regs_info); ++i) {
+        register_reset(&s->regs_info[i]);
+    }
+
+    zdma_ch_imr_update_irq(s);
+}
+
+static uint64_t zdma_read(void *opaque, hwaddr addr, unsigned size)
+{
+    XlnxZDMA *s = XLNX_ZDMA(opaque);
+    RegisterInfo *r = &s->regs_info[addr / 4];
+
+    if (!r->data) {
+        qemu_log("%s: Decode error: read from %" HWADDR_PRIx "\n",
+                 object_get_canonical_path(OBJECT(s)),
+                 addr);
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
+        zdma_ch_imr_update_irq(s);
+        return 0;
+    }
+    return register_read(r, ~0, NULL, false);
+}
+
+static void zdma_write(void *opaque, hwaddr addr, uint64_t value,
+                      unsigned size)
+{
+    XlnxZDMA *s = XLNX_ZDMA(opaque);
+    RegisterInfo *r = &s->regs_info[addr / 4];
+
+    if (!r->data) {
+        qemu_log("%s: Decode error: write to %" HWADDR_PRIx "=%" PRIx64 "\n",
+                 object_get_canonical_path(OBJECT(s)),
+                 addr, value);
+        ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
+        zdma_ch_imr_update_irq(s);
+        return;
+    }
+    register_write(r, value, ~0, NULL, false);
+}
+
+static const MemoryRegionOps zdma_ops = {
+    .read = zdma_read,
+    .write = zdma_write,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid = {
+        .min_access_size = 4,
+        .max_access_size = 4,
+    },
+};
+
+static void zdma_realize(DeviceState *dev, Error **errp)
+{
+    XlnxZDMA *s = XLNX_ZDMA(dev);
+    unsigned int i;
+
+    for (i = 0; i < ARRAY_SIZE(zdma_regs_info); ++i) {
+        RegisterInfo *r = &s->regs_info[zdma_regs_info[i].addr / 4];
+
+        *r = (RegisterInfo) {
+            .data = (uint8_t *)&s->regs[
+                    zdma_regs_info[i].addr / 4],
+            .data_size = sizeof(uint32_t),
+            .access = &zdma_regs_info[i],
+            .opaque = s,
+        };
+    }
+
+    if (s->dma_mr) {
+        s->dma_as = g_malloc0(sizeof(AddressSpace));
+        address_space_init(s->dma_as, s->dma_mr, NULL);
+    } else {
+        s->dma_as = &address_space_memory;
+    }
+    s->attr = MEMTXATTRS_UNSPECIFIED;
+}
+
+static void zdma_init(Object *obj)
+{
+    XlnxZDMA *s = XLNX_ZDMA(obj);
+    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
+
+    memory_region_init_io(&s->iomem, obj, &zdma_ops, s,
+                          TYPE_XLNX_ZDMA, ZDMA_R_MAX * 4);
+    sysbus_init_mmio(sbd, &s->iomem);
+    sysbus_init_irq(sbd, &s->irq_zdma_ch_imr);
+
+    object_property_add_link(obj, "dma", TYPE_MEMORY_REGION,
+                             (Object **)&s->dma_mr,
+                             qdev_prop_allow_set_link_before_realize,
+                             OBJ_PROP_LINK_UNREF_ON_RELEASE,
+                             &error_abort);
+}
+
+static const VMStateDescription vmstate_zdma = {
+    .name = TYPE_XLNX_ZDMA,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .minimum_version_id_old = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_UINT32_ARRAY(regs, XlnxZDMA, ZDMA_R_MAX),
+        VMSTATE_UINT32(state, XlnxZDMA),
+        VMSTATE_UINT32_ARRAY(dsc_src.words, XlnxZDMA, 4),
+        VMSTATE_UINT32_ARRAY(dsc_dst.words, XlnxZDMA, 4),
+        VMSTATE_END_OF_LIST(),
+    }
+};
+
+static Property zdma_props[] = {
+    DEFINE_PROP_UINT32("bus-width", XlnxZDMA, cfg.bus_width, 64),
+    DEFINE_PROP_END_OF_LIST(),
+};
+
+static void zdma_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->reset = zdma_reset;
+    dc->realize = zdma_realize;
+    dc->props = zdma_props;
+    dc->vmsd = &vmstate_zdma;
+}
+
+static const TypeInfo zdma_info = {
+    .name          = TYPE_XLNX_ZDMA,
+    .parent        = TYPE_SYS_BUS_DEVICE,
+    .instance_size = sizeof(XlnxZDMA),
+    .class_init    = zdma_class_init,
+    .instance_init = zdma_init,
+};
+
+static void zdma_register_types(void)
+{
+    type_register_static(&zdma_info);
+}
+
+type_init(zdma_register_types)
-- 
2.17.0

From: Francisco Iglesias <frasse.iglesias@gmail.com>

The ZynqMP contains two instances of a generic DMA, the GDMA, located in the
FPD (full power domain), and the ADMA, located in LPD (low power domain).  This
patch adds these two DMAs to the ZynqMP board.

Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20180503214201.29082-3-frasse.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-zynqmp.h |  5 ++++
 hw/arm/xlnx-zynqmp.c         | 53 ++++++++++++++++++++++++++++++++++++
 2 files changed, 58 insertions(+)

diff --git a/include/hw/arm/xlnx-zynqmp.h b/include/hw/arm/xlnx-zynqmp.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-zynqmp.h
+++ b/include/hw/arm/xlnx-zynqmp.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/sd/sdhci.h"
 #include "hw/ssi/xilinx_spips.h"
 #include "hw/dma/xlnx_dpdma.h"
+#include "hw/dma/xlnx-zdma.h"
 #include "hw/display/xlnx_dp.h"
 #include "hw/intc/xlnx-zynqmp-ipi.h"
 #include "hw/timer/xlnx-zynqmp-rtc.h"
@@ -XXX,XX +XXX,XX @@
 #define XLNX_ZYNQMP_NUM_UARTS 2
 #define XLNX_ZYNQMP_NUM_SDHCI 2
 #define XLNX_ZYNQMP_NUM_SPIS 2
+#define XLNX_ZYNQMP_NUM_GDMA_CH 8
+#define XLNX_ZYNQMP_NUM_ADMA_CH 8
 
 #define XLNX_ZYNQMP_NUM_QSPI_BUS 2
 #define XLNX_ZYNQMP_NUM_QSPI_BUS_CS 2
@@ -XXX,XX +XXX,XX @@ typedef struct XlnxZynqMPState {
     XlnxDPDMAState dpdma;
     XlnxZynqMPIPI ipi;
     XlnxZynqMPRTC rtc;
+    XlnxZDMA gdma[XLNX_ZYNQMP_NUM_GDMA_CH];
+    XlnxZDMA adma[XLNX_ZYNQMP_NUM_ADMA_CH];
 
     char *boot_cpu;
     ARMCPU *boot_cpu_ptr;
diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-zynqmp.c
+++ b/hw/arm/xlnx-zynqmp.c
@@ -XXX,XX +XXX,XX @@ static const int spi_intr[XLNX_ZYNQMP_NUM_SPIS] = {
     19, 20,
 };
 
+static const uint64_t gdma_ch_addr[XLNX_ZYNQMP_NUM_GDMA_CH] = {
+    0xFD500000, 0xFD510000, 0xFD520000, 0xFD530000,
+    0xFD540000, 0xFD550000, 0xFD560000, 0xFD570000
+};
+
+static const int gdma_ch_intr[XLNX_ZYNQMP_NUM_GDMA_CH] = {
+    124, 125, 126, 127, 128, 129, 130, 131
+};
+
+static const uint64_t adma_ch_addr[XLNX_ZYNQMP_NUM_ADMA_CH] = {
+    0xFFA80000, 0xFFA90000, 0xFFAA0000, 0xFFAB0000,
+    0xFFAC0000, 0xFFAD0000, 0xFFAE0000, 0xFFAF0000
+};
+
+static const int adma_ch_intr[XLNX_ZYNQMP_NUM_ADMA_CH] = {
+    77, 78, 79, 80, 81, 82, 83, 84
+};
+
 typedef struct XlnxZynqMPGICRegion {
     int region_index;
     uint32_t address;
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_init(Object *obj)
 
     object_initialize(&s->rtc, sizeof(s->rtc), TYPE_XLNX_ZYNQMP_RTC);
     qdev_set_parent_bus(DEVICE(&s->rtc), sysbus_get_default());
+
+    for (i = 0; i < XLNX_ZYNQMP_NUM_GDMA_CH; i++) {
+        object_initialize(&s->gdma[i], sizeof(s->gdma[i]), TYPE_XLNX_ZDMA);
+        qdev_set_parent_bus(DEVICE(&s->gdma[i]), sysbus_get_default());
+    }
+
+    for (i = 0; i < XLNX_ZYNQMP_NUM_ADMA_CH; i++) {
+        object_initialize(&s->adma[i], sizeof(s->adma[i]), TYPE_XLNX_ZDMA);
+        qdev_set_parent_bus(DEVICE(&s->adma[i]), sysbus_get_default());
+    }
 }
 
 static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
     }
     sysbus_mmio_map(SYS_BUS_DEVICE(&s->rtc), 0, RTC_ADDR);
     sysbus_connect_irq(SYS_BUS_DEVICE(&s->rtc), 0, gic_spi[RTC_IRQ]);
+
+    for (i = 0; i < XLNX_ZYNQMP_NUM_GDMA_CH; i++) {
+        object_property_set_uint(OBJECT(&s->gdma[i]), 128, "bus-width", &err);
+        object_property_set_bool(OBJECT(&s->gdma[i]), true, "realized", &err);
+        if (err) {
+            error_propagate(errp, err);
+            return;
+        }
+
+        sysbus_mmio_map(SYS_BUS_DEVICE(&s->gdma[i]), 0, gdma_ch_addr[i]);
+        sysbus_connect_irq(SYS_BUS_DEVICE(&s->gdma[i]), 0,
+                           gic_spi[gdma_ch_intr[i]]);
+    }
+
+    for (i = 0; i < XLNX_ZYNQMP_NUM_ADMA_CH; i++) {
+        object_property_set_bool(OBJECT(&s->adma[i]), true, "realized", &err);
+        if (err) {
+            error_propagate(errp, err);
+            return;
+        }
+
+        sysbus_mmio_map(SYS_BUS_DEVICE(&s->adma[i]), 0, adma_ch_addr[i]);
+        sysbus_connect_irq(SYS_BUS_DEVICE(&s->adma[i]), 0,
+                           gic_spi[adma_ch_intr[i]]);
+    }
 }
 
 static Property xlnx_zynqmp_props[] = {
-- 
2.17.0

From: Eric Auger <eric.auger@redhat.com>

Coverity complains about use of uninitialized Evt struct.
The EVT_SET_TYPE and similar setters use deposit32() on fields
in the struct, so they read the uninitialized existing values.
In cases where we don't set all the fields in the event struct
we'll end up leaking random uninitialized data from QEMU's
stack into the guest.

Initializing the struct with "Evt evt = {};" ought to satisfy
Coverity and fix the data leak.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reported-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 1526493784-25328-2-git-send-email-eric.auger@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmuv3.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmuv3.c
+++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult smmuv3_write_eventq(SMMUv3State *s, Evt *evt)
 
 void smmuv3_record_event(SMMUv3State *s, SMMUEventInfo *info)
 {
-    Evt evt;
+    Evt evt = {};
     MemTxResult r;
 
     if (!smmuv3_eventq_enabled(s)) {
-- 
2.17.0

From: Eric Auger <eric.auger@redhat.com>

Coverity points out that this can overflow if n > 31,
because it's only doing 32-bit arithmetic. Let's use 1ULL instead
of 1. Also the formulae used to compute n can be replaced by
the level_shift() macro.

Reported-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 1526493784-25328-3-git-send-email-eric.auger@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmu-common.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmu-common.c
+++ b/hw/arm/smmu-common.c
@@ -XXX,XX +XXX,XX @@ static inline hwaddr get_table_pte_address(uint64_t pte, int granule_sz)
 static inline hwaddr get_block_pte_address(uint64_t pte, int level,
                                            int granule_sz, uint64_t *bsz)
 {
-    int n = (granule_sz - 3) * (4 - level) + 3;
+    int n = level_shift(level, granule_sz);
 
-    *bsz = 1 << n;
+    *bsz = 1ULL << n;
     return PTE_ADDRESS(pte, n);
 }
 
-- 
2.17.0