Series comparison

 [PULL 00/39] target-arm queue
-Most of this is the Neon decodetree patches, followed by Edgar's versal cleanups.
+Last pullreq before 6.0 softfreeze: a few minor feature patches,
 some bugfixes, some cleanups.
-thanks
 -- PMM
+The following changes since commit 6f34661b6c97a37a5efc27d31c037ddeda4547e2:
-The following changes since commit 2ef486e76d64436be90f7359a3071fb2a56ce835:
+  Merge remote-tracking branch 'remotes/vivier2/tags/trivial-branch-for-6.0-pull-request' into staging (2021-03-11 18:55:27 +0000)
   Merge remote-tracking branch 'remotes/marcel/tags/rdma-pull-request' into staging (2020-05-03 14:12:56 +0100)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200504
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210312-1
-for you to fetch changes up to 9aefc6cf9b73f66062d2f914a0136756e7a28211:
+for you to fetch changes up to 41f09f2e9f09e4dd386d84174a6dcb5136af17ca:
-  target/arm: Move gen_ function typedefs to translate.h (2020-05-04 12:59:26 +0100)
+  hw/display/pxa2xx: Inline template header (2021-03-12 13:26:08 +0000)
 ----------------------------------------------------------------
 target-arm queue:
- * Start of conversion of Neon insns to decodetree
+ * versal: Support XRAMs and XRAM controller
- * versal board: support SD and RTC
+ * smmu: Various minor bug fixes
- * Implement ARMv8.2-TTS2UXN
+ * SVE emulation: fix bugs handling odd vector lengths
- * Make VQDMULL undefined when U=1
+ * allwinner-sun8i-emac: traverse transmit queue using TX_CUR_DESC register value
- * Some minor code cleanups
+ * tests/acceptance: fix orangepi-pc acceptance tests
  * hw/timer/sse-timer: Propagate eventual error in sse_timer_realize()
  * hw/arm/virt: KVM: The IPA lower bound is 32
  * npcm7xx: support MFT module
  * pl110, pxa2xx_lcd: tidy up template headers
 ----------------------------------------------------------------
-Edgar E. Iglesias (11):
+Andrew Jones (2):
-      hw/arm: versal: Remove inclusion of arm_gicv3_common.h
+      accel: kvm: Fix kvm_type invocation
-      hw/arm: versal: Move misplaced comment
+      hw/arm/virt: KVM: The IPA lower bound is 32
       hw/arm: versal-virt: Fix typo xlnx-ve -> xlnx-versal
       hw/arm: versal: Embed the UARTs into the SoC type
       hw/arm: versal: Embed the GEMs into the SoC type
       hw/arm: versal: Embed the ADMAs into the SoC type
       hw/arm: versal: Embed the APUs into the SoC type
       hw/arm: versal: Add support for SD
       hw/arm: versal: Add support for the RTC
       hw/arm: versal-virt: Add support for SD
       hw/arm: versal-virt: Add support for the RTC
-Fredrik Strupe (1):
+Edgar E. Iglesias (2):
-      target/arm: Make VQDMULL undefined when U=1
+      hw/misc: versal: Add a model of the XRAM controller
       hw/arm: versal: Add support for the XRAMs
-Peter Maydell (25):
+Eric Auger (7):
-      target/arm: Don't use a TLB for ARMMMUIdx_Stage2
+      intel_iommu: Fix mask may be uninitialized in vtd_context_device_invalidate
-      target/arm: Use enum constant in get_phys_addr_lpae() call
+      dma: Introduce dma_aligned_pow2_mask()
-      target/arm: Add new 's1_is_el0' argument to get_phys_addr_lpae()
+      virtio-iommu: Handle non power of 2 range invalidations
-      target/arm: Implement ARMv8.2-TTS2UXN
+      hw/arm/smmu-common: Fix smmu_iotlb_inv_iova when asid is not set
-      target/arm: Use correct variable for setting 'max' cpu's ID_AA64DFR0
+      hw/arm/smmuv3: Enforce invalidation on a power of two range
-      target/arm/translate-vfp.inc.c: Remove duplicate simd_r32 check
+      hw/arm/smmuv3: Fix SMMU_CMD_CFGI_STE_RANGE handling
-      target/arm: Don't allow Thumb Neon insns without FEATURE_NEON
+      hw/arm/smmuv3: Uniformize sid traces
       target/arm: Add stubs for AArch32 Neon decodetree
       target/arm: Convert VCMLA (vector) to decodetree
       target/arm: Convert VCADD (vector) to decodetree
       target/arm: Convert V[US]DOT (vector) to decodetree
       target/arm: Convert VFM[AS]L (vector) to decodetree
       target/arm: Convert VCMLA (scalar) to decodetree
       target/arm: Convert V[US]DOT (scalar) to decodetree
       target/arm: Convert VFM[AS]L (scalar) to decodetree
       target/arm: Convert Neon load/store multiple structures to decodetree
       target/arm: Convert Neon 'load single structure to all lanes' to decodetree
       target/arm: Convert Neon 'load/store single structure' to decodetree
       target/arm: Convert Neon 3-reg-same VADD/VSUB to decodetree
       target/arm: Convert Neon 3-reg-same logic ops to decodetree
       target/arm: Convert Neon 3-reg-same VMAX/VMIN to decodetree
       target/arm: Convert Neon 3-reg-same comparisons to decodetree
       target/arm: Convert Neon 3-reg-same VQADD/VQSUB to decodetree
       target/arm: Convert Neon 3-reg-same VMUL, VMLA, VMLS, VSHL to decodetree
       target/arm: Move gen_ function typedefs to translate.h
-Philippe Mathieu-Daudé (2):
+Hao Wu (5):
-      hw/arm/mps2-tz: Use TYPE_IOTKIT instead of hardcoded string
+      hw/misc: Add GPIOs for duty in NPCM7xx PWM
-      target/arm: Use uint64_t for midr field in CPU state struct
+      hw/misc: Add NPCM7XX MFT Module
       hw/arm: Add MFT device to NPCM7xx Soc
       hw/arm: Connect PWM fans in NPCM7XX boards
       tests/qtest: Test PWM fan RPM using MFT in PWM test
- include/hw/arm/xlnx-versal.h    |  31 +-
+Niek Linnenbank (5):
- target/arm/cpu-param.h          |   2 +-
+      hw/net/allwinner-sun8i-emac: traverse transmit queue using TX_CUR_DESC register value
- target/arm/cpu.h                |  38 ++-
+      tests/acceptance/boot_linux_console: remove Armbian 19.11.3 bionic test for orangepi-pc machine
- target/arm/translate-a64.h      |   9 -
+      tests/acceptance/boot_linux_console: change URL for test_arm_orangepi_bionic_20_08
- target/arm/translate.h          |  26 ++
+      tests/acceptance: update sunxi kernel from armbian to 5.10.16
- target/arm/neon-dp.decode       |  86 +++++
+      tests/acceptance: drop ARMBIAN_ARTIFACTS_CACHED condition for orangepi-pc, cubieboard tests
  target/arm/neon-ls.decode       |  52 +++
  target/arm/neon-shared.decode   |  66 ++++
  hw/arm/mps2-tz.c                |   2 +-
  hw/arm/xlnx-versal-virt.c       |  74 ++++-
  hw/arm/xlnx-versal.c            | 115 +++++--
  target/arm/cpu.c                |   3 +-
  target/arm/cpu64.c              |   8 +-
  target/arm/helper.c             | 183 ++++------
  target/arm/translate-a64.c      |  17 -
  target/arm/translate-neon.inc.c | 714 +++++++++++++++++++++++++++++++++++++++
  target/arm/translate-vfp.inc.c  |   6 -
  target/arm/translate.c          | 716 +++-------------------------------------
  target/arm/Makefile.objs        |  18 +
 files changed, 1302 insertions(+), 864 deletions(-)
  create mode 100644 target/arm/neon-dp.decode
  create mode 100644 target/arm/neon-ls.decode
  create mode 100644 target/arm/neon-shared.decode
  create mode 100644 target/arm/translate-neon.inc.c
+Peter Maydell (9):
+      hw/display/pl110: Remove dead code for non-32-bpp surfaces
+      hw/display/pl110: Pull included-once parts of template header into pl110.c
+      hw/display/pl110: Remove use of BITS from pl110_template.h
+      hw/display/pxa2xx_lcd: Remove dead code for non-32-bpp surfaces
+      hw/display/pxa2xx_lcd: Remove dest_width state field
+      hw/display/pxa2xx: Remove use of BITS in pxa2xx_template.h
+      hw/display/pxa2xx: Apply brace-related coding style fixes to template header
+      hw/display/pxa2xx: Apply whitespace-only coding style fixes to template header
+      hw/display/pxa2xx: Inline template header
+Philippe Mathieu-Daudé (1):
+      hw/timer/sse-timer: Propagate eventual error in sse_timer_realize()
+Richard Henderson (8):
+      target/arm: Fix sve_uzp_p vs odd vector lengths
+      target/arm: Fix sve_zip_p vs odd vector lengths
+      target/arm: Fix sve_punpk_p vs odd vector lengths
+      target/arm: Update find_last_active for PREDDESC
+      target/arm: Update BRKA, BRKB, BRKN for PREDDESC
+      target/arm: Update CNTP for PREDDESC
+      target/arm: Update WHILE for PREDDESC
+      target/arm: Update sve reduction vs simd_desc
+ docs/system/arm/nuvoton.rst            |   2 +-
+ docs/system/arm/xlnx-versal-virt.rst   |   1 +
+ hw/arm/smmu-internal.h                 |   5 +
+ hw/display/pl110_template.h            | 120 +-------
+ hw/display/pxa2xx_template.h           | 447 ---------------------------
+ include/hw/arm/npcm7xx.h               |  13 +-
+ include/hw/arm/xlnx-versal.h           |  13 +
+ include/hw/boards.h                    |   1 +
+ include/hw/misc/npcm7xx_mft.h          |  70 +++++
+ include/hw/misc/npcm7xx_pwm.h          |   4 +-
+ include/hw/misc/xlnx-versal-xramc.h    |  97 ++++++
+ include/sysemu/dma.h                   |  12 +
+ target/arm/kvm_arm.h                   |   6 +-
+ accel/kvm/kvm-all.c                    |   2 +
+ hw/arm/npcm7xx.c                       |  45 ++-
+ hw/arm/npcm7xx_boards.c                |  99 ++++++
+ hw/arm/smmu-common.c                   |  32 +-
+ hw/arm/smmuv3.c                        |  58 ++--
+ hw/arm/virt.c                          |  23 +-
+ hw/arm/xlnx-versal.c                   |  36 +++
+ hw/display/pl110.c                     | 123 +++++---
+ hw/display/pxa2xx_lcd.c                | 520 ++++++++++++++++++++++++++-----
+ hw/i386/intel_iommu.c                  |  32 +-
+ hw/misc/npcm7xx_mft.c                  | 540 +++++++++++++++++++++++++++++++++
+ hw/misc/npcm7xx_pwm.c                  |   4 +
+ hw/misc/xlnx-versal-xramc.c            | 253 +++++++++++++++
+ hw/net/allwinner-sun8i-emac.c          |  62 ++--
+ hw/timer/sse-timer.c                   |   1 +
+ hw/virtio/virtio-iommu.c               |  19 +-
+ softmmu/dma-helpers.c                  |  26 ++
+ target/arm/kvm.c                       |   4 +-
+ target/arm/sve_helper.c                | 107 ++++---
+ target/arm/translate-sve.c             |  26 +-
+ tests/qtest/npcm7xx_pwm-test.c         | 205 ++++++++++++-
+ hw/arm/trace-events                    |  24 +-
+ hw/misc/meson.build                    |   2 +
+ hw/misc/trace-events                   |   8 +
+ tests/acceptance/boot_linux_console.py | 120 +++-----
+ tests/acceptance/replay_kernel.py      |  10 +-
+files changed, 2235 insertions(+), 937 deletions(-)
+ delete mode 100644 hw/display/pxa2xx_template.h
+ create mode 100644 include/hw/misc/npcm7xx_mft.h
+ create mode 100644 include/hw/misc/xlnx-versal-xramc.h
+ create mode 100644 hw/misc/npcm7xx_mft.c
+ create mode 100644 hw/misc/xlnx-versal-xramc.c

-[PULL 09/39] hw/arm: versal: Remove inclusion of arm_gicv3_common.h
+[PULL 01/39] hw/misc: versal: Add a model of the XRAM controller
 From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
-Remove inclusion of arm_gicv3_common.h, this already gets
+Add a model of the Xilinx Versal Accelerator RAM (XRAM).
-included via xlnx-versal.h.
+This is mainly a stub to make firmware happy. The size of
 the RAMs can be probed. The interrupt mask logic is
 modelled but none of the interrups will ever be raised
 unless injected.
 Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Message-id: 20210308224637.2949533-2-edgar.iglesias@gmail.com
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20200427181649.26851-2-edgar.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/xlnx-versal.c | 1 -
+ include/hw/misc/xlnx-versal-xramc.h |  97 +++++++++++
-file changed, 1 deletion(-)
+ hw/misc/xlnx-versal-xramc.c         | 253 ++++++++++++++++++++++++++++
+ hw/misc/meson.build                 |   1 +
-diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
+files changed, 351 insertions(+)
  create mode 100644 include/hw/misc/xlnx-versal-xramc.h
  create mode 100644 hw/misc/xlnx-versal-xramc.c
 diff --git a/include/hw/misc/xlnx-versal-xramc.h b/include/hw/misc/xlnx-versal-xramc.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/include/hw/misc/xlnx-versal-xramc.h
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QEMU model of the Xilinx XRAM Controller.
 + *
 + * Copyright (c) 2021 Xilinx Inc.
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 + */
 +
 +#ifndef XLNX_VERSAL_XRAMC_H
 +#define XLNX_VERSAL_XRAMC_H
 +
 +#include "hw/sysbus.h"
 +#include "hw/register.h"
 +
 +#define TYPE_XLNX_XRAM_CTRL "xlnx.versal-xramc"
 +
 +#define XLNX_XRAM_CTRL(obj) \
 +     OBJECT_CHECK(XlnxXramCtrl, (obj), TYPE_XLNX_XRAM_CTRL)
 +
 +REG32(XRAM_ERR_CTRL, 0x0)
 +    FIELD(XRAM_ERR_CTRL, UE_RES, 3, 1)
 +    FIELD(XRAM_ERR_CTRL, PWR_ERR_RES, 2, 1)
 +    FIELD(XRAM_ERR_CTRL, PZ_ERR_RES, 1, 1)
 +    FIELD(XRAM_ERR_CTRL, APB_ERR_RES, 0, 1)
 +REG32(XRAM_ISR, 0x4)
 +    FIELD(XRAM_ISR, INV_APB, 0, 1)
 +REG32(XRAM_IMR, 0x8)
 +    FIELD(XRAM_IMR, INV_APB, 0, 1)
 +REG32(XRAM_IEN, 0xc)
 +    FIELD(XRAM_IEN, INV_APB, 0, 1)
 +REG32(XRAM_IDS, 0x10)
 +    FIELD(XRAM_IDS, INV_APB, 0, 1)
 +REG32(XRAM_ECC_CNTL, 0x14)
 +    FIELD(XRAM_ECC_CNTL, FI_MODE, 2, 1)
 +    FIELD(XRAM_ECC_CNTL, DET_ONLY, 1, 1)
 +    FIELD(XRAM_ECC_CNTL, ECC_ON_OFF, 0, 1)
 +REG32(XRAM_CLR_EXE, 0x18)
 +    FIELD(XRAM_CLR_EXE, MON_7, 7, 1)
 +    FIELD(XRAM_CLR_EXE, MON_6, 6, 1)
 +    FIELD(XRAM_CLR_EXE, MON_5, 5, 1)
 +    FIELD(XRAM_CLR_EXE, MON_4, 4, 1)
 +    FIELD(XRAM_CLR_EXE, MON_3, 3, 1)
 +    FIELD(XRAM_CLR_EXE, MON_2, 2, 1)
 +    FIELD(XRAM_CLR_EXE, MON_1, 1, 1)
 +    FIELD(XRAM_CLR_EXE, MON_0, 0, 1)
 +REG32(XRAM_CE_FFA, 0x1c)
 +    FIELD(XRAM_CE_FFA, ADDR, 0, 20)
 +REG32(XRAM_CE_FFD0, 0x20)
 +REG32(XRAM_CE_FFD1, 0x24)
 +REG32(XRAM_CE_FFD2, 0x28)
 +REG32(XRAM_CE_FFD3, 0x2c)
 +REG32(XRAM_CE_FFE, 0x30)
 +    FIELD(XRAM_CE_FFE, SYNDROME, 0, 16)
 +REG32(XRAM_UE_FFA, 0x34)
 +    FIELD(XRAM_UE_FFA, ADDR, 0, 20)
 +REG32(XRAM_UE_FFD0, 0x38)
 +REG32(XRAM_UE_FFD1, 0x3c)
 +REG32(XRAM_UE_FFD2, 0x40)
 +REG32(XRAM_UE_FFD3, 0x44)
 +REG32(XRAM_UE_FFE, 0x48)
 +    FIELD(XRAM_UE_FFE, SYNDROME, 0, 16)
 +REG32(XRAM_FI_D0, 0x4c)
 +REG32(XRAM_FI_D1, 0x50)
 +REG32(XRAM_FI_D2, 0x54)
 +REG32(XRAM_FI_D3, 0x58)
 +REG32(XRAM_FI_SY, 0x5c)
 +    FIELD(XRAM_FI_SY, DATA, 0, 16)
 +REG32(XRAM_RMW_UE_FFA, 0x70)
 +    FIELD(XRAM_RMW_UE_FFA, ADDR, 0, 20)
 +REG32(XRAM_FI_CNTR, 0x74)
 +    FIELD(XRAM_FI_CNTR, COUNT, 0, 24)
 +REG32(XRAM_IMP, 0x80)
 +    FIELD(XRAM_IMP, SIZE, 0, 4)
 +REG32(XRAM_PRDY_DBG, 0x84)
 +    FIELD(XRAM_PRDY_DBG, ISLAND3, 12, 4)
 +    FIELD(XRAM_PRDY_DBG, ISLAND2, 8, 4)
 +    FIELD(XRAM_PRDY_DBG, ISLAND1, 4, 4)
 +    FIELD(XRAM_PRDY_DBG, ISLAND0, 0, 4)
 +REG32(XRAM_SAFETY_CHK, 0xff8)
 +
 +#define XRAM_CTRL_R_MAX (R_XRAM_SAFETY_CHK + 1)
 +
 +typedef struct XlnxXramCtrl {
 +    SysBusDevice parent_obj;
 +    MemoryRegion ram;
 +    qemu_irq irq;
 +
 +    struct {
 +        uint64_t size;
 +        unsigned int encoded_size;
 +    } cfg;
 +
 +    RegisterInfoArray *reg_array;
 +    uint32_t regs[XRAM_CTRL_R_MAX];
 +    RegisterInfo regs_info[XRAM_CTRL_R_MAX];
 +} XlnxXramCtrl;
 +#endif
 diff --git a/hw/misc/xlnx-versal-xramc.c b/hw/misc/xlnx-versal-xramc.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/misc/xlnx-versal-xramc.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QEMU model of the Xilinx XRAM Controller.
 + *
 + * Copyright (c) 2021 Xilinx Inc.
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/units.h"
 +#include "qapi/error.h"
 +#include "migration/vmstate.h"
 +#include "hw/sysbus.h"
 +#include "hw/register.h"
 +#include "hw/qdev-properties.h"
 +#include "hw/irq.h"
 +#include "hw/misc/xlnx-versal-xramc.h"
 +
 +#ifndef XLNX_XRAM_CTRL_ERR_DEBUG
 +#define XLNX_XRAM_CTRL_ERR_DEBUG 0
 +#endif
 +
 +static void xram_update_irq(XlnxXramCtrl *s)
 +{
 +    bool pending = s->regs[R_XRAM_ISR] & ~s->regs[R_XRAM_IMR];
 +    qemu_set_irq(s->irq, pending);
 +}
 +
 +static void xram_isr_postw(RegisterInfo *reg, uint64_t val64)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(reg->opaque);
 +    xram_update_irq(s);
 +}
 +
 +static uint64_t xram_ien_prew(RegisterInfo *reg, uint64_t val64)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(reg->opaque);
 +    uint32_t val = val64;
 +
 +    s->regs[R_XRAM_IMR] &= ~val;
 +    xram_update_irq(s);
 +    return 0;
 +}
 +
 +static uint64_t xram_ids_prew(RegisterInfo *reg, uint64_t val64)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(reg->opaque);
 +    uint32_t val = val64;
 +
 +    s->regs[R_XRAM_IMR] |= val;
 +    xram_update_irq(s);
 +    return 0;
 +}
 +
 +static const RegisterAccessInfo xram_ctrl_regs_info[] = {
 +    {   .name = "XRAM_ERR_CTRL",  .addr = A_XRAM_ERR_CTRL,
 +        .reset = 0xf,
 +        .rsvd = 0xfffffff0,
 +    },{ .name = "XRAM_ISR",  .addr = A_XRAM_ISR,
 +        .rsvd = 0xfffff800,
 +        .w1c = 0x7ff,
 +        .post_write = xram_isr_postw,
 +    },{ .name = "XRAM_IMR",  .addr = A_XRAM_IMR,
 +        .reset = 0x7ff,
 +        .rsvd = 0xfffff800,
 +        .ro = 0x7ff,
 +    },{ .name = "XRAM_IEN",  .addr = A_XRAM_IEN,
 +        .rsvd = 0xfffff800,
 +        .pre_write = xram_ien_prew,
 +    },{ .name = "XRAM_IDS",  .addr = A_XRAM_IDS,
 +        .rsvd = 0xfffff800,
 +        .pre_write = xram_ids_prew,
 +    },{ .name = "XRAM_ECC_CNTL",  .addr = A_XRAM_ECC_CNTL,
 +        .rsvd = 0xfffffff8,
 +    },{ .name = "XRAM_CLR_EXE",  .addr = A_XRAM_CLR_EXE,
 +        .rsvd = 0xffffff00,
 +    },{ .name = "XRAM_CE_FFA",  .addr = A_XRAM_CE_FFA,
 +        .rsvd = 0xfff00000,
 +        .ro = 0xfffff,
 +    },{ .name = "XRAM_CE_FFD0",  .addr = A_XRAM_CE_FFD0,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_CE_FFD1",  .addr = A_XRAM_CE_FFD1,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_CE_FFD2",  .addr = A_XRAM_CE_FFD2,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_CE_FFD3",  .addr = A_XRAM_CE_FFD3,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_CE_FFE",  .addr = A_XRAM_CE_FFE,
 +        .rsvd = 0xffff0000,
 +        .ro = 0xffff,
 +    },{ .name = "XRAM_UE_FFA",  .addr = A_XRAM_UE_FFA,
 +        .rsvd = 0xfff00000,
 +        .ro = 0xfffff,
 +    },{ .name = "XRAM_UE_FFD0",  .addr = A_XRAM_UE_FFD0,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_UE_FFD1",  .addr = A_XRAM_UE_FFD1,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_UE_FFD2",  .addr = A_XRAM_UE_FFD2,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_UE_FFD3",  .addr = A_XRAM_UE_FFD3,
 +        .ro = 0xffffffff,
 +    },{ .name = "XRAM_UE_FFE",  .addr = A_XRAM_UE_FFE,
 +        .rsvd = 0xffff0000,
 +        .ro = 0xffff,
 +    },{ .name = "XRAM_FI_D0",  .addr = A_XRAM_FI_D0,
 +    },{ .name = "XRAM_FI_D1",  .addr = A_XRAM_FI_D1,
 +    },{ .name = "XRAM_FI_D2",  .addr = A_XRAM_FI_D2,
 +    },{ .name = "XRAM_FI_D3",  .addr = A_XRAM_FI_D3,
 +    },{ .name = "XRAM_FI_SY",  .addr = A_XRAM_FI_SY,
 +        .rsvd = 0xffff0000,
 +    },{ .name = "XRAM_RMW_UE_FFA",  .addr = A_XRAM_RMW_UE_FFA,
 +        .rsvd = 0xfff00000,
 +        .ro = 0xfffff,
 +    },{ .name = "XRAM_FI_CNTR",  .addr = A_XRAM_FI_CNTR,
 +        .rsvd = 0xff000000,
 +    },{ .name = "XRAM_IMP",  .addr = A_XRAM_IMP,
 +        .reset = 0x4,
 +        .rsvd = 0xfffffff0,
 +        .ro = 0xf,
 +    },{ .name = "XRAM_PRDY_DBG",  .addr = A_XRAM_PRDY_DBG,
 +        .reset = 0xffff,
 +        .rsvd = 0xffff0000,
 +        .ro = 0xffff,
 +    },{ .name = "XRAM_SAFETY_CHK",  .addr = A_XRAM_SAFETY_CHK,
 +    }
 +};
 +
 +static void xram_ctrl_reset_enter(Object *obj, ResetType type)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
 +    unsigned int i;
 +
 +    for (i = 0; i < ARRAY_SIZE(s->regs_info); ++i) {
 +        register_reset(&s->regs_info[i]);
 +    }
 +
 +    ARRAY_FIELD_DP32(s->regs, XRAM_IMP, SIZE, s->cfg.encoded_size);
 +}
 +
 +static void xram_ctrl_reset_hold(Object *obj)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
 +
 +    xram_update_irq(s);
 +}
 +
 +static const MemoryRegionOps xram_ctrl_ops = {
 +    .read = register_read_memory,
 +    .write = register_write_memory,
 +    .endianness = DEVICE_LITTLE_ENDIAN,
 +    .valid = {
 +        .min_access_size = 4,
 +        .max_access_size = 4,
 +    },
 +};
 +
 +static void xram_ctrl_realize(DeviceState *dev, Error **errp)
 +{
 +    SysBusDevice *sbd = SYS_BUS_DEVICE(dev);
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(dev);
 +
 +    switch (s->cfg.size) {
 +    case 64 * KiB:
 +        s->cfg.encoded_size = 0;
 +        break;
 +    case 128 * KiB:
 +        s->cfg.encoded_size = 1;
 +        break;
 +    case 256 * KiB:
 +        s->cfg.encoded_size = 2;
 +        break;
 +    case 512 * KiB:
 +        s->cfg.encoded_size = 3;
 +        break;
 +    case 1 * MiB:
 +        s->cfg.encoded_size = 4;
 +        break;
 +    default:
 +        error_setg(errp, "Unsupported XRAM size %" PRId64, s->cfg.size);
 +        return;
 +    }
 +
 +    memory_region_init_ram(&s->ram, OBJECT(s),
 +                           object_get_canonical_path_component(OBJECT(s)),
 +                           s->cfg.size, &error_fatal);
 +    sysbus_init_mmio(sbd, &s->ram);
 +}
 +
 +static void xram_ctrl_init(Object *obj)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
 +    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
 +
 +    s->reg_array =
 +        register_init_block32(DEVICE(obj), xram_ctrl_regs_info,
 +                              ARRAY_SIZE(xram_ctrl_regs_info),
 +                              s->regs_info, s->regs,
 +                              &xram_ctrl_ops,
 +                              XLNX_XRAM_CTRL_ERR_DEBUG,
 +                              XRAM_CTRL_R_MAX * 4);
 +    sysbus_init_mmio(sbd, &s->reg_array->mem);
 +    sysbus_init_irq(sbd, &s->irq);
 +}
 +
 +static void xram_ctrl_finalize(Object *obj)
 +{
 +    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
 +    register_finalize_block(s->reg_array);
 +}
 +
 +static const VMStateDescription vmstate_xram_ctrl = {
 +    .name = TYPE_XLNX_XRAM_CTRL,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT32_ARRAY(regs, XlnxXramCtrl, XRAM_CTRL_R_MAX),
 +        VMSTATE_END_OF_LIST(),
 +    }
 +};
 +
 +static Property xram_ctrl_properties[] = {
 +    DEFINE_PROP_UINT64("size", XlnxXramCtrl, cfg.size, 1 * MiB),
 +    DEFINE_PROP_END_OF_LIST(),
 +};
 +
 +static void xram_ctrl_class_init(ObjectClass *klass, void *data)
 +{
 +    ResettableClass *rc = RESETTABLE_CLASS(klass);
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->realize = xram_ctrl_realize;
 +    dc->vmsd = &vmstate_xram_ctrl;
 +    device_class_set_props(dc, xram_ctrl_properties);
 +
 +    rc->phases.enter = xram_ctrl_reset_enter;
 +    rc->phases.hold = xram_ctrl_reset_hold;
 +}
 +
 +static const TypeInfo xram_ctrl_info = {
 +    .name              = TYPE_XLNX_XRAM_CTRL,
 +    .parent            = TYPE_SYS_BUS_DEVICE,
 +    .instance_size     = sizeof(XlnxXramCtrl),
 +    .class_init        = xram_ctrl_class_init,
 +    .instance_init     = xram_ctrl_init,
 +    .instance_finalize = xram_ctrl_finalize,
 +};
 +
 +static void xram_ctrl_register_types(void)
 +{
 +    type_register_static(&xram_ctrl_info);
 +}
 +
 +type_init(xram_ctrl_register_types)
 diff --git a/hw/misc/meson.build b/hw/misc/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal.c
+--- a/hw/misc/meson.build
-+++ b/hw/arm/xlnx-versal.c
++++ b/hw/misc/meson.build
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
- #include "hw/arm/boot.h"
+ ))
- #include "kvm_arm.h"
+ softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
- #include "hw/misc/unimp.h"
+ softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
--#include "hw/intc/arm_gicv3_common.h"
++softmmu_ss.add(when: 'CONFIG_XLNX_VERSAL', if_true: files('xlnx-versal-xramc.c'))
- #include "hw/arm/xlnx-versal.h"
+ softmmu_ss.add(when: 'CONFIG_STM32F2XX_SYSCFG', if_true: files('stm32f2xx_syscfg.c'))
- #include "hw/char/pl011.h"
+ softmmu_ss.add(when: 'CONFIG_STM32F4XX_SYSCFG', if_true: files('stm32f4xx_syscfg.c'))
+ softmmu_ss.add(when: 'CONFIG_STM32F4XX_EXTI', if_true: files('stm32f4xx_exti.c'))
 --
 .20.1

-[PULL 16/39] hw/arm: versal: Add support for SD
+[PULL 02/39] hw/arm: versal: Add support for the XRAMs
 From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
-Add support for SD.
+Connect the support for the Versal Accelerator RAMs (XRAMs).
+Reviewed-by: Luc Michel <luc@lmichel.fr>
+Acked-by: Alistair Francis <alistair.francis@wdc.com>
 Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Message-id: 20210308224637.2949533-3-edgar.iglesias@gmail.com
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Luc Michel <luc.michel@greensocs.com>
 Message-id: 20200427181649.26851-9-edgar.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/arm/xlnx-versal.h | 12 ++++++++++++
+ docs/system/arm/xlnx-versal-virt.rst |  1 +
- hw/arm/xlnx-versal.c         | 31 +++++++++++++++++++++++++++++++
+ include/hw/arm/xlnx-versal.h         | 13 ++++++++++
-files changed, 43 insertions(+)
+ hw/arm/xlnx-versal.c                 | 36 ++++++++++++++++++++++++++++
 files changed, 50 insertions(+)
+diff --git a/docs/system/arm/xlnx-versal-virt.rst b/docs/system/arm/xlnx-versal-virt.rst
+index XXXXXXX..XXXXXXX 100644
+--- a/docs/system/arm/xlnx-versal-virt.rst
++++ b/docs/system/arm/xlnx-versal-virt.rst
+@@ -XXX,XX +XXX,XX @@ Implemented devices:
+ - 8 ADMA (Xilinx zDMA) channels
+ - 2 SD Controllers
+ - OCM (256KB of On Chip Memory)
++- XRAM (4MB of on chip Accelerator RAM)
+ - DDR memory
+ QEMU does not yet model any other devices, including the PL and the AI Engine.
 diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/xlnx-versal.h
 +++ b/include/hw/arm/xlnx-versal.h
 @@ -XXX,XX +XXX,XX @@
  #include "hw/sysbus.h"
  #include "hw/arm/boot.h"
-+#include "hw/sd/sdhci.h"
++#include "hw/or-irq.h"
  #include "hw/sd/sdhci.h"
  #include "hw/intc/arm_gicv3.h"
  #include "hw/char/pl011.h"
- #include "hw/dma/xlnx-zdma.h"
 @@ -XXX,XX +XXX,XX @@
- #define XLNX_VERSAL_NR_UARTS   2
+ #include "hw/rtc/xlnx-zynqmp-rtc.h"
  #include "qom/object.h"
  #include "hw/usb/xlnx-usb-subsystem.h"
 +#include "hw/misc/xlnx-versal-xramc.h"
  #define TYPE_XLNX_VERSAL "xlnx-versal"
  OBJECT_DECLARE_SIMPLE_TYPE(Versal, XLNX_VERSAL)
@@ -XXX,XX +XXX,XX @@ OBJECT_DECLARE_SIMPLE_TYPE(Versal, XLNX_VERSAL)
  #define XLNX_VERSAL_NR_GEMS    2
  #define XLNX_VERSAL_NR_ADMAS   8
-+#define XLNX_VERSAL_NR_SDS     2
+ #define XLNX_VERSAL_NR_SDS     2
 +#define XLNX_VERSAL_NR_XRAM    4
  #define XLNX_VERSAL_NR_IRQS    192
- typedef struct Versal {
+ struct Versal {
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
+@@ -XXX,XX +XXX,XX @@ struct Versal {
              XlnxZDMA adma[XLNX_VERSAL_NR_ADMAS];
              VersalUsb2 usb;
          } iou;
++
++        struct {
++            qemu_or_irq irq_orgate;
++            XlnxXramCtrl ctrl[XLNX_VERSAL_NR_XRAM];
++        } xram;
      } lpd;
-+    /* The Platform Management Controller subsystem.  */
+     /* The Platform Management Controller subsystem.  */
-+    struct {
+@@ -XXX,XX +XXX,XX @@ struct Versal {
 +        struct {
 +            SDHCIState sd[XLNX_VERSAL_NR_SDS];
 +        } iou;
 +    } pmc;
 +
      struct {
          MemoryRegion *mr_ddr;
          uint32_t psci_conduit;
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
  #define VERSAL_GEM1_IRQ_0          58
  #define VERSAL_GEM1_WAKE_IRQ_0     59
  #define VERSAL_ADMA_IRQ_0          60
-+#define VERSAL_SD0_IRQ_0           126
++#define VERSAL_XRAM_IRQ_0          79
+ #define VERSAL_RTC_APB_ERR_IRQ     121
- /* Architecturally reserved IRQs suitable for virtualization.  */
+ #define VERSAL_SD0_IRQ_0           126
- #define VERSAL_RSVD_IRQ_FIRST 111
+ #define VERSAL_RTC_ALARM_IRQ       142
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
+@@ -XXX,XX +XXX,XX @@ struct Versal {
- #define MM_FPD_CRF                  0xfd1a0000U
+ #define MM_OCM                      0xfffc0000U
- #define MM_FPD_CRF_SIZE             0x140000
+ #define MM_OCM_SIZE                 0x40000
-+#define MM_PMC_SD0                  0xf1040000U
++#define MM_XRAM                     0xfe800000
-+#define MM_PMC_SD0_SIZE             0x10000
++#define MM_XRAMC                    0xff8e0000
- #define MM_PMC_CRP                  0xf1260000U
++#define MM_XRAMC_SIZE               0x10000
- #define MM_PMC_CRP_SIZE             0x10000
++
- #endif
+ #define MM_USB2_CTRL_REGS           0xFF9D0000
  #define MM_USB2_CTRL_REGS_SIZE      0x10000
 diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/xlnx-versal.c
 +++ b/hw/arm/xlnx-versal.c
-@@ -XXX,XX +XXX,XX @@ static void versal_create_admas(Versal *s, qemu_irq *pic)
+@@ -XXX,XX +XXX,XX @@
-     }
+  */
  #include "qemu/osdep.h"
 +#include "qemu/units.h"
  #include "qapi/error.h"
  #include "qemu/log.h"
  #include "qemu/module.h"
@@ -XXX,XX +XXX,XX @@ static void versal_create_rtc(Versal *s, qemu_irq *pic)
      sysbus_connect_irq(sbd, 1, pic[VERSAL_RTC_APB_ERR_IRQ]);
  }
-+#define SDHCI_CAPABILITIES  0x280737ec6481 /* Same as on ZynqMP.  */
++static void versal_create_xrams(Versal *s, qemu_irq *pic)
 +static void versal_create_sds(Versal *s, qemu_irq *pic)
 +{
++    int nr_xrams = ARRAY_SIZE(s->lpd.xram.ctrl);
++    DeviceState *orgate;
 +    int i;
 +
-+    for (i = 0; i < ARRAY_SIZE(s->pmc.iou.sd); i++) {
++    /* XRAM IRQs get ORed into a single line.  */
-+        DeviceState *dev;
++    object_initialize_child(OBJECT(s), "xram-irq-orgate",
 +                            &s->lpd.xram.irq_orgate, TYPE_OR_IRQ);
 +    orgate = DEVICE(&s->lpd.xram.irq_orgate);
 +    object_property_set_int(OBJECT(orgate),
 +                            "num-lines", nr_xrams, &error_fatal);
 +    qdev_realize(orgate, NULL, &error_fatal);
 +    qdev_connect_gpio_out(orgate, 0, pic[VERSAL_XRAM_IRQ_0]);
 +
 +    for (i = 0; i < ARRAY_SIZE(s->lpd.xram.ctrl); i++) {
 +        SysBusDevice *sbd;
 +        MemoryRegion *mr;
 +
-+        sysbus_init_child_obj(OBJECT(s), "sd[*]",
++        object_initialize_child(OBJECT(s), "xram[*]", &s->lpd.xram.ctrl[i],
-+                              &s->pmc.iou.sd[i], sizeof(s->pmc.iou.sd[i]),
++                                TYPE_XLNX_XRAM_CTRL);
-+                              TYPE_SYSBUS_SDHCI);
++        sbd = SYS_BUS_DEVICE(&s->lpd.xram.ctrl[i]);
-+        dev = DEVICE(&s->pmc.iou.sd[i]);
++        sysbus_realize(sbd, &error_fatal);
 +
-+        object_property_set_uint(OBJECT(dev),
++        mr = sysbus_mmio_get_region(sbd, 0);
-+                                 3, "sd-spec-version", &error_fatal);
++        memory_region_add_subregion(&s->mr_ps,
-+        object_property_set_uint(OBJECT(dev), SDHCI_CAPABILITIES, "capareg",
++                                    MM_XRAMC + i * MM_XRAMC_SIZE, mr);
-+                                 &error_fatal);
++        mr = sysbus_mmio_get_region(sbd, 1);
-+        object_property_set_uint(OBJECT(dev), UHS_I, "uhs", &error_fatal);
++        memory_region_add_subregion(&s->mr_ps, MM_XRAM + i * MiB, mr);
 +        qdev_init_nofail(dev);
 +
-+        mr = sysbus_mmio_get_region(SYS_BUS_DEVICE(dev), 0);
++        sysbus_connect_irq(sbd, 0, qdev_get_gpio_in(orgate, i));
 +        memory_region_add_subregion(&s->mr_ps,
 +                                    MM_PMC_SD0 + i * MM_PMC_SD0_SIZE, mr);
 +
 +        sysbus_connect_irq(SYS_BUS_DEVICE(dev), 0,
 +                           pic[VERSAL_SD0_IRQ_0 + i * 2]);
 +    }
 +}
 +
  /* This takes the board allocated linear DDR memory and creates aliases
   * for each split DDR range/aperture on the Versal address map.
   */
 @@ -XXX,XX +XXX,XX @@ static void versal_realize(DeviceState *dev, Error **errp)
-     versal_create_uarts(s, pic);
-     versal_create_gems(s, pic);
      versal_create_admas(s, pic);
-+    versal_create_sds(s, pic);
+     versal_create_sds(s, pic);
      versal_create_rtc(s, pic);
 +    versal_create_xrams(s, pic);
      versal_map_ddr(s);
      versal_unimp(s);
 --
 .20.1

-[PULL 37/39] target/arm: Convert Neon 3-reg-same VQADD/VQSUB to decodetree
+[PULL 03/39] intel_iommu: Fix mask may be uninitialized in vtd_context_device_invalidate
-Convert the Neon VQADD/VQSUB insns in the 3-reg-same grouping
+From: Eric Auger <eric.auger@redhat.com>
 to decodetree.
+With -Werror=maybe-uninitialized configuration we get
+../hw/i386/intel_iommu.c: In function ‘vtd_context_device_invalidate’:
+../hw/i386/intel_iommu.c:1888:10: error: ‘mask’ may be used
+uninitialized in this function [-Werror=maybe-uninitialized]
+|     mask = ~mask;
+      |     ~~~~~^~~~~~~
+Add a g_assert_not_reached() to avoid the error.
+Signed-off-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Peter Xu <peterx@redhat.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Message-id: 20210309102742.30442-2-eric.auger@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-19-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  6 ++++++
+ hw/i386/intel_iommu.c | 2 ++
- target/arm/translate-neon.inc.c | 15 +++++++++++++++
+file changed, 2 insertions(+)
  target/arm/translate.c          | 14 ++------------
 files changed, 23 insertions(+), 12 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/i386/intel_iommu.c b/hw/i386/intel_iommu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/i386/intel_iommu.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/i386/intel_iommu.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void vtd_context_device_invalidate(IntelIOMMUState *s,
- @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
+     case 3:
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+         mask = 7;   /* Mask bit 2:0 in the SID field */
+         break;
-+VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
++    default:
-+VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
++        g_assert_not_reached();
-+
+     }
- @3same_logic     .... ... . . . .. .... .... .... . q:1 .. .... \
+     mask = ~mask;
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp size=0
@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
  VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
  VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
 +VQSUB_S_3s       1111 001 0 0 . .. .... .... 0010 . . . 1 .... @3same
 +VQSUB_U_3s       1111 001 1 0 . .. .... .... 0010 . . . 1 .... @3same
 +
  VCGT_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 0 .... @3same
  VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
  VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
  }
  DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
 +
 +#define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
 +    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 +                                uint32_t rn_ofs, uint32_t rm_ofs,       \
 +                                uint32_t oprsz, uint32_t maxsz)         \
 +    {                                                                   \
 +        tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),           \
 +                       rn_ofs, rm_ofs, oprsz, maxsz, &OPARRAY[vece]);   \
 +    }                                                                   \
 +    DO_3SAME(INSN, gen_##INSN##_3s)
 +
 +DO_3SAME_GVEC4(VQADD_S, sqadd_op)
 +DO_3SAME_GVEC4(VQADD_U, uqadd_op)
 +DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
 +DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              return 1;
 -        case NEON_3R_VQADD:
 -            tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                           rn_ofs, rm_ofs, vec_size, vec_size,
 -                           (u ? uqadd_op : sqadd_op) + size);
 -            return 0;
 -
 -        case NEON_3R_VQSUB:
 -            tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                           rn_ofs, rm_ofs, vec_size, vec_size,
 -                           (u ? uqsub_op : sqsub_op) + size);
 -            return 0;
 -
          case NEON_3R_VMUL: /* VMUL */
              if (u) {
                  /* Polynomial case allows only P8.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VTST_VCEQ:
          case NEON_3R_VCGT:
          case NEON_3R_VCGE:
 +        case NEON_3R_VQADD:
 +        case NEON_3R_VQSUB:
              /* Already handled by decodetree */
              return 1;
          }
 --
 .20.1

-[PULL 33/39] target/arm: Convert Neon 3-reg-same VADD/VSUB to decodetree
+[PULL 04/39] dma: Introduce dma_aligned_pow2_mask()
-Convert the Neon 3-reg-same VADD and VSUB insns to decodetree.
+From: Eric Auger <eric.auger@redhat.com>
-Note that we don't need the neon_3r_sizes[op] check here because all
+Currently get_naturally_aligned_size() is used by the intel iommu
-size values are OK for VADD and VSUB; we'll add this when we convert
+to compute the maximum invalidation range based on @size which is
-the first insn that has size restrictions.
+a power of 2 while being aligned with the @start address and less
 than the maximum range defined by @gaw.
-For this we need one of the GVecGen*Fn typedefs currently in
+This helper is also useful for other iommu devices (virtio-iommu,
-translate-a64.h; move them all to translate.h as a block so they
+SMMUv3) to make sure IOMMU UNMAP notifiers only are called with
-are visible to the 32-bit decoder.
+power of 2 range sizes.
+Let's move this latter into dma-helpers.c and rename it into
+dma_aligned_pow2_mask(). Also rewrite the helper so that it
+accomodates UINT64_MAX values for the size mask and max mask.
+It now returns a mask instead of a size. Change the caller.
+Signed-off-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Peter Xu <peterx@redhat.com>
+Message-id: 20210309102742.30442-3-eric.auger@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-15-peter.maydell@linaro.org
 ---
- target/arm/translate-a64.h      |  9 --------
+ include/sysemu/dma.h  | 12 ++++++++++++
- target/arm/translate.h          |  9 ++++++++
+ hw/i386/intel_iommu.c | 30 +++++++-----------------------
- target/arm/neon-dp.decode       | 17 +++++++++++++++
+ softmmu/dma-helpers.c | 26 ++++++++++++++++++++++++++
- target/arm/translate-neon.inc.c | 38 +++++++++++++++++++++++++++++++++
+files changed, 45 insertions(+), 23 deletions(-)
  target/arm/translate.c          | 14 ++++--------
 files changed, 68 insertions(+), 19 deletions(-)
-diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
+diff --git a/include/sysemu/dma.h b/include/sysemu/dma.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.h
+--- a/include/sysemu/dma.h
-+++ b/target/arm/translate-a64.h
++++ b/include/sysemu/dma.h
-@@ -XXX,XX +XXX,XX @@ static inline int vec_full_reg_size(DisasContext *s)
+@@ -XXX,XX +XXX,XX @@ uint64_t dma_buf_write(uint8_t *ptr, int32_t len, QEMUSGList *sg);
+ void dma_acct_start(BlockBackend *blk, BlockAcctCookie *cookie,
- bool disas_sve(DisasContext *, uint32_t);
+                     QEMUSGList *sg, enum BlockAcctType type);
--/* Note that the gvec expanders operate on offsets + sizes.  */
++/**
--typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
++ * dma_aligned_pow2_mask: Return the address bit mask of the largest
--typedef void GVecGen2iFn(unsigned, uint32_t, uint32_t, int64_t,
++ * power of 2 size less or equal than @end - @start + 1, aligned with @start,
--                         uint32_t, uint32_t);
++ * and bounded by 1 << @max_addr_bits bits.
--typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
++ *
--                        uint32_t, uint32_t, uint32_t);
++ * @start: range start address
--typedef void GVecGen4Fn(unsigned, uint32_t, uint32_t, uint32_t,
++ * @end: range end address (greater than @start)
--                        uint32_t, uint32_t, uint32_t);
++ * @max_addr_bits: max address bits (<= 64)
 + */
 +uint64_t dma_aligned_pow2_mask(uint64_t start, uint64_t end,
 +                               int max_addr_bits);
 +
  #endif
 diff --git a/hw/i386/intel_iommu.c b/hw/i386/intel_iommu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/intel_iommu.c
 +++ b/hw/i386/intel_iommu.c
@@ -XXX,XX +XXX,XX @@
  #include "hw/i386/x86-iommu.h"
  #include "hw/pci-host/q35.h"
  #include "sysemu/kvm.h"
 +#include "sysemu/dma.h"
  #include "sysemu/sysemu.h"
  #include "hw/i386/apic_internal.h"
  #include "kvm/kvm_i386.h"
@@ -XXX,XX +XXX,XX @@ VTDAddressSpace *vtd_find_add_as(IntelIOMMUState *s, PCIBus *bus, int devfn)
      return vtd_dev_as;
  }
 -static uint64_t get_naturally_aligned_size(uint64_t start,
 -                                           uint64_t size, int gaw)
 -{
 -    uint64_t max_mask = 1ULL << gaw;
 -    uint64_t alignment = start ? start & -start : max_mask;
 -
- #endif /* TARGET_ARM_TRANSLATE_A64_H */
+-    alignment = MIN(alignment, max_mask);
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+-    size = MIN(size, max_mask);
 -
 -    if (alignment <= size) {
 -        /* Increase the alignment of start */
 -        return alignment;
 -    } else {
 -        /* Find the largest page mask from size */
 -        return 1ULL << (63 - clz64(size));
 -    }
 -}
 -
  /* Unmap the whole range in the notifier's scope. */
  static void vtd_address_space_unmap(VTDAddressSpace *as, IOMMUNotifier *n)
  {
@@ -XXX,XX +XXX,XX @@ static void vtd_address_space_unmap(VTDAddressSpace *as, IOMMUNotifier *n)
      while (remain >= VTD_PAGE_SIZE) {
          IOMMUTLBEvent event;
 -        uint64_t mask = get_naturally_aligned_size(start, remain, s->aw_bits);
 +        uint64_t mask = dma_aligned_pow2_mask(start, end, s->aw_bits);
 +        uint64_t size = mask + 1;
 -        assert(mask);
 +        assert(size);
          event.type = IOMMU_NOTIFIER_UNMAP;
          event.entry.iova = start;
 -        event.entry.addr_mask = mask - 1;
 +        event.entry.addr_mask = mask;
          event.entry.target_as = &address_space_memory;
          event.entry.perm = IOMMU_NONE;
          /* This field is meaningless for unmap */
@@ -XXX,XX +XXX,XX @@ static void vtd_address_space_unmap(VTDAddressSpace *as, IOMMUNotifier *n)
          memory_region_notify_iommu_one(n, &event);
 -        start += mask;
 -        remain -= mask;
 +        start += size;
 +        remain -= size;
      }
      assert(!remain);
 diff --git a/softmmu/dma-helpers.c b/softmmu/dma-helpers.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/softmmu/dma-helpers.c
-+++ b/target/arm/translate.h
++++ b/softmmu/dma-helpers.c
-@@ -XXX,XX +XXX,XX @@ void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+@@ -XXX,XX +XXX,XX @@ void dma_acct_start(BlockBackend *blk, BlockAcctCookie *cookie,
- #define dc_isar_feature(name, ctx) \
+ {
-     ({ DisasContext *ctx_ = (ctx); isar_feature_##name(ctx_->isar); })
+     block_acct_start(blk_get_stats(blk), cookie, sg->size, type);
 +/* Note that the gvec expanders operate on offsets + sizes.  */
 +typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
 +typedef void GVecGen2iFn(unsigned, uint32_t, uint32_t, int64_t,
 +                         uint32_t, uint32_t);
 +typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
 +                        uint32_t, uint32_t, uint32_t);
 +typedef void GVecGen4Fn(unsigned, uint32_t, uint32_t, uint32_t,
 +                        uint32_t, uint32_t, uint32_t);
 +
  #endif /* TARGET_ARM_TRANSLATE_H */
 diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/neon-dp.decode
 +++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
  #
  # This file is processed by scripts/decodetree.py
  #
 +# VFP/Neon register fields; same as vfp.decode
 +%vm_dp  5:1 0:4
 +%vn_dp  7:1 16:4
 +%vd_dp  22:1 12:4
  # Encodings for Neon data processing instructions where the T32 encoding
  # is a simple transformation of the A32 encoding.
@@ -XXX,XX +XXX,XX @@
  #   0b111p_1111_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
  # This file works on the A32 encoding only; calling code for T32 has to
  # transform the insn into the A32 version first.
 +
 +######################################################################
 +# 3-reg-same grouping:
 +# 1111 001 U 0 D sz:2 Vn:4 Vd:4 opc:4 N Q M op Vm:4
 +######################################################################
 +
 +&3same vm vn vd q size
 +
 +@3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
 +                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +
 +VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
 +VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
      return true;
  }
 +
-+static bool do_3same(DisasContext *s, arg_3same *a, GVecGen3Fn fn)
++uint64_t dma_aligned_pow2_mask(uint64_t start, uint64_t end, int max_addr_bits)
 +{
-+    int vec_size = a->q ? 16 : 8;
++    uint64_t max_mask = UINT64_MAX, addr_mask = end - start;
-+    int rd_ofs = neon_reg_offset(a->vd, 0);
++    uint64_t alignment_mask, size_mask;
 +    int rn_ofs = neon_reg_offset(a->vn, 0);
 +    int rm_ofs = neon_reg_offset(a->vm, 0);
 +
-+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
++    if (max_addr_bits != 64) {
-+        return false;
++        max_mask = (1ULL << max_addr_bits) - 1;
 +    }
 +
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++    alignment_mask = start ? (start & -start) - 1 : max_mask;
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++    alignment_mask = MIN(alignment_mask, max_mask);
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
++    size_mask = MIN(addr_mask, max_mask);
-+        return false;
++
 +    if (alignment_mask <= size_mask) {
 +        /* Increase the alignment of start */
 +        return alignment_mask;
 +    } else {
 +        /* Find the largest page mask from size */
 +        if (addr_mask == UINT64_MAX) {
 +            return UINT64_MAX;
 +        }
 +        return (1ULL << (63 - clz64(addr_mask + 1))) - 1;
 +    }
-+
-+    if ((a->vn | a->vm | a->vd) & a->q) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    fn(a->size, rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
-+    return true;
 +}
 +
-+#define DO_3SAME(INSN, FUNC)                                            \
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-+    {                                                                   \
-+        return do_3same(s, a, FUNC);                                    \
-+    }
-+
-+DO_3SAME(VADD, tcg_gen_gvec_add)
-+DO_3SAME(VSUB, tcg_gen_gvec_sub)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             }
-             return 0;
--        case NEON_3R_VADD_VSUB:
--            if (u) {
--                tcg_gen_gvec_sub(size, rd_ofs, rn_ofs, rm_ofs,
--                                 vec_size, vec_size);
--            } else {
--                tcg_gen_gvec_add(size, rd_ofs, rn_ofs, rm_ofs,
--                                 vec_size, vec_size);
--            }
--            return 0;
--
-         case NEON_3R_VQADD:
-             tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                            rn_ofs, rm_ofs, vec_size, vec_size,
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
-                            u ? &ushl_op[size] : &sshl_op[size]);
-             return 0;
-+
-+        case NEON_3R_VADD_VSUB:
-+            /* Already handled by decodetree */
-+            return 1;
-         }
-         if (size == 3) {
 --
 .20.1

-[PULL 29/39] target/arm: Convert VFM[AS]L (scalar) to decodetree
+[PULL 05/39] virtio-iommu: Handle non power of 2 range invalidations
-Convert the VFM[AS]L (scalar) insns in the 2reg-scalar-ext group
+From: Eric Auger <eric.auger@redhat.com>
 to decodetree. These are the last ones in the group so we can remove
 all the legacy decode for the group.
-Note that in disas_thumb2_insn() the parts of this encoding space
+Unmap notifiers work with an address mask assuming an
-where the decodetree decoder returns false will correctly be directed
+invalidation range of a power of 2. Nothing mandates this
-to illegal_op by the "(insn & (1 << 28))" check so they won't fall
+in the VIRTIO-IOMMU spec.
 into disas_coproc_insn() by mistake.
+So in case the range is not a power of 2, split it into
+several invalidations.
+Signed-off-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Peter Xu <peterx@redhat.com>
+Message-id: 20210309102742.30442-4-eric.auger@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-11-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   |   7 +++
+ hw/virtio/virtio-iommu.c | 19 ++++++++++++++++---
- target/arm/translate-neon.inc.c |  32 ++++++++++
+file changed, 16 insertions(+), 3 deletions(-)
  target/arm/translate.c          | 107 +-------------------------------
 files changed, 40 insertions(+), 106 deletions(-)
-diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
+diff --git a/hw/virtio/virtio-iommu.c b/hw/virtio/virtio-iommu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/hw/virtio/virtio-iommu.c
-+++ b/target/arm/neon-shared.decode
++++ b/hw/virtio/virtio-iommu.c
-@@ -XXX,XX +XXX,XX @@ VCMLA_scalar   1111 1110 1 . rot:2 .... .... 1000 . q:1 . 0 .... \
+@@ -XXX,XX +XXX,XX @@ static void virtio_iommu_notify_unmap(IOMMUMemoryRegion *mr, hwaddr virt_start,
+                                       hwaddr virt_end)
- VDOT_scalar    1111 1110 0 . 10 .... .... 1101 . q:1 index:1 u:1 rm:4 \
+ {
-                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+     IOMMUTLBEvent event;
-+
++    uint64_t delta = virt_end - virt_start;
-+%vfml_scalar_q0_rm 0:3 5:1
-+%vfml_scalar_q1_index 5:1 3:1
+     if (!(mr->iommu_notify_flags & IOMMU_NOTIFIER_UNMAP)) {
-+VFML_scalar    1111 1110 0 . 0 s:1 .... .... 1000 . 0 . 1 index:1 ... \
+         return;
-+               rm=%vfml_scalar_q0_rm vn=%vn_sp vd=%vd_dp q=0
+@@ -XXX,XX +XXX,XX @@ static void virtio_iommu_notify_unmap(IOMMUMemoryRegion *mr, hwaddr virt_start,
-+VFML_scalar    1111 1110 0 . 0 s:1 .... .... 1000 . 1 . 1 . rm:3 \
-+               index=%vfml_scalar_q1_index vn=%vn_dp vd=%vd_dp q=1
+     event.type = IOMMU_NOTIFIER_UNMAP;
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+     event.entry.target_as = &address_space_memory;
-index XXXXXXX..XXXXXXX 100644
+-    event.entry.addr_mask = virt_end - virt_start;
---- a/target/arm/translate-neon.inc.c
+-    event.entry.iova = virt_start;
-+++ b/target/arm/translate-neon.inc.c
+     event.entry.perm = IOMMU_NONE;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VDOT_scalar(DisasContext *s, arg_VDOT_scalar *a)
+     event.entry.translated_addr = 0;
-     tcg_temp_free_ptr(fpst);
++    event.entry.addr_mask = delta;
-     return true;
++    event.entry.iova = virt_start;
- }
-+
+-    memory_region_notify_iommu(mr, 0, event);
-+static bool trans_VFML_scalar(DisasContext *s, arg_VFML_scalar *a)
++    if (delta == UINT64_MAX) {
-+{
++        memory_region_notify_iommu(mr, 0, event);
 +    int opr_sz;
 +
 +    if (!dc_isar_feature(aa32_fhm, s)) {
 +        return false;
 +    }
 +
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++    while (virt_start != virt_end + 1) {
-+        ((a->vd & 0x10) || (a->q && (a->vn & 0x10)))) {
++        uint64_t mask = dma_aligned_pow2_mask(virt_start, virt_end, 64);
-+        return false;
++
 +        event.entry.addr_mask = mask;
 +        event.entry.iova = virt_start;
 +        memory_region_notify_iommu(mr, 0, event);
 +        virt_start += mask + 1;
 +    }
-+
-+    if (a->vd & a->q) {
-+        return false;
-+    }
-+
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    opr_sz = (1 + a->q) * 8;
-+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
-+                       vfp_reg_offset(a->q, a->vn),
-+                       vfp_reg_offset(a->q, a->rm),
-+                       cpu_env, opr_sz, opr_sz,
-+                       (a->index << 2) | a->s, /* is_2 == 0 */
-+                       gen_helper_gvec_fmlal_idx_a32);
-+    return true;
-+}
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_dsp_insn(DisasContext *s, uint32_t insn)
  }
- #define VFP_REG_SHR(x, n) (((n) > 0) ? (x) >> (n) : (x) << -(n))
+ static gboolean virtio_iommu_notify_unmap_cb(gpointer key, gpointer value,
 -#define VFP_SREG(insn, bigbit, smallbit) \
 -  ((VFP_REG_SHR(insn, bigbit - 1) & 0x1e) | (((insn) >> (smallbit)) & 1))
  #define VFP_DREG(reg, insn, bigbit, smallbit) do { \
      if (dc_isar_feature(aa32_simd_r32, s)) { \
          reg = (((insn) >> (bigbit)) & 0x0f) \
@@ -XXX,XX +XXX,XX @@ static int disas_dsp_insn(DisasContext *s, uint32_t insn)
          reg = ((insn) >> (bigbit)) & 0x0f; \
      }} while (0)
 -#define VFP_SREG_D(insn) VFP_SREG(insn, 12, 22)
  #define VFP_DREG_D(reg, insn) VFP_DREG(reg, insn, 12, 22)
 -#define VFP_SREG_N(insn) VFP_SREG(insn, 16,  7)
  #define VFP_DREG_N(reg, insn) VFP_DREG(reg, insn, 16,  7)
 -#define VFP_SREG_M(insn) VFP_SREG(insn,  0,  5)
  #define VFP_DREG_M(reg, insn) VFP_DREG(reg, insn,  0,  5)
  static void gen_neon_dup_low16(TCGv_i32 var)
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      return 0;
  }
 -/* Advanced SIMD two registers and a scalar extension.
 - *  31             24   23  22   20   16   12  11   10   9    8        3     0
 - * +-----------------+----+---+----+----+----+---+----+---+----+---------+----+
 - * | 1 1 1 1 1 1 1 0 | o1 | D | o2 | Vn | Vd | 1 | o3 | 0 | o4 | N Q M U | Vm |
 - * +-----------------+----+---+----+----+----+---+----+---+----+---------+----+
 - *
 - */
 -
 -static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
 -{
 -    gen_helper_gvec_3 *fn_gvec = NULL;
 -    gen_helper_gvec_3_ptr *fn_gvec_ptr = NULL;
 -    int rd, rn, rm, opr_sz, data;
 -    int off_rn, off_rm;
 -    bool is_long = false, q = extract32(insn, 6, 1);
 -    bool ptr_is_env = false;
 -
 -    if ((insn & 0xffa00f10) == 0xfe000810) {
 -        /* VFM[AS]L -- 1111 1110 0.0S .... .... 1000 .Q.1 .... */
 -        int is_s = extract32(insn, 20, 1);
 -        int vm20 = extract32(insn, 0, 3);
 -        int vm3 = extract32(insn, 3, 1);
 -        int m = extract32(insn, 5, 1);
 -        int index;
 -
 -        if (!dc_isar_feature(aa32_fhm, s)) {
 -            return 1;
 -        }
 -        if (q) {
 -            rm = vm20;
 -            index = m * 2 + vm3;
 -        } else {
 -            rm = vm20 * 2 + m;
 -            index = vm3;
 -        }
 -        is_long = true;
 -        data = (index << 2) | is_s; /* is_2 == 0 */
 -        fn_gvec_ptr = gen_helper_gvec_fmlal_idx_a32;
 -        ptr_is_env = true;
 -    } else {
 -        return 1;
 -    }
 -
 -    VFP_DREG_D(rd, insn);
 -    if (rd & q) {
 -        return 1;
 -    }
 -    if (q || !is_long) {
 -        VFP_DREG_N(rn, insn);
 -        if (rn & q & !is_long) {
 -            return 1;
 -        }
 -        off_rn = vfp_reg_offset(1, rn);
 -        off_rm = vfp_reg_offset(1, rm);
 -    } else {
 -        rn = VFP_SREG_N(insn);
 -        off_rn = vfp_reg_offset(0, rn);
 -        off_rm = vfp_reg_offset(0, rm);
 -    }
 -    if (s->fp_excp_el) {
 -        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
 -                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
 -        return 0;
 -    }
 -    if (!s->vfp_enabled) {
 -        return 1;
 -    }
 -
 -    opr_sz = (1 + q) * 8;
 -    if (fn_gvec_ptr) {
 -        TCGv_ptr ptr;
 -        if (ptr_is_env) {
 -            ptr = cpu_env;
 -        } else {
 -            ptr = get_fpstatus_ptr(1);
 -        }
 -        tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd), off_rn, off_rm, ptr,
 -                           opr_sz, opr_sz, data, fn_gvec_ptr);
 -        if (!ptr_is_env) {
 -            tcg_temp_free_ptr(ptr);
 -        }
 -    } else {
 -        tcg_gen_gvec_3_ool(vfp_reg_offset(1, rd), off_rn, off_rm,
 -                           opr_sz, opr_sz, data, fn_gvec);
 -    }
 -    return 0;
 -}
 -
  static int disas_coproc_insn(DisasContext *s, uint32_t insn)
  {
      int cpnum, is64, crn, crm, opc1, opc2, isread, rt, rt2;
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
                      }
                  }
              }
 -        } else if ((insn & 0x0f000a00) == 0x0e000800
 -                   && arm_dc_feature(s, ARM_FEATURE_V8)) {
 -            if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
 -                goto illegal_op;
 -            }
 -            return;
          }
          goto illegal_op;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
              }
              break;
          }
 -        if ((insn & 0xff000a00) == 0xfe000800
 -            && arm_dc_feature(s, ARM_FEATURE_V8)) {
 -            /* The Thumb2 and ARM encodings are identical.  */
 -            if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
 -                goto illegal_op;
 -            }
 -        } else if (((insn >> 24) & 3) == 3) {
 +        if (((insn >> 24) & 3) == 3) {
              /* Translate into the equivalent ARM encoding.  */
              insn = (insn & 0xe2ffffff) | ((insn & (1 << 28)) >> 4) | (1 << 28);
              if (disas_neon_data_insn(s, insn)) {
 --
 .20.1

-[PULL 01/39] target/arm: Make VQDMULL undefined when U=1
+[PULL 06/39] hw/arm/smmu-common: Fix smmu_iotlb_inv_iova when asid is not set
-From: Fredrik Strupe <fredrik@strupe.net>
+From: Eric Auger <eric.auger@redhat.com>
-According to Arm ARM, VQDMULL is only valid when U=0, while having
+If the asid is not set, do not attempt to locate the key directly
-U=1 is unallocated.
+as all inserted keys have a valid asid.
-Signed-off-by: Fredrik Strupe <fredrik@strupe.net>
+Use g_hash_table_foreach_remove instead.
-Fixes: 695272dcb976 ("target-arm: Handle UNDEF cases for Neon 3-regs-different-widths")
 Signed-off-by: Eric Auger <eric.auger@redhat.com>
 Message-id: 20210309102742.30442-5-eric.auger@redhat.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 2 +-
+ hw/arm/smmu-common.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/smmu-common.c
-+++ b/target/arm/translate.c
++++ b/hw/arm/smmu-common.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ inline void
-                     {0, 0, 0, 0}, /* VMLSL */
+ smmu_iotlb_inv_iova(SMMUState *s, int asid, dma_addr_t iova,
-                     {0, 0, 0, 9}, /* VQDMLSL */
+                     uint8_t tg, uint64_t num_pages, uint8_t ttl)
-                     {0, 0, 0, 0}, /* Integer VMULL */
+ {
--                    {0, 0, 0, 1}, /* VQDMULL */
+-    if (ttl && (num_pages == 1)) {
-+                    {0, 0, 0, 9}, /* VQDMULL */
++    if (ttl && (num_pages == 1) && (asid >= 0)) {
-                     {0, 0, 0, 0xa}, /* Polynomial VMULL */
+         SMMUIOTLBKey key = smmu_get_iotlb_key(asid, iova, tg, ttl);
-                     {0, 0, 0, 7}, /* Reserved: always UNDEF */
-                 };
+         g_hash_table_remove(s->iotlb, &key);
 --
 .20.1

-[PULL 15/39] hw/arm: versal: Embed the APUs into the SoC type
+[PULL 07/39] hw/arm/smmuv3: Enforce invalidation on a power of two range
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Eric Auger <eric.auger@redhat.com>
-Embed the APUs into the SoC type.
+As of today, the driver can invalidate a number of pages that is
 not a power of 2. However IOTLB unmap notifications and internal
 IOTLB invalidations work with masks leading to erroneous
 invalidations.
-Suggested-by: Peter Maydell <peter.maydell@linaro.org>
+In case the range is not a power of 2, split invalidations into
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+power of 2 invalidations.
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+When looking for a single page entry in the vSMMU internal IOTLB,
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+let's make sure that if the entry is not found using a
-Message-id: 20200427181649.26851-8-edgar.iglesias@gmail.com
+g_hash_table_remove() we iterate over all the entries to find a
 potential range that overlaps it.
 Signed-off-by: Eric Auger <eric.auger@redhat.com>
 Message-id: 20210309102742.30442-6-eric.auger@redhat.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/arm/xlnx-versal.h |  2 +-
+ hw/arm/smmu-common.c | 30 ++++++++++++++++++------------
- hw/arm/xlnx-versal-virt.c    |  4 ++--
+ hw/arm/smmuv3.c      | 24 ++++++++++++++++++++----
- hw/arm/xlnx-versal.c         | 19 +++++--------------
+files changed, 38 insertions(+), 16 deletions(-)
 files changed, 8 insertions(+), 17 deletions(-)
-diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
+diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/xlnx-versal.h
+--- a/hw/arm/smmu-common.c
-+++ b/include/hw/arm/xlnx-versal.h
++++ b/hw/arm/smmu-common.c
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
+@@ -XXX,XX +XXX,XX @@ inline void
-     struct {
+ smmu_iotlb_inv_iova(SMMUState *s, int asid, dma_addr_t iova,
-         struct {
+                     uint8_t tg, uint64_t num_pages, uint8_t ttl)
-             MemoryRegion mr;
+ {
--            ARMCPU *cpu[XLNX_VERSAL_NR_ACPUS];
++    /* if tg is not set we use 4KB range invalidation */
-+            ARMCPU cpu[XLNX_VERSAL_NR_ACPUS];
++    uint8_t granule = tg ? tg * 2 + 10 : 12;
-             GICv3State gic;
++
-         } apu;
+     if (ttl && (num_pages == 1) && (asid >= 0)) {
-     } fpd;
+         SMMUIOTLBKey key = smmu_get_iotlb_key(asid, iova, tg, ttl);
-diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
 -        g_hash_table_remove(s->iotlb, &key);
 -    } else {
 -        /* if tg is not set we use 4KB range invalidation */
 -        uint8_t granule = tg ? tg * 2 + 10 : 12;
 -
 -        SMMUIOTLBPageInvInfo info = {
 -            .asid = asid, .iova = iova,
 -            .mask = (num_pages * 1 << granule) - 1};
 -
 -        g_hash_table_foreach_remove(s->iotlb,
 -                                    smmu_hash_remove_by_asid_iova,
 -                                    &info);
 +        if (g_hash_table_remove(s->iotlb, &key)) {
 +            return;
 +        }
 +        /*
 +         * if the entry is not found, let's see if it does not
 +         * belong to a larger IOTLB entry
 +         */
      }
 +
 +    SMMUIOTLBPageInvInfo info = {
 +        .asid = asid, .iova = iova,
 +        .mask = (num_pages * 1 << granule) - 1};
 +
 +    g_hash_table_foreach_remove(s->iotlb,
 +                                smmu_hash_remove_by_asid_iova,
 +                                &info);
  }
  inline void smmu_iotlb_inv_asid(SMMUState *s, uint16_t asid)
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal-virt.c
+--- a/hw/arm/smmuv3.c
-+++ b/hw/arm/xlnx-versal-virt.c
++++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
-     s->binfo.get_dtb = versal_virt_get_dtb;
+     uint16_t vmid = CMD_VMID(cmd);
-     s->binfo.modify_dtb = versal_virt_modify_dtb;
+     bool leaf = CMD_LEAF(cmd);
-     if (machine->kernel_filename) {
+     uint8_t tg = CMD_TG(cmd);
--        arm_load_kernel(s->soc.fpd.apu.cpu[0], machine, &s->binfo);
+-    hwaddr num_pages = 1;
-+        arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
++    uint64_t first_page = 0, last_page;
-     } else {
++    uint64_t num_pages = 1;
--        AddressSpace *as = arm_boot_address_space(s->soc.fpd.apu.cpu[0],
+     int asid = -1;
-+        AddressSpace *as = arm_boot_address_space(&s->soc.fpd.apu.cpu[0],
-                                                   &s->binfo);
+     if (tg) {
-         /* Some boot-loaders (e.g u-boot) don't like blobs at address 0 (NULL).
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
-          * Offset things by 4K.  */
+     if (type == SMMU_CMD_TLBI_NH_VA) {
-diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
+         asid = CMD_ASID(cmd);
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/xlnx-versal.c
 +++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
      for (i = 0; i < ARRAY_SIZE(s->fpd.apu.cpu); i++) {
          Object *obj;
 -        char *name;
 -
 -        obj = object_new(XLNX_VERSAL_ACPU_TYPE);
 -        if (!obj) {
 -            error_report("Unable to create apu.cpu[%d] of type %s",
 -                         i, XLNX_VERSAL_ACPU_TYPE);
 -            exit(EXIT_FAILURE);
 -        }
 -
 -        name = g_strdup_printf("apu-cpu[%d]", i);
 -        object_property_add_child(OBJECT(s), name, obj, &error_fatal);
 -        g_free(name);
 +        object_initialize_child(OBJECT(s), "apu-cpu[*]",
 +                                &s->fpd.apu.cpu[i], sizeof(s->fpd.apu.cpu[i]),
 +                                XLNX_VERSAL_ACPU_TYPE, &error_abort, NULL);
 +        obj = OBJECT(&s->fpd.apu.cpu[i]);
          object_property_set_int(obj, s->cfg.psci_conduit,
                                  "psci-conduit", &error_abort);
          if (i) {
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
          object_property_set_link(obj, OBJECT(&s->fpd.apu.mr), "memory",
                                   &error_abort);
          object_property_set_bool(obj, true, "realized", &error_fatal);
 -        s->fpd.apu.cpu[i] = ARM_CPU(obj);
      }
+-    trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, num_pages, ttl, leaf);
+-    smmuv3_inv_notifiers_iova(s, asid, addr, tg, num_pages);
+-    smmu_iotlb_inv_iova(s, asid, addr, tg, num_pages, ttl);
++
++    /* Split invalidations into ^2 range invalidations */
++    last_page = num_pages - 1;
++    while (num_pages) {
++        uint8_t granule = tg * 2 + 10;
++        uint64_t mask, count;
++
++        mask = dma_aligned_pow2_mask(first_page, last_page, 64 - granule);
++        count = mask + 1;
++
++        trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, count, ttl, leaf);
++        smmuv3_inv_notifiers_iova(s, asid, addr, tg, count);
++        smmu_iotlb_inv_iova(s, asid, addr, tg, count, ttl);
++
++        num_pages -= count;
++        first_page += count;
++        addr += count * BIT_ULL(granule);
++    }
  }
-@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_gic(Versal *s, qemu_irq *pic)
+ static int smmuv3_cmdq_consume(SMMUv3State *s)
      }
      for (i = 0; i < nr_apu_cpus; i++) {
 -        DeviceState *cpudev = DEVICE(s->fpd.apu.cpu[i]);
 +        DeviceState *cpudev = DEVICE(&s->fpd.apu.cpu[i]);
          int ppibase = XLNX_VERSAL_NR_IRQS + i * GIC_INTERNAL + GIC_NR_SGIS;
          qemu_irq maint_irq;
          int ti;
 --
 .20.1

-[PULL 31/39] target/arm: Convert Neon 'load single structure to all lanes' to decodetree
+[PULL 08/39] hw/arm/smmuv3: Fix SMMU_CMD_CFGI_STE_RANGE handling
-Convert the Neon "load single structure to all lanes" insns to
+From: Eric Auger <eric.auger@redhat.com>
 decodetree.
+If the whole SID range (32b) is invalidated (SMMU_CMD_CFGI_ALL),
+@end overflows and we fail to handle the command properly.
+Once this gets fixed, the current code really is awkward in the
+sense it loops over the whole range instead of removing the
+currently cached configs through a hash table lookup.
+Fix both the overflow and the lookup.
+Signed-off-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20210309102742.30442-7-eric.auger@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-13-peter.maydell@linaro.org
 ---
- target/arm/neon-ls.decode       |  5 +++
+ hw/arm/smmu-internal.h |  5 +++++
- target/arm/translate-neon.inc.c | 73 +++++++++++++++++++++++++++++++++
+ hw/arm/smmuv3.c        | 34 ++++++++++++++++++++--------------
- target/arm/translate.c          | 55 +------------------------
+files changed, 25 insertions(+), 14 deletions(-)
 files changed, 80 insertions(+), 53 deletions(-)
-diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
+diff --git a/hw/arm/smmu-internal.h b/hw/arm/smmu-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-ls.decode
+--- a/hw/arm/smmu-internal.h
-+++ b/target/arm/neon-ls.decode
++++ b/hw/arm/smmu-internal.h
@@ -XXX,XX +XXX,XX @@ typedef struct SMMUIOTLBPageInvInfo {
      uint64_t mask;
  } SMMUIOTLBPageInvInfo;
 +typedef struct SMMUSIDRange {
 +    uint32_t start;
 +    uint32_t end;
 +} SMMUSIDRange;
 +
  #endif
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmuv3.c
 +++ b/hw/arm/smmuv3.c
 @@ -XXX,XX +XXX,XX @@
- VLDST_multiple 1111 0100 0 . l:1 0 rn:4 .... itype:4 size:2 align:2 rm:4 \
+ #include "hw/arm/smmuv3.h"
-                vd=%vd_dp
+ #include "smmuv3-internal.h"
 +#include "smmu-internal.h"
  /**
   * smmuv3_trigger_irq - pulse @irq if enabled and update
@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
      }
  }
 +static gboolean
 +smmuv3_invalidate_ste(gpointer key, gpointer value, gpointer user_data)
 +{
 +    SMMUDevice *sdev = (SMMUDevice *)key;
 +    uint32_t sid = smmu_get_sid(sdev);
 +    SMMUSIDRange *sid_range = (SMMUSIDRange *)user_data;
 +
-+# Neon load single element to all lanes
++    if (sid < sid_range->start || sid > sid_range->end) {
 +
 +VLD_all_lanes  1111 0100 1 . 1 0 rn:4 .... 11 n:2 size:2 t:1 a:1 rm:4 \
 +               vd=%vd_dp
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
      gen_neon_ldst_base_update(s, a->rm, a->rn, nregs * interleave * 8);
      return true;
  }
 +
 +static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
 +{
 +    /* Neon load single structure to all lanes */
 +    int reg, stride, vec_size;
 +    int vd = a->vd;
 +    int size = a->size;
 +    int nregs = a->n + 1;
 +    TCGv_i32 addr, tmp;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
 +    }
-+
++    trace_smmuv3_config_cache_inv(sid);
 +    /* UNDEF accesses to D16-D31 if they don't exist */
 +    if (!dc_isar_feature(aa32_simd_r32, s) && (a->vd & 0x10)) {
 +        return false;
 +    }
 +
 +    if (size == 3) {
 +        if (nregs != 4 || a->a == 0) {
 +            return false;
 +        }
 +        /* For VLD4 size == 3 a == 1 means 32 bits at 16 byte alignment */
 +        size = 2;
 +    }
 +    if (nregs == 1 && a->a == 1 && size == 0) {
 +        return false;
 +    }
 +    if (nregs == 3 && a->a == 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    /*
 +     * VLD1 to all lanes: T bit indicates how many Dregs to write.
 +     * VLD2/3/4 to all lanes: T bit indicates register stride.
 +     */
 +    stride = a->t ? 2 : 1;
 +    vec_size = nregs == 1 ? stride * 8 : 8;
 +
 +    tmp = tcg_temp_new_i32();
 +    addr = tcg_temp_new_i32();
 +    load_reg_var(s, addr, a->rn);
 +    for (reg = 0; reg < nregs; reg++) {
 +        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
 +                        s->be_data | size);
 +        if ((vd & 1) && vec_size == 16) {
 +            /*
 +             * We cannot write 16 bytes at once because the
 +             * destination is unaligned.
 +             */
 +            tcg_gen_gvec_dup_i32(size, neon_reg_offset(vd, 0),
 +                                 8, 8, tmp);
 +            tcg_gen_gvec_mov(0, neon_reg_offset(vd + 1, 0),
 +                             neon_reg_offset(vd, 0), 8, 8);
 +        } else {
 +            tcg_gen_gvec_dup_i32(size, neon_reg_offset(vd, 0),
 +                                 vec_size, vec_size, tmp);
 +        }
 +        tcg_gen_addi_i32(addr, addr, 1 << size);
 +        vd += stride;
 +    }
 +    tcg_temp_free_i32(tmp);
 +    tcg_temp_free_i32(addr);
 +
 +    gen_neon_ldst_base_update(s, a->rm, a->rn, (1 << size) * nregs);
 +
 +    return true;
 +}
-diff --git a/target/arm/translate.c b/target/arm/translate.c
++
-index XXXXXXX..XXXXXXX 100644
+ static int smmuv3_cmdq_consume(SMMUv3State *s)
---- a/target/arm/translate.c
+ {
-+++ b/target/arm/translate.c
+     SMMUState *bs = ARM_SMMU(s);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int smmuv3_cmdq_consume(SMMUv3State *s)
-     int size;
+         }
-     int reg;
+         case SMMU_CMD_CFGI_STE_RANGE: /* same as SMMU_CMD_CFGI_ALL */
-     int load;
+         {
--    int vec_size;
+-            uint32_t start = CMD_SID(&cmd), end, i;
-     TCGv_i32 addr;
++            uint32_t start = CMD_SID(&cmd);
-     TCGv_i32 tmp;
+             uint8_t range = CMD_STE_RANGE(&cmd);
++            uint64_t end = start + (1ULL << (range + 1)) - 1;
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
++            SMMUSIDRange sid_range = {start, end};
-     } else {
-         size = (insn >> 10) & 3;
+             if (CMD_SSEC(&cmd)) {
-         if (size == 3) {
+                 cmd_error = SMMU_CERROR_ILL;
--            /* Load single element to all lanes.  */
+                 break;
--            int a = (insn >> 4) & 1;
+             }
--            if (!load) {
+-
--                return 1;
+-            end = start + (1 << (range + 1)) - 1;
              trace_smmuv3_cmdq_cfgi_ste_range(start, end);
 -
 -            for (i = start; i <= end; i++) {
 -                IOMMUMemoryRegion *mr = smmu_iommu_mr(bs, i);
 -                SMMUDevice *sdev;
 -
 -                if (!mr) {
 -                    continue;
 -                }
 -                sdev = container_of(mr, SMMUDevice, iommu);
 -                smmuv3_flush_config(sdev);
 -            }
--            size = (insn >> 6) & 3;
++            g_hash_table_foreach_remove(bs->configs, smmuv3_invalidate_ste,
--            nregs = ((insn >> 8) & 3) + 1;
++                                        &sid_range);
--
+             break;
--            if (size == 3) {
+         }
--                if (nregs != 4 || a == 0) {
+         case SMMU_CMD_CFGI_CD:
 -                    return 1;
 -                }
 -                /* For VLD4 size==3 a == 1 means 32 bits at 16 byte alignment */
 -                size = 2;
 -            }
 -            if (nregs == 1 && a == 1 && size == 0) {
 -                return 1;
 -            }
 -            if (nregs == 3 && a == 1) {
 -                return 1;
 -            }
 -            addr = tcg_temp_new_i32();
 -            load_reg_var(s, addr, rn);
 -
 -            /* VLD1 to all lanes: bit 5 indicates how many Dregs to write.
 -             * VLD2/3/4 to all lanes: bit 5 indicates register stride.
 -             */
 -            stride = (insn & (1 << 5)) ? 2 : 1;
 -            vec_size = nregs == 1 ? stride * 8 : 8;
 -
 -            tmp = tcg_temp_new_i32();
 -            for (reg = 0; reg < nregs; reg++) {
 -                gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
 -                                s->be_data | size);
 -                if ((rd & 1) && vec_size == 16) {
 -                    /* We cannot write 16 bytes at once because the
 -                     * destination is unaligned.
 -                     */
 -                    tcg_gen_gvec_dup_i32(size, neon_reg_offset(rd, 0),
 -                                         8, 8, tmp);
 -                    tcg_gen_gvec_mov(0, neon_reg_offset(rd + 1, 0),
 -                                     neon_reg_offset(rd, 0), 8, 8);
 -                } else {
 -                    tcg_gen_gvec_dup_i32(size, neon_reg_offset(rd, 0),
 -                                         vec_size, vec_size, tmp);
 -                }
 -                tcg_gen_addi_i32(addr, addr, 1 << size);
 -                rd += stride;
 -            }
 -            tcg_temp_free_i32(tmp);
 -            tcg_temp_free_i32(addr);
 -            stride = (1 << size) * nregs;
 +            /* Load single element to all lanes -- handled by decodetree  */
 +            return 1;
          } else {
              /* Single element.  */
              int idx = (insn >> 4) & 0xf;
 --
 .20.1

-[PULL 36/39] target/arm: Convert Neon 3-reg-same comparisons to decodetree
+[PULL 09/39] hw/arm/smmuv3: Uniformize sid traces
-Convert the Neon comparison ops in the 3-reg-same grouping
+From: Eric Auger <eric.auger@redhat.com>
 to decodetree.
+Convert all sid printouts to sid=0x%x.
+Signed-off-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Message-id: 20210309102742.30442-8-eric.auger@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-18-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  8 ++++++++
+ hw/arm/trace-events | 24 ++++++++++++------------
- target/arm/translate-neon.inc.c | 22 ++++++++++++++++++++++
+file changed, 12 insertions(+), 12 deletions(-)
  target/arm/translate.c          | 23 +++--------------------
 files changed, 33 insertions(+), 20 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/arm/trace-events b/hw/arm/trace-events
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/arm/trace-events
-+++ b/target/arm/neon-dp.decode
++++ b/hw/arm/trace-events
-@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
+@@ -XXX,XX +XXX,XX @@ smmuv3_cmdq_opcode(const char *opcode) "<--- %s"
- VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+ smmuv3_cmdq_consume_out(uint32_t prod, uint32_t cons, uint8_t prod_wrap, uint8_t cons_wrap) "prod:%d, cons:%d, prod_wrap:%d, cons_wrap:%d "
- VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
+ smmuv3_cmdq_consume_error(const char *cmd_name, uint8_t cmd_error) "Error on %s command execution: %d"
+ smmuv3_write_mmio(uint64_t addr, uint64_t val, unsigned size, uint32_t r) "addr: 0x%"PRIx64" val:0x%"PRIx64" size: 0x%x(%d)"
-+VCGT_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 0 .... @3same
+-smmuv3_record_event(const char *type, uint32_t sid) "%s sid=%d"
-+VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
+-smmuv3_find_ste(uint16_t sid, uint32_t features, uint16_t sid_split) "SID:0x%x features:0x%x, sid_split:0x%x"
-+VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
++smmuv3_record_event(const char *type, uint32_t sid) "%s sid=0x%x"
-+VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
++smmuv3_find_ste(uint16_t sid, uint32_t features, uint16_t sid_split) "sid=0x%x features:0x%x, sid_split:0x%x"
-+
+ smmuv3_find_ste_2lvl(uint64_t strtab_base, uint64_t l1ptr, int l1_ste_offset, uint64_t l2ptr, int l2_ste_offset, int max_l2_ste) "strtab_base:0x%"PRIx64" l1ptr:0x%"PRIx64" l1_off:0x%x, l2ptr:0x%"PRIx64" l2_off:0x%x max_l2_ste:%d"
- VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
+ smmuv3_get_ste(uint64_t addr) "STE addr: 0x%"PRIx64
- VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
+-smmuv3_translate_disable(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=%d bypass (smmu disabled) iova:0x%"PRIx64" is_write=%d"
- VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
+-smmuv3_translate_bypass(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=%d STE bypass iova:0x%"PRIx64" is_write=%d"
-@@ -XXX,XX +XXX,XX @@ VMIN_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 1 .... @3same
+-smmuv3_translate_abort(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=%d abort on iova:0x%"PRIx64" is_write=%d"
+-smmuv3_translate_success(const char *n, uint16_t sid, uint64_t iova, uint64_t translated, int perm) "%s sid=%d iova=0x%"PRIx64" translated=0x%"PRIx64" perm=0x%x"
- VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
++smmuv3_translate_disable(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=0x%x bypass (smmu disabled) iova:0x%"PRIx64" is_write=%d"
- VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
++smmuv3_translate_bypass(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=0x%x STE bypass iova:0x%"PRIx64" is_write=%d"
-+
++smmuv3_translate_abort(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=0x%x abort on iova:0x%"PRIx64" is_write=%d"
-+VTST_3s          1111 001 0 0 . .. .... .... 1000 . . . 1 .... @3same
++smmuv3_translate_success(const char *n, uint16_t sid, uint64_t iova, uint64_t translated, int perm) "%s sid=0x%x iova=0x%"PRIx64" translated=0x%"PRIx64" perm=0x%x"
-+VCEQ_3s          1111 001 1 0 . .. .... .... 1000 . . . 1 .... @3same
+ smmuv3_get_cd(uint64_t addr) "CD addr: 0x%"PRIx64
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+ smmuv3_decode_cd(uint32_t oas) "oas=%d"
-index XXXXXXX..XXXXXXX 100644
+ smmuv3_decode_cd_tt(int i, uint32_t tsz, uint64_t ttb, uint32_t granule_sz, bool had) "TT[%d]:tsz:%d ttb:0x%"PRIx64" granule_sz:%d had:%d"
---- a/target/arm/translate-neon.inc.c
+-smmuv3_cmdq_cfgi_ste(int streamid) "streamid =%d"
-+++ b/target/arm/translate-neon.inc.c
++smmuv3_cmdq_cfgi_ste(int streamid) "streamid= 0x%x"
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMAX_S, tcg_gen_gvec_smax)
+ smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%x - end=0x%x"
- DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
+-smmuv3_cmdq_cfgi_cd(uint32_t sid) "streamid = %d"
- DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
+-smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid %d (hits=%d, misses=%d, hit rate=%d)"
- DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
+-smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid %d (hits=%d, misses=%d, hit rate=%d)"
-+
+-smmuv3_s1_range_inval(int vmid, int asid, uint64_t addr, uint8_t tg, uint64_t num_pages, uint8_t ttl, bool leaf) "vmid =%d asid =%d addr=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64" ttl=%d leaf=%d"
-+#define DO_3SAME_CMP(INSN, COND)                                        \
++smmuv3_cmdq_cfgi_cd(uint32_t sid) "sid=0x%x"
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
++smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid=0x%x (hits=%d, misses=%d, hit rate=%d)"
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
++smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid=0x%x (hits=%d, misses=%d, hit rate=%d)"
-+                                uint32_t oprsz, uint32_t maxsz)         \
++smmuv3_s1_range_inval(int vmid, int asid, uint64_t addr, uint8_t tg, uint64_t num_pages, uint8_t ttl, bool leaf) "vmid=%d asid=%d addr=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64" ttl=%d leaf=%d"
-+    {                                                                   \
+ smmuv3_cmdq_tlbi_nh(void) ""
-+        tcg_gen_gvec_cmp(COND, vece, rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz); \
+ smmuv3_cmdq_tlbi_nh_asid(uint16_t asid) "asid=%d"
-+    }                                                                   \
+-smmuv3_config_cache_inv(uint32_t sid) "Config cache INV for sid %d"
-+    DO_3SAME_NO_SZ_3(INSN, gen_##INSN##_3s)
++smmuv3_config_cache_inv(uint32_t sid) "Config cache INV for sid=0x%x"
-+
+ smmuv3_notify_flag_add(const char *iommu) "ADD SMMUNotifier node for iommu mr=%s"
-+DO_3SAME_CMP(VCGT_S, TCG_COND_GT)
+ smmuv3_notify_flag_del(const char *iommu) "DEL SMMUNotifier node for iommu mr=%s"
-+DO_3SAME_CMP(VCGT_U, TCG_COND_GTU)
+ smmuv3_inv_notifiers_iova(const char *name, uint16_t asid, uint64_t iova, uint8_t tg, uint64_t num_pages) "iommu mr=%s asid=%d iova=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64
 +DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
 +DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
 +DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
 +
 +static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                         uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
 +{
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
 +}
 +DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             u ? &mls_op[size] : &mla_op[size]);
              return 0;
 -        case NEON_3R_VTST_VCEQ:
 -            if (u) { /* VCEQ */
 -                tcg_gen_gvec_cmp(TCG_COND_EQ, size, rd_ofs, rn_ofs, rm_ofs,
 -                                 vec_size, vec_size);
 -            } else { /* VTST */
 -                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
 -                               vec_size, vec_size, &cmtst_op[size]);
 -            }
 -            return 0;
 -
 -        case NEON_3R_VCGT:
 -            tcg_gen_gvec_cmp(u ? TCG_COND_GTU : TCG_COND_GT, size,
 -                             rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
 -            return 0;
 -
 -        case NEON_3R_VCGE:
 -            tcg_gen_gvec_cmp(u ? TCG_COND_GEU : TCG_COND_GE, size,
 -                             rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
 -            return 0;
 -
          case NEON_3R_VSHL:
              /* Note the operation is vshl vd,vm,vn */
              tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_LOGIC:
          case NEON_3R_VMAX:
          case NEON_3R_VMIN:
 +        case NEON_3R_VTST_VCEQ:
 +        case NEON_3R_VCGT:
 +        case NEON_3R_VCGE:
              /* Already handled by decodetree */
              return 1;
          }
 --
 .20.1

-[PULL 04/39] target/arm: Use enum constant in get_phys_addr_lpae() call
+[PULL 10/39] target/arm: Fix sve_uzp_p vs odd vector lengths
-The access_type argument to get_phys_addr_lpae() is an MMUAccessType;
+From: Richard Henderson <richard.henderson@linaro.org>
 use the enum constant MMU_DATA_LOAD rather than a literal 0 when we
 call it in S1_ptw_translate().
+Missed out on compressing the second half of a predicate
+with length vl % 512 > 256.
+Adjust all of the x + (y << s) to x | (y << s) as a
+general style fix.  Drop the extract64 because the input
+uint64_t are known to be already zero-extended from the
+current size of the predicate.
+Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210309155305.11301-2-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200330210400.11724-3-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 5 +++--
+ target/arm/sve_helper.c | 30 +++++++++++++++++++++---------
-file changed, 3 insertions(+), 2 deletions(-)
+file changed, 21 insertions(+), 9 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/sve_helper.c
-+++ b/target/arm/helper.c
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uzp_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
-             pcacheattrs = &cacheattrs;
+     if (oprsz <= 8) {
          l = compress_bits(n[0] >> odd, esz);
          h = compress_bits(m[0] >> odd, esz);
 -        d[0] = extract64(l + (h << (4 * oprsz)), 0, 8 * oprsz);
 +        d[0] = l | (h << (4 * oprsz));
      } else {
          ARMPredicateReg tmp_m;
          intptr_t oprsz_16 = oprsz / 16;
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uzp_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
              h = n[2 * i + 1];
              l = compress_bits(l >> odd, esz);
              h = compress_bits(h >> odd, esz);
 -            d[i] = l + (h << 32);
 +            d[i] = l | (h << 32);
          }
--        ret = get_phys_addr_lpae(env, addr, 0, ARMMMUIdx_Stage2, &s2pa,
+-        /* For VL which is not a power of 2, the results from M do not
--                                 &txattrs, &s2prot, &s2size, fi, pcacheattrs);
+-           align nicely with the uint64_t for D.  Put the aligned results
-+        ret = get_phys_addr_lpae(env, addr, MMU_DATA_LOAD, ARMMMUIdx_Stage2,
+-           from M into TMP_M and then copy it into place afterward.  */
-+                                 &s2pa, &txattrs, &s2prot, &s2size, fi,
++        /*
-+                                 pcacheattrs);
++         * For VL which is not a multiple of 512, the results from M do not
-         if (ret) {
++         * align nicely with the uint64_t for D.  Put the aligned results
-             assert(fi->type != ARMFault_None);
++         * from M into TMP_M and then copy it into place afterward.
-             fi->s2addr = addr;
++         */
          if (oprsz & 15) {
 -            d[i] = compress_bits(n[2 * i] >> odd, esz);
 +            int final_shift = (oprsz & 15) * 2;
 +
 +            l = n[2 * i + 0];
 +            h = n[2 * i + 1];
 +            l = compress_bits(l >> odd, esz);
 +            h = compress_bits(h >> odd, esz);
 +            d[i] = l | (h << final_shift);
              for (i = 0; i < oprsz_16; i++) {
                  l = m[2 * i + 0];
                  h = m[2 * i + 1];
                  l = compress_bits(l >> odd, esz);
                  h = compress_bits(h >> odd, esz);
 -                tmp_m.p[i] = l + (h << 32);
 +                tmp_m.p[i] = l | (h << 32);
              }
 -            tmp_m.p[i] = compress_bits(m[2 * i] >> odd, esz);
 +            l = m[2 * i + 0];
 +            h = m[2 * i + 1];
 +            l = compress_bits(l >> odd, esz);
 +            h = compress_bits(h >> odd, esz);
 +            tmp_m.p[i] = l | (h << final_shift);
              swap_memmove(vd + oprsz / 2, &tmp_m, oprsz / 2);
          } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uzp_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
                  h = m[2 * i + 1];
                  l = compress_bits(l >> odd, esz);
                  h = compress_bits(h >> odd, esz);
 -                d[oprsz_16 + i] = l + (h << 32);
 +                d[oprsz_16 + i] = l | (h << 32);
              }
          }
      }
 --
 .20.1

-[PULL 35/39] target/arm: Convert Neon 3-reg-same VMAX/VMIN to decodetree
+[PULL 11/39] target/arm: Fix sve_zip_p vs odd vector lengths
-Convert the Neon 3-reg-same VMAX and VMIN insns to decodetree.
+From: Richard Henderson <richard.henderson@linaro.org>
+Wrote too much with low-half zip (zip1) with vl % 512 != 0.
+Adjust all of the x + (y << s) to x | (y << s) as a style fix.
+We only ever have exact overlap between D, M, and N.  Therefore
+we only need a single temporary, and we do not need to check for
+partial overlap.
+Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210309155305.11301-3-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-17-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  5 +++++
+ target/arm/sve_helper.c | 25 ++++++++++++++-----------
- target/arm/translate-neon.inc.c | 14 ++++++++++++++
+file changed, 14 insertions(+), 11 deletions(-)
  target/arm/translate.c          | 21 ++-------------------
 files changed, 21 insertions(+), 19 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/sve_helper.c
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_zip_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
- VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+     intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
- VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
+     int esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
+     intptr_t high = FIELD_EX32(pred_desc, PREDDESC, DATA);
-+VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
++    int esize = 1 << esz;
-+VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
+     uint64_t *d = vd;
-+VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
+     intptr_t i;
-+VMIN_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 1 .... @3same
-+
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_zip_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
- VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
+         mm = extract64(mm, high * half, half);
- VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
+         nn = expand_bits(nn, esz);
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+         mm = expand_bits(mm, esz);
-index XXXXXXX..XXXXXXX 100644
+-        d[0] = nn + (mm << (1 << esz));
---- a/target/arm/translate-neon.inc.c
++        d[0] = nn | (mm << esize);
-+++ b/target/arm/translate-neon.inc.c
+     } else {
-@@ -XXX,XX +XXX,XX @@ DO_3SAME(VEOR, tcg_gen_gvec_xor)
+-        ARMPredicateReg tmp_n, tmp_m;
- DO_3SAME_BITSEL(VBSL, rd_ofs, rn_ofs, rm_ofs)
++        ARMPredicateReg tmp;
- DO_3SAME_BITSEL(VBIT, rm_ofs, rn_ofs, rd_ofs)
- DO_3SAME_BITSEL(VBIF, rm_ofs, rd_ofs, rn_ofs)
+         /* We produce output faster than we consume input.
-+
+            Therefore we must be mindful of possible overlap.  */
-+#define DO_3SAME_NO_SZ_3(INSN, FUNC)                                    \
+-        if ((vn - vd) < (uintptr_t)oprsz) {
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+-            vn = memcpy(&tmp_n, vn, oprsz);
-+    {                                                                   \
+-        }
-+        if (a->size == 3) {                                             \
+-        if ((vm - vd) < (uintptr_t)oprsz) {
-+            return false;                                               \
+-            vm = memcpy(&tmp_m, vm, oprsz);
-+        }                                                               \
++        if (vd == vn) {
-+        return do_3same(s, a, FUNC);                                    \
++            vn = memcpy(&tmp, vn, oprsz);
-+    }
++            if (vd == vm) {
-+
++                vm = vn;
-+DO_3SAME_NO_SZ_3(VMAX_S, tcg_gen_gvec_smax)
++            }
-+DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
++        } else if (vd == vm) {
-+DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
++            vm = memcpy(&tmp, vm, oprsz);
 +DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                               rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
              return 0;
 -        case NEON_3R_VMAX:
 -            if (u) {
 -                tcg_gen_gvec_umax(size, rd_ofs, rn_ofs, rm_ofs,
 -                                  vec_size, vec_size);
 -            } else {
 -                tcg_gen_gvec_smax(size, rd_ofs, rn_ofs, rm_ofs,
 -                                  vec_size, vec_size);
 -            }
 -            return 0;
 -        case NEON_3R_VMIN:
 -            if (u) {
 -                tcg_gen_gvec_umin(size, rd_ofs, rn_ofs, rm_ofs,
 -                                  vec_size, vec_size);
 -            } else {
 -                tcg_gen_gvec_smin(size, rd_ofs, rn_ofs, rm_ofs,
 -                                  vec_size, vec_size);
 -            }
 -            return 0;
 -
          case NEON_3R_VSHL:
              /* Note the operation is vshl vd,vm,vn */
              tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VADD_VSUB:
          case NEON_3R_LOGIC:
 +        case NEON_3R_VMAX:
 +        case NEON_3R_VMIN:
              /* Already handled by decodetree */
              return 1;
          }
+         if (high) {
+             high = oprsz >> 1;
+         }
+-        if ((high & 3) == 0) {
++        if ((oprsz & 7) == 0) {
+             uint32_t *n = vn, *m = vm;
+             high >>= 2;
+-            for (i = 0; i < DIV_ROUND_UP(oprsz, 8); i++) {
++            for (i = 0; i < oprsz / 8; i++) {
+                 uint64_t nn = n[H4(high + i)];
+                 uint64_t mm = m[H4(high + i)];
+                 nn = expand_bits(nn, esz);
+                 mm = expand_bits(mm, esz);
+-                d[i] = nn + (mm << (1 << esz));
++                d[i] = nn | (mm << esize);
+             }
+         } else {
+             uint8_t *n = vn, *m = vm;
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_zip_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
+                 nn = expand_bits(nn, esz);
+                 mm = expand_bits(mm, esz);
+-                d16[H2(i)] = nn + (mm << (1 << esz));
++                d16[H2(i)] = nn | (mm << esize);
+             }
+         }
+     }
 --
 .20.1

-[PULL 21/39] target/arm: Don't allow Thumb Neon insns without FEATURE_NEON
+[PULL 12/39] target/arm: Fix sve_punpk_p vs odd vector lengths
-We were accidentally permitting decode of Thumb Neon insns even if
+From: Richard Henderson <richard.henderson@linaro.org>
 the CPU didn't have the FEATURE_NEON bit set, because the feature
 check was being done before the call to disas_neon_data_insn() and
 disas_neon_ls_insn() in the Arm decoder but was omitted from the
 Thumb decoder.  Push the feature bit check down into the called
 functions so it is done for both Arm and Thumb encodings.
+Wrote too much with punpk1 with vl % 512 != 0.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210309155305.11301-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20200430181003.21682-3-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 16 ++++++++--------
+ target/arm/sve_helper.c | 4 ++--
-file changed, 8 insertions(+), 8 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/sve_helper.c
-+++ b/target/arm/translate.c
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_punpk_p)(void *vd, void *vn, uint32_t pred_desc)
-     TCGv_i32 tmp2;
+             high = oprsz >> 1;
      TCGv_i64 tmp64;
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return 1;
 +    }
 +
      /* FIXME: this access check should not take precedence over UNDEF
       * for invalid encodings; we will generate incorrect syndrome information
       * for attempts to execute invalid vfp/neon encodings with FP disabled.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      TCGv_ptr ptr1, ptr2, ptr3;
      TCGv_i64 tmp64;
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return 1;
 +    }
 +
      /* FIXME: this access check should not take precedence over UNDEF
       * for invalid encodings; we will generate incorrect syndrome information
       * for attempts to execute invalid vfp/neon encodings with FP disabled.
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
          if (((insn >> 25) & 7) == 1) {
              /* NEON Data processing.  */
 -            if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -                goto illegal_op;
 -            }
 -
              if (disas_neon_data_insn(s, insn)) {
                  goto illegal_op;
              }
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
          }
-         if ((insn & 0x0f100000) == 0x04000000) {
-             /* NEON load/store.  */
+-        if ((high & 3) == 0) {
--            if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
++        if ((oprsz & 7) == 0) {
--                goto illegal_op;
+             uint32_t *n = vn;
--            }
+             high >>= 2;
--
-             if (disas_neon_ls_insn(s, insn)) {
+-            for (i = 0; i < DIV_ROUND_UP(oprsz, 8); i++) {
-                 goto illegal_op;
++            for (i = 0; i < oprsz / 8; i++) {
                  uint64_t nn = n[H4(high + i)];
                  d[i] = expand_bits(nn, 0);
              }
 --
 .20.1

-[PULL 19/39] hw/arm: versal-virt: Add support for the RTC
+[PULL 13/39] target/arm: Update find_last_active for PREDDESC
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-Add support for the RTC.
+Since b64ee454a4a0, all predicate operations should be
 using these field macros for predicates.
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Message-id: 20210309155305.11301-5-richard.henderson@linaro.org
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20200427181649.26851-12-edgar.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/xlnx-versal-virt.c | 22 ++++++++++++++++++++++
+ target/arm/sve_helper.c    | 6 +++---
-file changed, 22 insertions(+)
+ target/arm/translate-sve.c | 7 +++----
 files changed, 6 insertions(+), 7 deletions(-)
-diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal-virt.c
+--- a/target/arm/sve_helper.c
-+++ b/hw/arm/xlnx-versal-virt.c
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void fdt_add_sd_nodes(VersalVirt *s)
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_compact_d)(void *vd, void *vn, void *vg, uint32_t desc)
-     }
+  */
  int32_t HELPER(sve_last_active_element)(void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 -    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
 +    intptr_t words = DIV_ROUND_UP(FIELD_EX32(pred_desc, PREDDESC, OPRSZ), 8);
 +    intptr_t esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
 -    return last_active_element(vg, DIV_ROUND_UP(oprsz, 8), esz);
 +    return last_active_element(vg, words, esz);
  }
-+static void fdt_add_rtc_node(VersalVirt *s)
+ void HELPER(sve_splice)(void *vd, void *vn, void *vm, void *vg, uint32_t desc)
-+{
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-+    const char compat[] = "xlnx,zynqmp-rtc";
+index XXXXXXX..XXXXXXX 100644
-+    const char interrupt_names[] = "alarm\0sec";
+--- a/target/arm/translate-sve.c
-+    char *name = g_strdup_printf("/rtc@%x", MM_PMC_RTC);
++++ b/target/arm/translate-sve.c
-+
+@@ -XXX,XX +XXX,XX @@ static void find_last_active(DisasContext *s, TCGv_i32 ret, int esz, int pg)
-+    qemu_fdt_add_subnode(s->fdt, name);
+      */
-+
+     TCGv_ptr t_p = tcg_temp_new_ptr();
-+    qemu_fdt_setprop_cells(s->fdt, name, "interrupts",
+     TCGv_i32 t_desc;
-+                           GIC_FDT_IRQ_TYPE_SPI, VERSAL_RTC_ALARM_IRQ,
+-    unsigned vsz = pred_full_reg_size(s);
-+                           GIC_FDT_IRQ_FLAGS_LEVEL_HI,
+-    unsigned desc;
-+                           GIC_FDT_IRQ_TYPE_SPI, VERSAL_RTC_SECONDS_IRQ,
++    unsigned desc = 0;
-+                           GIC_FDT_IRQ_FLAGS_LEVEL_HI);
-+    qemu_fdt_setprop(s->fdt, name, "interrupt-names",
+-    desc = vsz - 2;
-+                     interrupt_names, sizeof(interrupt_names));
+-    desc = deposit32(desc, SIMD_DATA_SHIFT, 2, esz);
-+    qemu_fdt_setprop_sized_cells(s->fdt, name, "reg",
++    desc = FIELD_DP32(desc, PREDDESC, OPRSZ, pred_full_reg_size(s));
-+                                 2, MM_PMC_RTC, 2, MM_PMC_RTC_SIZE);
++    desc = FIELD_DP32(desc, PREDDESC, ESZ, esz);
-+    qemu_fdt_setprop(s->fdt, name, "compatible", compat, sizeof(compat));
-+    g_free(name);
+     tcg_gen_addi_ptr(t_p, cpu_env, pred_full_reg_offset(s, pg));
-+}
+     t_desc = tcg_const_i32(desc);
 +
  static void fdt_nop_memory_nodes(void *fdt, Error **errp)
  {
      Error *err = NULL;
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
      fdt_add_timer_nodes(s);
      fdt_add_zdma_nodes(s);
      fdt_add_sd_nodes(s);
 +    fdt_add_rtc_node(s);
      fdt_add_cpu_nodes(s, psci_conduit);
      fdt_add_clk_node(s, "/clk125", 125000000, s->phandle.clk_125Mhz);
      fdt_add_clk_node(s, "/clk25", 25000000, s->phandle.clk_25Mhz);
 --
 .20.1

-[PULL 06/39] target/arm: Implement ARMv8.2-TTS2UXN
+[PULL 14/39] target/arm: Update BRKA, BRKB, BRKN for PREDDESC
-The ARMv8.2-TTS2UXN feature extends the XN field in stage 2
+From: Richard Henderson <richard.henderson@linaro.org>
 translation table descriptors from just bit [54] to bits [54:53],
 allowing stage 2 to control execution permissions separately for EL0
 and EL1. Implement the new semantics of the XN field and enable
 the feature for our 'max' CPU.
+Since b64ee454a4a0, all predicate operations should be
+using these field macros for predicates.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210309155305.11301-6-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200330210400.11724-5-peter.maydell@linaro.org
 ---
- target/arm/cpu.h    | 15 +++++++++++++++
+ target/arm/sve_helper.c    | 30 ++++++++++++++----------------
- target/arm/cpu.c    |  1 +
+ target/arm/translate-sve.c |  4 ++--
- target/arm/cpu64.c  |  2 ++
+files changed, 16 insertions(+), 18 deletions(-)
  target/arm/helper.c | 37 +++++++++++++++++++++++++++++++------
 files changed, 49 insertions(+), 6 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/sve_helper.c
-+++ b/target/arm/cpu.h
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_ccidx(const ARMISARegisters *id)
+@@ -XXX,XX +XXX,XX @@ static uint32_t do_zero(ARMPredicateReg *d, intptr_t oprsz)
-     return FIELD_EX32(id->id_mmfr4, ID_MMFR4, CCIDX) != 0;
+ void HELPER(sve_brkpa)(void *vd, void *vn, void *vm, void *vg,
                         uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      if (last_active_pred(vn, vg, oprsz)) {
          compute_brk_z(vd, vm, vg, oprsz, true);
      } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_brkpa)(void *vd, void *vn, void *vm, void *vg,
  uint32_t HELPER(sve_brkpas)(void *vd, void *vn, void *vm, void *vg,
                              uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      if (last_active_pred(vn, vg, oprsz)) {
          return compute_brks_z(vd, vm, vg, oprsz, true);
      } else {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_brkpas)(void *vd, void *vn, void *vm, void *vg,
  void HELPER(sve_brkpb)(void *vd, void *vn, void *vm, void *vg,
                         uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      if (last_active_pred(vn, vg, oprsz)) {
          compute_brk_z(vd, vm, vg, oprsz, false);
      } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_brkpb)(void *vd, void *vn, void *vm, void *vg,
  uint32_t HELPER(sve_brkpbs)(void *vd, void *vn, void *vm, void *vg,
                              uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      if (last_active_pred(vn, vg, oprsz)) {
          return compute_brks_z(vd, vm, vg, oprsz, false);
      } else {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_brkpbs)(void *vd, void *vn, void *vm, void *vg,
  void HELPER(sve_brka_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      compute_brk_z(vd, vn, vg, oprsz, true);
  }
-+static inline bool isar_feature_aa32_tts2uxn(const ARMISARegisters *id)
+ uint32_t HELPER(sve_brkas_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
-+{
+ {
-+    return FIELD_EX32(id->id_mmfr4, ID_MMFR4, XNX) != 0;
+-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-+}
++    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
-+
+     return compute_brks_z(vd, vn, vg, oprsz, true);
  /*
   * 64-bit feature tests via id registers.
   */
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_ccidx(const ARMISARegisters *id)
      return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, CCIDX) != 0;
  }
-+static inline bool isar_feature_aa64_tts2uxn(const ARMISARegisters *id)
+ void HELPER(sve_brkb_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
-+{
+ {
-+    return FIELD_EX64(id->id_aa64mmfr1, ID_AA64MMFR1, XNX) != 0;
+-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-+}
++    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
-+
+     compute_brk_z(vd, vn, vg, oprsz, false);
  /*
   * Feature tests for "does this exist in either 32-bit or 64-bit?"
   */
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_any_ccidx(const ARMISARegisters *id)
      return isar_feature_aa64_ccidx(id) || isar_feature_aa32_ccidx(id);
  }
-+static inline bool isar_feature_any_tts2uxn(const ARMISARegisters *id)
+ uint32_t HELPER(sve_brkbs_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
-+{
+ {
-+    return isar_feature_aa64_tts2uxn(id) || isar_feature_aa32_tts2uxn(id);
+-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-+}
++    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
-+
+     return compute_brks_z(vd, vn, vg, oprsz, false);
- /*
+ }
-  * Forward to the above feature tests given an ARMCPU pointer.
-  */
+ void HELPER(sve_brka_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+ {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      compute_brk_m(vd, vn, vg, oprsz, true);
  }
  uint32_t HELPER(sve_brkas_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      return compute_brks_m(vd, vn, vg, oprsz, true);
  }
  void HELPER(sve_brkb_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      compute_brk_m(vd, vn, vg, oprsz, false);
  }
  uint32_t HELPER(sve_brkbs_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      return compute_brks_m(vd, vn, vg, oprsz, false);
  }
  void HELPER(sve_brkn)(void *vd, void *vn, void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 -
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      if (!last_active_pred(vn, vg, oprsz)) {
          do_zero(vd, oprsz);
      }
@@ -XXX,XX +XXX,XX @@ static uint32_t predtest_ones(ARMPredicateReg *d, intptr_t oprsz,
  uint32_t HELPER(sve_brkns)(void *vd, void *vn, void *vg, uint32_t pred_desc)
  {
 -    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
 -
 +    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
      if (last_active_pred(vn, vg, oprsz)) {
          return predtest_ones(vd, oprsz, -1);
      } else {
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.c
+--- a/target/arm/translate-sve.c
-+++ b/target/arm/cpu.c
++++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
+@@ -XXX,XX +XXX,XX @@ static bool do_brk3(DisasContext *s, arg_rprr_s *a,
-             t = FIELD_DP32(t, ID_MMFR4, HPDS, 1); /* AA32HPD */
+     TCGv_ptr n = tcg_temp_new_ptr();
-             t = FIELD_DP32(t, ID_MMFR4, AC2, 1); /* ACTLR2, HACTLR2 */
+     TCGv_ptr m = tcg_temp_new_ptr();
-             t = FIELD_DP32(t, ID_MMFR4, CNP, 1); /* TTCNP */
+     TCGv_ptr g = tcg_temp_new_ptr();
-+            t = FIELD_DP32(t, ID_MMFR4, XNX, 1); /* TTS2UXN */
+-    TCGv_i32 t = tcg_const_i32(vsz - 2);
-             cpu->isar.id_mmfr4 = t;
++    TCGv_i32 t = tcg_const_i32(FIELD_DP32(0, PREDDESC, OPRSZ, vsz));
-         }
- #endif
+     tcg_gen_addi_ptr(d, cpu_env, pred_full_reg_offset(s, a->rd));
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+     tcg_gen_addi_ptr(n, cpu_env, pred_full_reg_offset(s, a->rn));
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static bool do_brk2(DisasContext *s, arg_rpr_s *a,
---- a/target/arm/cpu64.c
+     TCGv_ptr d = tcg_temp_new_ptr();
-+++ b/target/arm/cpu64.c
+     TCGv_ptr n = tcg_temp_new_ptr();
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+     TCGv_ptr g = tcg_temp_new_ptr();
-         t = FIELD_DP64(t, ID_AA64MMFR1, VH, 1);
+-    TCGv_i32 t = tcg_const_i32(vsz - 2);
-         t = FIELD_DP64(t, ID_AA64MMFR1, PAN, 2); /* ATS1E1 */
++    TCGv_i32 t = tcg_const_i32(FIELD_DP32(0, PREDDESC, OPRSZ, vsz));
-         t = FIELD_DP64(t, ID_AA64MMFR1, VMIDBITS, 2); /* VMID16 */
-+        t = FIELD_DP64(t, ID_AA64MMFR1, XNX, 1); /* TTS2UXN */
+     tcg_gen_addi_ptr(d, cpu_env, pred_full_reg_offset(s, a->rd));
-         cpu->isar.id_aa64mmfr1 = t;
+     tcg_gen_addi_ptr(n, cpu_env, pred_full_reg_offset(s, a->rn));
          t = cpu->isar.id_aa64mmfr2;
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          u = FIELD_DP32(u, ID_MMFR4, HPDS, 1); /* AA32HPD */
          u = FIELD_DP32(u, ID_MMFR4, AC2, 1); /* ACTLR2, HACTLR2 */
          u = FIELD_DP32(u, ID_MMFR4, CNP, 1); /* TTCNP */
 +        u = FIELD_DP32(u, ID_MMFR4, XNX, 1); /* TTS2UXN */
          cpu->isar.id_mmfr4 = u;
          u = cpu->isar.id_aa64dfr0;
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ simple_ap_to_rw_prot(CPUARMState *env, ARMMMUIdx mmu_idx, int ap)
   *
   * @env:     CPUARMState
   * @s2ap:    The 2-bit stage2 access permissions (S2AP)
 - * @xn:      XN (execute-never) bit
 + * @xn:      XN (execute-never) bits
 + * @s1_is_el0: true if this is S2 of an S1+2 walk for EL0
   */
 -static int get_S2prot(CPUARMState *env, int s2ap, int xn)
 +static int get_S2prot(CPUARMState *env, int s2ap, int xn, bool s1_is_el0)
  {
      int prot = 0;
@@ -XXX,XX +XXX,XX @@ static int get_S2prot(CPUARMState *env, int s2ap, int xn)
      if (s2ap & 2) {
          prot |= PAGE_WRITE;
      }
 -    if (!xn) {
 -        if (arm_el_is_aa64(env, 2) || prot & PAGE_READ) {
 +
 +    if (cpu_isar_feature(any_tts2uxn, env_archcpu(env))) {
 +        switch (xn) {
 +        case 0:
              prot |= PAGE_EXEC;
 +            break;
 +        case 1:
 +            if (s1_is_el0) {
 +                prot |= PAGE_EXEC;
 +            }
 +            break;
 +        case 2:
 +            break;
 +        case 3:
 +            if (!s1_is_el0) {
 +                prot |= PAGE_EXEC;
 +            }
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +    } else {
 +        if (!extract32(xn, 1, 1)) {
 +            if (arm_el_is_aa64(env, 2) || prot & PAGE_READ) {
 +                prot |= PAGE_EXEC;
 +            }
          }
      }
      return prot;
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
      }
      ap = extract32(attrs, 4, 2);
 -    xn = extract32(attrs, 12, 1);
      if (mmu_idx == ARMMMUIdx_Stage2) {
          ns = true;
 -        *prot = get_S2prot(env, ap, xn);
 +        xn = extract32(attrs, 11, 2);
 +        *prot = get_S2prot(env, ap, xn, s1_is_el0);
      } else {
          ns = extract32(attrs, 3, 1);
 +        xn = extract32(attrs, 12, 1);
          pxn = extract32(attrs, 11, 1);
          *prot = get_S1prot(env, mmu_idx, aarch64, ap, ns, xn, pxn);
      }
 --
 .20.1

-[PULL 34/39] target/arm: Convert Neon 3-reg-same logic ops to decodetree
+[PULL 15/39] target/arm: Update CNTP for PREDDESC
-Convert the Neon logic ops in the 3-reg-same grouping to decodetree.
+From: Richard Henderson <richard.henderson@linaro.org>
 Note that for the logic ops the 'size' field forms part of their
 decode and the actual operations are always bitwise.
+Since b64ee454a4a0, all predicate operations should be
+using these field macros for predicates.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210309155305.11301-7-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-16-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       | 12 +++++++++++
+ target/arm/sve_helper.c    | 6 +++---
- target/arm/translate-neon.inc.c | 19 +++++++++++++++++
+ target/arm/translate-sve.c | 6 +++---
- target/arm/translate.c          | 38 +--------------------------------
+files changed, 6 insertions(+), 6 deletions(-)
 files changed, 32 insertions(+), 37 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/sve_helper.c
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_brkns)(void *vd, void *vn, void *vg, uint32_t pred_desc)
- @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ uint64_t HELPER(sve_cntp)(void *vn, void *vg, uint32_t pred_desc)
+ {
-+@3same_logic     .... ... . . . .. .... .... .... . q:1 .. .... \
+-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp size=0
+-    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
-+
++    intptr_t words = DIV_ROUND_UP(FIELD_EX32(pred_desc, PREDDESC, OPRSZ), 8);
-+VAND_3s          1111 001 0 0 . 00 .... .... 0001 ... 1 .... @3same_logic
++    intptr_t esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
-+VBIC_3s          1111 001 0 0 . 01 .... .... 0001 ... 1 .... @3same_logic
+     uint64_t *n = vn, *g = vg, sum = 0, mask = pred_esz_masks[esz];
-+VORR_3s          1111 001 0 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+     intptr_t i;
-+VORN_3s          1111 001 0 0 . 11 .... .... 0001 ... 1 .... @3same_logic
-+VEOR_3s          1111 001 1 0 . 00 .... .... 0001 ... 1 .... @3same_logic
+-    for (i = 0; i < DIV_ROUND_UP(oprsz, 8); ++i) {
-+VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
++    for (i = 0; i < words; ++i) {
-+VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+         uint64_t t = n[i] & g[i] & mask;
-+VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
+         sum += ctpop64(t);
-+
+     }
- VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
  VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static bool do_3same(DisasContext *s, arg_3same *a, GVecGen3Fn fn)
+@@ -XXX,XX +XXX,XX @@ static void do_cntp(DisasContext *s, TCGv_i64 val, int esz, int pn, int pg)
+     } else {
- DO_3SAME(VADD, tcg_gen_gvec_add)
+         TCGv_ptr t_pn = tcg_temp_new_ptr();
- DO_3SAME(VSUB, tcg_gen_gvec_sub)
+         TCGv_ptr t_pg = tcg_temp_new_ptr();
-+DO_3SAME(VAND, tcg_gen_gvec_and)
+-        unsigned desc;
-+DO_3SAME(VBIC, tcg_gen_gvec_andc)
++        unsigned desc = 0;
-+DO_3SAME(VORR, tcg_gen_gvec_or)
+         TCGv_i32 t_desc;
-+DO_3SAME(VORN, tcg_gen_gvec_orc)
-+DO_3SAME(VEOR, tcg_gen_gvec_xor)
+-        desc = psz - 2;
-+
+-        desc = deposit32(desc, SIMD_DATA_SHIFT, 2, esz);
-+/* These insns are all gvec_bitsel but with the inputs in various orders. */
++        desc = FIELD_DP32(desc, PREDDESC, OPRSZ, psz);
-+#define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
++        desc = FIELD_DP32(desc, PREDDESC, ESZ, esz);
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+         tcg_gen_addi_ptr(t_pn, cpu_env, pred_full_reg_offset(s, pn));
-+                                uint32_t oprsz, uint32_t maxsz)         \
+         tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
 +    {                                                                   \
 +        tcg_gen_gvec_bitsel(vece, rd_ofs, O1, O2, O3, oprsz, maxsz);    \
 +    }                                                                   \
 +    DO_3SAME(INSN, gen_##INSN##_3s)
 +
 +DO_3SAME_BITSEL(VBSL, rd_ofs, rn_ofs, rm_ofs)
 +DO_3SAME_BITSEL(VBIT, rm_ofs, rn_ofs, rd_ofs)
 +DO_3SAME_BITSEL(VBIF, rm_ofs, rd_ofs, rn_ofs)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              return 1;
 -        case NEON_3R_LOGIC: /* Logic ops.  */
 -            switch ((u << 2) | size) {
 -            case 0: /* VAND */
 -                tcg_gen_gvec_and(0, rd_ofs, rn_ofs, rm_ofs,
 -                                 vec_size, vec_size);
 -                break;
 -            case 1: /* VBIC */
 -                tcg_gen_gvec_andc(0, rd_ofs, rn_ofs, rm_ofs,
 -                                  vec_size, vec_size);
 -                break;
 -            case 2: /* VORR */
 -                tcg_gen_gvec_or(0, rd_ofs, rn_ofs, rm_ofs,
 -                                vec_size, vec_size);
 -                break;
 -            case 3: /* VORN */
 -                tcg_gen_gvec_orc(0, rd_ofs, rn_ofs, rm_ofs,
 -                                 vec_size, vec_size);
 -                break;
 -            case 4: /* VEOR */
 -                tcg_gen_gvec_xor(0, rd_ofs, rn_ofs, rm_ofs,
 -                                 vec_size, vec_size);
 -                break;
 -            case 5: /* VBSL */
 -                tcg_gen_gvec_bitsel(MO_8, rd_ofs, rd_ofs, rn_ofs, rm_ofs,
 -                                    vec_size, vec_size);
 -                break;
 -            case 6: /* VBIT */
 -                tcg_gen_gvec_bitsel(MO_8, rd_ofs, rm_ofs, rn_ofs, rd_ofs,
 -                                    vec_size, vec_size);
 -                break;
 -            case 7: /* VBIF */
 -                tcg_gen_gvec_bitsel(MO_8, rd_ofs, rm_ofs, rd_ofs, rn_ofs,
 -                                    vec_size, vec_size);
 -                break;
 -            }
 -            return 0;
 -
          case NEON_3R_VQADD:
              tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
                             rn_ofs, rm_ofs, vec_size, vec_size,
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              return 0;
          case NEON_3R_VADD_VSUB:
 +        case NEON_3R_LOGIC:
              /* Already handled by decodetree */
              return 1;
          }
 --
 .20.1

-[PULL 14/39] hw/arm: versal: Embed the ADMAs into the SoC type
+[PULL 16/39] target/arm: Update WHILE for PREDDESC
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-Embed the ADMAs into the SoC type.
+Since b64ee454a4a0, all predicate operations should be
 using these field macros for predicates.
-Suggested-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Message-id: 20210309155305.11301-8-richard.henderson@linaro.org
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Luc Michel <luc.michel@greensocs.com>
 Message-id: 20200427181649.26851-7-edgar.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/arm/xlnx-versal.h |  3 ++-
+ target/arm/sve_helper.c    | 4 ++--
- hw/arm/xlnx-versal.c         | 14 +++++++-------
+ target/arm/translate-sve.c | 7 ++++---
-files changed, 9 insertions(+), 8 deletions(-)
+files changed, 6 insertions(+), 5 deletions(-)
-diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/xlnx-versal.h
+--- a/target/arm/sve_helper.c
-+++ b/include/hw/arm/xlnx-versal.h
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_cntp)(void *vn, void *vg, uint32_t pred_desc)
- #include "hw/arm/boot.h"
- #include "hw/intc/arm_gicv3.h"
+ uint32_t HELPER(sve_while)(void *vd, uint32_t count, uint32_t pred_desc)
- #include "hw/char/pl011.h"
+ {
-+#include "hw/dma/xlnx-zdma.h"
+-    uintptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
- #include "hw/net/cadence_gem.h"
+-    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
++    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
- #define TYPE_XLNX_VERSAL "xlnx-versal"
++    intptr_t esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
+     uint64_t esz_mask = pred_esz_masks[esz];
-         struct {
+     ARMPredicateReg *d = vd;
-             PL011State uart[XLNX_VERSAL_NR_UARTS];
+     uint32_t flags;
-             CadenceGEMState gem[XLNX_VERSAL_NR_GEMS];
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 -            SysBusDevice *adma[XLNX_VERSAL_NR_ADMAS];
 +            XlnxZDMA adma[XLNX_VERSAL_NR_ADMAS];
          } iou;
      } lpd;
 diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal.c
+--- a/target/arm/translate-sve.c
-+++ b/hw/arm/xlnx-versal.c
++++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static void versal_create_admas(Versal *s, qemu_irq *pic)
+@@ -XXX,XX +XXX,XX @@ static bool trans_WHILE(DisasContext *s, arg_WHILE *a)
-         DeviceState *dev;
+     TCGv_i64 op0, op1, t0, t1, tmax;
-         MemoryRegion *mr;
+     TCGv_i32 t2, t3;
+     TCGv_ptr ptr;
--        dev = qdev_create(NULL, "xlnx.zdma");
+-    unsigned desc, vsz = vec_full_reg_size(s);
--        s->lpd.iou.adma[i] = SYS_BUS_DEVICE(dev);
++    unsigned vsz = vec_full_reg_size(s);
--        object_property_set_int(OBJECT(s->lpd.iou.adma[i]), 128, "bus-width",
++    unsigned desc = 0;
--                                &error_abort);
+     TCGCond cond;
--        object_property_add_child(OBJECT(s), name, OBJECT(dev), &error_fatal);
-+        sysbus_init_child_obj(OBJECT(s), name,
+     if (!sve_access_check(s)) {
-+                              &s->lpd.iou.adma[i], sizeof(s->lpd.iou.adma[i]),
+@@ -XXX,XX +XXX,XX @@ static bool trans_WHILE(DisasContext *s, arg_WHILE *a)
-+                              TYPE_XLNX_ZDMA);
+     /* Scale elements to bits.  */
-+        dev = DEVICE(&s->lpd.iou.adma[i]);
+     tcg_gen_shli_i32(t2, t2, a->esz);
-+        object_property_set_int(OBJECT(dev), 128, "bus-width", &error_abort);
-         qdev_init_nofail(dev);
+-    desc = (vsz / 8) - 2;
+-    desc = deposit32(desc, SIMD_DATA_SHIFT, 2, a->esz);
--        mr = sysbus_mmio_get_region(s->lpd.iou.adma[i], 0);
++    desc = FIELD_DP32(desc, PREDDESC, OPRSZ, vsz / 8);
-+        mr = sysbus_mmio_get_region(SYS_BUS_DEVICE(dev), 0);
++    desc = FIELD_DP32(desc, PREDDESC, ESZ, a->esz);
-         memory_region_add_subregion(&s->mr_ps,
+     t3 = tcg_const_i32(desc);
-                                     MM_ADMA_CH0 + i * MM_ADMA_CH0_SIZE, mr);
+     ptr = tcg_temp_new_ptr();
 -        sysbus_connect_irq(s->lpd.iou.adma[i], 0, pic[VERSAL_ADMA_IRQ_0 + i]);
 +        sysbus_connect_irq(SYS_BUS_DEVICE(dev), 0, pic[VERSAL_ADMA_IRQ_0 + i]);
          g_free(name);
      }
  }
 --
 .20.1

-[PULL 08/39] target/arm: Use uint64_t for midr field in CPU state struct
+[PULL 17/39] target/arm: Update sve reduction vs simd_desc
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+From: Richard Henderson <richard.henderson@linaro.org>
-MIDR_EL1 is a 64-bit system register with the top 32-bit being RES0.
+With the reduction operations, we intentionally increase maxsz to
-Represent it in QEMU's ARMCPU struct with a uint64_t, not a
+the next power of 2, so as to fill out the reduction tree correctly.
-uint32_t.
+Since e2e7168a214b, oprsz must equal maxsz, with exceptions for small
 vectors, so this triggers an assertion for vector sizes > 32 that are
 not themselves a power of 2.
-This fixes an error when compiling with -Werror=conversion
+Pass the power-of-two value in the simd_data field instead.
 because we were manipulating the register value using a
 local uint64_t variable:
-  target/arm/cpu64.c: In function ‘aarch64_max_initfn’:
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-  target/arm/cpu64.c:628:21: error: conversion from ‘uint64_t’ {aka ‘long unsigned int’} to ‘uint32_t’ {aka ‘unsigned int’} may change value [-Werror=conversion]
+Message-id: 20210309155305.11301-9-richard.henderson@linaro.org
 |         cpu->midr = t;
         |                     ^
 and future-proofs us against a possible future architecture
 change using some of the top 32 bits.
 Suggested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
 Suggested-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Laurent Desnogues <laurent.desnogues@gmail.com>
 Message-id: 20200428172634.29707-1-f4bug@amsat.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h | 2 +-
+ target/arm/sve_helper.c    | 2 +-
- target/arm/cpu.c | 2 +-
+ target/arm/translate-sve.c | 2 +-
 files changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/sve_helper.c
-+++ b/target/arm/cpu.h
++++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
+@@ -XXX,XX +XXX,XX @@ static TYPE NAME##_reduce(TYPE *data, float_status *status, uintptr_t n) \
-         uint64_t id_aa64dfr0;
+ }                                                                     \
-         uint64_t id_aa64dfr1;
+ uint64_t HELPER(NAME)(void *vn, void *vg, void *vs, uint32_t desc)    \
-     } isar;
+ {                                                                     \
--    uint32_t midr;
+-    uintptr_t i, oprsz = simd_oprsz(desc), maxsz = simd_maxsz(desc);  \
-+    uint64_t midr;
++    uintptr_t i, oprsz = simd_oprsz(desc), maxsz = simd_data(desc);   \
-     uint32_t revidr;
+     TYPE data[sizeof(ARMVectorReg) / sizeof(TYPE)];                   \
-     uint32_t reset_fpsid;
+     for (i = 0; i < oprsz; ) {                                        \
-     uint32_t ctr;
+         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));               \
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.c
+--- a/target/arm/translate-sve.c
-+++ b/target/arm/cpu.c
++++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPUInfo arm_cpus[] = {
+@@ -XXX,XX +XXX,XX @@ static void do_reduce(DisasContext *s, arg_rpr_esz *a,
- static Property arm_cpu_properties[] = {
+ {
-     DEFINE_PROP_BOOL("start-powered-off", ARMCPU, start_powered_off, false),
+     unsigned vsz = vec_full_reg_size(s);
-     DEFINE_PROP_UINT32("psci-conduit", ARMCPU, psci_conduit, 0),
+     unsigned p2vsz = pow2ceil(vsz);
--    DEFINE_PROP_UINT32("midr", ARMCPU, midr, 0),
+-    TCGv_i32 t_desc = tcg_const_i32(simd_desc(vsz, p2vsz, 0));
-+    DEFINE_PROP_UINT64("midr", ARMCPU, midr, 0),
++    TCGv_i32 t_desc = tcg_const_i32(simd_desc(vsz, vsz, p2vsz));
-     DEFINE_PROP_UINT64("mp-affinity", ARMCPU,
+     TCGv_ptr t_zn, t_pg, status;
-                         mp_affinity, ARM64_AFFINITY_INVALID),
+     TCGv_i64 temp;
-     DEFINE_PROP_INT32("node-id", ARMCPU, node_id, CPU_UNSET_NUMA_NODE_ID),
 --
 .20.1

-[PULL 38/39] target/arm: Convert Neon 3-reg-same VMUL, VMLA, VMLS, VSHL to decodetree
+[PULL 18/39] hw/net/allwinner-sun8i-emac: traverse transmit queue using TX_CUR_DESC register value
-Convert the Neon VMUL, VMLA, VMLS and VSHL insns in the
+From: Niek Linnenbank <nieklinnenbank@gmail.com>
 -reg-same grouping to decodetree.
+Currently the emulated EMAC for sun8i always traverses the transmit queue
+from the head when transferring packets. It searches for a list of consecutive
+descriptors whichs are flagged as ready for processing and transmits their payloads
+accordingly. The controller stops processing once it finds a descriptor that is not
+marked ready.
+While the above behaviour works in most situations, it is not the same as the actual
+EMAC in hardware. Actual hardware uses the TX_CUR_DESC register value to keep track
+of the last position in the transmit queue and continues processing from that position
+when software triggers the start of DMA processing. The currently emulated behaviour can
+lead to packet loss on transmit when software fills the transmit queue with ready
+descriptors that overlap the tail of the circular list.
+This commit modifies the emulated EMAC for sun8i such that it processes
+the transmit queue using the TX_CUR_DESC register in the same way as hardware.
+Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-id: 20210310195820.21950-2-nieklinnenbank@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-20-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  9 +++++++
+ hw/net/allwinner-sun8i-emac.c | 62 +++++++++++++++++++----------------
- target/arm/translate-neon.inc.c | 44 +++++++++++++++++++++++++++++++++
+file changed, 34 insertions(+), 28 deletions(-)
  target/arm/translate.c          | 28 +++------------------
 files changed, 56 insertions(+), 25 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/net/allwinner-sun8i-emac.c b/hw/net/allwinner-sun8i-emac.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/net/allwinner-sun8i-emac.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/net/allwinner-sun8i-emac.c
-@@ -XXX,XX +XXX,XX @@ VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
+@@ -XXX,XX +XXX,XX @@ static void allwinner_sun8i_emac_update_irq(AwSun8iEmacState *s)
- VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
+     qemu_set_irq(s->irq, (s->int_sta & s->int_en) != 0);
- VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
+ }
-+VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same
+-static uint32_t allwinner_sun8i_emac_next_desc(AwSun8iEmacState *s,
-+VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same
+-                                               FrameDescriptor *desc,
-+
+-                                               size_t min_size)
- VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
++static bool allwinner_sun8i_emac_desc_owned(FrameDescriptor *desc,
- VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
++                                            size_t min_buf_size)
- VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
+ {
-@@ -XXX,XX +XXX,XX @@ VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
+-    uint32_t paddr = desc->next;
+-
- VTST_3s          1111 001 0 0 . .. .... .... 1000 . . . 1 .... @3same
+-    dma_memory_read(&s->dma_as, paddr, desc, sizeof(*desc));
- VCEQ_3s          1111 001 1 0 . .. .... .... 1000 . . . 1 .... @3same
+-
-+
+-    if ((desc->status & DESC_STATUS_CTL) &&
-+VMLA_3s          1111 001 0 0 . .. .... .... 1001 . . . 0 .... @3same
+-        (desc->status2 & DESC_STATUS2_BUF_SIZE_MASK) >= min_size) {
-+VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
+-        return paddr;
-+
+-    } else {
-+VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
+-        return 0;
-+VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
+-    }
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
++    return (desc->status & DESC_STATUS_CTL) && (min_buf_size == 0 ||
-index XXXXXXX..XXXXXXX 100644
++           (desc->status2 & DESC_STATUS2_BUF_SIZE_MASK) >= min_buf_size);
---- a/target/arm/translate-neon.inc.c
+ }
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMAX_S, tcg_gen_gvec_smax)
+-static uint32_t allwinner_sun8i_emac_get_desc(AwSun8iEmacState *s,
- DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
+-                                              FrameDescriptor *desc,
- DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
+-                                              uint32_t start_addr,
- DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
+-                                              size_t min_size)
-+DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
++static void allwinner_sun8i_emac_get_desc(AwSun8iEmacState *s,
++                                          FrameDescriptor *desc,
- #define DO_3SAME_CMP(INSN, COND)                                        \
++                                          uint32_t phys_addr)
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_GVEC4(VQADD_S, sqadd_op)
  DO_3SAME_GVEC4(VQADD_U, uqadd_op)
  DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
  DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
 +
 +static void gen_VMUL_p_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                           uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
 +{
-+    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz,
++    dma_memory_read(&s->dma_as, phys_addr, desc, sizeof(*desc));
 +                       0, gen_helper_gvec_pmul_b);
 +}
 +
-+static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
++static uint32_t allwinner_sun8i_emac_next_desc(AwSun8iEmacState *s,
 +                                               FrameDescriptor *desc)
 +{
-+    if (a->size != 0) {
++    const uint32_t nxt = desc->next;
-+        return false;
++    allwinner_sun8i_emac_get_desc(s, desc, nxt);
-+    }
++    return nxt;
 +    return do_3same(s, a, gen_VMUL_p_3s);
 +}
 +
-+#define DO_3SAME_GVEC3_NO_SZ_3(INSN, OPARRAY)                           \
++static uint32_t allwinner_sun8i_emac_find_desc(AwSun8iEmacState *s,
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
++                                               FrameDescriptor *desc,
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
++                                               uint32_t start_addr,
-+                                uint32_t oprsz, uint32_t maxsz)         \
++                                               size_t min_size)
-+    {                                                                   \
+ {
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
+     uint32_t desc_addr = start_addr;
-+                       oprsz, maxsz, &OPARRAY[vece]);                   \
-+    }                                                                   \
+     /* Note that the list is a cycle. Last entry points back to the head. */
-+    DO_3SAME_NO_SZ_3(INSN, gen_##INSN##_3s)
+     while (desc_addr != 0) {
-+
+-        dma_memory_read(&s->dma_as, desc_addr, desc, sizeof(*desc));
-+
++        allwinner_sun8i_emac_get_desc(s, desc, desc_addr);
-+DO_3SAME_GVEC3_NO_SZ_3(VMLA, mla_op)
-+DO_3SAME_GVEC3_NO_SZ_3(VMLS, mls_op)
+-        if ((desc->status & DESC_STATUS_CTL) &&
-+
+-            (desc->status2 & DESC_STATUS2_BUF_SIZE_MASK) >= min_size) {
-+#define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
++        if (allwinner_sun8i_emac_desc_owned(desc, min_size)) {
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+             return desc_addr;
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+         } else if (desc->next == start_addr) {
-+                                uint32_t oprsz, uint32_t maxsz)         \
+             break;
-+    {                                                                   \
+@@ -XXX,XX +XXX,XX @@ static uint32_t allwinner_sun8i_emac_rx_desc(AwSun8iEmacState *s,
-+        /* Note the operation is vshl vd,vm,vn */                       \
+                                              FrameDescriptor *desc,
-+        tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs,                          \
+                                              size_t min_size)
-+                       oprsz, maxsz, &OPARRAY[vece]);                   \
+ {
-+    }                                                                   \
+-    return allwinner_sun8i_emac_get_desc(s, desc, s->rx_desc_curr, min_size);
-+    DO_3SAME(INSN, gen_##INSN##_3s)
++    return allwinner_sun8i_emac_find_desc(s, desc, s->rx_desc_curr, min_size);
-+
+ }
-+DO_3SAME_GVEC3_SHIFT(VSHL_S, sshl_op)
-+DO_3SAME_GVEC3_SHIFT(VSHL_U, ushl_op)
+ static uint32_t allwinner_sun8i_emac_tx_desc(AwSun8iEmacState *s,
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+-                                             FrameDescriptor *desc,
-index XXXXXXX..XXXXXXX 100644
+-                                             size_t min_size)
---- a/target/arm/translate.c
++                                             FrameDescriptor *desc)
-+++ b/target/arm/translate.c
+ {
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+-    return allwinner_sun8i_emac_get_desc(s, desc, s->tx_desc_head, min_size);
-             }
++    allwinner_sun8i_emac_get_desc(s, desc, s->tx_desc_curr);
-             return 1;
++    return s->tx_desc_curr;
+ }
--        case NEON_3R_VMUL: /* VMUL */
--            if (u) {
+ static void allwinner_sun8i_emac_flush_desc(AwSun8iEmacState *s,
--                /* Polynomial case allows only P8.  */
+@@ -XXX,XX +XXX,XX @@ static ssize_t allwinner_sun8i_emac_receive(NetClientState *nc,
--                if (size != 0) {
+         bytes_left -= desc_bytes;
--                    return 1;
--                }
+         /* Move to the next descriptor */
--                tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size,
+-        s->rx_desc_curr = allwinner_sun8i_emac_next_desc(s, &desc, 64);
--                                   0, gen_helper_gvec_pmul_b);
++        s->rx_desc_curr = allwinner_sun8i_emac_find_desc(s, &desc, desc.next,
--            } else {
++                                                         AW_SUN8I_EMAC_MIN_PKT_SZ);
--                tcg_gen_gvec_mul(size, rd_ofs, rn_ofs, rm_ofs,
+         if (!s->rx_desc_curr) {
--                                 vec_size, vec_size);
+             /* Not enough buffer space available */
--            }
+             s->int_sta |= INT_STA_RX_BUF_UA;
--            return 0;
+@@ -XXX,XX +XXX,XX @@ static void allwinner_sun8i_emac_transmit(AwSun8iEmacState *s)
--
+     size_t transmitted = 0;
--        case NEON_3R_VML: /* VMLA, VMLS */
+     static uint8_t packet_buf[2048];
--            tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size,
--                           u ? &mls_op[size] : &mla_op[size]);
+-    s->tx_desc_curr = allwinner_sun8i_emac_tx_desc(s, &desc, 0);
--            return 0;
++    s->tx_desc_curr = allwinner_sun8i_emac_tx_desc(s, &desc);
--
--        case NEON_3R_VSHL:
+     /* Read all transmit descriptors */
--            /* Note the operation is vshl vd,vm,vn */
+-    while (s->tx_desc_curr != 0) {
--            tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
++    while (allwinner_sun8i_emac_desc_owned(&desc, 0)) {
--                           u ? &ushl_op[size] : &sshl_op[size]);
--            return 0;
+         /* Read from physical memory into packet buffer */
--
+         bytes = desc.status2 & DESC_STATUS2_BUF_SIZE_MASK;
-         case NEON_3R_VADD_VSUB:
+@@ -XXX,XX +XXX,XX @@ static void allwinner_sun8i_emac_transmit(AwSun8iEmacState *s)
-         case NEON_3R_LOGIC:
+             packet_bytes = 0;
-         case NEON_3R_VMAX:
+             transmitted++;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VCGE:
          case NEON_3R_VQADD:
          case NEON_3R_VQSUB:
 +        case NEON_3R_VMUL:
 +        case NEON_3R_VML:
 +        case NEON_3R_VSHL:
              /* Already handled by decodetree */
              return 1;
          }
+-        s->tx_desc_curr = allwinner_sun8i_emac_next_desc(s, &desc, 0);
++        s->tx_desc_curr = allwinner_sun8i_emac_next_desc(s, &desc);
+     }
+     /* Raise transmit completed interrupt */
 --
 .20.1

-[PULL 13/39] hw/arm: versal: Embed the GEMs into the SoC type
+[PULL 19/39] tests/acceptance/boot_linux_console: remove Armbian 19.11.3 bionic test for orangepi-pc machine
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Niek Linnenbank <nieklinnenbank@gmail.com>
-Embed the GEMs into the SoC type.
+The image for Armbian 19.11.3 bionic has been removed from the armbian server.
 Without the image as input the test arm_orangepi_bionic_19_11 cannot run.
-Suggested-by: Peter Maydell <peter.maydell@linaro.org>
+This commit removes the test completely and merges the code of the generic function
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+do_test_arm_orangepi_uboot_armbian back with the 20.08 test.
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Reviewed-by: Willian Rampazzo <willianr@redhat.com>
-Message-id: 20200427181649.26851-6-edgar.iglesias@gmail.com
+Message-id: 20210310195820.21950-3-nieklinnenbank@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/arm/xlnx-versal.h |  3 ++-
+ tests/acceptance/boot_linux_console.py | 72 ++++++++------------------
- hw/arm/xlnx-versal.c         | 15 ++++++++-------
+file changed, 23 insertions(+), 49 deletions(-)
 files changed, 10 insertions(+), 8 deletions(-)
-diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/xlnx-versal.h
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/include/hw/arm/xlnx-versal.h
++++ b/tests/acceptance/boot_linux_console.py
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_sd(self):
- #include "hw/arm/boot.h"
+         # Wait for VM to shut down gracefully
- #include "hw/intc/arm_gicv3.h"
+         self.vm.wait()
- #include "hw/char/pl011.h"
-+#include "hw/net/cadence_gem.h"
+-    def do_test_arm_orangepi_uboot_armbian(self, image_path):
++    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
- #define TYPE_XLNX_VERSAL "xlnx-versal"
++                'Test artifacts fetched from unreliable apt.armbian.com')
- #define XLNX_VERSAL(obj) OBJECT_CHECK(Versal, (obj), TYPE_XLNX_VERSAL)
++    @skipUnless(os.getenv('AVOCADO_ALLOW_LARGE_STORAGE'), 'storage limited')
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
++    def test_arm_orangepi_bionic_20_08(self):
++        """
-         struct {
++        :avocado: tags=arch:arm
-             PL011State uart[XLNX_VERSAL_NR_UARTS];
++        :avocado: tags=machine:orangepi-pc
--            SysBusDevice *gem[XLNX_VERSAL_NR_GEMS];
++        :avocado: tags=device:sd
-+            CadenceGEMState gem[XLNX_VERSAL_NR_GEMS];
++        """
-             SysBusDevice *adma[XLNX_VERSAL_NR_ADMAS];
++
-         } iou;
++        # This test download a 275 MiB compressed image and expand it
-     } lpd;
++        # to 1036 MiB, but the underlying filesystem is 1552 MiB...
-diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
++        # As we expand it to 2 GiB we are safe.
-index XXXXXXX..XXXXXXX 100644
++
---- a/hw/arm/xlnx-versal.c
++        image_url = ('https://dl.armbian.com/orangepipc/archive/'
-+++ b/hw/arm/xlnx-versal.c
++                     'Armbian_20.08.1_Orangepipc_bionic_current_5.8.5.img.xz')
-@@ -XXX,XX +XXX,XX @@ static void versal_create_gems(Versal *s, qemu_irq *pic)
++        image_hash = ('b4d6775f5673486329e45a0586bf06b6'
-         DeviceState *dev;
++                      'dbe792199fd182ac6b9c7bb6c7d3e6dd')
-         MemoryRegion *mr;
++        image_path_xz = self.fetch_asset(image_url, asset_hash=image_hash,
++                                         algorithm='sha256')
--        dev = qdev_create(NULL, "cadence_gem");
++        image_path = archive.extract(image_path_xz, self.workdir)
--        s->lpd.iou.gem[i] = SYS_BUS_DEVICE(dev);
++        image_pow2ceil_expand(image_path)
--        object_property_add_child(OBJECT(s), name, OBJECT(dev), &error_fatal);
++
-+        sysbus_init_child_obj(OBJECT(s), name,
+         self.vm.set_console()
-+                              &s->lpd.iou.gem[i], sizeof(s->lpd.iou.gem[i]),
+         self.vm.add_args('-drive', 'file=' + image_path + ',if=sd,format=raw',
-+                              TYPE_CADENCE_GEM);
+                          '-nic', 'user',
-+        dev = DEVICE(&s->lpd.iou.gem[i]);
+@@ -XXX,XX +XXX,XX @@ def do_test_arm_orangepi_uboot_armbian(self, image_path):
-         if (nd->used) {
+                                       'to <orangepipc>')
-             qemu_check_nic_model(nd, "cadence_gem");
+         self.wait_for_console_pattern('Starting Load Kernel Modules...')
-             qdev_set_nic_properties(dev, nd);
-         }
+-    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
--        object_property_set_int(OBJECT(s->lpd.iou.gem[i]),
+-                'Test artifacts fetched from unreliable apt.armbian.com')
-+        object_property_set_int(OBJECT(dev),
+-    @skipUnless(os.getenv('AVOCADO_ALLOW_LARGE_STORAGE'), 'storage limited')
-, "num-priority-queues",
+-    @skipUnless(P7ZIP_AVAILABLE, '7z not installed')
-                                 &error_abort);
+-    def test_arm_orangepi_bionic_19_11(self):
--        object_property_set_link(OBJECT(s->lpd.iou.gem[i]),
+-        """
-+        object_property_set_link(OBJECT(dev),
+-        :avocado: tags=arch:arm
-                                  OBJECT(&s->mr_ps), "dma",
+-        :avocado: tags=machine:orangepi-pc
-                                  &error_abort);
+-        :avocado: tags=device:sd
-         qdev_init_nofail(dev);
+-        """
+-
--        mr = sysbus_mmio_get_region(s->lpd.iou.gem[i], 0);
+-        # This test download a 196MB compressed image and expand it to 1GB
-+        mr = sysbus_mmio_get_region(SYS_BUS_DEVICE(dev), 0);
+-        image_url = ('https://dl.armbian.com/orangepipc/archive/'
-         memory_region_add_subregion(&s->mr_ps, addrs[i], mr);
+-                     'Armbian_19.11.3_Orangepipc_bionic_current_5.3.9.7z')
+-        image_hash = '196a8ffb72b0123d92cea4a070894813d305c71e'
--        sysbus_connect_irq(s->lpd.iou.gem[i], 0, pic[irqs[i]]);
+-        image_path_7z = self.fetch_asset(image_url, asset_hash=image_hash)
-+        sysbus_connect_irq(SYS_BUS_DEVICE(dev), 0, pic[irqs[i]]);
+-        image_name = 'Armbian_19.11.3_Orangepipc_bionic_current_5.3.9.img'
-         g_free(name);
+-        image_path = os.path.join(self.workdir, image_name)
-     }
+-        process.run("7z e -o%s %s" % (self.workdir, image_path_7z))
- }
+-        image_pow2ceil_expand(image_path)
 -
 -        self.do_test_arm_orangepi_uboot_armbian(image_path)
 -
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
 -    @skipUnless(os.getenv('AVOCADO_ALLOW_LARGE_STORAGE'), 'storage limited')
 -    def test_arm_orangepi_bionic_20_08(self):
 -        """
 -        :avocado: tags=arch:arm
 -        :avocado: tags=machine:orangepi-pc
 -        :avocado: tags=device:sd
 -        """
 -
 -        # This test download a 275 MiB compressed image and expand it
 -        # to 1036 MiB, but the underlying filesystem is 1552 MiB...
 -        # As we expand it to 2 GiB we are safe.
 -
 -        image_url = ('https://dl.armbian.com/orangepipc/archive/'
 -                     'Armbian_20.08.1_Orangepipc_bionic_current_5.8.5.img.xz')
 -        image_hash = ('b4d6775f5673486329e45a0586bf06b6'
 -                      'dbe792199fd182ac6b9c7bb6c7d3e6dd')
 -        image_path_xz = self.fetch_asset(image_url, asset_hash=image_hash,
 -                                         algorithm='sha256')
 -        image_path = archive.extract(image_path_xz, self.workdir)
 -        image_pow2ceil_expand(image_path)
 -
 -        self.do_test_arm_orangepi_uboot_armbian(image_path)
 -
      @skipUnless(os.getenv('AVOCADO_ALLOW_LARGE_STORAGE'), 'storage limited')
      def test_arm_orangepi_uboot_netbsd9(self):
          """
 --
 .20.1

-[PULL 10/39] hw/arm: versal: Move misplaced comment
+[PULL 20/39] tests/acceptance/boot_linux_console: change URL for test_arm_orangepi_bionic_20_08
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Niek Linnenbank <nieklinnenbank@gmail.com>
-Move misplaced comment.
+Update the download URL of the Armbian 20.08 Bionic image for
 test_arm_orangepi_bionic_20_08 of the orangepi-pc machine.
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+The archive.armbian.com URL contains more images and should keep stable
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+for a longer period of time than dl.armbian.com.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
-Message-id: 20200427181649.26851-3-edgar.iglesias@gmail.com
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Tested-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Reviewed-by: Willian Rampazzo <willianr@redhat.com>
 Message-id: 20210310195820.21950-4-nieklinnenbank@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/xlnx-versal.c | 2 +-
+ tests/acceptance/boot_linux_console.py | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal.c
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/hw/arm/xlnx-versal.c
++++ b/tests/acceptance/boot_linux_console.py
-@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
+@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_bionic_20_08(self):
+         # to 1036 MiB, but the underlying filesystem is 1552 MiB...
-         obj = object_new(XLNX_VERSAL_ACPU_TYPE);
+         # As we expand it to 2 GiB we are safe.
-         if (!obj) {
--            /* Secondary CPUs start in PSCI powered-down state */
+-        image_url = ('https://dl.armbian.com/orangepipc/archive/'
-             error_report("Unable to create apu.cpu[%d] of type %s",
++        image_url = ('https://archive.armbian.com/orangepipc/archive/'
-                          i, XLNX_VERSAL_ACPU_TYPE);
+                      'Armbian_20.08.1_Orangepipc_bionic_current_5.8.5.img.xz')
-             exit(EXIT_FAILURE);
+         image_hash = ('b4d6775f5673486329e45a0586bf06b6'
-@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
+                       'dbe792199fd182ac6b9c7bb6c7d3e6dd')
          object_property_set_int(obj, s->cfg.psci_conduit,
                                  "psci-conduit", &error_abort);
          if (i) {
 +            /* Secondary CPUs start in PSCI powered-down state */
              object_property_set_bool(obj, true,
                                       "start-powered-off", &error_abort);
          }
 --
 .20.1

-[PULL 12/39] hw/arm: versal: Embed the UARTs into the SoC type
+[PULL 21/39] tests/acceptance: update sunxi kernel from armbian to 5.10.16
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Niek Linnenbank <nieklinnenbank@gmail.com>
-Embed the UARTs into the SoC type.
+The linux kernel 4.20.7 binary for sunxi has been removed from apt.armbian.com:
-Suggested-by: Peter Maydell <peter.maydell@linaro.org>
+  $ ARMBIAN_ARTIFACTS_CACHED=yes AVOCADO_ALLOW_LARGE_STORAGE=yes avocado --show=app,console run -t machine:orangepi-pc tests/acceptance/boot_linux_console.py
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+  Fetching asset from tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_orangepi
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+  ...
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+  (1/6) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_orangepi:
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+    CANCEL: Missing asset https://apt.armbian.com/pool/main/l/linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb (0.55 s)
-Message-id: 20200427181649.26851-5-edgar.iglesias@gmail.com
 This commit updates the sunxi kernel to 5.10.16 for the acceptance
 tests of the orangepi-pc and cubieboard machines.
 Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Reviewed-by: Willian Rampazzo <willianr@redhat.com>
 Message-id: 20210310195820.21950-5-nieklinnenbank@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/arm/xlnx-versal.h |  3 ++-
+ tests/acceptance/boot_linux_console.py | 40 +++++++++++++-------------
- hw/arm/xlnx-versal.c         | 12 ++++++------
+ tests/acceptance/replay_kernel.py      |  8 +++---
-files changed, 8 insertions(+), 7 deletions(-)
+files changed, 24 insertions(+), 24 deletions(-)
-diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/xlnx-versal.h
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/include/hw/arm/xlnx-versal.h
++++ b/tests/acceptance/boot_linux_console.py
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_initrd(self):
- #include "hw/sysbus.h"
+         :avocado: tags=machine:cubieboard
- #include "hw/arm/boot.h"
+         """
- #include "hw/intc/arm_gicv3.h"
+         deb_url = ('https://apt.armbian.com/pool/main/l/'
-+#include "hw/char/pl011.h"
+-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
+-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
- #define TYPE_XLNX_VERSAL "xlnx-versal"
++                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
- #define XLNX_VERSAL(obj) OBJECT_CHECK(Versal, (obj), TYPE_XLNX_VERSAL)
++        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
+         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
-         MemoryRegion mr_ocm;
+         kernel_path = self.extract_from_deb(deb_path,
+-                                            '/boot/vmlinuz-4.20.7-sunxi')
-         struct {
+-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun4i-a10-cubieboard.dtb'
--            SysBusDevice *uart[XLNX_VERSAL_NR_UARTS];
++                                            '/boot/vmlinuz-5.10.16-sunxi')
-+            PL011State uart[XLNX_VERSAL_NR_UARTS];
++        dtb_path = '/usr/lib/linux-image-current-sunxi/sun4i-a10-cubieboard.dtb'
-             SysBusDevice *gem[XLNX_VERSAL_NR_GEMS];
+         dtb_path = self.extract_from_deb(deb_path, dtb_path)
-             SysBusDevice *adma[XLNX_VERSAL_NR_ADMAS];
+         initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
-         } iou;
+                       '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
-diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
+@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_sata(self):
          :avocado: tags=machine:cubieboard
          """
          deb_url = ('https://apt.armbian.com/pool/main/l/'
 -                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
 -        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
 +                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
 +        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
          deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
          kernel_path = self.extract_from_deb(deb_path,
 -                                            '/boot/vmlinuz-4.20.7-sunxi')
 -        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun4i-a10-cubieboard.dtb'
 +                                            '/boot/vmlinuz-5.10.16-sunxi')
 +        dtb_path = '/usr/lib/linux-image-current-sunxi/sun4i-a10-cubieboard.dtb'
          dtb_path = self.extract_from_deb(deb_path, dtb_path)
          rootfs_url = ('https://github.com/groeck/linux-build-test/raw/'
                        '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi(self):
          :avocado: tags=machine:orangepi-pc
          """
          deb_url = ('https://apt.armbian.com/pool/main/l/'
 -                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
 -        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
 +                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
 +        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
          deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
          kernel_path = self.extract_from_deb(deb_path,
 -                                            '/boot/vmlinuz-4.20.7-sunxi')
 -        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun8i-h3-orangepi-pc.dtb'
 +                                            '/boot/vmlinuz-5.10.16-sunxi')
 +        dtb_path = '/usr/lib/linux-image-current-sunxi/sun8i-h3-orangepi-pc.dtb'
          dtb_path = self.extract_from_deb(deb_path, dtb_path)
          self.vm.set_console()
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_initrd(self):
          :avocado: tags=machine:orangepi-pc
          """
          deb_url = ('https://apt.armbian.com/pool/main/l/'
 -                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
 -        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
 +                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
 +        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
          deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
          kernel_path = self.extract_from_deb(deb_path,
 -                                            '/boot/vmlinuz-4.20.7-sunxi')
 -        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun8i-h3-orangepi-pc.dtb'
 +                                            '/boot/vmlinuz-5.10.16-sunxi')
 +        dtb_path = '/usr/lib/linux-image-current-sunxi/sun8i-h3-orangepi-pc.dtb'
          dtb_path = self.extract_from_deb(deb_path, dtb_path)
          initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
                        '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_sd(self):
          :avocado: tags=device:sd
          """
          deb_url = ('https://apt.armbian.com/pool/main/l/'
 -                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
 -        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
 +                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
 +        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
          deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
          kernel_path = self.extract_from_deb(deb_path,
 -                                            '/boot/vmlinuz-4.20.7-sunxi')
 -        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun8i-h3-orangepi-pc.dtb'
 +                                            '/boot/vmlinuz-5.10.16-sunxi')
 +        dtb_path = '/usr/lib/linux-image-current-sunxi/sun8i-h3-orangepi-pc.dtb'
          dtb_path = self.extract_from_deb(deb_path, dtb_path)
          rootfs_url = ('http://storage.kernelci.org/images/rootfs/buildroot/'
                        'kci-2019.02/armel/base/rootfs.ext2.xz')
 diff --git a/tests/acceptance/replay_kernel.py b/tests/acceptance/replay_kernel.py
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal.c
+--- a/tests/acceptance/replay_kernel.py
-+++ b/hw/arm/xlnx-versal.c
++++ b/tests/acceptance/replay_kernel.py
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_initrd(self):
- #include "kvm_arm.h"
+         :avocado: tags=machine:cubieboard
- #include "hw/misc/unimp.h"
+         """
- #include "hw/arm/xlnx-versal.h"
+         deb_url = ('https://apt.armbian.com/pool/main/l/'
--#include "hw/char/pl011.h"
+-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
+-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
- #define XLNX_VERSAL_ACPU_TYPE ARM_CPU_TYPE_NAME("cortex-a72")
++                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
- #define GEM_REVISION        0x40070106
++        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
-@@ -XXX,XX +XXX,XX @@ static void versal_create_uarts(Versal *s, qemu_irq *pic)
+         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
-         DeviceState *dev;
+         kernel_path = self.extract_from_deb(deb_path,
-         MemoryRegion *mr;
+-                                            '/boot/vmlinuz-4.20.7-sunxi')
+-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun4i-a10-cubieboard.dtb'
--        dev = qdev_create(NULL, TYPE_PL011);
++                                            '/boot/vmlinuz-5.10.16-sunxi')
--        s->lpd.iou.uart[i] = SYS_BUS_DEVICE(dev);
++        dtb_path = '/usr/lib/linux-image-current-sunxi/sun4i-a10-cubieboard.dtb'
-+        sysbus_init_child_obj(OBJECT(s), name,
+         dtb_path = self.extract_from_deb(deb_path, dtb_path)
-+                              &s->lpd.iou.uart[i], sizeof(s->lpd.iou.uart[i]),
+         initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
-+                              TYPE_PL011);
+                       '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
 +        dev = DEVICE(&s->lpd.iou.uart[i]);
          qdev_prop_set_chr(dev, "chardev", serial_hd(i));
 -        object_property_add_child(OBJECT(s), name, OBJECT(dev), &error_fatal);
          qdev_init_nofail(dev);
 -        mr = sysbus_mmio_get_region(s->lpd.iou.uart[i], 0);
 +        mr = sysbus_mmio_get_region(SYS_BUS_DEVICE(dev), 0);
          memory_region_add_subregion(&s->mr_ps, addrs[i], mr);
 -        sysbus_connect_irq(s->lpd.iou.uart[i], 0, pic[irqs[i]]);
 +        sysbus_connect_irq(SYS_BUS_DEVICE(dev), 0, pic[irqs[i]]);
          g_free(name);
      }
  }
 --
 .20.1

-[PULL 07/39] target/arm: Use correct variable for setting 'max' cpu's ID_AA64DFR0
+[PULL 22/39] tests/acceptance: drop ARMBIAN_ARTIFACTS_CACHED condition for orangepi-pc, cubieboard tests
-In aarch64_max_initfn() we update both 32-bit and 64-bit ID
+From: Niek Linnenbank <nieklinnenbank@gmail.com>
 registers.  The intended pattern is that for 64-bit ID registers we
 use FIELD_DP64 and the uint64_t 't' register, while 32-bit ID
 registers use FIELD_DP32 and the uint32_t 'u' register.  For
 ID_AA64DFR0 we accidentally used 'u', meaning that the top 32 bits of
 this 64-bit ID register would end up always zero.  Luckily at the
 moment that's what they should be anyway, so this bug has no visible
 effects.
-Use the right-sized variable.
+Previously the ARMBIAN_ARTIFACTS_CACHED pre-condition was added to allow running
 tests that have already existing armbian.com artifacts stored in the local avocado cache,
 but do not have working URLs to download a fresh copy.
-Fixes: 3bec78447a958d481991
+At this time of writing the URLs for artifacts on the armbian.com server are updated and working.
 Any future broken URLs will result in a skipped acceptance test, for example:
  (1/5) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_orangepi:
   CANCEL: Missing asset https://apt.armbian.com/pool/main/l/linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb (0.53 s)
 This commits removes the ARMBIAN_ARTIFACTS_CACHED pre-condition such that
 the acceptance tests for the orangepi-pc and cubieboard machines can run.
 Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Reviewed-by: Willian Rampazzo <willianr@redhat.com>
 Message-id: 20210310195820.21950-6-nieklinnenbank@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20200423110915.10527-1-peter.maydell@linaro.org
 ---
- target/arm/cpu64.c | 6 +++---
+ tests/acceptance/boot_linux_console.py | 12 ------------
-file changed, 3 insertions(+), 3 deletions(-)
+ tests/acceptance/replay_kernel.py      |  2 --
 files changed, 14 deletions(-)
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu64.c
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/target/arm/cpu64.c
++++ b/tests/acceptance/boot_linux_console.py
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+@@ -XXX,XX +XXX,XX @@ def test_arm_exynos4210_initrd(self):
-         u = FIELD_DP32(u, ID_MMFR4, XNX, 1); /* TTS2UXN */
+         self.wait_for_console_pattern('Boot successful.')
-         cpu->isar.id_mmfr4 = u;
+         # TODO user command, for now the uart is stuck
--        u = cpu->isar.id_aa64dfr0;
+-    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
--        u = FIELD_DP64(u, ID_AA64DFR0, PMUVER, 5); /* v8.4-PMU */
+-                'Test artifacts fetched from unreliable apt.armbian.com')
--        cpu->isar.id_aa64dfr0 = u;
+     def test_arm_cubieboard_initrd(self):
-+        t = cpu->isar.id_aa64dfr0;
+         """
-+        t = FIELD_DP64(t, ID_AA64DFR0, PMUVER, 5); /* v8.4-PMU */
+         :avocado: tags=arch:arm
-+        cpu->isar.id_aa64dfr0 = t;
+@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_initrd(self):
+                                                 'system-control@1c00000')
-         u = cpu->isar.id_dfr0;
+         # cubieboard's reboot is not functioning; omit reboot test.
-         u = FIELD_DP32(u, ID_DFR0, PERFMON, 5); /* v8.4-PMU */
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
      def test_arm_cubieboard_sata(self):
          """
          :avocado: tags=arch:arm
@@ -XXX,XX +XXX,XX @@ def test_arm_quanta_gsj_initrd(self):
          self.wait_for_console_pattern(
                  'Give root password for system maintenance')
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
      def test_arm_orangepi(self):
          """
          :avocado: tags=arch:arm
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi(self):
          console_pattern = 'Kernel command line: %s' % kernel_command_line
          self.wait_for_console_pattern(console_pattern)
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
      def test_arm_orangepi_initrd(self):
          """
          :avocado: tags=arch:arm
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_initrd(self):
          # Wait for VM to shut down gracefully
          self.vm.wait()
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
      def test_arm_orangepi_sd(self):
          """
          :avocado: tags=arch:arm
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_sd(self):
          # Wait for VM to shut down gracefully
          self.vm.wait()
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
      @skipUnless(os.getenv('AVOCADO_ALLOW_LARGE_STORAGE'), 'storage limited')
      def test_arm_orangepi_bionic_20_08(self):
          """
 diff --git a/tests/acceptance/replay_kernel.py b/tests/acceptance/replay_kernel.py
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/acceptance/replay_kernel.py
 +++ b/tests/acceptance/replay_kernel.py
@@ -XXX,XX +XXX,XX @@ def test_arm_virt(self):
          self.run_rr(kernel_path, kernel_command_line, console_pattern, shift=1)
      @skipIf(os.getenv('GITLAB_CI'), 'Running on GitLab')
 -    @skipUnless(os.getenv('ARMBIAN_ARTIFACTS_CACHED'),
 -                'Test artifacts fetched from unreliable apt.armbian.com')
      def test_arm_cubieboard_initrd(self):
          """
          :avocado: tags=arch:arm
 --
 .20.1

-[PULL 02/39] hw/arm/mps2-tz: Use TYPE_IOTKIT instead of hardcoded string
+[PULL 23/39] hw/timer/sse-timer: Propagate eventual error in sse_timer_realize()
 From: Philippe Mathieu-Daudé <f4bug@amsat.org>
-By using the TYPE_* definitions for devices, we can:
+If the SSECounter link is absent, we set an error message
- - quickly find where devices are used with 'git-grep'
+in sse_timer_realize() but forgot to propagate this error.
- - easily rename a device (one-line change).
+Add the missing 'return'.
+Fixes: CID 1450755 (Null pointer dereferences)
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20200428154650.21991-1-f4bug@amsat.org
+Message-id: 20210312001845.1562670-1-f4bug@amsat.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/mps2-tz.c | 2 +-
+ hw/timer/sse-timer.c | 1 +
-file changed, 1 insertion(+), 1 deletion(-)
+file changed, 1 insertion(+)
-diff --git a/hw/arm/mps2-tz.c b/hw/arm/mps2-tz.c
+diff --git a/hw/timer/sse-timer.c b/hw/timer/sse-timer.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/mps2-tz.c
+--- a/hw/timer/sse-timer.c
-+++ b/hw/arm/mps2-tz.c
++++ b/hw/timer/sse-timer.c
-@@ -XXX,XX +XXX,XX @@ static void mps2tz_common_init(MachineState *machine)
+@@ -XXX,XX +XXX,XX @@ static void sse_timer_realize(DeviceState *dev, Error **errp)
-         exit(EXIT_FAILURE);
      if (!s->counter) {
          error_setg(errp, "counter property was not set");
 +        return;
      }
--    sysbus_init_child_obj(OBJECT(machine), "iotkit", &mms->iotkit,
+     s->counter_notifier.notify = sse_timer_counter_callback;
 +    sysbus_init_child_obj(OBJECT(machine), TYPE_IOTKIT, &mms->iotkit,
                            sizeof(mms->iotkit), mmc->armsse_type);
      iotkitdev = DEVICE(&mms->iotkit);
      object_property_set_link(OBJECT(&mms->iotkit), OBJECT(system_memory),
 --
 .20.1

-[PULL 11/39] hw/arm: versal-virt: Fix typo xlnx-ve -> xlnx-versal
+[PULL 24/39] accel: kvm: Fix kvm_type invocation
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Andrew Jones <drjones@redhat.com>
-Fix typo xlnx-ve -> xlnx-versal.
+Prior to commit f2ce39b4f067 a MachineClass kvm_type method
 only needed to be registered to ensure it would be executed.
 With commit f2ce39b4f067 a kvm-type machine property must also
 be specified. hw/arm/virt relies on the kvm_type method to pass
 its selected IPA limit to KVM, but this is not exposed as a
 machine property. Restore the previous functionality of invoking
 kvm_type when it's present.
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Fixes: f2ce39b4f067 ("vl: make qemu_get_machine_opts static")
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Signed-off-by: Andrew Jones <drjones@redhat.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Message-id: 20210310135218.255205-2-drjones@redhat.com
 Message-id: 20200427181649.26851-4-edgar.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/xlnx-versal-virt.c | 2 +-
+ include/hw/boards.h | 1 +
-file changed, 1 insertion(+), 1 deletion(-)
+ accel/kvm/kvm-all.c | 2 ++
 files changed, 3 insertions(+)
-diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
+diff --git a/include/hw/boards.h b/include/hw/boards.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal-virt.c
+--- a/include/hw/boards.h
-+++ b/hw/arm/xlnx-versal-virt.c
++++ b/include/hw/boards.h
-@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
+@@ -XXX,XX +XXX,XX @@ typedef struct {
-         psci_conduit = QEMU_PSCI_CONDUIT_SMC;
+  * @kvm_type:
   *    Return the type of KVM corresponding to the kvm-type string option or
   *    computed based on other criteria such as the host kernel capabilities.
 + *    kvm-type may be NULL if it is not needed.
   * @numa_mem_supported:
   *    true if '--numa node.mem' option is supported and false otherwise
   * @smp_parse:
 diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/kvm/kvm-all.c
 +++ b/accel/kvm/kvm-all.c
@@ -XXX,XX +XXX,XX @@ static int kvm_init(MachineState *ms)
                                                              "kvm-type",
                                                              &error_abort);
          type = mc->kvm_type(ms, kvm_type);
 +    } else if (mc->kvm_type) {
 +        type = mc->kvm_type(ms, NULL);
      }
--    sysbus_init_child_obj(OBJECT(machine), "xlnx-ve", &s->soc,
+     do {
 +    sysbus_init_child_obj(OBJECT(machine), "xlnx-versal", &s->soc,
                            sizeof(s->soc), TYPE_XLNX_VERSAL);
      object_property_set_link(OBJECT(&s->soc), OBJECT(machine->ram),
                               "ddr", &error_abort);
 --
 .20.1

-[PULL 26/39] target/arm: Convert VFM[AS]L (vector) to decodetree
+[PULL 25/39] hw/arm/virt: KVM: The IPA lower bound is 32
-Convert the VFM[AS]L (vector) insns to decodetree.  This is the last
+From: Andrew Jones <drjones@redhat.com>
 insn in the legacy decoder for the 3same_ext group, so we can
 delete the legacy decoder function for the group entirely.
-Note that in disas_thumb2_insn() the parts of this encoding space
+The virt machine already checks KVM_CAP_ARM_VM_IPA_SIZE to get the
-where the decodetree decoder returns false will correctly be directed
+upper bound of the IPA size. If that bound is lower than the highest
-to illegal_op by the "(insn & (1 << 28))" check so they won't fall
+possible GPA for the machine, then QEMU will error out. However, the
-into disas_coproc_insn() by mistake.
+IPA is set to 40 when the highest GPA is less than or equal to 40,
 even when KVM may support an IPA limit as low as 32. This means KVM
 may fail the VM creation unnecessarily. Additionally, 40 is selected
 with the value 0, which means use the default, and that gets around
 a check in some versions of KVM, causing a difficult to debug fail.
 Always use the IPA size that corresponds to the highest possible GPA,
 unless it's lower than 32, in which case use 32. Also, we must still
 use 0 when KVM only supports the legacy fixed 40 bit IPA.
+Suggested-by: Marc Zyngier <maz@kernel.org>
+Signed-off-by: Andrew Jones <drjones@redhat.com>
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Marc Zyngier <maz@kernel.org>
+Message-id: 20210310135218.255205-3-drjones@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-8-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   |  6 +++
+ target/arm/kvm_arm.h |  6 ++++--
- target/arm/translate-neon.inc.c | 31 +++++++++++
+ hw/arm/virt.c        | 23 ++++++++++++++++-------
- target/arm/translate.c          | 92 +--------------------------------
+ target/arm/kvm.c     |  4 +++-
-files changed, 38 insertions(+), 91 deletions(-)
+files changed, 23 insertions(+), 10 deletions(-)
-diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
+diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/target/arm/kvm_arm.h
-+++ b/target/arm/neon-shared.decode
++++ b/target/arm/kvm_arm.h
-@@ -XXX,XX +XXX,XX @@ VCADD          1111 110 rot:1 1 . 0 size:1 .... .... 1000 . q:1 . 0 .... \
+@@ -XXX,XX +XXX,XX @@ bool kvm_arm_sve_supported(void);
- # VUDOT and VSDOT
+ /**
- VDOT           1111 110 00 . 10 .... .... 1101 . q:1 . u:1 .... \
+  * kvm_arm_get_max_vm_ipa_size:
-                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+  * @ms: Machine state handle
 + * @fixed_ipa: True when the IPA limit is fixed at 40. This is the case
 + * for legacy KVM.
   *
   * Returns the number of bits in the IPA address space supported by KVM
   */
 -int kvm_arm_get_max_vm_ipa_size(MachineState *ms);
 +int kvm_arm_get_max_vm_ipa_size(MachineState *ms, bool *fixed_ipa);
  /**
   * kvm_arm_sync_mpstate_to_kvm:
@@ -XXX,XX +XXX,XX @@ static inline void kvm_arm_add_vcpu_properties(Object *obj)
      g_assert_not_reached();
  }
 -static inline int kvm_arm_get_max_vm_ipa_size(MachineState *ms)
 +static inline int kvm_arm_get_max_vm_ipa_size(MachineState *ms, bool *fixed_ipa)
  {
      g_assert_not_reached();
  }
 diff --git a/hw/arm/virt.c b/hw/arm/virt.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/virt.c
 +++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static HotplugHandler *virt_machine_get_hotplug_handler(MachineState *machine,
  static int virt_kvm_type(MachineState *ms, const char *type_str)
  {
      VirtMachineState *vms = VIRT_MACHINE(ms);
 -    int max_vm_pa_size = kvm_arm_get_max_vm_ipa_size(ms);
 -    int requested_pa_size;
 +    int max_vm_pa_size, requested_pa_size;
 +    bool fixed_ipa;
 +
-+# VFM[AS]L
++    max_vm_pa_size = kvm_arm_get_max_vm_ipa_size(ms, &fixed_ipa);
-+VFML           1111 110 0 s:1 . 10 .... .... 1000 . 0 . 1 .... \
-+               vm=%vm_sp vn=%vn_sp vd=%vd_dp q=0
+     /* we freeze the memory map to compute the highest gpa */
-+VFML           1111 110 0 s:1 . 10 .... .... 1000 . 1 . 1 .... \
+     virt_set_memmap(vms);
-+               vm=%vm_dp vn=%vn_dp vd=%vd_dp q=1
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+     requested_pa_size = 64 - clz64(vms->highest_gpa);
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
++    /*
-+++ b/target/arm/translate-neon.inc.c
++     * KVM requires the IPA size to be at least 32 bits.
-@@ -XXX,XX +XXX,XX @@ static bool trans_VDOT(DisasContext *s, arg_VDOT *a)
++     */
-                        opr_sz, opr_sz, 0, fn_gvec);
++    if (requested_pa_size < 32) {
-     return true;
++        requested_pa_size = 32;
  }
 +
 +static bool trans_VFML(DisasContext *s, arg_VFML *a)
 +{
 +    int opr_sz;
 +
 +    if (!dc_isar_feature(aa32_fhm, s)) {
 +        return false;
 +    }
 +
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
+     if (requested_pa_size > max_vm_pa_size) {
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+         error_report("-m and ,maxmem option values "
-+        (a->vd & 0x10)) {
+                      "require an IPA range (%d bits) larger than "
-+        return false;
+                      "the one supported by the host (%d bits)",
-+    }
+                      requested_pa_size, max_vm_pa_size);
 -       exit(1);
 +        exit(1);
      }
      /*
 -     * By default we return 0 which corresponds to an implicit legacy
 -     * 40b IPA setting. Otherwise we return the actual requested PA
 -     * logsize
 +     * We return the requested PA log size, unless KVM only supports
 +     * the implicit legacy 40b IPA setting, in which case the kvm_type
 +     * must be 0.
       */
 -    return requested_pa_size > 40 ? requested_pa_size : 0;
 +    return fixed_ipa ? 0 : requested_pa_size;
  }
  static void virt_machine_class_init(ObjectClass *oc, void *data)
 diff --git a/target/arm/kvm.c b/target/arm/kvm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm.c
 +++ b/target/arm/kvm.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_pmu_supported(void)
      return kvm_check_extension(kvm_state, KVM_CAP_ARM_PMU_V3);
  }
 -int kvm_arm_get_max_vm_ipa_size(MachineState *ms)
 +int kvm_arm_get_max_vm_ipa_size(MachineState *ms, bool *fixed_ipa)
  {
      KVMState *s = KVM_STATE(ms->accelerator);
      int ret;
      ret = kvm_check_extension(s, KVM_CAP_ARM_VM_IPA_SIZE);
 +    *fixed_ipa = ret <= 0;
 +
-+    if (a->vd & a->q) {
+     return ret > 0 ? ret : 40;
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    opr_sz = (1 + a->q) * 8;
 +    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
 +                       vfp_reg_offset(a->q, a->vn),
 +                       vfp_reg_offset(a->q, a->vm),
 +                       cpu_env, opr_sz, opr_sz, a->s, /* is_2 == 0 */
 +                       gen_helper_gvec_fmlal_a32);
 +    return true;
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      return 0;
  }
--/* Advanced SIMD three registers of the same length extension.
-- *  31           25    23  22    20   16   12  11   10   9    8        3     0
-- * +---------------+-----+---+-----+----+----+---+----+---+----+---------+----+
-- * | 1 1 1 1 1 1 0 | op1 | D | op2 | Vn | Vd | 1 | o3 | 0 | o4 | N Q M U | Vm |
-- * +---------------+-----+---+-----+----+----+---+----+---+----+---------+----+
-- */
--static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
--{
--    gen_helper_gvec_3 *fn_gvec = NULL;
--    gen_helper_gvec_3_ptr *fn_gvec_ptr = NULL;
--    int rd, rn, rm, opr_sz;
--    int data = 0;
--    int off_rn, off_rm;
--    bool is_long = false, q = extract32(insn, 6, 1);
--    bool ptr_is_env = false;
--
--    if ((insn & 0xff300f10) == 0xfc200810) {
--        /* VFM[AS]L -- 1111 1100 S.10 .... .... 1000 .Q.1 .... */
--        int is_s = extract32(insn, 23, 1);
--        if (!dc_isar_feature(aa32_fhm, s)) {
--            return 1;
--        }
--        is_long = true;
--        data = is_s; /* is_2 == 0 */
--        fn_gvec_ptr = gen_helper_gvec_fmlal_a32;
--        ptr_is_env = true;
--    } else {
--        return 1;
--    }
--
--    VFP_DREG_D(rd, insn);
--    if (rd & q) {
--        return 1;
--    }
--    if (q || !is_long) {
--        VFP_DREG_N(rn, insn);
--        VFP_DREG_M(rm, insn);
--        if ((rn | rm) & q & !is_long) {
--            return 1;
--        }
--        off_rn = vfp_reg_offset(1, rn);
--        off_rm = vfp_reg_offset(1, rm);
--    } else {
--        rn = VFP_SREG_N(insn);
--        rm = VFP_SREG_M(insn);
--        off_rn = vfp_reg_offset(0, rn);
--        off_rm = vfp_reg_offset(0, rm);
--    }
--
--    if (s->fp_excp_el) {
--        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
--                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
--        return 0;
--    }
--    if (!s->vfp_enabled) {
--        return 1;
--    }
--
--    opr_sz = (1 + q) * 8;
--    if (fn_gvec_ptr) {
--        TCGv_ptr ptr;
--        if (ptr_is_env) {
--            ptr = cpu_env;
--        } else {
--            ptr = get_fpstatus_ptr(1);
--        }
--        tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd), off_rn, off_rm, ptr,
--                           opr_sz, opr_sz, data, fn_gvec_ptr);
--        if (!ptr_is_env) {
--            tcg_temp_free_ptr(ptr);
--        }
--    } else {
--        tcg_gen_gvec_3_ool(vfp_reg_offset(1, rd), off_rn, off_rm,
--                           opr_sz, opr_sz, data, fn_gvec);
--    }
--    return 0;
--}
--
- /* Advanced SIMD two registers and a scalar extension.
-  *  31             24   23  22   20   16   12  11   10   9    8        3     0
-  * +-----------------+----+---+----+----+----+---+----+---+----+---------+----+
-@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
-                     }
-                 }
-             }
--        } else if ((insn & 0x0e000a00) == 0x0c000800
--                   && arm_dc_feature(s, ARM_FEATURE_V8)) {
--            if (disas_neon_insn_3same_ext(s, insn)) {
--                goto illegal_op;
--            }
--            return;
-         } else if ((insn & 0x0f000a00) == 0x0e000800
-                    && arm_dc_feature(s, ARM_FEATURE_V8)) {
-             if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
-             }
-             break;
-         }
--        if ((insn & 0xfe000a00) == 0xfc000800
-+        if ((insn & 0xff000a00) == 0xfe000800
-             && arm_dc_feature(s, ARM_FEATURE_V8)) {
-             /* The Thumb2 and ARM encodings are identical.  */
--            if (disas_neon_insn_3same_ext(s, insn)) {
--                goto illegal_op;
--            }
--        } else if ((insn & 0xff000a00) == 0xfe000800
--                   && arm_dc_feature(s, ARM_FEATURE_V8)) {
--            /* The Thumb2 and ARM encodings are identical.  */
-             if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
-                 goto illegal_op;
-             }
 --
 .20.1

-[PULL 18/39] hw/arm: versal-virt: Add support for SD
+[PULL 26/39] hw/misc: Add GPIOs for duty in NPCM7xx PWM
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+From: Hao Wu <wuhaotsh@google.com>
-Add support for SD.
+This patch adds GPIOs in NPCM7xx PWM module for its duty values.
 The purpose of this is to connect it to the MFT module to provide
 an input for measuring a PWM fan's RPM. Each PWM module has
 NPCM7XX_PWM_PER_MODULE of GPIOs, each one corresponds to
 one PWM instance and can connect to multiple fan instances in MFT.
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Doug Evans <dje@google.com>
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Signed-off-by: Hao Wu <wuhaotsh@google.com>
-Message-id: 20200427181649.26851-11-edgar.iglesias@gmail.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20210311180855.149764-2-wuhaotsh@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/xlnx-versal-virt.c | 46 +++++++++++++++++++++++++++++++++++++++
+ include/hw/misc/npcm7xx_pwm.h | 4 +++-
-file changed, 46 insertions(+)
+ hw/misc/npcm7xx_pwm.c         | 4 ++++
 files changed, 7 insertions(+), 1 deletion(-)
-diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
+diff --git a/include/hw/misc/npcm7xx_pwm.h b/include/hw/misc/npcm7xx_pwm.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal-virt.c
+--- a/include/hw/misc/npcm7xx_pwm.h
-+++ b/hw/arm/xlnx-versal-virt.c
++++ b/include/hw/misc/npcm7xx_pwm.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxPWM {
- #include "hw/arm/sysbus-fdt.h"
+  * @iomem: Memory region through which registers are accessed.
- #include "hw/arm/fdt.h"
+  * @clock: The PWM clock.
- #include "cpu.h"
+  * @pwm: The PWM channels owned by this module.
-+#include "hw/qdev-properties.h"
++ * @duty_gpio_out: The duty cycle of each PWM channels as a output GPIO.
- #include "hw/arm/xlnx-versal.h"
+  * @ppr: The prescaler register.
+  * @csr: The clock selector register.
- #define TYPE_XLNX_VERSAL_VIRT_MACHINE MACHINE_TYPE_NAME("xlnx-versal-virt")
+  * @pcr: The control register.
-@@ -XXX,XX +XXX,XX @@ static void fdt_add_zdma_nodes(VersalVirt *s)
+@@ -XXX,XX +XXX,XX @@ struct NPCM7xxPWMState {
      MemoryRegion iomem;
      Clock       *clock;
 -    NPCM7xxPWM pwm[NPCM7XX_PWM_PER_MODULE];
 +    NPCM7xxPWM  pwm[NPCM7XX_PWM_PER_MODULE];
 +    qemu_irq    duty_gpio_out[NPCM7XX_PWM_PER_MODULE];
      uint32_t    ppr;
      uint32_t    csr;
 diff --git a/hw/misc/npcm7xx_pwm.c b/hw/misc/npcm7xx_pwm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/npcm7xx_pwm.c
 +++ b/hw/misc/npcm7xx_pwm.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_pwm_update_duty(NPCM7xxPWM *p)
          trace_npcm7xx_pwm_update_duty(DEVICE(p->module)->canonical_path,
                                        p->index, p->duty, duty);
          p->duty = duty;
 +        qemu_set_irq(p->module->duty_gpio_out[p->index], p->duty);
      }
  }
-+static void fdt_add_sd_nodes(VersalVirt *s)
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_pwm_init(Object *obj)
-+{
+     SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
-+    const char clocknames[] = "clk_xin\0clk_ahb";
+     int i;
-+    const char compat[] = "arasan,sdhci-8.9a";
-+    int i;
++    QEMU_BUILD_BUG_ON(ARRAY_SIZE(s->pwm) != NPCM7XX_PWM_PER_MODULE);
-+
+     for (i = 0; i < NPCM7XX_PWM_PER_MODULE; i++) {
-+    for (i = ARRAY_SIZE(s->soc.pmc.iou.sd) - 1; i >= 0; i--) {
+         NPCM7xxPWM *p = &s->pwm[i];
-+        uint64_t addr = MM_PMC_SD0 + MM_PMC_SD0_SIZE * i;
+         p->module = s;
-+        char *name = g_strdup_printf("/sdhci@%" PRIx64, addr);
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_pwm_init(Object *obj)
-+
+         object_property_add_uint32_ptr(obj, "duty[*]",
-+        qemu_fdt_add_subnode(s->fdt, name);
+                 &s->pwm[i].duty, OBJ_PROP_FLAG_READ);
 +
 +        qemu_fdt_setprop_cells(s->fdt, name, "clocks",
 +                               s->phandle.clk_25Mhz, s->phandle.clk_25Mhz);
 +        qemu_fdt_setprop(s->fdt, name, "clock-names",
 +                         clocknames, sizeof(clocknames));
 +        qemu_fdt_setprop_cells(s->fdt, name, "interrupts",
 +                               GIC_FDT_IRQ_TYPE_SPI, VERSAL_SD0_IRQ_0 + i * 2,
 +                               GIC_FDT_IRQ_FLAGS_LEVEL_HI);
 +        qemu_fdt_setprop_sized_cells(s->fdt, name, "reg",
 +                                     2, addr, 2, MM_PMC_SD0_SIZE);
 +        qemu_fdt_setprop(s->fdt, name, "compatible", compat, sizeof(compat));
 +        g_free(name);
 +    }
 +}
 +
  static void fdt_nop_memory_nodes(void *fdt, Error **errp)
  {
      Error *err = NULL;
@@ -XXX,XX +XXX,XX @@ static void create_virtio_regions(VersalVirt *s)
      }
++    qdev_init_gpio_out_named(DEVICE(s), s->duty_gpio_out,
++                             "duty-gpio-out", NPCM7XX_PWM_PER_MODULE);
  }
-+static void sd_plugin_card(SDHCIState *sd, DriveInfo *di)
+ static const VMStateDescription vmstate_npcm7xx_pwm = {
 +{
 +    BlockBackend *blk = di ? blk_by_legacy_dinfo(di) : NULL;
 +    DeviceState *card;
 +
 +    card = qdev_create(qdev_get_child_bus(DEVICE(sd), "sd-bus"), TYPE_SD_CARD);
 +    object_property_add_child(OBJECT(sd), "card[*]", OBJECT(card),
 +                              &error_fatal);
 +    qdev_prop_set_drive(card, "drive", blk, &error_fatal);
 +    object_property_set_bool(OBJECT(card), true, "realized", &error_fatal);
 +}
 +
  static void versal_virt_init(MachineState *machine)
  {
      VersalVirt *s = XLNX_VERSAL_VIRT_MACHINE(machine);
      int psci_conduit = QEMU_PSCI_CONDUIT_DISABLED;
 +    int i;
      /*
       * If the user provides an Operating System to be loaded, we expect them
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
      fdt_add_gic_nodes(s);
      fdt_add_timer_nodes(s);
      fdt_add_zdma_nodes(s);
 +    fdt_add_sd_nodes(s);
      fdt_add_cpu_nodes(s, psci_conduit);
      fdt_add_clk_node(s, "/clk125", 125000000, s->phandle.clk_125Mhz);
      fdt_add_clk_node(s, "/clk25", 25000000, s->phandle.clk_25Mhz);
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
      memory_region_add_subregion_overlap(get_system_memory(),
 , &s->soc.fpd.apu.mr, 0);
 +    /* Plugin SD cards.  */
 +    for (i = 0; i < ARRAY_SIZE(s->soc.pmc.iou.sd); i++) {
 +        sd_plugin_card(&s->soc.pmc.iou.sd[i], drive_get_next(IF_SD));
 +    }
 +
      s->binfo.ram_size = machine->ram_size;
      s->binfo.loader_start = 0x0;
      s->binfo.get_dtb = versal_virt_get_dtb;
 --
 .20.1

-[PULL 22/39] target/arm: Add stubs for AArch32 Neon decodetree
+[PULL 27/39] hw/misc: Add NPCM7XX MFT Module
-Add the infrastructure for building and invoking a decodetree decoder
+From: Hao Wu <wuhaotsh@google.com>
 for the AArch32 Neon encodings.  At the moment the new decoder covers
 nothing, so we always fall back to the existing hand-written decode.
-We follow the same pattern we did for the VFP decodetree conversion
+This patch implements Multi Function Timer (MFT) module for NPCM7XX.
-(commit 78e138bc1f672c145ef6ace74617d and following): code that deals
+This module is mainly used to configure PWM fans. It has just enough
-with Neon will be moving gradually out to translate-neon.vfp.inc,
+functionality to make the PWM fan kernel module work.
 which we #include into translate.c.
-In order to share the decode files between A32 and T32, we
+The module takes two input, the max_rpm of a fan (modifiable via QMP)
-split Neon into 3 parts:
+and duty cycle (a GPIO from the PWM module.) The actual measured RPM
- * data-processing
+is equal to max_rpm * duty_cycle / NPCM7XX_PWM_MAX_DUTY. The RPM is
- * load-store
+measured as a counter compared to a prescaled input clock. The kernel
- * 'shared' encodings
+driver reads this counter and report to user space.
-The first two groups of instructions have similar but not identical
+Refs:
-A32 and T32 encodings, so we need to manually transform the T32
+https://github.com/torvalds/linux/blob/master/drivers/hwmon/npcm750-pwm-fan.c
 encoding into the A32 one before calling the decoder; the third group
 covers the Neon instructions which are identical in A32 and T32.
+Reviewed-by: Doug Evans <dje@google.com>
+Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
+Signed-off-by: Hao Wu <wuhaotsh@google.com>
+Message-id: 20210311180855.149764-3-wuhaotsh@google.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-4-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       | 29 ++++++++++++++++++++++++++
+ include/hw/misc/npcm7xx_mft.h |  70 +++++
- target/arm/neon-ls.decode       | 29 ++++++++++++++++++++++++++
+ hw/misc/npcm7xx_mft.c         | 540 ++++++++++++++++++++++++++++++++++
- target/arm/neon-shared.decode   | 27 +++++++++++++++++++++++++
+ hw/misc/meson.build           |   1 +
- target/arm/translate-neon.inc.c | 32 +++++++++++++++++++++++++++++
+ hw/misc/trace-events          |   8 +
- target/arm/translate.c          | 36 +++++++++++++++++++++++++++++++--
+files changed, 619 insertions(+)
- target/arm/Makefile.objs        | 18 +++++++++++++++++
+ create mode 100644 include/hw/misc/npcm7xx_mft.h
-files changed, 169 insertions(+), 2 deletions(-)
+ create mode 100644 hw/misc/npcm7xx_mft.c
  create mode 100644 target/arm/neon-dp.decode
  create mode 100644 target/arm/neon-ls.decode
  create mode 100644 target/arm/neon-shared.decode
  create mode 100644 target/arm/translate-neon.inc.c
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/include/hw/misc/npcm7xx_mft.h b/include/hw/misc/npcm7xx_mft.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/target/arm/neon-dp.decode
++++ b/include/hw/misc/npcm7xx_mft.h
 @@ -XXX,XX +XXX,XX @@
-+# AArch32 Neon data-processing instruction descriptions
++/*
-+#
++ * Nuvoton NPCM7xx MFT Module
-+#  Copyright (c) 2020 Linaro, Ltd
++ *
-+#
++ * Copyright 2021 Google LLC
-+# This library is free software; you can redistribute it and/or
++ *
-+# modify it under the terms of the GNU Lesser General Public
++ * This program is free software; you can redistribute it and/or modify it
-+# License as published by the Free Software Foundation; either
++ * under the terms of the GNU General Public License as published by the
-+# version 2 of the License, or (at your option) any later version.
++ * Free Software Foundation; either version 2 of the License, or
-+#
++ * (at your option) any later version.
-+# This library is distributed in the hope that it will be useful,
++ *
-+# but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * This program is distributed in the hope that it will be useful, but WITHOUT
-+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
-+# Lesser General Public License for more details.
++ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
-+#
++ * for more details.
-+# You should have received a copy of the GNU Lesser General Public
++ */
-+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
++#ifndef NPCM7XX_MFT_H
-+
++#define NPCM7XX_MFT_H
-+#
++
-+# This file is processed by scripts/decodetree.py
++#include "exec/memory.h"
-+#
++#include "hw/clock.h"
-+
++#include "hw/irq.h"
-+# Encodings for Neon data processing instructions where the T32 encoding
++#include "hw/sysbus.h"
-+# is a simple transformation of the A32 encoding.
++#include "qom/object.h"
-+# More specifically, this file covers instructions where the A32 encoding is
++
-+#   0b1111_001p_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
++/* Max Fan input number. */
-+# and the T32 encoding is
++#define NPCM7XX_MFT_MAX_FAN_INPUT 19
-+#   0b111p_1111_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
++
-+# This file works on the A32 encoding only; calling code for T32 has to
++/*
-+# transform the insn into the A32 version first.
++ * Number of registers in one MFT module. Don't change this without increasing
-diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
++ * the version_id in vmstate.
 + */
 +#define NPCM7XX_MFT_NR_REGS (0x20 / sizeof(uint16_t))
 +
 +/*
 + * The MFT can take up to 4 inputs: A0, B0, A1, B1. It can measure one A and one
 + * B simultaneously. NPCM7XX_MFT_INASEL and NPCM7XX_MFT_INBSEL are used to
 + * select which A or B input are used.
 + */
 +#define NPCM7XX_MFT_FANIN_COUNT 4
 +
 +/**
 + * struct NPCM7xxMFTState - Multi Functional Tachometer device state.
 + * @parent: System bus device.
 + * @iomem: Memory region through which registers are accessed.
 + * @clock_in: The input clock for MFT from CLK module.
 + * @clock_{1,2}: The counter clocks for NPCM7XX_MFT_CNT{1,2}
 + * @irq: The IRQ for this MFT state.
 + * @regs: The MMIO registers.
 + * @max_rpm: The maximum rpm for fans. Order: A0, B0, A1, B1.
 + * @duty: The duty cycles for fans, relative to NPCM7XX_PWM_MAX_DUTY.
 + */
 +typedef struct NPCM7xxMFTState {
 +    SysBusDevice parent;
 +
 +    MemoryRegion iomem;
 +
 +    Clock       *clock_in;
 +    Clock       *clock_1, *clock_2;
 +    qemu_irq    irq;
 +    uint16_t    regs[NPCM7XX_MFT_NR_REGS];
 +
 +    uint32_t    max_rpm[NPCM7XX_MFT_FANIN_COUNT];
 +    uint32_t    duty[NPCM7XX_MFT_FANIN_COUNT];
 +} NPCM7xxMFTState;
 +
 +#define TYPE_NPCM7XX_MFT "npcm7xx-mft"
 +#define NPCM7XX_MFT(obj) \
 +    OBJECT_CHECK(NPCM7xxMFTState, (obj), TYPE_NPCM7XX_MFT)
 +
 +#endif /* NPCM7XX_MFT_H */
 diff --git a/hw/misc/npcm7xx_mft.c b/hw/misc/npcm7xx_mft.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/target/arm/neon-ls.decode
++++ b/hw/misc/npcm7xx_mft.c
@@ -XXX,XX +XXX,XX @@
 +# AArch32 Neon load/store instruction descriptions
 +#
 +#  Copyright (c) 2020 Linaro, Ltd
 +#
 +# This library is free software; you can redistribute it and/or
 +# modify it under the terms of the GNU Lesser General Public
 +# License as published by the Free Software Foundation; either
 +# version 2 of the License, or (at your option) any later version.
 +#
 +# This library is distributed in the hope that it will be useful,
 +# but WITHOUT ANY WARRANTY; without even the implied warranty of
 +# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 +# Lesser General Public License for more details.
 +#
 +# You should have received a copy of the GNU Lesser General Public
 +# License along with this library; if not, see <http://www.gnu.org/licenses/>.
 +
 +#
 +# This file is processed by scripts/decodetree.py
 +#
 +
 +# Encodings for Neon load/store instructions where the T32 encoding
 +# is a simple transformation of the A32 encoding.
 +# More specifically, this file covers instructions where the A32 encoding is
 +#   0b1111_0100_xxx0_xxxx_xxxx_xxxx_xxxx_xxxx
 +# and the T32 encoding is
 +#   0b1111_1001_xxx0_xxxx_xxxx_xxxx_xxxx_xxxx
 +# This file works on the A32 encoding only; calling code for T32 has to
 +# transform the insn into the A32 version first.
 diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@
 +# AArch32 Neon instruction descriptions
 +#
 +#  Copyright (c) 2020 Linaro, Ltd
 +#
 +# This library is free software; you can redistribute it and/or
 +# modify it under the terms of the GNU Lesser General Public
 +# License as published by the Free Software Foundation; either
 +# version 2 of the License, or (at your option) any later version.
 +#
 +# This library is distributed in the hope that it will be useful,
 +# but WITHOUT ANY WARRANTY; without even the implied warranty of
 +# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 +# Lesser General Public License for more details.
 +#
 +# You should have received a copy of the GNU Lesser General Public
 +# License along with this library; if not, see <http://www.gnu.org/licenses/>.
 +
 +#
 +# This file is processed by scripts/decodetree.py
 +#
 +
 +# Encodings for Neon instructions whose encoding is the same for
 +# both A32 and T32.
 +
 +# More specifically, this covers:
 +# 2reg scalar ext: 0b1111_1110_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
 +# 3same ext:       0b1111_110x_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/target/arm/translate-neon.inc.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ *  ARM translation: AArch32 Neon instructions
++ * Nuvoton NPCM7xx MFT Module
 + *
-+ *  Copyright (c) 2003 Fabrice Bellard
++ * Copyright 2021 Google LLC
 + *  Copyright (c) 2005-2007 CodeSourcery
 + *  Copyright (c) 2007 OpenedHand, Ltd.
 + *  Copyright (c) 2020 Linaro, Ltd.
 + *
-+ * This library is free software; you can redistribute it and/or
++ * This program is free software; you can redistribute it and/or modify it
-+ * modify it under the terms of the GNU Lesser General Public
++ * under the terms of the GNU General Public License as published by the
-+ * License as published by the Free Software Foundation; either
++ * Free Software Foundation; either version 2 of the License, or
-+ * version 2 of the License, or (at your option) any later version.
++ * (at your option) any later version.
 + *
-+ * This library is distributed in the hope that it will be useful,
++ * This program is distributed in the hope that it will be useful, but WITHOUT
-+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
-+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
-+ * Lesser General Public License for more details.
++ * for more details.
-+ *
++ */
-+ * You should have received a copy of the GNU Lesser General Public
++
-+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
++#include "qemu/osdep.h"
-+ */
++#include "hw/irq.h"
 +#include "hw/qdev-clock.h"
 +#include "hw/qdev-properties.h"
 +#include "hw/misc/npcm7xx_mft.h"
 +#include "hw/misc/npcm7xx_pwm.h"
 +#include "hw/registerfields.h"
 +#include "migration/vmstate.h"
 +#include "qapi/error.h"
 +#include "qapi/visitor.h"
 +#include "qemu/bitops.h"
 +#include "qemu/error-report.h"
 +#include "qemu/log.h"
 +#include "qemu/module.h"
 +#include "qemu/timer.h"
 +#include "qemu/units.h"
 +#include "trace.h"
 +
 +/*
-+ * This file is intended to be included from translate.c; it uses
++ * Some of the registers can only accessed via 16-bit ops and some can only
-+ * some macros and definitions provided by that file.
++ * be accessed via 8-bit ops. However we mark all of them using REG16 to
-+ * It might be possible to convert it to a standalone .c file eventually.
++ * simplify implementation. npcm7xx_mft_check_mem_op checks the access length
-+ */
++ * of memory operations.
-+
++ */
-+/* Include the generated Neon decoder */
++REG16(NPCM7XX_MFT_CNT1, 0x00);
-+#include "decode-neon-dp.inc.c"
++REG16(NPCM7XX_MFT_CRA, 0x02);
-+#include "decode-neon-ls.inc.c"
++REG16(NPCM7XX_MFT_CRB, 0x04);
-+#include "decode-neon-shared.inc.c"
++REG16(NPCM7XX_MFT_CNT2, 0x06);
-diff --git a/target/arm/translate.c b/target/arm/translate.c
++REG16(NPCM7XX_MFT_PRSC, 0x08);
 +REG16(NPCM7XX_MFT_CKC, 0x0a);
 +REG16(NPCM7XX_MFT_MCTRL, 0x0c);
 +REG16(NPCM7XX_MFT_ICTRL, 0x0e);
 +REG16(NPCM7XX_MFT_ICLR, 0x10);
 +REG16(NPCM7XX_MFT_IEN, 0x12);
 +REG16(NPCM7XX_MFT_CPA, 0x14);
 +REG16(NPCM7XX_MFT_CPB, 0x16);
 +REG16(NPCM7XX_MFT_CPCFG, 0x18);
 +REG16(NPCM7XX_MFT_INASEL, 0x1a);
 +REG16(NPCM7XX_MFT_INBSEL, 0x1c);
 +
 +/* Register Fields */
 +#define NPCM7XX_MFT_CKC_C2CSEL          BIT(3)
 +#define NPCM7XX_MFT_CKC_C1CSEL          BIT(0)
 +
 +#define NPCM7XX_MFT_MCTRL_TBEN          BIT(6)
 +#define NPCM7XX_MFT_MCTRL_TAEN          BIT(5)
 +#define NPCM7XX_MFT_MCTRL_TBEDG         BIT(4)
 +#define NPCM7XX_MFT_MCTRL_TAEDG         BIT(3)
 +#define NPCM7XX_MFT_MCTRL_MODE5         BIT(2)
 +
 +#define NPCM7XX_MFT_ICTRL_TFPND         BIT(5)
 +#define NPCM7XX_MFT_ICTRL_TEPND         BIT(4)
 +#define NPCM7XX_MFT_ICTRL_TDPND         BIT(3)
 +#define NPCM7XX_MFT_ICTRL_TCPND         BIT(2)
 +#define NPCM7XX_MFT_ICTRL_TBPND         BIT(1)
 +#define NPCM7XX_MFT_ICTRL_TAPND         BIT(0)
 +
 +#define NPCM7XX_MFT_ICLR_TFCLR          BIT(5)
 +#define NPCM7XX_MFT_ICLR_TECLR          BIT(4)
 +#define NPCM7XX_MFT_ICLR_TDCLR          BIT(3)
 +#define NPCM7XX_MFT_ICLR_TCCLR          BIT(2)
 +#define NPCM7XX_MFT_ICLR_TBCLR          BIT(1)
 +#define NPCM7XX_MFT_ICLR_TACLR          BIT(0)
 +
 +#define NPCM7XX_MFT_IEN_TFIEN           BIT(5)
 +#define NPCM7XX_MFT_IEN_TEIEN           BIT(4)
 +#define NPCM7XX_MFT_IEN_TDIEN           BIT(3)
 +#define NPCM7XX_MFT_IEN_TCIEN           BIT(2)
 +#define NPCM7XX_MFT_IEN_TBIEN           BIT(1)
 +#define NPCM7XX_MFT_IEN_TAIEN           BIT(0)
 +
 +#define NPCM7XX_MFT_CPCFG_GET_B(rv)     extract8((rv), 4, 4)
 +#define NPCM7XX_MFT_CPCFG_GET_A(rv)     extract8((rv), 0, 4)
 +#define NPCM7XX_MFT_CPCFG_HIEN          BIT(3)
 +#define NPCM7XX_MFT_CPCFG_EQEN          BIT(2)
 +#define NPCM7XX_MFT_CPCFG_LOEN          BIT(1)
 +#define NPCM7XX_MFT_CPCFG_CPSEL         BIT(0)
 +
 +#define NPCM7XX_MFT_INASEL_SELA         BIT(0)
 +#define NPCM7XX_MFT_INBSEL_SELB         BIT(0)
 +
 +/* Max CNT values of the module. The CNT value is a countdown from it. */
 +#define NPCM7XX_MFT_MAX_CNT             0xFFFF
 +
 +/* Each fan revolution should generated 2 pulses */
 +#define NPCM7XX_MFT_PULSE_PER_REVOLUTION 2
 +
 +typedef enum NPCM7xxMFTCaptureState {
 +    /* capture succeeded with a valid CNT value. */
 +    NPCM7XX_CAPTURE_SUCCEED,
 +    /* capture stopped prematurely due to reaching CPCFG condition. */
 +    NPCM7XX_CAPTURE_COMPARE_HIT,
 +    /* capture fails since it reaches underflow condition for CNT. */
 +    NPCM7XX_CAPTURE_UNDERFLOW,
 +} NPCM7xxMFTCaptureState;
 +
 +static void npcm7xx_mft_reset(NPCM7xxMFTState *s)
 +{
 +    int i;
 +
 +    /* Only registers PRSC ~ INBSEL need to be reset. */
 +    for (i = R_NPCM7XX_MFT_PRSC; i <= R_NPCM7XX_MFT_INBSEL; ++i) {
 +        s->regs[i] = 0;
 +    }
 +}
 +
 +static void npcm7xx_mft_clear_interrupt(NPCM7xxMFTState *s, uint8_t iclr)
 +{
 +    /*
 +     * Clear bits in ICTRL where corresponding bits in iclr is 1.
 +     * Both iclr and ictrl are 8-bit regs. (See npcm7xx_mft_check_mem_op)
 +     */
 +    s->regs[R_NPCM7XX_MFT_ICTRL] &= ~iclr;
 +}
 +
 +/*
 + * If the CPCFG's condition should be triggered during count down from
 + * NPCM7XX_MFT_MAX_CNT to src if compared to tgt, return the count when
 + * the condition is triggered.
 + * Otherwise return -1.
 + * Since tgt is uint16_t it must always <= NPCM7XX_MFT_MAX_CNT.
 + */
 +static int npcm7xx_mft_compare(int32_t src, uint16_t tgt, uint8_t cpcfg)
 +{
 +    if (cpcfg & NPCM7XX_MFT_CPCFG_HIEN) {
 +        return NPCM7XX_MFT_MAX_CNT;
 +    }
 +    if ((cpcfg & NPCM7XX_MFT_CPCFG_EQEN) && (src <= tgt)) {
 +        return tgt;
 +    }
 +    if ((cpcfg & NPCM7XX_MFT_CPCFG_LOEN) && (tgt > 0) && (src < tgt)) {
 +        return tgt - 1;
 +    }
 +
 +    return -1;
 +}
 +
 +/* Compute CNT according to corresponding fan's RPM. */
 +static NPCM7xxMFTCaptureState npcm7xx_mft_compute_cnt(
 +    Clock *clock, uint32_t max_rpm, uint32_t duty, uint16_t tgt,
 +    uint8_t cpcfg, uint16_t *cnt)
 +{
 +    uint32_t rpm = (uint64_t)max_rpm * (uint64_t)duty / NPCM7XX_PWM_MAX_DUTY;
 +    int32_t count;
 +    int stopped;
 +    NPCM7xxMFTCaptureState state;
 +
 +    if (rpm == 0) {
 +        /*
 +         * If RPM = 0, capture won't happen. CNT will continue count down.
 +         * So it's effective equivalent to have a cnt > NPCM7XX_MFT_MAX_CNT
 +         */
 +        count = NPCM7XX_MFT_MAX_CNT + 1;
 +    } else {
 +        /*
 +         * RPM = revolution/min. The time for one revlution (in ns) is
 +         * MINUTE_TO_NANOSECOND / RPM.
 +         */
 +        count = clock_ns_to_ticks(clock, (60 * NANOSECONDS_PER_SECOND) /
 +            (rpm * NPCM7XX_MFT_PULSE_PER_REVOLUTION));
 +    }
 +
 +    if (count > NPCM7XX_MFT_MAX_CNT) {
 +        count = -1;
 +    } else {
 +        /* The CNT is a countdown value from NPCM7XX_MFT_MAX_CNT. */
 +        count = NPCM7XX_MFT_MAX_CNT - count;
 +    }
 +    stopped = npcm7xx_mft_compare(count, tgt, cpcfg);
 +    if (stopped == -1) {
 +        if (count == -1) {
 +            /* Underflow */
 +            state = NPCM7XX_CAPTURE_UNDERFLOW;
 +        } else {
 +            state = NPCM7XX_CAPTURE_SUCCEED;
 +        }
 +    } else {
 +        count = stopped;
 +        state = NPCM7XX_CAPTURE_COMPARE_HIT;
 +    }
 +
 +    if (count != -1) {
 +        *cnt = count;
 +    }
 +    trace_npcm7xx_mft_rpm(clock->canonical_path, clock_get_hz(clock),
 +                          state, count, rpm, duty);
 +    return state;
 +}
 +
 +/*
 + * Capture Fan RPM and update CNT and CR registers accordingly.
 + * Raise IRQ if certain contidions are met in IEN.
 + */
 +static void npcm7xx_mft_capture(NPCM7xxMFTState *s)
 +{
 +    int irq_level = 0;
 +    NPCM7xxMFTCaptureState state;
 +    int sel;
 +    uint8_t cpcfg;
 +
 +    /*
 +     * If not mode 5, the behavior is undefined. We just do nothing in this
 +     * case.
 +     */
 +    if (!(s->regs[R_NPCM7XX_MFT_MCTRL] & NPCM7XX_MFT_MCTRL_MODE5)) {
 +        return;
 +    }
 +
 +    /* Capture input A. */
 +    if (s->regs[R_NPCM7XX_MFT_MCTRL] & NPCM7XX_MFT_MCTRL_TAEN &&
 +        s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C1CSEL) {
 +        sel = s->regs[R_NPCM7XX_MFT_INASEL] & NPCM7XX_MFT_INASEL_SELA;
 +        cpcfg = NPCM7XX_MFT_CPCFG_GET_A(s->regs[R_NPCM7XX_MFT_CPCFG]);
 +        state = npcm7xx_mft_compute_cnt(s->clock_1,
 +                                        sel ? s->max_rpm[2] : s->max_rpm[0],
 +                                        sel ? s->duty[2] : s->duty[0],
 +                                        s->regs[R_NPCM7XX_MFT_CPA],
 +                                        cpcfg,
 +                                        &s->regs[R_NPCM7XX_MFT_CNT1]);
 +        switch (state) {
 +        case NPCM7XX_CAPTURE_SUCCEED:
 +            /* Interrupt on input capture on TAn transition - TAPND */
 +            s->regs[R_NPCM7XX_MFT_CRA] = s->regs[R_NPCM7XX_MFT_CNT1];
 +            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TAPND;
 +            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TAIEN) {
 +                irq_level = 1;
 +            }
 +            break;
 +
 +        case NPCM7XX_CAPTURE_COMPARE_HIT:
 +            /* Compare Hit - TEPND */
 +            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TEPND;
 +            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TEIEN) {
 +                irq_level = 1;
 +            }
 +            break;
 +
 +        case NPCM7XX_CAPTURE_UNDERFLOW:
 +            /* Underflow - TCPND */
 +            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TCPND;
 +            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TCIEN) {
 +                irq_level = 1;
 +            }
 +            break;
 +
 +        default:
 +            g_assert_not_reached();
 +        }
 +    }
 +
 +    /* Capture input B. */
 +    if (s->regs[R_NPCM7XX_MFT_MCTRL] & NPCM7XX_MFT_MCTRL_TBEN &&
 +        s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C2CSEL) {
 +        sel = s->regs[R_NPCM7XX_MFT_INBSEL] & NPCM7XX_MFT_INBSEL_SELB;
 +        cpcfg = NPCM7XX_MFT_CPCFG_GET_B(s->regs[R_NPCM7XX_MFT_CPCFG]);
 +        state = npcm7xx_mft_compute_cnt(s->clock_2,
 +                                        sel ? s->max_rpm[3] : s->max_rpm[1],
 +                                        sel ? s->duty[3] : s->duty[1],
 +                                        s->regs[R_NPCM7XX_MFT_CPB],
 +                                        cpcfg,
 +                                        &s->regs[R_NPCM7XX_MFT_CNT2]);
 +        switch (state) {
 +        case NPCM7XX_CAPTURE_SUCCEED:
 +            /* Interrupt on input capture on TBn transition - TBPND */
 +            s->regs[R_NPCM7XX_MFT_CRB] = s->regs[R_NPCM7XX_MFT_CNT2];
 +            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TBPND;
 +            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TBIEN) {
 +                irq_level = 1;
 +            }
 +            break;
 +
 +        case NPCM7XX_CAPTURE_COMPARE_HIT:
 +            /* Compare Hit - TFPND */
 +            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TFPND;
 +            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TFIEN) {
 +                irq_level = 1;
 +            }
 +            break;
 +
 +        case NPCM7XX_CAPTURE_UNDERFLOW:
 +            /* Underflow - TDPND */
 +            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TDPND;
 +            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TDIEN) {
 +                irq_level = 1;
 +            }
 +            break;
 +
 +        default:
 +            g_assert_not_reached();
 +        }
 +    }
 +
 +    trace_npcm7xx_mft_capture(DEVICE(s)->canonical_path, irq_level);
 +    qemu_set_irq(s->irq, irq_level);
 +}
 +
 +/* Update clock for counters. */
 +static void npcm7xx_mft_update_clock(void *opaque, ClockEvent event)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
 +    uint64_t prescaled_clock_period;
 +
 +    prescaled_clock_period = clock_get(s->clock_in) *
 +        (s->regs[R_NPCM7XX_MFT_PRSC] + 1ULL);
 +    trace_npcm7xx_mft_update_clock(s->clock_in->canonical_path,
 +                                   s->regs[R_NPCM7XX_MFT_CKC],
 +                                   clock_get(s->clock_in),
 +                                   prescaled_clock_period);
 +    /* Update clock 1 */
 +    if (s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C1CSEL) {
 +        /* Clock is prescaled. */
 +        clock_update(s->clock_1, prescaled_clock_period);
 +    } else {
 +        /* Clock stopped. */
 +        clock_update(s->clock_1, 0);
 +    }
 +    /* Update clock 2 */
 +    if (s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C2CSEL) {
 +        /* Clock is prescaled. */
 +        clock_update(s->clock_2, prescaled_clock_period);
 +    } else {
 +        /* Clock stopped. */
 +        clock_update(s->clock_2, 0);
 +    }
 +
 +    npcm7xx_mft_capture(s);
 +}
 +
 +static uint64_t npcm7xx_mft_read(void *opaque, hwaddr offset, unsigned size)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
 +    uint16_t value = 0;
 +
 +    switch (offset) {
 +    case A_NPCM7XX_MFT_ICLR:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: register @ 0x%04" HWADDR_PRIx " is write-only\n",
 +                      __func__, offset);
 +        break;
 +
 +    default:
 +        value = s->regs[offset / 2];
 +    }
 +
 +    trace_npcm7xx_mft_read(DEVICE(s)->canonical_path, offset, value);
 +    return value;
 +}
 +
 +static void npcm7xx_mft_write(void *opaque, hwaddr offset,
 +                              uint64_t v, unsigned size)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
 +
 +    trace_npcm7xx_mft_write(DEVICE(s)->canonical_path, offset, v);
 +    switch (offset) {
 +    case A_NPCM7XX_MFT_ICLR:
 +        npcm7xx_mft_clear_interrupt(s, v);
 +        break;
 +
 +    case A_NPCM7XX_MFT_CKC:
 +    case A_NPCM7XX_MFT_PRSC:
 +        s->regs[offset / 2] = v;
 +        npcm7xx_mft_update_clock(s, ClockUpdate);
 +        break;
 +
 +    default:
 +        s->regs[offset / 2] = v;
 +        npcm7xx_mft_capture(s);
 +        break;
 +    }
 +}
 +
 +static bool npcm7xx_mft_check_mem_op(void *opaque, hwaddr offset,
 +                                     unsigned size, bool is_write,
 +                                     MemTxAttrs attrs)
 +{
 +    switch (offset) {
 +    /* 16-bit registers. Must be accessed with 16-bit read/write.*/
 +    case A_NPCM7XX_MFT_CNT1:
 +    case A_NPCM7XX_MFT_CRA:
 +    case A_NPCM7XX_MFT_CRB:
 +    case A_NPCM7XX_MFT_CNT2:
 +    case A_NPCM7XX_MFT_CPA:
 +    case A_NPCM7XX_MFT_CPB:
 +        return size == 2;
 +
 +    /* 8-bit registers. Must be accessed with 8-bit read/write.*/
 +    case A_NPCM7XX_MFT_PRSC:
 +    case A_NPCM7XX_MFT_CKC:
 +    case A_NPCM7XX_MFT_MCTRL:
 +    case A_NPCM7XX_MFT_ICTRL:
 +    case A_NPCM7XX_MFT_ICLR:
 +    case A_NPCM7XX_MFT_IEN:
 +    case A_NPCM7XX_MFT_CPCFG:
 +    case A_NPCM7XX_MFT_INASEL:
 +    case A_NPCM7XX_MFT_INBSEL:
 +        return size == 1;
 +
 +    default:
 +        /* Invalid registers. */
 +        return false;
 +    }
 +}
 +
 +static void npcm7xx_mft_get_max_rpm(Object *obj, Visitor *v, const char *name,
 +                                    void *opaque, Error **errp)
 +{
 +    visit_type_uint32(v, name, (uint32_t *)opaque, errp);
 +}
 +
 +static void npcm7xx_mft_set_max_rpm(Object *obj, Visitor *v, const char *name,
 +                                    void *opaque, Error **errp)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
 +    uint32_t *max_rpm = opaque;
 +    uint32_t value;
 +
 +    if (!visit_type_uint32(v, name, &value, errp)) {
 +        return;
 +    }
 +
 +    *max_rpm = value;
 +    npcm7xx_mft_capture(s);
 +}
 +
 +static void npcm7xx_mft_duty_handler(void *opaque, int n, int value)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
 +
 +    trace_npcm7xx_mft_set_duty(DEVICE(s)->canonical_path, n, value);
 +    s->duty[n] = value;
 +    npcm7xx_mft_capture(s);
 +}
 +
 +static const struct MemoryRegionOps npcm7xx_mft_ops = {
 +    .read       = npcm7xx_mft_read,
 +    .write      = npcm7xx_mft_write,
 +    .endianness = DEVICE_LITTLE_ENDIAN,
 +    .valid      = {
 +        .min_access_size        = 1,
 +        .max_access_size        = 2,
 +        .unaligned              = false,
 +        .accepts                = npcm7xx_mft_check_mem_op,
 +    },
 +};
 +
 +static void npcm7xx_mft_enter_reset(Object *obj, ResetType type)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
 +
 +    npcm7xx_mft_reset(s);
 +}
 +
 +static void npcm7xx_mft_hold_reset(Object *obj)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
 +
 +    qemu_irq_lower(s->irq);
 +}
 +
 +static void npcm7xx_mft_init(Object *obj)
 +{
 +    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
 +    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
 +    DeviceState *dev = DEVICE(obj);
 +
 +    memory_region_init_io(&s->iomem, obj, &npcm7xx_mft_ops, s,
 +                          TYPE_NPCM7XX_MFT, 4 * KiB);
 +    sysbus_init_mmio(sbd, &s->iomem);
 +    sysbus_init_irq(sbd, &s->irq);
 +    s->clock_in = qdev_init_clock_in(dev, "clock-in", npcm7xx_mft_update_clock,
 +                                     s, ClockUpdate);
 +    s->clock_1 = qdev_init_clock_out(dev, "clock1");
 +    s->clock_2 = qdev_init_clock_out(dev, "clock2");
 +
 +    for (int i = 0; i < NPCM7XX_PWM_PER_MODULE; ++i) {
 +        object_property_add(obj, "max_rpm[*]", "uint32",
 +                            npcm7xx_mft_get_max_rpm,
 +                            npcm7xx_mft_set_max_rpm,
 +                            NULL, &s->max_rpm[i]);
 +    }
 +    qdev_init_gpio_in_named(dev, npcm7xx_mft_duty_handler, "duty",
 +                            NPCM7XX_MFT_FANIN_COUNT);
 +}
 +
 +static const VMStateDescription vmstate_npcm7xx_mft = {
 +    .name = "npcm7xx-mft-module",
 +    .version_id = 0,
 +    .minimum_version_id = 0,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_CLOCK(clock_in, NPCM7xxMFTState),
 +        VMSTATE_CLOCK(clock_1, NPCM7xxMFTState),
 +        VMSTATE_CLOCK(clock_2, NPCM7xxMFTState),
 +        VMSTATE_UINT16_ARRAY(regs, NPCM7xxMFTState, NPCM7XX_MFT_NR_REGS),
 +        VMSTATE_UINT32_ARRAY(max_rpm, NPCM7xxMFTState, NPCM7XX_MFT_FANIN_COUNT),
 +        VMSTATE_UINT32_ARRAY(duty, NPCM7xxMFTState, NPCM7XX_MFT_FANIN_COUNT),
 +        VMSTATE_END_OF_LIST(),
 +    },
 +};
 +
 +static void npcm7xx_mft_class_init(ObjectClass *klass, void *data)
 +{
 +    ResettableClass *rc = RESETTABLE_CLASS(klass);
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->desc = "NPCM7xx MFT Controller";
 +    dc->vmsd = &vmstate_npcm7xx_mft;
 +    rc->phases.enter = npcm7xx_mft_enter_reset;
 +    rc->phases.hold = npcm7xx_mft_hold_reset;
 +}
 +
 +static const TypeInfo npcm7xx_mft_info = {
 +    .name               = TYPE_NPCM7XX_MFT,
 +    .parent             = TYPE_SYS_BUS_DEVICE,
 +    .instance_size      = sizeof(NPCM7xxMFTState),
 +    .class_init         = npcm7xx_mft_class_init,
 +    .instance_init      = npcm7xx_mft_init,
 +};
 +
 +static void npcm7xx_mft_register_type(void)
 +{
 +    type_register_static(&npcm7xx_mft_info);
 +}
 +type_init(npcm7xx_mft_register_type);
 diff --git a/hw/misc/meson.build b/hw/misc/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/misc/meson.build
-+++ b/target/arm/translate.c
++++ b/hw/misc/meson.build
-@@ -XXX,XX +XXX,XX @@ static TCGv_ptr vfp_reg_ptr(bool dp, int reg)
+@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_MAINSTONE', if_true: files('mst_fpga.c'))
+ softmmu_ss.add(when: 'CONFIG_NPCM7XX', if_true: files(
- #define ARM_CP_RW_BIT   (1 << 20)
+   'npcm7xx_clk.c',
+   'npcm7xx_gcr.c',
--/* Include the VFP decoder */
++  'npcm7xx_mft.c',
-+/* Include the VFP and Neon decoders */
+   'npcm7xx_pwm.c',
- #include "translate-vfp.inc.c"
+   'npcm7xx_rng.c',
-+#include "translate-neon.inc.c"
+ ))
+diff --git a/hw/misc/trace-events b/hw/misc/trace-events
  static inline void iwmmxt_load_reg(TCGv_i64 var, int reg)
  {
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
          /* Unconditional instructions.  */
          /* TODO: Perhaps merge these into one decodetree output file.  */
          if (disas_a32_uncond(s, insn) ||
 -            disas_vfp_uncond(s, insn)) {
 +            disas_vfp_uncond(s, insn) ||
 +            disas_neon_dp(s, insn) ||
 +            disas_neon_ls(s, insn) ||
 +            disas_neon_shared(s, insn)) {
              return;
          }
          /* fall back to legacy decoder */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
          ARCH(6T2);
      }
 +    if ((insn & 0xef000000) == 0xef000000) {
 +        /*
 +         * T32 encodings 0b111p_1111_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
 +         * transform into
 +         * A32 encodings 0b1111_001p_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
 +         */
 +        uint32_t a32_insn = (insn & 0xe2ffffff) |
 +            ((insn & (1 << 28)) >> 4) | (1 << 28);
 +
 +        if (disas_neon_dp(s, a32_insn)) {
 +            return;
 +        }
 +    }
 +
 +    if ((insn & 0xff100000) == 0xf9000000) {
 +        /*
 +         * T32 encodings 0b1111_1001_ppp0_qqqq_qqqq_qqqq_qqqq_qqqq
 +         * transform into
 +         * A32 encodings 0b1111_0100_ppp0_qqqq_qqqq_qqqq_qqqq_qqqq
 +         */
 +        uint32_t a32_insn = (insn & 0x00ffffff) | 0xf4000000;
 +
 +        if (disas_neon_ls(s, a32_insn)) {
 +            return;
 +        }
 +    }
 +
      /*
       * TODO: Perhaps merge these into one decodetree output file.
       * Note disas_vfp is written for a32 with cond field in the
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
       */
      if (disas_t32(s, insn) ||
          disas_vfp_uncond(s, insn) ||
 +        disas_neon_shared(s, insn) ||
          ((insn >> 28) == 0xe && disas_vfp(s, insn))) {
          return;
      }
 diff --git a/target/arm/Makefile.objs b/target/arm/Makefile.objs
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/Makefile.objs
+--- a/hw/misc/trace-events
-+++ b/target/arm/Makefile.objs
++++ b/hw/misc/trace-events
-@@ -XXX,XX +XXX,XX @@ target/arm/decode-sve.inc.c: $(SRC_PATH)/target/arm/sve.decode $(DECODETREE)
+@@ -XXX,XX +XXX,XX @@ npcm7xx_clk_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " valu
-       $(PYTHON) $(DECODETREE) --decode disas_sve -o $@ $<,\
+ npcm7xx_gcr_read(uint64_t offset, uint32_t value) " offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
-       "GEN", $(TARGET_DIR)$@)
+ npcm7xx_gcr_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
-+target/arm/decode-neon-shared.inc.c: $(SRC_PATH)/target/arm/neon-shared.decode $(DECODETREE)
++# npcm7xx_mft.c
-+    $(call quiet-command,\
++npcm7xx_mft_read(const char *name, uint64_t offset, uint16_t value) "%s: offset: 0x%04" PRIx64 " value: 0x%04" PRIx16
-+      $(PYTHON) $(DECODETREE) --static-decode disas_neon_shared -o $@ $<,\
++npcm7xx_mft_write(const char *name, uint64_t offset, uint16_t value) "%s: offset: 0x%04" PRIx64 " value: 0x%04" PRIx16
-+      "GEN", $(TARGET_DIR)$@)
++npcm7xx_mft_rpm(const char *clock, uint32_t clock_hz, int state, int32_t cnt, uint32_t rpm, uint32_t duty) " fan clk: %s clock_hz: %" PRIu32 ", state: %d, cnt: %" PRIi32 ", rpm: %" PRIu32 ", duty: %" PRIu32
-+
++npcm7xx_mft_capture(const char *name, int irq_level) "%s: level: %d"
-+target/arm/decode-neon-dp.inc.c: $(SRC_PATH)/target/arm/neon-dp.decode $(DECODETREE)
++npcm7xx_mft_update_clock(const char *name, uint16_t sel, uint64_t clock_period, uint64_t prescaled_clock_period) "%s: sel: 0x%02" PRIx16 ", period: %" PRIu64 ", prescaled: %" PRIu64
-+    $(call quiet-command,\
++npcm7xx_mft_set_duty(const char *name, int n, int value) "%s[%d]: %d"
-+      $(PYTHON) $(DECODETREE) --static-decode disas_neon_dp -o $@ $<,\
++
-+      "GEN", $(TARGET_DIR)$@)
+ # npcm7xx_rng.c
-+
+ npcm7xx_rng_read(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
-+target/arm/decode-neon-ls.inc.c: $(SRC_PATH)/target/arm/neon-ls.decode $(DECODETREE)
+ npcm7xx_rng_write(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
 +    $(call quiet-command,\
 +      $(PYTHON) $(DECODETREE) --static-decode disas_neon_ls -o $@ $<,\
 +      "GEN", $(TARGET_DIR)$@)
 +
  target/arm/decode-vfp.inc.c: $(SRC_PATH)/target/arm/vfp.decode $(DECODETREE)
      $(call quiet-command,\
        $(PYTHON) $(DECODETREE) --static-decode disas_vfp -o $@ $<,\
@@ -XXX,XX +XXX,XX @@ target/arm/decode-t16.inc.c: $(SRC_PATH)/target/arm/t16.decode $(DECODETREE)
        "GEN", $(TARGET_DIR)$@)
  target/arm/translate-sve.o: target/arm/decode-sve.inc.c
 +target/arm/translate.o: target/arm/decode-neon-shared.inc.c
 +target/arm/translate.o: target/arm/decode-neon-dp.inc.c
 +target/arm/translate.o: target/arm/decode-neon-ls.inc.c
  target/arm/translate.o: target/arm/decode-vfp.inc.c
  target/arm/translate.o: target/arm/decode-vfp-uncond.inc.c
  target/arm/translate.o: target/arm/decode-a32.inc.c
 --
 .20.1

-[PULL 28/39] target/arm: Convert V[US]DOT (scalar) to decodetree
+[PULL 28/39] hw/arm: Add MFT device to NPCM7xx Soc
-Convert the V[US]DOT (scalar) insns in the 2reg-scalar-ext group
+From: Hao Wu <wuhaotsh@google.com>
 to decodetree.
+This patch adds the recently implemented MFT device to the NPCM7XX
+SoC file.
+Reviewed-by: Doug Evans <dje@google.com>
+Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
+Signed-off-by: Hao Wu <wuhaotsh@google.com>
+Message-id: 20210311180855.149764-4-wuhaotsh@google.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-10-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   |  3 +++
+ docs/system/arm/nuvoton.rst |  2 +-
- target/arm/translate-neon.inc.c | 35 +++++++++++++++++++++++++++++++++
+ include/hw/arm/npcm7xx.h    |  2 ++
- target/arm/translate.c          | 13 +-----------
+ hw/arm/npcm7xx.c            | 45 ++++++++++++++++++++++++++++++-------
-files changed, 39 insertions(+), 12 deletions(-)
+files changed, 40 insertions(+), 9 deletions(-)
-diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
+diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/docs/system/arm/nuvoton.rst
-+++ b/target/arm/neon-shared.decode
++++ b/docs/system/arm/nuvoton.rst
-@@ -XXX,XX +XXX,XX @@ VCMLA_scalar   1111 1110 0 . rot:2 .... .... 1000 . q:1 index:1 0 vm:4 \
+@@ -XXX,XX +XXX,XX @@ Supported devices
-                vn=%vn_dp vd=%vd_dp size=0
+  * Pulse Width Modulation (PWM)
- VCMLA_scalar   1111 1110 1 . rot:2 .... .... 1000 . q:1 . 0 .... \
+  * SMBus controller (SMBF)
-                vm=%vm_dp vn=%vn_dp vd=%vd_dp size=1 index=0
+  * Ethernet controller (EMC)
 + * Tachometer
  Missing devices
  ---------------
@@ -XXX,XX +XXX,XX @@ Missing devices
   * Peripheral SPI controller (PSPI)
   * SD/MMC host
   * PECI interface
 - * Tachometer
   * PCI and PCIe root complex and bridges
   * VDM and MCTP support
   * Serial I/O expansion
 diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/npcm7xx.h
 +++ b/include/hw/arm/npcm7xx.h
@@ -XXX,XX +XXX,XX @@
  #include "hw/mem/npcm7xx_mc.h"
  #include "hw/misc/npcm7xx_clk.h"
  #include "hw/misc/npcm7xx_gcr.h"
 +#include "hw/misc/npcm7xx_mft.h"
  #include "hw/misc/npcm7xx_pwm.h"
  #include "hw/misc/npcm7xx_rng.h"
  #include "hw/net/npcm7xx_emc.h"
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
      NPCM7xxTimerCtrlState tim[3];
      NPCM7xxADCState     adc;
      NPCM7xxPWMState     pwm[2];
 +    NPCM7xxMFTState     mft[8];
      NPCM7xxOTPState     key_storage;
      NPCM7xxOTPState     fuse_array;
      NPCM7xxMCState      mc;
 diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/npcm7xx.c
 +++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
      NPCM7XX_SMBUS15_IRQ,
      NPCM7XX_PWM0_IRQ            = 93,   /* PWM module 0 */
      NPCM7XX_PWM1_IRQ,                   /* PWM module 1 */
 +    NPCM7XX_MFT0_IRQ            = 96,   /* MFT module 0 */
 +    NPCM7XX_MFT1_IRQ,                   /* MFT module 1 */
 +    NPCM7XX_MFT2_IRQ,                   /* MFT module 2 */
 +    NPCM7XX_MFT3_IRQ,                   /* MFT module 3 */
 +    NPCM7XX_MFT4_IRQ,                   /* MFT module 4 */
 +    NPCM7XX_MFT5_IRQ,                   /* MFT module 5 */
 +    NPCM7XX_MFT6_IRQ,                   /* MFT module 6 */
 +    NPCM7XX_MFT7_IRQ,                   /* MFT module 7 */
      NPCM7XX_EMC2RX_IRQ          = 114,
      NPCM7XX_EMC2TX_IRQ,
      NPCM7XX_GPIO0_IRQ           = 116,
@@ -XXX,XX +XXX,XX @@ static const hwaddr npcm7xx_pwm_addr[] = {
 xf0104000,
  };
 +/* Register base address for each MFT Module */
 +static const hwaddr npcm7xx_mft_addr[] = {
 +    0xf0180000,
 +    0xf0181000,
 +    0xf0182000,
 +    0xf0183000,
 +    0xf0184000,
 +    0xf0185000,
 +    0xf0186000,
 +    0xf0187000,
 +};
 +
-+VDOT_scalar    1111 1110 0 . 10 .... .... 1101 . q:1 index:1 u:1 rm:4 \
+ /* Direct memory-mapped access to each SMBus Module. */
-+               vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ static const hwaddr npcm7xx_smbus_addr[] = {
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+xf0080000,
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
---- a/target/arm/translate-neon.inc.c
+         object_initialize_child(obj, "pwm[*]", &s->pwm[i], TYPE_NPCM7XX_PWM);
-+++ b/target/arm/translate-neon.inc.c
+     }
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCMLA_scalar(DisasContext *s, arg_VCMLA_scalar *a)
-     tcg_temp_free_ptr(fpst);
++    for (i = 0; i < ARRAY_SIZE(s->mft); i++) {
-     return true;
++        object_initialize_child(obj, "mft[*]", &s->mft[i], TYPE_NPCM7XX_MFT);
  }
 +
 +static bool trans_VDOT_scalar(DisasContext *s, arg_VDOT_scalar *a)
 +{
 +    gen_helper_gvec_3 *fn_gvec;
 +    int opr_sz;
 +    TCGv_ptr fpst;
 +
 +    if (!dc_isar_feature(aa32_dp, s)) {
 +        return false;
 +    }
 +
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
+     for (i = 0; i < ARRAY_SIZE(s->emc); i++) {
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+         object_initialize_child(obj, "emc[*]", &s->emc[i], TYPE_NPCM7XX_EMC);
-+        ((a->vd | a->vn) & 0x10)) {
+     }
-+        return false;
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
          sysbus_connect_irq(sbd, i, npcm7xx_irq(s, NPCM7XX_PWM0_IRQ + i));
      }
 +    /* MFT Modules. Cannot fail. */
 +    QEMU_BUILD_BUG_ON(ARRAY_SIZE(npcm7xx_mft_addr) != ARRAY_SIZE(s->mft));
 +    for (i = 0; i < ARRAY_SIZE(s->mft); i++) {
 +        SysBusDevice *sbd = SYS_BUS_DEVICE(&s->mft[i]);
 +
 +        qdev_connect_clock_in(DEVICE(&s->mft[i]), "clock-in",
 +                              qdev_get_clock_out(DEVICE(&s->clk),
 +                                                 "apb4-clock"));
 +        sysbus_realize(sbd, &error_abort);
 +        sysbus_mmio_map(sbd, 0, npcm7xx_mft_addr[i]);
 +        sysbus_connect_irq(sbd, 0, npcm7xx_irq(s, NPCM7XX_MFT0_IRQ + i));
 +    }
 +
-+    if ((a->vd | a->vn) & a->q) {
+     /*
-+        return false;
+      * EMC Modules. Cannot fail.
-+    }
+      * The mapping of the device to its netdev backend works as follows:
-+
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
-+    if (!vfp_access_check(s)) {
+     create_unimplemented_device("npcm7xx.peci",         0xf0100000,   4 * KiB);
-+        return true;
+     create_unimplemented_device("npcm7xx.siox[1]",      0xf0101000,   4 * KiB);
-+    }
+     create_unimplemented_device("npcm7xx.siox[2]",      0xf0102000,   4 * KiB);
-+
+-    create_unimplemented_device("npcm7xx.mft[0]",       0xf0180000,   4 * KiB);
-+    fn_gvec = a->u ? gen_helper_gvec_udot_idx_b : gen_helper_gvec_sdot_idx_b;
+-    create_unimplemented_device("npcm7xx.mft[1]",       0xf0181000,   4 * KiB);
-+    opr_sz = (1 + a->q) * 8;
+-    create_unimplemented_device("npcm7xx.mft[2]",       0xf0182000,   4 * KiB);
-+    fpst = get_fpstatus_ptr(1);
+-    create_unimplemented_device("npcm7xx.mft[3]",       0xf0183000,   4 * KiB);
-+    tcg_gen_gvec_3_ool(vfp_reg_offset(1, a->vd),
+-    create_unimplemented_device("npcm7xx.mft[4]",       0xf0184000,   4 * KiB);
-+                       vfp_reg_offset(1, a->vn),
+-    create_unimplemented_device("npcm7xx.mft[5]",       0xf0185000,   4 * KiB);
-+                       vfp_reg_offset(1, a->rm),
+-    create_unimplemented_device("npcm7xx.mft[6]",       0xf0186000,   4 * KiB);
-+                       opr_sz, opr_sz, a->index, fn_gvec);
+-    create_unimplemented_device("npcm7xx.mft[7]",       0xf0187000,   4 * KiB);
-+    tcg_temp_free_ptr(fpst);
+     create_unimplemented_device("npcm7xx.pspi1",        0xf0200000,   4 * KiB);
-+    return true;
+     create_unimplemented_device("npcm7xx.pspi2",        0xf0201000,   4 * KiB);
-+}
+     create_unimplemented_device("npcm7xx.ahbpci",       0xf0400000,   1 * MiB);
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
      bool is_long = false, q = extract32(insn, 6, 1);
      bool ptr_is_env = false;
 -    if ((insn & 0xffb00f00) == 0xfe200d00) {
 -        /* V[US]DOT -- 1111 1110 0.10 .... .... 1101 .Q.U .... */
 -        int u = extract32(insn, 4, 1);
 -
 -        if (!dc_isar_feature(aa32_dp, s)) {
 -            return 1;
 -        }
 -        fn_gvec = u ? gen_helper_gvec_udot_idx_b : gen_helper_gvec_sdot_idx_b;
 -        /* rm is just Vm, and index is M.  */
 -        data = extract32(insn, 5, 1); /* index */
 -        rm = extract32(insn, 0, 4);
 -    } else if ((insn & 0xffa00f10) == 0xfe000810) {
 +    if ((insn & 0xffa00f10) == 0xfe000810) {
          /* VFM[AS]L -- 1111 1110 0.0S .... .... 1000 .Q.1 .... */
          int is_s = extract32(insn, 20, 1);
          int vm20 = extract32(insn, 0, 3);
 --
 .20.1

-[PULL 24/39] target/arm: Convert VCADD (vector) to decodetree
+[PULL 29/39] hw/arm: Connect PWM fans in NPCM7XX boards
-Convert the VCADD (vector) insns to decodetree.
+From: Hao Wu <wuhaotsh@google.com>
 This patch adds fan_splitters (split IRQs) in NPCM7XX boards. Each fan
 splitter corresponds to 1 PWM output and can connect to multiple fan
 inputs (MFT devices).
 In NPCM7XX boards(NPCM750 EVB and Quanta GSJ boards), we initializes
 these splitters and connect them to their corresponding modules
 according their specific device trees.
 Reviewed-by: Doug Evans <dje@google.com>
 Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
 Signed-off-by: Hao Wu <wuhaotsh@google.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20210311180855.149764-5-wuhaotsh@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-6-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   |  3 +++
+ include/hw/arm/npcm7xx.h | 11 ++++-
- target/arm/translate-neon.inc.c | 37 +++++++++++++++++++++++++++++++++
+ hw/arm/npcm7xx_boards.c  | 99 ++++++++++++++++++++++++++++++++++++++++
- target/arm/translate.c          | 11 +---------
+files changed, 109 insertions(+), 1 deletion(-)
-files changed, 41 insertions(+), 10 deletions(-)
+diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
 diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/include/hw/arm/npcm7xx.h
-+++ b/target/arm/neon-shared.decode
++++ b/include/hw/arm/npcm7xx.h
 @@ -XXX,XX +XXX,XX @@
- VCMLA          1111 110 rot:2 . 1 size:1 .... .... 1000 . q:1 . 0 .... \
+ #include "hw/boards.h"
-                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ #include "hw/adc/npcm7xx_adc.h"
-+
++#include "hw/core/split-irq.h"
-+VCADD          1111 110 rot:1 1 . 0 size:1 .... .... 1000 . q:1 . 0 .... \
+ #include "hw/cpu/a9mpcore.h"
-+               vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ #include "hw/gpio/npcm7xx_gpio.h"
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+ #include "hw/i2c/npcm7xx_smbus.h"
@@ -XXX,XX +XXX,XX @@
  #define NPCM7XX_GIC_CPU_IF_ADDR         (0xf03fe100)  /* GIC within A9 */
  #define NPCM7XX_BOARD_SETUP_ADDR        (0xffff1000)  /* Boot ROM */
 +#define NPCM7XX_NR_PWM_MODULES 2
 +
  typedef struct NPCM7xxMachine {
      MachineState        parent;
 +    /*
 +     * PWM fan splitter. each splitter connects to one PWM output and
 +     * multiple MFT inputs.
 +     */
 +    SplitIRQ            fan_splitter[NPCM7XX_NR_PWM_MODULES *
 +                                     NPCM7XX_PWM_PER_MODULE];
  } NPCM7xxMachine;
  #define TYPE_NPCM7XX_MACHINE MACHINE_TYPE_NAME("npcm7xx")
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
      NPCM7xxCLKState     clk;
      NPCM7xxTimerCtrlState tim[3];
      NPCM7xxADCState     adc;
 -    NPCM7xxPWMState     pwm[2];
 +    NPCM7xxPWMState     pwm[NPCM7XX_NR_PWM_MODULES];
      NPCM7xxMFTState     mft[8];
      NPCM7xxOTPState     key_storage;
      NPCM7xxOTPState     fuse_array;
 diff --git a/hw/arm/npcm7xx_boards.c b/hw/arm/npcm7xx_boards.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/hw/arm/npcm7xx_boards.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/hw/arm/npcm7xx_boards.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCMLA(DisasContext *s, arg_VCMLA *a)
+@@ -XXX,XX +XXX,XX @@
-     tcg_temp_free_ptr(fpst);
+ #include "hw/core/cpu.h"
-     return true;
+ #include "hw/i2c/smbus_eeprom.h"
- }
+ #include "hw/loader.h"
-+
++#include "hw/qdev-core.h"
-+static bool trans_VCADD(DisasContext *s, arg_VCADD *a)
+ #include "hw/qdev-properties.h"
-+{
+ #include "qapi/error.h"
-+    int opr_sz;
+ #include "qemu-common.h"
-+    TCGv_ptr fpst;
+@@ -XXX,XX +XXX,XX @@ static void at24c_eeprom_init(NPCM7xxState *soc, int bus, uint8_t addr,
-+    gen_helper_gvec_3_ptr *fn_gvec_ptr;
+     i2c_slave_realize_and_unref(i2c_dev, i2c_bus, &error_abort);
-+
+ }
-+    if (!dc_isar_feature(aa32_vcma, s)
-+        || (!a->size && !dc_isar_feature(aa32_fp16_arith, s))) {
++static void npcm7xx_init_pwm_splitter(NPCM7xxMachine *machine,
-+        return false;
++                                      NPCM7xxState *soc, const int *fan_counts)
 +{
 +    SplitIRQ *splitters = machine->fan_splitter;
 +
 +    /*
 +     * PWM 0~3 belong to module 0 output 0~3.
 +     * PWM 4~7 belong to module 1 output 0~3.
 +     */
 +    for (int i = 0; i < NPCM7XX_NR_PWM_MODULES; ++i) {
 +        for (int j = 0; j < NPCM7XX_PWM_PER_MODULE; ++j) {
 +            int splitter_no = i * NPCM7XX_PWM_PER_MODULE + j;
 +            DeviceState *splitter;
 +
 +            if (fan_counts[splitter_no] < 1) {
 +                continue;
 +            }
 +            object_initialize_child(OBJECT(machine), "fan-splitter[*]",
 +                                    &splitters[splitter_no], TYPE_SPLIT_IRQ);
 +            splitter = DEVICE(&splitters[splitter_no]);
 +            qdev_prop_set_uint16(splitter, "num-lines",
 +                                 fan_counts[splitter_no]);
 +            qdev_realize(splitter, NULL, &error_abort);
 +            qdev_connect_gpio_out_named(DEVICE(&soc->pwm[i]), "duty-gpio-out",
 +                                        j, qdev_get_gpio_in(splitter, 0));
 +        }
 +    }
-+
++}
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++static void npcm7xx_connect_pwm_fan(NPCM7xxState *soc, SplitIRQ *splitter,
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
++                                    int fan_no, int output_no)
-+        return false;
++{
 +    DeviceState *fan;
 +    int fan_input;
 +    qemu_irq fan_duty_gpio;
 +
 +    g_assert(fan_no >= 0 && fan_no <= NPCM7XX_MFT_MAX_FAN_INPUT);
 +    /*
 +     * Fan 0~1 belong to module 0 input 0~1.
 +     * Fan 2~3 belong to module 1 input 0~1.
 +     * ...
 +     * Fan 14~15 belong to module 7 input 0~1.
 +     * Fan 16~17 belong to module 0 input 2~3.
 +     * Fan 18~19 belong to module 1 input 2~3.
 +     */
 +    if (fan_no < 16) {
 +        fan = DEVICE(&soc->mft[fan_no / 2]);
 +        fan_input = fan_no % 2;
 +    } else {
 +        fan = DEVICE(&soc->mft[(fan_no - 16) / 2]);
 +        fan_input = fan_no % 2 + 2;
 +    }
 +
-+    if ((a->vn | a->vm | a->vd) & a->q) {
++    /* Connect the Fan to PWM module */
-+        return false;
++    fan_duty_gpio = qdev_get_gpio_in_named(fan, "duty", fan_input);
-+    }
++    qdev_connect_gpio_out(DEVICE(splitter), output_no, fan_duty_gpio);
-+
++}
-+    if (!vfp_access_check(s)) {
++
-+        return true;
+ static void npcm750_evb_i2c_init(NPCM7xxState *soc)
-+    }
+ {
-+
+     /* lm75 temperature sensor on SVB, tmp105 is compatible */
-+    opr_sz = (1 + a->q) * 8;
+@@ -XXX,XX +XXX,XX @@ static void npcm750_evb_i2c_init(NPCM7xxState *soc)
-+    fpst = get_fpstatus_ptr(1);
+     i2c_slave_create_simple(npcm7xx_i2c_get_bus(soc, 6), "tmp105", 0x48);
-+    fn_gvec_ptr = a->size ? gen_helper_gvec_fcadds : gen_helper_gvec_fcaddh;
+ }
-+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
-+                       vfp_reg_offset(1, a->vn),
++static void npcm750_evb_fan_init(NPCM7xxMachine *machine, NPCM7xxState *soc)
-+                       vfp_reg_offset(1, a->vm),
++{
-+                       fpst, opr_sz, opr_sz, a->rot,
++    SplitIRQ *splitter = machine->fan_splitter;
-+                       fn_gvec_ptr);
++    static const int fan_counts[] = {2, 2, 2, 2, 2, 2, 2, 2};
-+    tcg_temp_free_ptr(fpst);
++
-+    return true;
++    npcm7xx_init_pwm_splitter(machine, soc, fan_counts);
-+}
++    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x00, 0);
-diff --git a/target/arm/translate.c b/target/arm/translate.c
++    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x01, 1);
-index XXXXXXX..XXXXXXX 100644
++    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x02, 0);
---- a/target/arm/translate.c
++    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x03, 1);
-+++ b/target/arm/translate.c
++    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x04, 0);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
++    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x05, 1);
-     bool is_long = false, q = extract32(insn, 6, 1);
++    npcm7xx_connect_pwm_fan(soc, &splitter[3], 0x06, 0);
-     bool ptr_is_env = false;
++    npcm7xx_connect_pwm_fan(soc, &splitter[3], 0x07, 1);
++    npcm7xx_connect_pwm_fan(soc, &splitter[4], 0x08, 0);
--    if ((insn & 0xfea00f10) == 0xfc800800) {
++    npcm7xx_connect_pwm_fan(soc, &splitter[4], 0x09, 1);
--        /* VCADD -- 1111 110R 1.0S .... .... 1000 ...0 .... */
++    npcm7xx_connect_pwm_fan(soc, &splitter[5], 0x0a, 0);
--        int size = extract32(insn, 20, 1);
++    npcm7xx_connect_pwm_fan(soc, &splitter[5], 0x0b, 1);
--        data = extract32(insn, 24, 1); /* rot */
++    npcm7xx_connect_pwm_fan(soc, &splitter[6], 0x0c, 0);
--        if (!dc_isar_feature(aa32_vcma, s)
++    npcm7xx_connect_pwm_fan(soc, &splitter[6], 0x0d, 1);
--            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
++    npcm7xx_connect_pwm_fan(soc, &splitter[7], 0x0e, 0);
--            return 1;
++    npcm7xx_connect_pwm_fan(soc, &splitter[7], 0x0f, 1);
--        }
++}
--        fn_gvec_ptr = size ? gen_helper_gvec_fcadds : gen_helper_gvec_fcaddh;
++
--    } else if ((insn & 0xfeb00f00) == 0xfc200d00) {
+ static void quanta_gsj_i2c_init(NPCM7xxState *soc)
-+    if ((insn & 0xfeb00f00) == 0xfc200d00) {
+ {
-         /* V[US]DOT -- 1111 1100 0.10 .... .... 1101 .Q.U .... */
+     /* GSJ machine have 4 max31725 temperature sensors, tmp105 is compatible. */
-         bool u = extract32(insn, 4, 1);
+@@ -XXX,XX +XXX,XX @@ static void quanta_gsj_i2c_init(NPCM7xxState *soc)
-         if (!dc_isar_feature(aa32_dp, s)) {
+     /* TODO: Add additional i2c devices. */
  }
 +static void quanta_gsj_fan_init(NPCM7xxMachine *machine, NPCM7xxState *soc)
 +{
 +    SplitIRQ *splitter = machine->fan_splitter;
 +    static const int fan_counts[] = {2, 2, 2, 0, 0, 0, 0, 0};
 +
 +    npcm7xx_init_pwm_splitter(machine, soc, fan_counts);
 +    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x00, 0);
 +    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x01, 1);
 +    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x02, 0);
 +    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x03, 1);
 +    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x04, 0);
 +    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x05, 1);
 +}
 +
  static void npcm750_evb_init(MachineState *machine)
  {
      NPCM7xxState *soc;
@@ -XXX,XX +XXX,XX @@ static void npcm750_evb_init(MachineState *machine)
      npcm7xx_load_bootrom(machine, soc);
      npcm7xx_connect_flash(&soc->fiu[0], 0, "w25q256", drive_get(IF_MTD, 0, 0));
      npcm750_evb_i2c_init(soc);
 +    npcm750_evb_fan_init(NPCM7XX_MACHINE(machine), soc);
      npcm7xx_load_kernel(machine, soc);
  }
@@ -XXX,XX +XXX,XX @@ static void quanta_gsj_init(MachineState *machine)
      npcm7xx_connect_flash(&soc->fiu[0], 0, "mx25l25635e",
                            drive_get(IF_MTD, 0, 0));
      quanta_gsj_i2c_init(soc);
 +    quanta_gsj_fan_init(NPCM7XX_MACHINE(machine), soc);
      npcm7xx_load_kernel(machine, soc);
  }
 --
 .20.1

-[PULL 25/39] target/arm: Convert V[US]DOT (vector) to decodetree
+[PULL 30/39] tests/qtest: Test PWM fan RPM using MFT in PWM test
-Convert the V[US]DOT (vector) insns to decodetree.
+From: Hao Wu <wuhaotsh@google.com>
 This patch adds testing of PWM fan RPMs in the existing npcm7xx pwm
 test. It tests whether the MFT module can measure correct fan values
 for a PWM fan in NPCM7XX boards.
 Reviewed-by: Doug Evans <dje@google.com>
 Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
 Signed-off-by: Hao Wu <wuhaotsh@google.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20210311180855.149764-6-wuhaotsh@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200430181003.21682-7-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   |  4 ++++
+ tests/qtest/npcm7xx_pwm-test.c | 205 ++++++++++++++++++++++++++++++++-
- target/arm/translate-neon.inc.c | 32 ++++++++++++++++++++++++++++++++
+file changed, 199 insertions(+), 6 deletions(-)
- target/arm/translate.c          |  9 +--------
-files changed, 37 insertions(+), 8 deletions(-)
+diff --git a/tests/qtest/npcm7xx_pwm-test.c b/tests/qtest/npcm7xx_pwm-test.c
 diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/tests/qtest/npcm7xx_pwm-test.c
-+++ b/target/arm/neon-shared.decode
++++ b/tests/qtest/npcm7xx_pwm-test.c
-@@ -XXX,XX +XXX,XX @@ VCMLA          1111 110 rot:2 . 1 size:1 .... .... 1000 . q:1 . 0 .... \
+@@ -XXX,XX +XXX,XX @@
+ #define PLL_FBDV(rv)    extract32((rv), 16, 12)
- VCADD          1111 110 rot:1 1 . 0 size:1 .... .... 1000 . q:1 . 0 .... \
+ #define PLL_OTDV1(rv)   extract32((rv), 8, 3)
-                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ #define PLL_OTDV2(rv)   extract32((rv), 13, 3)
-+
++#define APB4CKDIV(rv)   extract32((rv), 30, 2)
-+# VUDOT and VSDOT
+ #define APB3CKDIV(rv)   extract32((rv), 28, 2)
-+VDOT           1111 110 00 . 10 .... .... 1101 . q:1 . u:1 .... \
+ #define CLK2CKDIV(rv)   extract32((rv), 0, 1)
-+               vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ #define CLK4CKDIV(rv)   extract32((rv), 26, 2)
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+@@ -XXX,XX +XXX,XX @@
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+ #define MAX_DUTY        1000000
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCADD(DisasContext *s, arg_VCADD *a)
++/* MFT (PWM fan) related */
-     tcg_temp_free_ptr(fpst);
++#define MFT_BA(n)       (0xf0180000 + ((n) * 0x1000))
-     return true;
++#define MFT_IRQ(n)      (96 + (n))
- }
++#define MFT_CNT1        0x00
-+
++#define MFT_CRA         0x02
-+static bool trans_VDOT(DisasContext *s, arg_VDOT *a)
++#define MFT_CRB         0x04
-+{
++#define MFT_CNT2        0x06
-+    int opr_sz;
++#define MFT_PRSC        0x08
-+    gen_helper_gvec_3 *fn_gvec;
++#define MFT_CKC         0x0a
-+
++#define MFT_MCTRL       0x0c
-+    if (!dc_isar_feature(aa32_dp, s)) {
++#define MFT_ICTRL       0x0e
-+        return false;
++#define MFT_ICLR        0x10
 +#define MFT_IEN         0x12
 +#define MFT_CPA         0x14
 +#define MFT_CPB         0x16
 +#define MFT_CPCFG       0x18
 +#define MFT_INASEL      0x1a
 +#define MFT_INBSEL      0x1c
 +
 +#define MFT_MCTRL_ALL   0x64
 +#define MFT_ICLR_ALL    0x3f
 +#define MFT_IEN_ALL     0x3f
 +#define MFT_CPCFG_EQ_MODE 0x44
 +
 +#define MFT_CKC_C2CSEL  BIT(3)
 +#define MFT_CKC_C1CSEL  BIT(0)
 +
 +#define MFT_ICTRL_TFPND BIT(5)
 +#define MFT_ICTRL_TEPND BIT(4)
 +#define MFT_ICTRL_TDPND BIT(3)
 +#define MFT_ICTRL_TCPND BIT(2)
 +#define MFT_ICTRL_TBPND BIT(1)
 +#define MFT_ICTRL_TAPND BIT(0)
 +
 +#define MFT_MAX_CNT     0xffff
 +#define MFT_TIMEOUT     0x5000
 +
 +#define DEFAULT_RPM     19800
 +#define DEFAULT_PRSC    255
 +#define MFT_PULSE_PER_REVOLUTION 2
 +
 +#define MAX_ERROR       1
 +
  typedef struct PWMModule {
      int irq;
      uint64_t base_addr;
@@ -XXX,XX +XXX,XX @@ static uint64_t pwm_get_duty(QTestState *qts, int module_index, int pwm_index)
      return pwm_qom_get(qts, path, name);
  }
 +static void mft_qom_set(QTestState *qts, int index, const char *name,
 +                        uint32_t value)
 +{
 +    QDict *response;
 +    char *path = g_strdup_printf("/machine/soc/mft[%d]", index);
 +
 +    g_test_message("Setting properties %s of mft[%d] with value %u",
 +                   name, index, value);
 +    response = qtest_qmp(qts, "{ 'execute': 'qom-set',"
 +            " 'arguments': { 'path': %s, "
 +            " 'property': %s, 'value': %u}}",
 +            path, name, value);
 +    /* The qom set message returns successfully. */
 +    g_assert_true(qdict_haskey(response, "return"));
 +}
 +
  static uint32_t get_pll(uint32_t con)
  {
      return REF_HZ * PLL_FBDV(con) / (PLL_INDV(con) * PLL_OTDV1(con)
              * PLL_OTDV2(con));
  }
 -static uint64_t read_pclk(QTestState *qts)
 +static uint64_t read_pclk(QTestState *qts, bool mft)
  {
      uint64_t freq = REF_HZ;
      uint32_t clksel = qtest_readl(qts, CLK_BA + CLKSEL);
      uint32_t pllcon;
      uint32_t clkdiv1 = qtest_readl(qts, CLK_BA + CLKDIV1);
      uint32_t clkdiv2 = qtest_readl(qts, CLK_BA + CLKDIV2);
 +    uint32_t apbdiv = mft ? APB4CKDIV(clkdiv2) : APB3CKDIV(clkdiv2);
      switch (CPUCKSEL(clksel)) {
      case 0:
@@ -XXX,XX +XXX,XX @@ static uint64_t read_pclk(QTestState *qts)
          g_assert_not_reached();
      }
 -    freq >>= (CLK2CKDIV(clkdiv1) + CLK4CKDIV(clkdiv1) + APB3CKDIV(clkdiv2));
 +    freq >>= (CLK2CKDIV(clkdiv1) + CLK4CKDIV(clkdiv1) + apbdiv);
      return freq;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t pwm_selector(uint32_t csr)
  static uint64_t pwm_compute_freq(QTestState *qts, uint32_t ppr, uint32_t csr,
          uint32_t cnr)
  {
 -    return read_pclk(qts) / ((ppr + 1) * pwm_selector(csr) * (cnr + 1));
 +    return read_pclk(qts, false) / ((ppr + 1) * pwm_selector(csr) * (cnr + 1));
  }
  static uint64_t pwm_compute_duty(uint32_t cnr, uint32_t cmr, bool inverted)
@@ -XXX,XX +XXX,XX @@ static void pwm_write(QTestState *qts, const TestData *td, unsigned offset,
      qtest_writel(qts, td->module->base_addr + offset, value);
  }
 +static uint8_t mft_readb(QTestState *qts, int index, unsigned offset)
 +{
 +    return qtest_readb(qts, MFT_BA(index) + offset);
 +}
 +
 +static uint16_t mft_readw(QTestState *qts, int index, unsigned offset)
 +{
 +    return qtest_readw(qts, MFT_BA(index) + offset);
 +}
 +
 +static void mft_writeb(QTestState *qts, int index, unsigned offset,
 +                        uint8_t value)
 +{
 +    qtest_writeb(qts, MFT_BA(index) + offset, value);
 +}
 +
 +static void mft_writew(QTestState *qts, int index, unsigned offset,
 +                        uint16_t value)
 +{
 +    return qtest_writew(qts, MFT_BA(index) + offset, value);
 +}
 +
  static uint32_t pwm_read_ppr(QTestState *qts, const TestData *td)
  {
      return extract32(pwm_read(qts, td, PPR), ppr_base[pwm_index(td->pwm)], 8);
@@ -XXX,XX +XXX,XX @@ static void pwm_write_cmr(QTestState *qts, const TestData *td, uint32_t value)
      pwm_write(qts, td, td->pwm->cmr_offset, value);
  }
 +static int mft_compute_index(const TestData *td)
 +{
 +    int index = pwm_module_index(td->module) * ARRAY_SIZE(pwm_list) +
 +                pwm_index(td->pwm);
 +
 +    g_assert_cmpint(index, <,
 +                    ARRAY_SIZE(pwm_module_list) * ARRAY_SIZE(pwm_list));
 +
 +    return index;
 +}
 +
 +static void mft_reset_counters(QTestState *qts, int index)
 +{
 +    mft_writew(qts, index, MFT_CNT1, MFT_MAX_CNT);
 +    mft_writew(qts, index, MFT_CNT2, MFT_MAX_CNT);
 +    mft_writew(qts, index, MFT_CRA, MFT_MAX_CNT);
 +    mft_writew(qts, index, MFT_CRB, MFT_MAX_CNT);
 +    mft_writew(qts, index, MFT_CPA, MFT_MAX_CNT - MFT_TIMEOUT);
 +    mft_writew(qts, index, MFT_CPB, MFT_MAX_CNT - MFT_TIMEOUT);
 +}
 +
 +static void mft_init(QTestState *qts, const TestData *td)
 +{
 +    int index = mft_compute_index(td);
 +
 +    /* Enable everything */
 +    mft_writeb(qts, index, MFT_CKC, 0);
 +    mft_writeb(qts, index, MFT_ICLR, MFT_ICLR_ALL);
 +    mft_writeb(qts, index, MFT_MCTRL, MFT_MCTRL_ALL);
 +    mft_writeb(qts, index, MFT_IEN, MFT_IEN_ALL);
 +    mft_writeb(qts, index, MFT_INASEL, 0);
 +    mft_writeb(qts, index, MFT_INBSEL, 0);
 +
 +    /* Set cpcfg to use EQ mode, same as kernel driver */
 +    mft_writeb(qts, index, MFT_CPCFG, MFT_CPCFG_EQ_MODE);
 +
 +    /* Write default counters, timeout and prescaler */
 +    mft_reset_counters(qts, index);
 +    mft_writeb(qts, index, MFT_PRSC, DEFAULT_PRSC);
 +
 +    /* Write default max rpm via QMP */
 +    mft_qom_set(qts, index, "max_rpm[0]", DEFAULT_RPM);
 +    mft_qom_set(qts, index, "max_rpm[1]", DEFAULT_RPM);
 +}
 +
 +static int32_t mft_compute_cnt(uint32_t rpm, uint64_t clk)
 +{
 +    uint64_t cnt;
 +
 +    if (rpm == 0) {
 +        return -1;
 +    }
 +
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++    cnt = clk * 60 / ((DEFAULT_PRSC + 1) * rpm * MFT_PULSE_PER_REVOLUTION);
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++    if (cnt >= MFT_TIMEOUT) {
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
++        return -1;
 +        return false;
 +    }
-+
++    return MFT_MAX_CNT - cnt;
-+    if ((a->vn | a->vm | a->vd) & a->q) {
++}
-+        return false;
++
 +static void mft_verify_rpm(QTestState *qts, const TestData *td, uint64_t duty)
 +{
 +    int index = mft_compute_index(td);
 +    uint16_t cnt, cr;
 +    uint32_t rpm = DEFAULT_RPM * duty / MAX_DUTY;
 +    uint64_t clk = read_pclk(qts, true);
 +    int32_t expected_cnt = mft_compute_cnt(rpm, clk);
 +
 +    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
 +    g_test_message(
 +        "verifying rpm for mft[%d]: clk: %lu, duty: %lu, rpm: %u, cnt: %d",
 +        index, clk, duty, rpm, expected_cnt);
 +
 +    /* Verify rpm for fan A */
 +    /* Stop capture */
 +    mft_writeb(qts, index, MFT_CKC, 0);
 +    mft_writeb(qts, index, MFT_ICLR, MFT_ICLR_ALL);
 +    mft_reset_counters(qts, index);
 +    g_assert_cmphex(mft_readw(qts, index, MFT_CNT1), ==, MFT_MAX_CNT);
 +    g_assert_cmphex(mft_readw(qts, index, MFT_CRA), ==, MFT_MAX_CNT);
 +    g_assert_cmphex(mft_readw(qts, index, MFT_CPA), ==,
 +                    MFT_MAX_CNT - MFT_TIMEOUT);
 +    /* Start capture */
 +    mft_writeb(qts, index, MFT_CKC, MFT_CKC_C1CSEL);
 +    g_assert_true(qtest_get_irq(qts, MFT_IRQ(index)));
 +    if (expected_cnt == -1) {
 +        g_assert_cmphex(mft_readb(qts, index, MFT_ICTRL), ==, MFT_ICTRL_TEPND);
 +    } else {
 +        g_assert_cmphex(mft_readb(qts, index, MFT_ICTRL), ==, MFT_ICTRL_TAPND);
 +        cnt = mft_readw(qts, index, MFT_CNT1);
 +        /*
 +         * Due to error in clock measurement and rounding, we might have a small
 +         * error in measuring RPM.
 +         */
 +        g_assert_cmphex(cnt + MAX_ERROR, >=, expected_cnt);
 +        g_assert_cmphex(cnt, <=, expected_cnt + MAX_ERROR);
 +        cr = mft_readw(qts, index, MFT_CRA);
 +        g_assert_cmphex(cnt, ==, cr);
 +    }
 +
-+    if (!vfp_access_check(s)) {
++    /* Verify rpm for fan B */
-+        return true;
++
-+    }
++    qtest_irq_intercept_out(qts, "/machine/soc/a9mpcore/gic");
-+
++}
-+    opr_sz = (1 + a->q) * 8;
++
-+    fn_gvec = a->u ? gen_helper_gvec_udot_b : gen_helper_gvec_sdot_b;
+ /* Check pwm registers can be reset to default value */
-+    tcg_gen_gvec_3_ool(vfp_reg_offset(1, a->vd),
+ static void test_init(gconstpointer test_data)
-+                       vfp_reg_offset(1, a->vn),
+ {
-+                       vfp_reg_offset(1, a->vm),
+     const TestData *td = test_data;
-+                       opr_sz, opr_sz, 0, fn_gvec);
+-    QTestState *qts = qtest_init("-machine quanta-gsj");
-+    return true;
++    QTestState *qts = qtest_init("-machine npcm750-evb");
-+}
+     int module = pwm_module_index(td->module);
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+     int pwm = pwm_index(td->pwm);
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void test_init(gconstpointer test_data)
-+++ b/target/arm/translate.c
+ static void test_oneshot(gconstpointer test_data)
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
+ {
-     bool is_long = false, q = extract32(insn, 6, 1);
+     const TestData *td = test_data;
-     bool ptr_is_env = false;
+-    QTestState *qts = qtest_init("-machine quanta-gsj");
++    QTestState *qts = qtest_init("-machine npcm750-evb");
--    if ((insn & 0xfeb00f00) == 0xfc200d00) {
+     int module = pwm_module_index(td->module);
--        /* V[US]DOT -- 1111 1100 0.10 .... .... 1101 .Q.U .... */
+     int pwm = pwm_index(td->pwm);
--        bool u = extract32(insn, 4, 1);
+     uint32_t ppr, csr, pcr;
--        if (!dc_isar_feature(aa32_dp, s)) {
+@@ -XXX,XX +XXX,XX @@ static void test_oneshot(gconstpointer test_data)
--            return 1;
+ static void test_toggle(gconstpointer test_data)
--        }
+ {
--        fn_gvec = u ? gen_helper_gvec_udot_b : gen_helper_gvec_sdot_b;
+     const TestData *td = test_data;
--    } else if ((insn & 0xff300f10) == 0xfc200810) {
+-    QTestState *qts = qtest_init("-machine quanta-gsj");
-+    if ((insn & 0xff300f10) == 0xfc200810) {
++    QTestState *qts = qtest_init("-machine npcm750-evb");
-         /* VFM[AS]L -- 1111 1100 S.10 .... .... 1000 .Q.1 .... */
+     int module = pwm_module_index(td->module);
-         int is_s = extract32(insn, 23, 1);
+     int pwm = pwm_index(td->pwm);
-         if (!dc_isar_feature(aa32_fhm, s)) {
+     uint32_t ppr, csr, pcr, cnr, cmr;
      int i, j, k, l;
      uint64_t expected_freq, expected_duty;
 +    mft_init(qts, td);
 +
      pcr = CH_EN | CH_MOD;
      for (i = 0; i < ARRAY_SIZE(ppr_list); ++i) {
          ppr = ppr_list[i];
@@ -XXX,XX +XXX,XX @@ static void test_toggle(gconstpointer test_data)
                                  ==, expected_freq);
                      }
 +                    /* Test MFT's RPM is correct. */
 +                    mft_verify_rpm(qts, td, expected_duty);
 +
                      /* Test inverted mode */
                      expected_duty = pwm_compute_duty(cnr, cmr, true);
                      pwm_write_pcr(qts, td, pcr | CH_INV);
 --
 .20.1

-[PULL 05/39] target/arm: Add new 's1_is_el0' argument to get_phys_addr_lpae()
+[PULL 31/39] hw/display/pl110: Remove dead code for non-32-bpp surfaces
-For ARMv8.2-TTS2UXN, the stage 2 page table walk wants to know
+For a long time now the UI layer has guaranteed that the console
-whether the stage 1 access is for EL0 or not, because whether
+surface is always 32 bits per pixel. Remove the legacy dead
-exec permission is given can depend on whether this is an EL0
+code from the pl110 display device which was handling the
-or EL1 access. Add a new argument to get_phys_addr_lpae() so
+possibility that the console surface was some other format.
 the call sites can pass this information in.
 Since get_phys_addr_lpae() doesn't already have a doc comment,
 add one so we have a place to put the documentation of the
 semantics of the new s1_is_el0 argument.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210211141515.8755-2-peter.maydell@linaro.org
 Message-id: 20200330210400.11724-4-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 29 ++++++++++++++++++++++++++++-
+ hw/display/pl110.c | 53 +++++++---------------------------------------
-file changed, 28 insertions(+), 1 deletion(-)
+file changed, 8 insertions(+), 45 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/display/pl110.c b/hw/display/pl110.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/display/pl110.c
-+++ b/target/arm/helper.c
++++ b/hw/display/pl110.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
+     pl111_id
- static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
+ };
-                                MMUAccessType access_type, ARMMMUIdx mmu_idx,
-+                               bool s1_is_el0,
+-#define BITS 8
-                                hwaddr *phys_ptr, MemTxAttrs *txattrs, int *prot,
+-#include "pl110_template.h"
-                                target_ulong *page_size_ptr,
+-#define BITS 15
-                                ARMMMUFaultInfo *fi, ARMCacheAttrs *cacheattrs);
+-#include "pl110_template.h"
-@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
+-#define BITS 16
 -#include "pl110_template.h"
 -#define BITS 24
 -#include "pl110_template.h"
  #define BITS 32
  #include "pl110_template.h"
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
      PL110State *s = (PL110State *)opaque;
      SysBusDevice *sbd;
      DisplaySurface *surface = qemu_console_surface(s->con);
 -    drawfn* fntable;
      drawfn fn;
 -    int dest_width;
      int src_width;
      int bpp_offset;
      int first;
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
      sbd = SYS_BUS_DEVICE(s);
 -    switch (surface_bits_per_pixel(surface)) {
 -    case 0:
 -        return;
 -    case 8:
 -        fntable = pl110_draw_fn_8;
 -        dest_width = 1;
 -        break;
 -    case 15:
 -        fntable = pl110_draw_fn_15;
 -        dest_width = 2;
 -        break;
 -    case 16:
 -        fntable = pl110_draw_fn_16;
 -        dest_width = 2;
 -        break;
 -    case 24:
 -        fntable = pl110_draw_fn_24;
 -        dest_width = 3;
 -        break;
 -    case 32:
 -        fntable = pl110_draw_fn_32;
 -        dest_width = 4;
 -        break;
 -    default:
 -        fprintf(stderr, "pl110: Bad color depth\n");
 -        exit(1);
 -    }
      if (s->cr & PL110_CR_BGR)
          bpp_offset = 0;
      else
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
          }
-         ret = get_phys_addr_lpae(env, addr, MMU_DATA_LOAD, ARMMMUIdx_Stage2,
-+                                 false,
-                                  &s2pa, &txattrs, &s2prot, &s2size, fi,
-                                  pcacheattrs);
-         if (ret) {
-@@ -XXX,XX +XXX,XX @@ static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
-     };
- }
-+/**
-+ * get_phys_addr_lpae: perform one stage of page table walk, LPAE format
-+ *
-+ * Returns false if the translation was successful. Otherwise, phys_ptr, attrs,
-+ * prot and page_size may not be filled in, and the populated fsr value provides
-+ * information on why the translation aborted, in the format of a long-format
-+ * DFSR/IFSR fault register, with the following caveats:
-+ *  * the WnR bit is never set (the caller must do this).
-+ *
-+ * @env: CPUARMState
-+ * @address: virtual address to get physical address for
-+ * @access_type: MMU_DATA_LOAD, MMU_DATA_STORE or MMU_INST_FETCH
-+ * @mmu_idx: MMU index indicating required translation regime
-+ * @s1_is_el0: if @mmu_idx is ARMMMUIdx_Stage2 (so this is a stage 2 page table
-+ *             walk), must be true if this is stage 2 of a stage 1+2 walk for an
-+ *             EL0 access). If @mmu_idx is anything else, @s1_is_el0 is ignored.
-+ * @phys_ptr: set to the physical address corresponding to the virtual address
-+ * @attrs: set to the memory transaction attributes to use
-+ * @prot: set to the permissions for the page containing phys_ptr
-+ * @page_size_ptr: set to the size of the page containing phys_ptr
-+ * @fi: set to fault info if the translation fails
-+ * @cacheattrs: (if non-NULL) set to the cacheability/shareability attributes
-+ */
- static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
-                                MMUAccessType access_type, ARMMMUIdx mmu_idx,
-+                               bool s1_is_el0,
-                                hwaddr *phys_ptr, MemTxAttrs *txattrs, int *prot,
-                                target_ulong *page_size_ptr,
-                                ARMMMUFaultInfo *fi, ARMCacheAttrs *cacheattrs)
-@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
-             /* S1 is done. Now do S2 translation.  */
-             ret = get_phys_addr_lpae(env, ipa, access_type, ARMMMUIdx_Stage2,
-+                                     mmu_idx == ARMMMUIdx_E10_0,
-                                      phys_ptr, attrs, &s2_prot,
-                                      page_size, fi,
-                                      cacheattrs != NULL ? &cacheattrs2 : NULL);
-@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
      }
-     if (regime_using_lpae_format(env, mmu_idx)) {
+-    if (s->cr & PL110_CR_BEBO)
--        return get_phys_addr_lpae(env, address, access_type, mmu_idx,
+-        fn = fntable[s->bpp + 8 + bpp_offset];
-+        return get_phys_addr_lpae(env, address, access_type, mmu_idx, false,
+-    else if (s->cr & PL110_CR_BEPO)
-                                   phys_ptr, attrs, prot, page_size,
+-        fn = fntable[s->bpp + 16 + bpp_offset];
-                                   fi, cacheattrs);
+-    else
-     } else if (regime_sctlr(env, mmu_idx) & SCTLR_XP) {
+-        fn = fntable[s->bpp + bpp_offset];
 +    if (s->cr & PL110_CR_BEBO) {
 +        fn = pl110_draw_fn_32[s->bpp + 8 + bpp_offset];
 +    } else if (s->cr & PL110_CR_BEPO) {
 +        fn = pl110_draw_fn_32[s->bpp + 16 + bpp_offset];
 +    } else {
 +        fn = pl110_draw_fn_32[s->bpp + bpp_offset];
 +    }
      src_width = s->cols;
      switch (s->bpp) {
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
          src_width <<= 2;
          break;
      }
 -    dest_width *= s->cols;
      first = 0;
      if (s->invalidate) {
          framebuffer_update_memory_section(&s->fbsection,
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
      framebuffer_update_display(surface, &s->fbsection,
                                 s->cols, s->rows,
 -                               src_width, dest_width, 0,
 +                               src_width, s->cols * 4, 0,
                                 s->invalidate,
                                 fn, s->palette,
                                 &first, &last);
 --
 .20.1

-[PULL 30/39] target/arm: Convert Neon load/store multiple structures to decodetree
+[PULL 32/39] hw/display/pl110: Pull included-once parts of template header into pl110.c
-Convert the Neon "load/store multiple structures" insns to decodetree.
+The pl110_template.h header has a doubly-nested multiple-include pattern:
  * pl110.c includes it once for each host bit depth (now always 32)
  * every time it is included, it includes itself 6 times, to account
    for multiple guest device pixel and byte orders
 Now we only have to deal with 32-bit host bit depths, we can move the
 code corresponding to the outer layer of this double-nesting to be
 directly in pl110.c and reduce the template header to a single layer
 of nesting.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Message-id: 20200430181003.21682-12-peter.maydell@linaro.org
+Message-id: 20210211141515.8755-3-peter.maydell@linaro.org
 ---
- target/arm/neon-ls.decode       |   7 ++
+ hw/display/pl110_template.h | 100 +-----------------------------------
- target/arm/translate-neon.inc.c | 124 ++++++++++++++++++++++++++++++++
+ hw/display/pl110.c          |  79 ++++++++++++++++++++++++++++
- target/arm/translate.c          |  91 +----------------------
+files changed, 80 insertions(+), 99 deletions(-)
-files changed, 133 insertions(+), 89 deletions(-)
+diff --git a/hw/display/pl110_template.h b/hw/display/pl110_template.h
 diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-ls.decode
+--- a/hw/display/pl110_template.h
-+++ b/target/arm/neon-ls.decode
++++ b/hw/display/pl110_template.h
 @@ -XXX,XX +XXX,XX @@
- #   0b1111_1001_xxx0_xxxx_xxxx_xxxx_xxxx_xxxx
+  */
- # This file works on the A32 encoding only; calling code for T32 has to
- # transform the insn into the A32 version first.
+ #ifndef ORDER
-+
+-
-+%vd_dp  22:1 12:4
+-#if BITS == 8
-+
+-#define COPY_PIXEL(to, from) *(to++) = from
-+# Neon load/store multiple structures
+-#elif BITS == 15 || BITS == 16
-+
+-#define COPY_PIXEL(to, from) do { *(uint16_t *)to = from; to += 2; } while (0)
-+VLDST_multiple 1111 0100 0 . l:1 0 rn:4 .... itype:4 size:2 align:2 rm:4 \
+-#elif BITS == 24
-+               vd=%vd_dp
+-#define COPY_PIXEL(to, from)    \
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+-    do {                        \
 -        *(to++) = from;         \
 -        *(to++) = (from) >> 8;  \
 -        *(to++) = (from) >> 16; \
 -    } while (0)
 -#elif BITS == 32
 -#define COPY_PIXEL(to, from) do { *(uint32_t *)to = from; to += 4; } while (0)
 -#else
 -#error unknown bit depth
 +#error "pl110_template.h is only for inclusion by pl110.c"
  #endif
 -#undef RGB
 -#define BORDER bgr
 -#define ORDER 0
 -#include "pl110_template.h"
 -#define ORDER 1
 -#include "pl110_template.h"
 -#define ORDER 2
 -#include "pl110_template.h"
 -#undef BORDER
 -#define RGB
 -#define BORDER rgb
 -#define ORDER 0
 -#include "pl110_template.h"
 -#define ORDER 1
 -#include "pl110_template.h"
 -#define ORDER 2
 -#include "pl110_template.h"
 -#undef BORDER
 -
 -static drawfn glue(pl110_draw_fn_,BITS)[48] =
 -{
 -    glue(pl110_draw_line1_lblp_bgr,BITS),
 -    glue(pl110_draw_line2_lblp_bgr,BITS),
 -    glue(pl110_draw_line4_lblp_bgr,BITS),
 -    glue(pl110_draw_line8_lblp_bgr,BITS),
 -    glue(pl110_draw_line16_555_lblp_bgr,BITS),
 -    glue(pl110_draw_line32_lblp_bgr,BITS),
 -    glue(pl110_draw_line16_lblp_bgr,BITS),
 -    glue(pl110_draw_line12_lblp_bgr,BITS),
 -
 -    glue(pl110_draw_line1_bbbp_bgr,BITS),
 -    glue(pl110_draw_line2_bbbp_bgr,BITS),
 -    glue(pl110_draw_line4_bbbp_bgr,BITS),
 -    glue(pl110_draw_line8_bbbp_bgr,BITS),
 -    glue(pl110_draw_line16_555_bbbp_bgr,BITS),
 -    glue(pl110_draw_line32_bbbp_bgr,BITS),
 -    glue(pl110_draw_line16_bbbp_bgr,BITS),
 -    glue(pl110_draw_line12_bbbp_bgr,BITS),
 -
 -    glue(pl110_draw_line1_lbbp_bgr,BITS),
 -    glue(pl110_draw_line2_lbbp_bgr,BITS),
 -    glue(pl110_draw_line4_lbbp_bgr,BITS),
 -    glue(pl110_draw_line8_lbbp_bgr,BITS),
 -    glue(pl110_draw_line16_555_lbbp_bgr,BITS),
 -    glue(pl110_draw_line32_lbbp_bgr,BITS),
 -    glue(pl110_draw_line16_lbbp_bgr,BITS),
 -    glue(pl110_draw_line12_lbbp_bgr,BITS),
 -
 -    glue(pl110_draw_line1_lblp_rgb,BITS),
 -    glue(pl110_draw_line2_lblp_rgb,BITS),
 -    glue(pl110_draw_line4_lblp_rgb,BITS),
 -    glue(pl110_draw_line8_lblp_rgb,BITS),
 -    glue(pl110_draw_line16_555_lblp_rgb,BITS),
 -    glue(pl110_draw_line32_lblp_rgb,BITS),
 -    glue(pl110_draw_line16_lblp_rgb,BITS),
 -    glue(pl110_draw_line12_lblp_rgb,BITS),
 -
 -    glue(pl110_draw_line1_bbbp_rgb,BITS),
 -    glue(pl110_draw_line2_bbbp_rgb,BITS),
 -    glue(pl110_draw_line4_bbbp_rgb,BITS),
 -    glue(pl110_draw_line8_bbbp_rgb,BITS),
 -    glue(pl110_draw_line16_555_bbbp_rgb,BITS),
 -    glue(pl110_draw_line32_bbbp_rgb,BITS),
 -    glue(pl110_draw_line16_bbbp_rgb,BITS),
 -    glue(pl110_draw_line12_bbbp_rgb,BITS),
 -
 -    glue(pl110_draw_line1_lbbp_rgb,BITS),
 -    glue(pl110_draw_line2_lbbp_rgb,BITS),
 -    glue(pl110_draw_line4_lbbp_rgb,BITS),
 -    glue(pl110_draw_line8_lbbp_rgb,BITS),
 -    glue(pl110_draw_line16_555_lbbp_rgb,BITS),
 -    glue(pl110_draw_line32_lbbp_rgb,BITS),
 -    glue(pl110_draw_line16_lbbp_rgb,BITS),
 -    glue(pl110_draw_line12_lbbp_rgb,BITS),
 -};
 -
 -#undef BITS
 -#undef COPY_PIXEL
 -
 -#else
 -
  #if ORDER == 0
  #define NAME glue(glue(lblp_, BORDER), BITS)
  #ifdef HOST_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line12_,NAME)(void *opaque, uint8_t *d, const uint8_
  #undef NAME
  #undef SWAP_WORDS
  #undef ORDER
 -
 -#endif
 diff --git a/hw/display/pl110.c b/hw/display/pl110.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/hw/display/pl110.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/hw/display/pl110.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VFML_scalar(DisasContext *s, arg_VFML_scalar *a)
+@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
-                        gen_helper_gvec_fmlal_idx_a32);
+ };
-     return true;
- }
+ #define BITS 32
-+
++#define COPY_PIXEL(to, from) do { *(uint32_t *)to = from; to += 4; } while (0)
-+static struct {
++
-+    int nregs;
++#undef RGB
-+    int interleave;
++#define BORDER bgr
-+    int spacing;
++#define ORDER 0
-+} const neon_ls_element_type[11] = {
+ #include "pl110_template.h"
-+    {1, 4, 1},
++#define ORDER 1
-+    {1, 4, 2},
++#include "pl110_template.h"
-+    {4, 1, 1},
++#define ORDER 2
-+    {2, 2, 2},
++#include "pl110_template.h"
-+    {1, 3, 1},
++#undef BORDER
-+    {1, 3, 2},
++#define RGB
-+    {3, 1, 1},
++#define BORDER rgb
-+    {1, 1, 1},
++#define ORDER 0
-+    {1, 2, 1},
++#include "pl110_template.h"
-+    {1, 2, 2},
++#define ORDER 1
-+    {2, 1, 1}
++#include "pl110_template.h"
 +#define ORDER 2
 +#include "pl110_template.h"
 +#undef BORDER
 +
 +static drawfn pl110_draw_fn_32[48] = {
 +    pl110_draw_line1_lblp_bgr32,
 +    pl110_draw_line2_lblp_bgr32,
 +    pl110_draw_line4_lblp_bgr32,
 +    pl110_draw_line8_lblp_bgr32,
 +    pl110_draw_line16_555_lblp_bgr32,
 +    pl110_draw_line32_lblp_bgr32,
 +    pl110_draw_line16_lblp_bgr32,
 +    pl110_draw_line12_lblp_bgr32,
 +
 +    pl110_draw_line1_bbbp_bgr32,
 +    pl110_draw_line2_bbbp_bgr32,
 +    pl110_draw_line4_bbbp_bgr32,
 +    pl110_draw_line8_bbbp_bgr32,
 +    pl110_draw_line16_555_bbbp_bgr32,
 +    pl110_draw_line32_bbbp_bgr32,
 +    pl110_draw_line16_bbbp_bgr32,
 +    pl110_draw_line12_bbbp_bgr32,
 +
 +    pl110_draw_line1_lbbp_bgr32,
 +    pl110_draw_line2_lbbp_bgr32,
 +    pl110_draw_line4_lbbp_bgr32,
 +    pl110_draw_line8_lbbp_bgr32,
 +    pl110_draw_line16_555_lbbp_bgr32,
 +    pl110_draw_line32_lbbp_bgr32,
 +    pl110_draw_line16_lbbp_bgr32,
 +    pl110_draw_line12_lbbp_bgr32,
 +
 +    pl110_draw_line1_lblp_rgb32,
 +    pl110_draw_line2_lblp_rgb32,
 +    pl110_draw_line4_lblp_rgb32,
 +    pl110_draw_line8_lblp_rgb32,
 +    pl110_draw_line16_555_lblp_rgb32,
 +    pl110_draw_line32_lblp_rgb32,
 +    pl110_draw_line16_lblp_rgb32,
 +    pl110_draw_line12_lblp_rgb32,
 +
 +    pl110_draw_line1_bbbp_rgb32,
 +    pl110_draw_line2_bbbp_rgb32,
 +    pl110_draw_line4_bbbp_rgb32,
 +    pl110_draw_line8_bbbp_rgb32,
 +    pl110_draw_line16_555_bbbp_rgb32,
 +    pl110_draw_line32_bbbp_rgb32,
 +    pl110_draw_line16_bbbp_rgb32,
 +    pl110_draw_line12_bbbp_rgb32,
 +
 +    pl110_draw_line1_lbbp_rgb32,
 +    pl110_draw_line2_lbbp_rgb32,
 +    pl110_draw_line4_lbbp_rgb32,
 +    pl110_draw_line8_lbbp_rgb32,
 +    pl110_draw_line16_555_lbbp_rgb32,
 +    pl110_draw_line32_lbbp_rgb32,
 +    pl110_draw_line16_lbbp_rgb32,
 +    pl110_draw_line12_lbbp_rgb32,
 +};
 +
-+static void gen_neon_ldst_base_update(DisasContext *s, int rm, int rn,
++#undef BITS
-+                                      int stride)
++#undef COPY_PIXEL
-+{
++
-+    if (rm != 15) {
-+        TCGv_i32 base;
+ static int pl110_enabled(PL110State *s)
 +
 +        base = load_reg(s, rn);
 +        if (rm == 13) {
 +            tcg_gen_addi_i32(base, base, stride);
 +        } else {
 +            TCGv_i32 index;
 +            index = load_reg(s, rm);
 +            tcg_gen_add_i32(base, base, index);
 +            tcg_temp_free_i32(index);
 +        }
 +        store_reg(s, rn, base);
 +    }
 +}
 +
 +static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
 +{
 +    /* Neon load/store multiple structures */
 +    int nregs, interleave, spacing, reg, n;
 +    MemOp endian = s->be_data;
 +    int mmu_idx = get_mem_index(s);
 +    int size = a->size;
 +    TCGv_i64 tmp64;
 +    TCGv_i32 addr, tmp;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist */
 +    if (!dc_isar_feature(aa32_simd_r32, s) && (a->vd & 0x10)) {
 +        return false;
 +    }
 +    if (a->itype > 10) {
 +        return false;
 +    }
 +    /* Catch UNDEF cases for bad values of align field */
 +    switch (a->itype & 0xc) {
 +    case 4:
 +        if (a->align >= 2) {
 +            return false;
 +        }
 +        break;
 +    case 8:
 +        if (a->align == 3) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        break;
 +    }
 +    nregs = neon_ls_element_type[a->itype].nregs;
 +    interleave = neon_ls_element_type[a->itype].interleave;
 +    spacing = neon_ls_element_type[a->itype].spacing;
 +    if (size == 3 && (interleave | spacing) != 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    /* For our purposes, bytes are always little-endian.  */
 +    if (size == 0) {
 +        endian = MO_LE;
 +    }
 +    /*
 +     * Consecutive little-endian elements from a single register
 +     * can be promoted to a larger little-endian operation.
 +     */
 +    if (interleave == 1 && endian == MO_LE) {
 +        size = 3;
 +    }
 +    tmp64 = tcg_temp_new_i64();
 +    addr = tcg_temp_new_i32();
 +    tmp = tcg_const_i32(1 << size);
 +    load_reg_var(s, addr, a->rn);
 +    for (reg = 0; reg < nregs; reg++) {
 +        for (n = 0; n < 8 >> size; n++) {
 +            int xs;
 +            for (xs = 0; xs < interleave; xs++) {
 +                int tt = a->vd + reg + spacing * xs;
 +
 +                if (a->l) {
 +                    gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                    neon_store_element64(tt, n, size, tmp64);
 +                } else {
 +                    neon_load_element64(tmp64, tt, n, size);
 +                    gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                }
 +                tcg_gen_add_i32(addr, addr, tmp);
 +            }
 +        }
 +    }
 +    tcg_temp_free_i32(addr);
 +    tcg_temp_free_i32(tmp);
 +    tcg_temp_free_i64(tmp64);
 +
 +    gen_neon_ldst_base_update(s, a->rm, a->rn, nregs * interleave * 8);
 +    return true;
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_neon_trn_u16(TCGv_i32 t0, TCGv_i32 t1)
  }
 -static struct {
 -    int nregs;
 -    int interleave;
 -    int spacing;
 -} const neon_ls_element_type[11] = {
 -    {1, 4, 1},
 -    {1, 4, 2},
 -    {4, 1, 1},
 -    {2, 2, 2},
 -    {1, 3, 1},
 -    {1, 3, 2},
 -    {3, 1, 1},
 -    {1, 1, 1},
 -    {1, 2, 1},
 -    {1, 2, 2},
 -    {2, 1, 1}
 -};
 -
  /* Translate a NEON load/store element instruction.  Return nonzero if the
     instruction is invalid.  */
  static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
  {
-     int rd, rn, rm;
--    int op;
-     int nregs;
--    int interleave;
--    int spacing;
-     int stride;
-     int size;
-     int reg;
-     int load;
--    int n;
-     int vec_size;
--    int mmu_idx;
--    MemOp endian;
-     TCGv_i32 addr;
-     TCGv_i32 tmp;
--    TCGv_i32 tmp2;
--    TCGv_i64 tmp64;
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-         return 1;
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-     rn = (insn >> 16) & 0xf;
-     rm = insn & 0xf;
-     load = (insn & (1 << 21)) != 0;
--    endian = s->be_data;
--    mmu_idx = get_mem_index(s);
-     if ((insn & (1 << 23)) == 0) {
--        /* Load store all elements.  */
--        op = (insn >> 8) & 0xf;
--        size = (insn >> 6) & 3;
--        if (op > 10)
--            return 1;
--        /* Catch UNDEF cases for bad values of align field */
--        switch (op & 0xc) {
--        case 4:
--            if (((insn >> 5) & 1) == 1) {
--                return 1;
--            }
--            break;
--        case 8:
--            if (((insn >> 4) & 3) == 3) {
--                return 1;
--            }
--            break;
--        default:
--            break;
--        }
--        nregs = neon_ls_element_type[op].nregs;
--        interleave = neon_ls_element_type[op].interleave;
--        spacing = neon_ls_element_type[op].spacing;
--        if (size == 3 && (interleave | spacing) != 1) {
--            return 1;
--        }
--        /* For our purposes, bytes are always little-endian.  */
--        if (size == 0) {
--            endian = MO_LE;
--        }
--        /* Consecutive little-endian elements from a single register
--         * can be promoted to a larger little-endian operation.
--         */
--        if (interleave == 1 && endian == MO_LE) {
--            size = 3;
--        }
--        tmp64 = tcg_temp_new_i64();
--        addr = tcg_temp_new_i32();
--        tmp2 = tcg_const_i32(1 << size);
--        load_reg_var(s, addr, rn);
--        for (reg = 0; reg < nregs; reg++) {
--            for (n = 0; n < 8 >> size; n++) {
--                int xs;
--                for (xs = 0; xs < interleave; xs++) {
--                    int tt = rd + reg + spacing * xs;
--
--                    if (load) {
--                        gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
--                        neon_store_element64(tt, n, size, tmp64);
--                    } else {
--                        neon_load_element64(tmp64, tt, n, size);
--                        gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
--                    }
--                    tcg_gen_add_i32(addr, addr, tmp2);
--                }
--            }
--        }
--        tcg_temp_free_i32(addr);
--        tcg_temp_free_i32(tmp2);
--        tcg_temp_free_i64(tmp64);
--        stride = nregs * interleave * 8;
-+        /* Load store all elements -- handled already by decodetree */
-+        return 1;
-     } else {
-         size = (insn >> 10) & 3;
-         if (size == 3) {
 --
 .20.1

-[PULL 39/39] target/arm: Move gen_ function typedefs to translate.h
+[PULL 33/39] hw/display/pl110: Remove use of BITS from pl110_template.h
-We're going to want at least some of the NeonGen* typedefs
+BITS is always 32, so remove all uses of it from the template header,
-for the refactored 32-bit Neon decoder, so move them all
+by dropping the trailing '32' from the draw function names and
-to translate.h since it makes more sense to keep them in
+not constructing the name of rgb_to_pixel32() via the glue() macro.
 one group.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Message-id: 20200430181003.21682-23-peter.maydell@linaro.org
+Message-id: 20210211141515.8755-4-peter.maydell@linaro.org
 ---
- target/arm/translate.h     | 17 +++++++++++++++++
+ hw/display/pl110_template.h |  20 +++----
- target/arm/translate-a64.c | 17 -----------------
+ hw/display/pl110.c          | 113 ++++++++++++++++++------------------
-files changed, 17 insertions(+), 17 deletions(-)
+files changed, 65 insertions(+), 68 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/hw/display/pl110_template.h b/hw/display/pl110_template.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/hw/display/pl110_template.h
-+++ b/target/arm/translate.h
++++ b/hw/display/pl110_template.h
-@@ -XXX,XX +XXX,XX @@ typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
+@@ -XXX,XX +XXX,XX @@
- typedef void GVecGen4Fn(unsigned, uint32_t, uint32_t, uint32_t,
+ #endif
-                         uint32_t, uint32_t, uint32_t);
+ #if ORDER == 0
-+/* Function prototype for gen_ functions for calling Neon helpers */
+-#define NAME glue(glue(lblp_, BORDER), BITS)
-+typedef void NeonGenOneOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32);
++#define NAME glue(lblp_, BORDER)
-+typedef void NeonGenTwoOpFn(TCGv_i32, TCGv_i32, TCGv_i32);
+ #ifdef HOST_WORDS_BIGENDIAN
-+typedef void NeonGenTwoOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
+ #define SWAP_WORDS 1
-+typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
+ #endif
-+typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
+ #elif ORDER == 1
-+typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
+-#define NAME glue(glue(bbbp_, BORDER), BITS)
-+typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
++#define NAME glue(bbbp_, BORDER)
-+typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
+ #ifndef HOST_WORDS_BIGENDIAN
-+typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+ #define SWAP_WORDS 1
-+typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+ #endif
-+typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
+ #else
-+typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
+ #define SWAP_PIXELS 1
-+typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
+-#define NAME glue(glue(lbbp_, BORDER), BITS)
-+typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
++#define NAME glue(lbbp_, BORDER)
-+typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
+ #ifdef HOST_WORDS_BIGENDIAN
-+
+ #define SWAP_WORDS 1
- #endif /* TARGET_ARM_TRANSLATE_H */
+ #endif
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line16_,NAME)(void *opaque, uint8_t *d, const uint8_
          MSB = (data & 0x1f) << 3;
          data >>= 5;
  #endif
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
          LSB = (data & 0x1f) << 3;
          data >>= 5;
          g = (data & 0x3f) << 2;
          data >>= 6;
          MSB = (data & 0x1f) << 3;
          data >>= 5;
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
  #undef MSB
  #undef LSB
          width -= 2;
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line32_,NAME)(void *opaque, uint8_t *d, const uint8_
          g = (data >> 16) & 0xff;
          MSB = (data >> 8) & 0xff;
  #endif
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
  #undef MSB
  #undef LSB
          width--;
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line16_555_,NAME)(void *opaque, uint8_t *d, const ui
          data >>= 5;
          MSB = (data & 0x1f) << 3;
          data >>= 5;
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
          LSB = (data & 0x1f) << 3;
          data >>= 5;
          g = (data & 0x1f) << 3;
          data >>= 5;
          MSB = (data & 0x1f) << 3;
          data >>= 6;
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
  #undef MSB
  #undef LSB
          width -= 2;
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line12_,NAME)(void *opaque, uint8_t *d, const uint8_
          data >>= 4;
          MSB = (data & 0xf) << 4;
          data >>= 8;
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
          LSB = (data & 0xf) << 4;
          data >>= 4;
          g = (data & 0xf) << 4;
          data >>= 4;
          MSB = (data & 0xf) << 4;
          data >>= 8;
 -        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
 +        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
  #undef MSB
  #undef LSB
          width -= 2;
 diff --git a/hw/display/pl110.c b/hw/display/pl110.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/hw/display/pl110.c
-+++ b/target/arm/translate-a64.c
++++ b/hw/display/pl110.c
-@@ -XXX,XX +XXX,XX @@ typedef struct AArch64DecodeTable {
+@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
-     AArch64DecodeFn *disas_fn;
+     pl111_id
- } AArch64DecodeTable;
+ };
--/* Function prototype for gen_ functions for calling Neon helpers */
+-#define BITS 32
--typedef void NeonGenOneOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32);
+ #define COPY_PIXEL(to, from) do { *(uint32_t *)to = from; to += 4; } while (0)
--typedef void NeonGenTwoOpFn(TCGv_i32, TCGv_i32, TCGv_i32);
--typedef void NeonGenTwoOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
+ #undef RGB
--typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
+@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
--typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
+ #include "pl110_template.h"
--typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
+ #undef BORDER
--typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
--typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
+-static drawfn pl110_draw_fn_32[48] = {
--typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+-    pl110_draw_line1_lblp_bgr32,
--typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+-    pl110_draw_line2_lblp_bgr32,
--typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
+-    pl110_draw_line4_lblp_bgr32,
--typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
+-    pl110_draw_line8_lblp_bgr32,
--typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
+-    pl110_draw_line16_555_lblp_bgr32,
--typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
+-    pl110_draw_line32_lblp_bgr32,
--typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
+-    pl110_draw_line16_lblp_bgr32,
--
+-    pl110_draw_line12_lblp_bgr32,
- /* initialize TCG globals.  */
+-
- void a64_translate_init(void)
+-    pl110_draw_line1_bbbp_bgr32,
 -    pl110_draw_line2_bbbp_bgr32,
 -    pl110_draw_line4_bbbp_bgr32,
 -    pl110_draw_line8_bbbp_bgr32,
 -    pl110_draw_line16_555_bbbp_bgr32,
 -    pl110_draw_line32_bbbp_bgr32,
 -    pl110_draw_line16_bbbp_bgr32,
 -    pl110_draw_line12_bbbp_bgr32,
 -
 -    pl110_draw_line1_lbbp_bgr32,
 -    pl110_draw_line2_lbbp_bgr32,
 -    pl110_draw_line4_lbbp_bgr32,
 -    pl110_draw_line8_lbbp_bgr32,
 -    pl110_draw_line16_555_lbbp_bgr32,
 -    pl110_draw_line32_lbbp_bgr32,
 -    pl110_draw_line16_lbbp_bgr32,
 -    pl110_draw_line12_lbbp_bgr32,
 -
 -    pl110_draw_line1_lblp_rgb32,
 -    pl110_draw_line2_lblp_rgb32,
 -    pl110_draw_line4_lblp_rgb32,
 -    pl110_draw_line8_lblp_rgb32,
 -    pl110_draw_line16_555_lblp_rgb32,
 -    pl110_draw_line32_lblp_rgb32,
 -    pl110_draw_line16_lblp_rgb32,
 -    pl110_draw_line12_lblp_rgb32,
 -
 -    pl110_draw_line1_bbbp_rgb32,
 -    pl110_draw_line2_bbbp_rgb32,
 -    pl110_draw_line4_bbbp_rgb32,
 -    pl110_draw_line8_bbbp_rgb32,
 -    pl110_draw_line16_555_bbbp_rgb32,
 -    pl110_draw_line32_bbbp_rgb32,
 -    pl110_draw_line16_bbbp_rgb32,
 -    pl110_draw_line12_bbbp_rgb32,
 -
 -    pl110_draw_line1_lbbp_rgb32,
 -    pl110_draw_line2_lbbp_rgb32,
 -    pl110_draw_line4_lbbp_rgb32,
 -    pl110_draw_line8_lbbp_rgb32,
 -    pl110_draw_line16_555_lbbp_rgb32,
 -    pl110_draw_line32_lbbp_rgb32,
 -    pl110_draw_line16_lbbp_rgb32,
 -    pl110_draw_line12_lbbp_rgb32,
 -};
 -
 -#undef BITS
  #undef COPY_PIXEL
 +static drawfn pl110_draw_fn_32[48] = {
 +    pl110_draw_line1_lblp_bgr,
 +    pl110_draw_line2_lblp_bgr,
 +    pl110_draw_line4_lblp_bgr,
 +    pl110_draw_line8_lblp_bgr,
 +    pl110_draw_line16_555_lblp_bgr,
 +    pl110_draw_line32_lblp_bgr,
 +    pl110_draw_line16_lblp_bgr,
 +    pl110_draw_line12_lblp_bgr,
 +
 +    pl110_draw_line1_bbbp_bgr,
 +    pl110_draw_line2_bbbp_bgr,
 +    pl110_draw_line4_bbbp_bgr,
 +    pl110_draw_line8_bbbp_bgr,
 +    pl110_draw_line16_555_bbbp_bgr,
 +    pl110_draw_line32_bbbp_bgr,
 +    pl110_draw_line16_bbbp_bgr,
 +    pl110_draw_line12_bbbp_bgr,
 +
 +    pl110_draw_line1_lbbp_bgr,
 +    pl110_draw_line2_lbbp_bgr,
 +    pl110_draw_line4_lbbp_bgr,
 +    pl110_draw_line8_lbbp_bgr,
 +    pl110_draw_line16_555_lbbp_bgr,
 +    pl110_draw_line32_lbbp_bgr,
 +    pl110_draw_line16_lbbp_bgr,
 +    pl110_draw_line12_lbbp_bgr,
 +
 +    pl110_draw_line1_lblp_rgb,
 +    pl110_draw_line2_lblp_rgb,
 +    pl110_draw_line4_lblp_rgb,
 +    pl110_draw_line8_lblp_rgb,
 +    pl110_draw_line16_555_lblp_rgb,
 +    pl110_draw_line32_lblp_rgb,
 +    pl110_draw_line16_lblp_rgb,
 +    pl110_draw_line12_lblp_rgb,
 +
 +    pl110_draw_line1_bbbp_rgb,
 +    pl110_draw_line2_bbbp_rgb,
 +    pl110_draw_line4_bbbp_rgb,
 +    pl110_draw_line8_bbbp_rgb,
 +    pl110_draw_line16_555_bbbp_rgb,
 +    pl110_draw_line32_bbbp_rgb,
 +    pl110_draw_line16_bbbp_rgb,
 +    pl110_draw_line12_bbbp_rgb,
 +
 +    pl110_draw_line1_lbbp_rgb,
 +    pl110_draw_line2_lbbp_rgb,
 +    pl110_draw_line4_lbbp_rgb,
 +    pl110_draw_line8_lbbp_rgb,
 +    pl110_draw_line16_555_lbbp_rgb,
 +    pl110_draw_line32_lbbp_rgb,
 +    pl110_draw_line16_lbbp_rgb,
 +    pl110_draw_line12_lbbp_rgb,
 +};
  static int pl110_enabled(PL110State *s)
  {
 --
 .20.1

-[PULL 17/39] hw/arm: versal: Add support for the RTC
+[PULL 34/39] hw/display/pxa2xx_lcd: Remove dead code for non-32-bpp surfaces
-From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+For a long time now the UI layer has guaranteed that the console
 surface is always 32 bits per pixel.  Remove the legacy dead code
 from the pxa2xx_lcd display device which was handling the possibility
 that the console surface was some other format.
-hw/arm: versal: Add support for the RTC.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Acked-by: Gerd Hoffmann <kraxel@redhat.com>
 Message-id: 20210211141515.8755-5-peter.maydell@linaro.org
 ---
  hw/display/pxa2xx_lcd.c | 79 +++++++++--------------------------------
 file changed, 17 insertions(+), 62 deletions(-)
-Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+diff --git a/hw/display/pxa2xx_lcd.c b/hw/display/pxa2xx_lcd.c
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
 Reviewed-by: Luc Michel <luc.michel@greensocs.com>
 Message-id: 20200427181649.26851-10-edgar.iglesias@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/arm/xlnx-versal.h |  8 ++++++++
  hw/arm/xlnx-versal.c         | 21 +++++++++++++++++++++
 files changed, 29 insertions(+)
 diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/xlnx-versal.h
+--- a/hw/display/pxa2xx_lcd.c
-+++ b/include/hw/arm/xlnx-versal.h
++++ b/hw/display/pxa2xx_lcd.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ struct PXA2xxLCDState {
- #include "hw/char/pl011.h"
- #include "hw/dma/xlnx-zdma.h"
+     int invalidated;
- #include "hw/net/cadence_gem.h"
+     QemuConsole *con;
-+#include "hw/rtc/xlnx-zynqmp-rtc.h"
+-    drawfn *line_fn[2];
+     int dest_width;
- #define TYPE_XLNX_VERSAL "xlnx-versal"
+     int xres, yres;
- #define XLNX_VERSAL(obj) OBJECT_CHECK(Versal, (obj), TYPE_XLNX_VERSAL)
+     int pal_for;
-@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
+@@ -XXX,XX +XXX,XX @@ typedef struct QEMU_PACKED {
-         struct {
+ #define LDCMD_SOFINT    (1 << 22)
-             SDHCIState sd[XLNX_VERSAL_NR_SDS];
+ #define LDCMD_PAL    (1 << 26)
-         } iou;
 +#define BITS 32
 +#include "pxa2xx_template.h"
 +
-+        XlnxZynqMPRTC rtc;
+ /* Route internal interrupt lines to the global IC */
-     } pmc;
+ static void pxa2xx_lcdc_int_update(PXA2xxLCDState *s)
+ {
-     struct {
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_palette_parse(PXA2xxLCDState *s, int ch, int bpp)
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
  #define VERSAL_GEM1_IRQ_0          58
  #define VERSAL_GEM1_WAKE_IRQ_0     59
  #define VERSAL_ADMA_IRQ_0          60
 +#define VERSAL_RTC_APB_ERR_IRQ     121
  #define VERSAL_SD0_IRQ_0           126
 +#define VERSAL_RTC_ALARM_IRQ       142
 +#define VERSAL_RTC_SECONDS_IRQ     143
  /* Architecturally reserved IRQs suitable for virtualization.  */
  #define VERSAL_RSVD_IRQ_FIRST 111
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
  #define MM_PMC_SD0_SIZE             0x10000
  #define MM_PMC_CRP                  0xf1260000U
  #define MM_PMC_CRP_SIZE             0x10000
 +#define MM_PMC_RTC                  0xf12a0000
 +#define MM_PMC_RTC_SIZE             0x10000
  #endif
 diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/xlnx-versal.c
 +++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_sds(Versal *s, qemu_irq *pic)
      }
  }
-+static void versal_create_rtc(Versal *s, qemu_irq *pic)
++static inline drawfn pxa2xx_drawfn(PXA2xxLCDState *s)
 +{
-+    SysBusDevice *sbd;
++    if (s->transp) {
-+    MemoryRegion *mr;
++        return pxa2xx_draw_fn_32t[s->bpp];
-+
++    } else {
-+    sysbus_init_child_obj(OBJECT(s), "rtc", &s->pmc.rtc, sizeof(s->pmc.rtc),
++        return pxa2xx_draw_fn_32[s->bpp];
-+                          TYPE_XLNX_ZYNQMP_RTC);
++    }
 +    sbd = SYS_BUS_DEVICE(&s->pmc.rtc);
 +    qdev_init_nofail(DEVICE(sbd));
 +
 +    mr = sysbus_mmio_get_region(sbd, 0);
 +    memory_region_add_subregion(&s->mr_ps, MM_PMC_RTC, mr);
 +
 +    /*
 +     * TODO: Connect the ALARM and SECONDS interrupts once our RTC model
 +     * supports them.
 +     */
 +    sysbus_connect_irq(sbd, 1, pic[VERSAL_RTC_APB_ERR_IRQ]);
 +}
 +
- /* This takes the board allocated linear DDR memory and creates aliases
+ static void pxa2xx_lcdc_dma0_redraw_rot0(PXA2xxLCDState *s,
-  * for each split DDR range/aperture on the Versal address map.
+                 hwaddr addr, int *miny, int *maxy)
-  */
+ {
-@@ -XXX,XX +XXX,XX @@ static void versal_realize(DeviceState *dev, Error **errp)
+     DisplaySurface *surface = qemu_console_surface(s->con);
-     versal_create_gems(s, pic);
+     int src_width, dest_width;
-     versal_create_admas(s, pic);
+-    drawfn fn = NULL;
-     versal_create_sds(s, pic);
+-    if (s->dest_width)
-+    versal_create_rtc(s, pic);
+-        fn = s->line_fn[s->transp][s->bpp];
-     versal_map_ddr(s);
++    drawfn fn = pxa2xx_drawfn(s);
-     versal_unimp(s);
+     if (!fn)
          return;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot90(PXA2xxLCDState *s,
  {
      DisplaySurface *surface = qemu_console_surface(s->con);
      int src_width, dest_width;
 -    drawfn fn = NULL;
 -    if (s->dest_width)
 -        fn = s->line_fn[s->transp][s->bpp];
 +    drawfn fn = pxa2xx_drawfn(s);
      if (!fn)
          return;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot180(PXA2xxLCDState *s,
  {
      DisplaySurface *surface = qemu_console_surface(s->con);
      int src_width, dest_width;
 -    drawfn fn = NULL;
 -    if (s->dest_width) {
 -        fn = s->line_fn[s->transp][s->bpp];
 -    }
 +    drawfn fn = pxa2xx_drawfn(s);
      if (!fn) {
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot270(PXA2xxLCDState *s,
  {
      DisplaySurface *surface = qemu_console_surface(s->con);
      int src_width, dest_width;
 -    drawfn fn = NULL;
 -    if (s->dest_width) {
 -        fn = s->line_fn[s->transp][s->bpp];
 -    }
 +    drawfn fn = pxa2xx_drawfn(s);
      if (!fn) {
          return;
      }
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_pxa2xx_lcdc = {
      }
  };
 -#define BITS 8
 -#include "pxa2xx_template.h"
 -#define BITS 15
 -#include "pxa2xx_template.h"
 -#define BITS 16
 -#include "pxa2xx_template.h"
 -#define BITS 24
 -#include "pxa2xx_template.h"
 -#define BITS 32
 -#include "pxa2xx_template.h"
 -
  static const GraphicHwOps pxa2xx_ops = {
      .invalidate  = pxa2xx_invalidate_display,
      .gfx_update  = pxa2xx_update_display,
@@ -XXX,XX +XXX,XX @@ PXA2xxLCDState *pxa2xx_lcdc_init(MemoryRegion *sysmem,
                                   hwaddr base, qemu_irq irq)
  {
      PXA2xxLCDState *s;
 -    DisplaySurface *surface;
      s = (PXA2xxLCDState *) g_malloc0(sizeof(PXA2xxLCDState));
      s->invalidated = 1;
@@ -XXX,XX +XXX,XX @@ PXA2xxLCDState *pxa2xx_lcdc_init(MemoryRegion *sysmem,
      memory_region_add_subregion(sysmem, base, &s->iomem);
      s->con = graphic_console_init(NULL, 0, &pxa2xx_ops, s);
 -    surface = qemu_console_surface(s->con);
 -
 -    switch (surface_bits_per_pixel(surface)) {
 -    case 0:
 -        s->dest_width = 0;
 -        break;
 -    case 8:
 -        s->line_fn[0] = pxa2xx_draw_fn_8;
 -        s->line_fn[1] = pxa2xx_draw_fn_8t;
 -        s->dest_width = 1;
 -        break;
 -    case 15:
 -        s->line_fn[0] = pxa2xx_draw_fn_15;
 -        s->line_fn[1] = pxa2xx_draw_fn_15t;
 -        s->dest_width = 2;
 -        break;
 -    case 16:
 -        s->line_fn[0] = pxa2xx_draw_fn_16;
 -        s->line_fn[1] = pxa2xx_draw_fn_16t;
 -        s->dest_width = 2;
 -        break;
 -    case 24:
 -        s->line_fn[0] = pxa2xx_draw_fn_24;
 -        s->line_fn[1] = pxa2xx_draw_fn_24t;
 -        s->dest_width = 3;
 -        break;
 -    case 32:
 -        s->line_fn[0] = pxa2xx_draw_fn_32;
 -        s->line_fn[1] = pxa2xx_draw_fn_32t;
 -        s->dest_width = 4;
 -        break;
 -    default:
 -        fprintf(stderr, "%s: Bad color depth\n", __func__);
 -        exit(1);
 -    }
 +    s->dest_width = 4;
      vmstate_register(NULL, 0, &vmstate_pxa2xx_lcdc, s);
 --
 .20.1

-[PULL 27/39] target/arm: Convert VCMLA (scalar) to decodetree
+[PULL 35/39] hw/display/pxa2xx_lcd: Remove dest_width state field
-Convert VCMLA (scalar) in the 2reg-scalar-ext group to decodetree.
+Since the dest_width is now always 4 because the output surface is
 bpp, we can replace the dest_width state field with a constant.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Message-id: 20200430181003.21682-9-peter.maydell@linaro.org
+Message-id: 20210211141515.8755-6-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   |  5 +++++
+ hw/display/pxa2xx_lcd.c | 20 +++++++++++---------
- target/arm/translate-neon.inc.c | 40 +++++++++++++++++++++++++++++++++
+file changed, 11 insertions(+), 9 deletions(-)
  target/arm/translate.c          | 26 +--------------------
 files changed, 46 insertions(+), 25 deletions(-)
-diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
+diff --git a/hw/display/pxa2xx_lcd.c b/hw/display/pxa2xx_lcd.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/hw/display/pxa2xx_lcd.c
-+++ b/target/arm/neon-shared.decode
++++ b/hw/display/pxa2xx_lcd.c
-@@ -XXX,XX +XXX,XX @@ VFML           1111 110 0 s:1 . 10 .... .... 1000 . 0 . 1 .... \
+@@ -XXX,XX +XXX,XX @@ typedef struct QEMU_PACKED {
-                vm=%vm_sp vn=%vn_sp vd=%vd_dp q=0
+ #define LDCMD_SOFINT    (1 << 22)
- VFML           1111 110 0 s:1 . 10 .... .... 1000 . 1 . 1 .... \
+ #define LDCMD_PAL    (1 << 26)
-                vm=%vm_dp vn=%vn_dp vd=%vd_dp q=1
 +/* Size of a pixel in the QEMU UI output surface, in bytes */
 +#define DEST_PIXEL_WIDTH 4
 +
-+VCMLA_scalar   1111 1110 0 . rot:2 .... .... 1000 . q:1 index:1 0 vm:4 \
+ #define BITS 32
-+               vn=%vn_dp vd=%vd_dp size=0
+ #include "pxa2xx_template.h"
-+VCMLA_scalar   1111 1110 1 . rot:2 .... .... 1000 . q:1 . 0 .... \
-+               vm=%vm_dp vn=%vn_dp vd=%vd_dp size=1 index=0
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot0(PXA2xxLCDState *s,
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+     else if (s->bpp > pxa_lcdc_8bpp)
-index XXXXXXX..XXXXXXX 100644
+         src_width *= 2;
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
+-    dest_width = s->xres * s->dest_width;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VFML(DisasContext *s, arg_VFML *a)
++    dest_width = s->xres * DEST_PIXEL_WIDTH;
-                        gen_helper_gvec_fmlal_a32);
+     *miny = 0;
-     return true;
+     if (s->invalidated) {
          framebuffer_update_memory_section(&s->fbsection, s->sysmem,
                                            addr, s->yres, src_width);
      }
      framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
 -                               src_width, dest_width, s->dest_width,
 +                               src_width, dest_width, DEST_PIXEL_WIDTH,
                                 s->invalidated,
                                 fn, s->dma_ch[0].palette, miny, maxy);
  }
-+
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot90(PXA2xxLCDState *s,
-+static bool trans_VCMLA_scalar(DisasContext *s, arg_VCMLA_scalar *a)
+     else if (s->bpp > pxa_lcdc_8bpp)
-+{
+         src_width *= 2;
-+    gen_helper_gvec_3_ptr *fn_gvec_ptr;
-+    int opr_sz;
+-    dest_width = s->yres * s->dest_width;
-+    TCGv_ptr fpst;
++    dest_width = s->yres * DEST_PIXEL_WIDTH;
-+
+     *miny = 0;
-+    if (!dc_isar_feature(aa32_vcma, s)) {
+     if (s->invalidated) {
-+        return false;
+         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
-+    }
+                                           addr, s->yres, src_width);
-+    if (a->size == 0 && !dc_isar_feature(aa32_fp16_arith, s)) {
+     }
-+        return false;
+     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-+    }
+-                               src_width, s->dest_width, -dest_width,
-+
++                               src_width, DEST_PIXEL_WIDTH, -dest_width,
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
+                                s->invalidated,
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+                                fn, s->dma_ch[0].palette,
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
+                                miny, maxy);
-+        return false;
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot180(PXA2xxLCDState *s,
-+    }
+         src_width *= 2;
-+
+     }
-+    if ((a->vd | a->vn) & a->q) {
-+        return false;
+-    dest_width = s->xres * s->dest_width;
-+    }
++    dest_width = s->xres * DEST_PIXEL_WIDTH;
-+
+     *miny = 0;
-+    if (!vfp_access_check(s)) {
+     if (s->invalidated) {
-+        return true;
+         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
-+    }
+                                           addr, s->yres, src_width);
-+
+     }
-+    fn_gvec_ptr = (a->size ? gen_helper_gvec_fcmlas_idx
+     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-+                   : gen_helper_gvec_fcmlah_idx);
+-                               src_width, -dest_width, -s->dest_width,
-+    opr_sz = (1 + a->q) * 8;
++                               src_width, -dest_width, -DEST_PIXEL_WIDTH,
-+    fpst = get_fpstatus_ptr(1);
+                                s->invalidated,
-+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                                fn, s->dma_ch[0].palette, miny, maxy);
-+                       vfp_reg_offset(1, a->vn),
+ }
-+                       vfp_reg_offset(1, a->vm),
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot270(PXA2xxLCDState *s,
-+                       fpst, opr_sz, opr_sz,
+         src_width *= 2;
-+                       (a->index << 2) | a->rot, fn_gvec_ptr);
+     }
-+    tcg_temp_free_ptr(fpst);
-+    return true;
+-    dest_width = s->yres * s->dest_width;
-+}
++    dest_width = s->yres * DEST_PIXEL_WIDTH;
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+     *miny = 0;
-index XXXXXXX..XXXXXXX 100644
+     if (s->invalidated) {
---- a/target/arm/translate.c
+         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
-+++ b/target/arm/translate.c
+                                           addr, s->yres, src_width);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
+     }
-     bool is_long = false, q = extract32(insn, 6, 1);
+     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-     bool ptr_is_env = false;
+-                               src_width, -s->dest_width, dest_width,
++                               src_width, -DEST_PIXEL_WIDTH, dest_width,
--    if ((insn & 0xff000f10) == 0xfe000800) {
+                                s->invalidated,
--        /* VCMLA (indexed) -- 1111 1110 S.RR .... .... 1000 ...0 .... */
+                                fn, s->dma_ch[0].palette,
--        int rot = extract32(insn, 20, 2);
+                                miny, maxy);
--        int size = extract32(insn, 23, 1);
+@@ -XXX,XX +XXX,XX @@ PXA2xxLCDState *pxa2xx_lcdc_init(MemoryRegion *sysmem,
--        int index;
+     memory_region_add_subregion(sysmem, base, &s->iomem);
--
--        if (!dc_isar_feature(aa32_vcma, s)) {
+     s->con = graphic_console_init(NULL, 0, &pxa2xx_ops, s);
--            return 1;
+-    s->dest_width = 4;
--        }
--        if (size == 0) {
+     vmstate_register(NULL, 0, &vmstate_pxa2xx_lcdc, s);
 -            if (!dc_isar_feature(aa32_fp16_arith, s)) {
 -                return 1;
 -            }
 -            /* For fp16, rm is just Vm, and index is M.  */
 -            rm = extract32(insn, 0, 4);
 -            index = extract32(insn, 5, 1);
 -        } else {
 -            /* For fp32, rm is the usual M:Vm, and index is 0.  */
 -            VFP_DREG_M(rm, insn);
 -            index = 0;
 -        }
 -        data = (index << 2) | rot;
 -        fn_gvec_ptr = (size ? gen_helper_gvec_fcmlas_idx
 -                       : gen_helper_gvec_fcmlah_idx);
 -    } else if ((insn & 0xffb00f00) == 0xfe200d00) {
 +    if ((insn & 0xffb00f00) == 0xfe200d00) {
          /* V[US]DOT -- 1111 1110 0.10 .... .... 1101 .Q.U .... */
          int u = extract32(insn, 4, 1);
 --
 .20.1

-[PULL 32/39] target/arm: Convert Neon 'load/store single structure' to decodetree
+[PULL 36/39] hw/display/pxa2xx: Remove use of BITS in pxa2xx_template.h
-Convert the Neon "load/store single structure to one lane" insns to
+Now that BITS is always 32, expand out all its uses in the template
-decodetree.
+header, including removing now-useless uses of the glue() macro.
 As this is the last set of insns in the neon load/store group,
 we can remove the whole disas_neon_ls_insn() function.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Message-id: 20200430181003.21682-14-peter.maydell@linaro.org
+Message-id: 20210211141515.8755-7-peter.maydell@linaro.org
 ---
- target/arm/neon-ls.decode       |  11 +++
+ hw/display/pxa2xx_template.h | 110 ++++++++++++++---------------------
- target/arm/translate-neon.inc.c |  89 +++++++++++++++++++
+file changed, 45 insertions(+), 65 deletions(-)
  target/arm/translate.c          | 147 --------------------------------
 files changed, 100 insertions(+), 147 deletions(-)
-diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
+diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-ls.decode
+--- a/hw/display/pxa2xx_template.h
-+++ b/target/arm/neon-ls.decode
++++ b/hw/display/pxa2xx_template.h
@@ -XXX,XX +XXX,XX @@ VLDST_multiple 1111 0100 0 . l:1 0 rn:4 .... itype:4 size:2 align:2 rm:4 \
  VLD_all_lanes  1111 0100 1 . 1 0 rn:4 .... 11 n:2 size:2 t:1 a:1 rm:4 \
                 vd=%vd_dp
 +
 +# Neon load/store single structure to one lane
 +%imm1_5_p1 5:1 !function=plus1
 +%imm1_6_p1 6:1 !function=plus1
 +
 +VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 00 n:2 reg_idx:3 align:1 rm:4 \
 +               vd=%vd_dp size=0 stride=1
 +VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 align:2 rm:4 \
 +               vd=%vd_dp size=1 stride=%imm1_5_p1
 +VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 align:3 rm:4 \
 +               vd=%vd_dp size=2 stride=%imm1_6_p1
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
 @@ -XXX,XX +XXX,XX @@
-  * It might be possible to convert it to a standalone .c file eventually.
   */
-+static inline int plus1(DisasContext *s, int x)
+ # define SKIP_PIXEL(to)        to += deststep
-+{
+-#if BITS == 8
-+    return x + 1;
+-# define COPY_PIXEL(to, from)  do { *to = from; SKIP_PIXEL(to); } while (0)
-+}
+-#elif BITS == 15 || BITS == 16
-+
+-# define COPY_PIXEL(to, from)    \
- /* Include the generated Neon decoder */
+-    do {                         \
- #include "decode-neon-dp.inc.c"
+-        *(uint16_t *) to = from; \
- #include "decode-neon-ls.inc.c"
+-        SKIP_PIXEL(to);          \
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
+-    } while (0)
+-#elif BITS == 24
-     return true;
+-# define COPY_PIXEL(to, from)     \
- }
+-    do {                          \
-+
+-        *(uint16_t *) to = from;  \
-+static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
+-        *(to + 2) = (from) >> 16; \
-+{
+-        SKIP_PIXEL(to);           \
-+    /* Neon load/store single structure to one lane */
+-    } while (0)
-+    int reg;
+-#elif BITS == 32
-+    int nregs = a->n + 1;
+ # define COPY_PIXEL(to, from)    \
-+    int vd = a->vd;
+     do {                         \
-+    TCGv_i32 addr, tmp;
+         *(uint32_t *) to = from; \
-+
+         SKIP_PIXEL(to);          \
-+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+     } while (0)
-+        return false;
+-#else
-+    }
+-# error unknown bit depth
-+
+-#endif
-+    /* UNDEF accesses to D16-D31 if they don't exist */
-+    if (!dc_isar_feature(aa32_simd_r32, s) && (a->vd & 0x10)) {
+ #ifdef HOST_WORDS_BIGENDIAN
-+        return false;
+ # define SWAP_WORDS    1
-+    }
+@@ -XXX,XX +XXX,XX @@
-+
+ #define FN_2(x)        FN(x + 1) FN(x)
-+    /* Catch the UNDEF cases. This is unavoidably a bit messy. */
+ #define FN_4(x)        FN_2(x + 2) FN_2(x)
-+    switch (nregs) {
-+    case 1:
+-static void glue(pxa2xx_draw_line2_, BITS)(void *opaque,
-+        if (((a->align & (1 << a->size)) != 0) ||
++static void pxa2xx_draw_line2(void *opaque,
-+            (a->size == 2 && ((a->align & 3) == 1 || (a->align & 3) == 2))) {
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-+            return false;
+ {
-+        }
+     uint32_t *palette = opaque;
-+        break;
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line2_, BITS)(void *opaque,
-+    case 3:
+     }
-+        if ((a->align & 1) != 0) {
+ }
-+            return false;
-+        }
+-static void glue(pxa2xx_draw_line4_, BITS)(void *opaque,
-+        /* fall through */
++static void pxa2xx_draw_line4(void *opaque,
-+    case 2:
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-+        if (a->size == 2 && (a->align & 2) != 0) {
+ {
-+            return false;
+     uint32_t *palette = opaque;
-+        }
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line4_, BITS)(void *opaque,
-+        break;
+     }
-+    case 4:
+ }
-+        if ((a->size == 2) && ((a->align & 3) == 3)) {
-+            return false;
+-static void glue(pxa2xx_draw_line8_, BITS)(void *opaque,
-+        }
++static void pxa2xx_draw_line8(void *opaque,
-+        break;
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-+    default:
+ {
-+        abort();
+     uint32_t *palette = opaque;
-+    }
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line8_, BITS)(void *opaque,
-+    if ((vd + a->stride * (nregs - 1)) > 31) {
+     }
-+        /*
+ }
-+         * Attempts to write off the end of the register file are
-+         * UNPREDICTABLE; we choose to UNDEF because otherwise we would
+-static void glue(pxa2xx_draw_line16_, BITS)(void *opaque,
-+         * access off the end of the array that holds the register data.
++static void pxa2xx_draw_line16(void *opaque,
-+         */
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-+        return false;
+ {
-+    }
+     uint32_t data;
-+
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line16_, BITS)(void *opaque,
-+    if (!vfp_access_check(s)) {
+         data >>= 6;
-+        return true;
+         r = (data & 0x1f) << 3;
-+    }
+         data >>= 5;
-+
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
-+    tmp = tcg_temp_new_i32();
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-+    addr = tcg_temp_new_i32();
+         b = (data & 0x1f) << 3;
-+    load_reg_var(s, addr, a->rn);
+         data >>= 5;
-+    /*
+         g = (data & 0x3f) << 2;
-+     * TODO: if we implemented alignment exceptions, we should check
+         data >>= 6;
-+     * addr against the alignment encoded in a->align here.
+         r = (data & 0x1f) << 3;
-+     */
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
-+    for (reg = 0; reg < nregs; reg++) {
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-+        if (a->l) {
+         width -= 2;
-+            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
+         src += 4;
-+                            s->be_data | a->size);
+     }
-+            neon_store_element(vd, a->reg_idx, a->size, tmp);
+ }
-+        } else { /* Store */
-+            neon_load_element(tmp, vd, a->reg_idx, a->size);
+-static void glue(pxa2xx_draw_line16t_, BITS)(void *opaque,
-+            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
++static void pxa2xx_draw_line16t(void *opaque,
-+                            s->be_data | a->size);
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-+        }
+ {
-+        vd += a->stride;
+     uint32_t data;
-+        tcg_gen_addi_i32(addr, addr, 1 << a->size);
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line16t_, BITS)(void *opaque,
-+    }
+         if (data & 1)
-+    tcg_temp_free_i32(addr);
+             SKIP_PIXEL(dest);
-+    tcg_temp_free_i32(tmp);
+         else
-+
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
-+    gen_neon_ldst_base_update(s, a->rm, a->rn, (1 << a->size) * nregs);
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-+
+         data >>= 1;
-+    return true;
+         b = (data & 0x1f) << 3;
-+}
+         data >>= 5;
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line16t_, BITS)(void *opaque,
-index XXXXXXX..XXXXXXX 100644
+         if (data & 1)
---- a/target/arm/translate.c
+             SKIP_PIXEL(dest);
-+++ b/target/arm/translate.c
+         else
-@@ -XXX,XX +XXX,XX @@ static void gen_neon_trn_u16(TCGv_i32 t0, TCGv_i32 t1)
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
-     tcg_temp_free_i32(rd);
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
- }
+         width -= 2;
+         src += 4;
--
+     }
--/* Translate a NEON load/store element instruction.  Return nonzero if the
+ }
--   instruction is invalid.  */
--static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
+-static void glue(pxa2xx_draw_line18_, BITS)(void *opaque,
--{
++static void pxa2xx_draw_line18(void *opaque,
--    int rd, rn, rm;
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
--    int nregs;
+ {
--    int stride;
+     uint32_t data;
--    int size;
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line18_, BITS)(void *opaque,
--    int reg;
+         g = (data & 0x3f) << 2;
--    int load;
+         data >>= 6;
--    TCGv_i32 addr;
+         r = (data & 0x3f) << 2;
--    TCGv_i32 tmp;
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+         width -= 1;
--        return 1;
+         src += 4;
--    }
+     }
--
+ }
--    /* FIXME: this access check should not take precedence over UNDEF
--     * for invalid encodings; we will generate incorrect syndrome information
+ /* The wicked packed format */
--     * for attempts to execute invalid vfp/neon encodings with FP disabled.
+-static void glue(pxa2xx_draw_line18p_, BITS)(void *opaque,
--     */
++static void pxa2xx_draw_line18p(void *opaque,
--    if (s->fp_excp_el) {
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
--        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+ {
--                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
+     uint32_t data[3];
--        return 0;
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line18p_, BITS)(void *opaque,
--    }
+         data[0] >>= 6;
--
+         r = (data[0] & 0x3f) << 2;
--    if (!s->vfp_enabled)
+         data[0] >>= 12;
--      return 1;
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--    VFP_DREG_D(rd, insn);
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--    rn = (insn >> 16) & 0xf;
+         b = (data[0] & 0x3f) << 2;
--    rm = insn & 0xf;
+         data[0] >>= 6;
--    load = (insn & (1 << 21)) != 0;
+         g = ((data[1] & 0xf) << 4) | (data[0] << 2);
--    if ((insn & (1 << 23)) == 0) {
+         data[1] >>= 4;
--        /* Load store all elements -- handled already by decodetree */
+         r = (data[1] & 0x3f) << 2;
--        return 1;
+         data[1] >>= 12;
--    } else {
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--        size = (insn >> 10) & 3;
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--        if (size == 3) {
+         b = (data[1] & 0x3f) << 2;
--            /* Load single element to all lanes -- handled by decodetree  */
+         data[1] >>= 6;
--            return 1;
+         g = (data[1] & 0x3f) << 2;
--        } else {
+         data[1] >>= 6;
--            /* Single element.  */
+         r = ((data[2] & 0x3) << 6) | (data[1] << 2);
--            int idx = (insn >> 4) & 0xf;
+         data[2] >>= 8;
--            int reg_idx;
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--            switch (size) {
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--            case 0:
+         b = (data[2] & 0x3f) << 2;
--                reg_idx = (insn >> 5) & 7;
+         data[2] >>= 6;
--                stride = 1;
+         g = (data[2] & 0x3f) << 2;
--                break;
+         data[2] >>= 6;
--            case 1:
+         r = data[2] << 2;
--                reg_idx = (insn >> 6) & 3;
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--                stride = (insn & (1 << 5)) ? 2 : 1;
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--                break;
+         width -= 4;
--            case 2:
+     }
--                reg_idx = (insn >> 7) & 1;
+ }
--                stride = (insn & (1 << 6)) ? 2 : 1;
--                break;
+-static void glue(pxa2xx_draw_line19_, BITS)(void *opaque,
--            default:
++static void pxa2xx_draw_line19(void *opaque,
--                abort();
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
--            }
+ {
--            nregs = ((insn >> 8) & 3) + 1;
+     uint32_t data;
--            /* Catch the UNDEF cases. This is unavoidably a bit messy. */
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19_, BITS)(void *opaque,
--            switch (nregs) {
+         if (data & 1)
--            case 1:
+             SKIP_PIXEL(dest);
--                if (((idx & (1 << size)) != 0) ||
+         else
--                    (size == 2 && ((idx & 3) == 1 || (idx & 3) == 2))) {
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--                    return 1;
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--                }
+         width -= 1;
--                break;
+         src += 4;
--            case 3:
+     }
--                if ((idx & 1) != 0) {
+ }
--                    return 1;
--                }
+ /* The wicked packed format */
--                /* fall through */
+-static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
--            case 2:
++static void pxa2xx_draw_line19p(void *opaque,
--                if (size == 2 && (idx & 2) != 0) {
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
--                    return 1;
+ {
--                }
+     uint32_t data[3];
--                break;
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
--            case 4:
+         if (data[0] & 1)
--                if ((size == 2) && ((idx & 3) == 3)) {
+             SKIP_PIXEL(dest);
--                    return 1;
+         else
--                }
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--                break;
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--            default:
+         data[0] >>= 6;
--                abort();
+         b = (data[0] & 0x3f) << 2;
--            }
+         data[0] >>= 6;
--            if ((rd + stride * (nregs - 1)) > 31) {
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
--                /* Attempts to write off the end of the register file
+         if (data[1] & 1)
--                 * are UNPREDICTABLE; we choose to UNDEF because otherwise
+             SKIP_PIXEL(dest);
--                 * the neon_load_reg() would write off the end of the array.
+         else
--                 */
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--                return 1;
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--            }
+         data[1] >>= 6;
--            tmp = tcg_temp_new_i32();
+         b = (data[1] & 0x3f) << 2;
--            addr = tcg_temp_new_i32();
+         data[1] >>= 6;
--            load_reg_var(s, addr, rn);
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
--            for (reg = 0; reg < nregs; reg++) {
+         if (data[2] & 1)
--                if (load) {
+             SKIP_PIXEL(dest);
--                    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
+         else
--                                    s->be_data | size);
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--                    neon_store_element(rd, reg_idx, size, tmp);
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--                } else { /* Store */
+         data[2] >>= 6;
--                    neon_load_element(tmp, rd, reg_idx, size);
+         b = (data[2] & 0x3f) << 2;
--                    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
+         data[2] >>= 6;
--                                    s->be_data | size);
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
--                }
+         if (data[2] & 1)
--                rd += stride;
+             SKIP_PIXEL(dest);
--                tcg_gen_addi_i32(addr, addr, 1 << size);
+         else
--            }
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--            tcg_temp_free_i32(addr);
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--            tcg_temp_free_i32(tmp);
+         width -= 4;
--            stride = nregs * (1 << size);
+     }
--        }
+ }
--    }
--    if (rm != 15) {
+-static void glue(pxa2xx_draw_line24_, BITS)(void *opaque,
--        TCGv_i32 base;
++static void pxa2xx_draw_line24(void *opaque,
--
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
--        base = load_reg(s, rn);
+ {
--        if (rm == 13) {
+     uint32_t data;
--            tcg_gen_addi_i32(base, base, stride);
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line24_, BITS)(void *opaque,
--        } else {
+         g = data & 0xff;
--            TCGv_i32 index;
+         data >>= 8;
--            index = load_reg(s, rm);
+         r = data & 0xff;
--            tcg_gen_add_i32(base, base, index);
+-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--            tcg_temp_free_i32(index);
++        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--        }
+         width -= 1;
--        store_reg(s, rn, base);
+         src += 4;
--    }
+     }
--    return 0;
+ }
--}
--
+-static void glue(pxa2xx_draw_line24t_, BITS)(void *opaque,
- static inline void gen_neon_narrow(int size, TCGv_i32 dest, TCGv_i64 src)
++static void pxa2xx_draw_line24t(void *opaque,
- {
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-     switch (size) {
+ {
-@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
+     uint32_t data;
-             }
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line24t_, BITS)(void *opaque,
-             return;
+         if (data & 1)
-         }
+             SKIP_PIXEL(dest);
--        if ((insn & 0x0f100000) == 0x04000000) {
+         else
--            /* NEON load/store.  */
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--            if (disas_neon_ls_insn(s, insn)) {
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--                goto illegal_op;
+         width -= 1;
--            }
+         src += 4;
--            return;
+     }
--        }
+ }
-         if ((insn & 0x0e000f00) == 0x0c000100) {
-             if (arm_dc_feature(s, ARM_FEATURE_IWMMXT)) {
+-static void glue(pxa2xx_draw_line25_, BITS)(void *opaque,
-                 /* iWMMXt register transfer.  */
++static void pxa2xx_draw_line25(void *opaque,
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+                 uint8_t *dest, const uint8_t *src, int width, int deststep)
-         }
+ {
-         break;
+     uint32_t data;
-     case 12:
+@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line25_, BITS)(void *opaque,
--        if ((insn & 0x01100000) == 0x01000000) {
+         if (data & 1)
--            if (disas_neon_ls_insn(s, insn)) {
+             SKIP_PIXEL(dest);
--                goto illegal_op;
+         else
--            }
+-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
--            break;
++            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
--        }
+         width -= 1;
-         goto illegal_op;
+         src += 4;
-     default:
+     }
-     illegal_op:
+ }
  /* Overlay planes disabled, no transparency */
 -static drawfn glue(pxa2xx_draw_fn_, BITS)[16] =
 +static drawfn pxa2xx_draw_fn_32[16] =
  {
      [0 ... 0xf]       = NULL,
 -    [pxa_lcdc_2bpp]   = glue(pxa2xx_draw_line2_, BITS),
 -    [pxa_lcdc_4bpp]   = glue(pxa2xx_draw_line4_, BITS),
 -    [pxa_lcdc_8bpp]   = glue(pxa2xx_draw_line8_, BITS),
 -    [pxa_lcdc_16bpp]  = glue(pxa2xx_draw_line16_, BITS),
 -    [pxa_lcdc_18bpp]  = glue(pxa2xx_draw_line18_, BITS),
 -    [pxa_lcdc_18pbpp] = glue(pxa2xx_draw_line18p_, BITS),
 -    [pxa_lcdc_24bpp]  = glue(pxa2xx_draw_line24_, BITS),
 +    [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
 +    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
 +    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 +    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16,
 +    [pxa_lcdc_18bpp]  = pxa2xx_draw_line18,
 +    [pxa_lcdc_18pbpp] = pxa2xx_draw_line18p,
 +    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24,
  };
  /* Overlay planes enabled, transparency used */
 -static drawfn glue(glue(pxa2xx_draw_fn_, BITS), t)[16] =
 +static drawfn pxa2xx_draw_fn_32t[16] =
  {
      [0 ... 0xf]       = NULL,
 -    [pxa_lcdc_4bpp]   = glue(pxa2xx_draw_line4_, BITS),
 -    [pxa_lcdc_8bpp]   = glue(pxa2xx_draw_line8_, BITS),
 -    [pxa_lcdc_16bpp]  = glue(pxa2xx_draw_line16t_, BITS),
 -    [pxa_lcdc_19bpp]  = glue(pxa2xx_draw_line19_, BITS),
 -    [pxa_lcdc_19pbpp] = glue(pxa2xx_draw_line19p_, BITS),
 -    [pxa_lcdc_24bpp]  = glue(pxa2xx_draw_line24t_, BITS),
 -    [pxa_lcdc_25bpp]  = glue(pxa2xx_draw_line25_, BITS),
 +    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
 +    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 +    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16t,
 +    [pxa_lcdc_19bpp]  = pxa2xx_draw_line19,
 +    [pxa_lcdc_19pbpp] = pxa2xx_draw_line19p,
 +    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24t,
 +    [pxa_lcdc_25bpp]  = pxa2xx_draw_line25,
  };
 -#undef BITS
  #undef COPY_PIXEL
  #undef SKIP_PIXEL
 --
 .20.1

-[PULL 20/39] target/arm/translate-vfp.inc.c: Remove duplicate simd_r32 check
+[PULL 37/39] hw/display/pxa2xx: Apply brace-related coding style fixes to template header
-Somewhere along theline we accidentally added a duplicate
+We're about to move code from the template header into pxa2xx_lcd.c.
-"using D16-D31 when they don't exist" check to do_vfm_dp()
+Before doing that, make coding style fixes so checkpatch doesn't
-(probably an artifact of a patchseries rebase). Remove it.
+complain about the patch which moves the code. This commit fixes
 missing braces in the SKIP_PIXEL() macro definition and in if()
 statements.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-id: 20210211141515.8755-8-peter.maydell@linaro.org
 Message-id: 20200430181003.21682-2-peter.maydell@linaro.org
 ---
- target/arm/translate-vfp.inc.c | 6 ------
+ hw/display/pxa2xx_template.h | 47 +++++++++++++++++++++---------------
-file changed, 6 deletions(-)
+file changed, 28 insertions(+), 19 deletions(-)
-diff --git a/target/arm/translate-vfp.inc.c b/target/arm/translate-vfp.inc.c
+diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.inc.c
+--- a/hw/display/pxa2xx_template.h
-+++ b/target/arm/translate-vfp.inc.c
++++ b/hw/display/pxa2xx_template.h
-@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
+@@ -XXX,XX +XXX,XX @@
-         return false;
+  * Framebuffer format conversion routines.
   */
 -# define SKIP_PIXEL(to)        to += deststep
 +# define SKIP_PIXEL(to) do { to += deststep; } while (0)
  # define COPY_PIXEL(to, from)    \
      do {                         \
          *(uint32_t *) to = from; \
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16t(void *opaque,
          data >>= 5;
          r = (data & 0x1f) << 3;
          data >>= 5;
 -        if (data & 1)
 +        if (data & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          data >>= 1;
          b = (data & 0x1f) << 3;
          data >>= 5;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16t(void *opaque,
          data >>= 5;
          r = (data & 0x1f) << 3;
          data >>= 5;
 -        if (data & 1)
 +        if (data & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          width -= 2;
          src += 4;
      }
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19(void *opaque,
--    /* UNDEF accesses to D16-D31 if they don't exist. */
+         data >>= 6;
--    if (!dc_isar_feature(aa32_simd_r32, s) &&
+         r = (data & 0x3f) << 2;
--        ((a->vd | a->vn | a->vm) & 0x10)) {
+         data >>= 6;
--        return false;
+-        if (data & 1)
--    }
++        if (data & 1) {
--
+             SKIP_PIXEL(dest);
-     if (!vfp_access_check(s)) {
+-        else
-         return true;
++        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          width -= 1;
          src += 4;
      }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
          data[0] >>= 6;
          r = (data[0] & 0x3f) << 2;
          data[0] >>= 6;
 -        if (data[0] & 1)
 +        if (data[0] & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          data[0] >>= 6;
          b = (data[0] & 0x3f) << 2;
          data[0] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
          data[1] >>= 4;
          r = (data[1] & 0x3f) << 2;
          data[1] >>= 6;
 -        if (data[1] & 1)
 +        if (data[1] & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          data[1] >>= 6;
          b = (data[1] & 0x3f) << 2;
          data[1] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
          data[1] >>= 6;
          r = ((data[2] & 0x3) << 6) | (data[1] << 2);
          data[2] >>= 2;
 -        if (data[2] & 1)
 +        if (data[2] & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          data[2] >>= 6;
          b = (data[2] & 0x3f) << 2;
          data[2] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
          data[2] >>= 6;
          r = data[2] << 2;
          data[2] >>= 6;
 -        if (data[2] & 1)
 +        if (data[2] & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          width -= 4;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line24t(void *opaque,
          data >>= 8;
          r = data & 0xff;
          data >>= 8;
 -        if (data & 1)
 +        if (data & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          width -= 1;
          src += 4;
      }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line25(void *opaque,
          data >>= 8;
          r = data & 0xff;
          data >>= 8;
 -        if (data & 1)
 +        if (data & 1) {
              SKIP_PIXEL(dest);
 -        else
 +        } else {
              COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
          width -= 1;
          src += 4;
      }
 --
 .20.1

-[PULL 03/39] target/arm: Don't use a TLB for ARMMMUIdx_Stage2
+[PULL 38/39] hw/display/pxa2xx: Apply whitespace-only coding style fixes to template header
-We define ARMMMUIdx_Stage2 as being an MMU index which uses a QEMU
+We're about to move code from the template header into pxa2xx_lcd.c.
-TLB.  However we never actually use the TLB -- all stage 2 lookups
+Before doing that, make coding style fixes so checkpatch doesn't
-are done by direct calls to get_phys_addr_lpae() followed by a
+complain about the patch which moves the code. This commit is
-physical address load via address_space_ld*().
+whitespace changes only:
+ * avoid hard-coded tabs
-Remove Stage2 from the list of ARM MMU indexes which correspond to
+ * fix ident on function prototypes
-real core MMU indexes, and instead put it in the set of "NOTLB" ARM
+ * no newline before open brace on array definitions
 MMU indexes.
 This allows us to drop NB_MMU_MODES to 11.  It also means we can
 safely add support for the ARMv8.3-TTS2UXN extension, which adds
 permission bits to the stage 2 descriptors which define execute
 permission separatel for EL0 and EL1; supporting that while keeping
 Stage2 in a QEMU TLB would require us to use separate TLBs for
 "Stage2 for an EL0 access" and "Stage2 for an EL1 access", which is a
 lot of extra complication given we aren't even using the QEMU TLB.
 In the process of updating the comment on our MMU index use,
 fix a couple of other minor errors:
  * NS EL2 EL2&0 was missing from the list in the comment
  * some text hadn't been updated from when we bumped NB_MMU_MODES
    above 8
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210211141515.8755-9-peter.maydell@linaro.org
 Message-id: 20200330210400.11724-2-peter.maydell@linaro.org
 ---
- target/arm/cpu-param.h |   2 +-
+ hw/display/pxa2xx_template.h | 66 +++++++++++++++++-------------------
- target/arm/cpu.h       |  21 +++++---
+file changed, 32 insertions(+), 34 deletions(-)
- target/arm/helper.c    | 112 ++++-------------------------------------
-files changed, 27 insertions(+), 108 deletions(-)
+diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
 diff --git a/target/arm/cpu-param.h b/target/arm/cpu-param.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu-param.h
+--- a/hw/display/pxa2xx_template.h
-+++ b/target/arm/cpu-param.h
++++ b/hw/display/pxa2xx_template.h
 @@ -XXX,XX +XXX,XX @@
- # define TARGET_PAGE_BITS_MIN  10
+     } while (0)
  #ifdef HOST_WORDS_BIGENDIAN
 -# define SWAP_WORDS    1
 +# define SWAP_WORDS 1
  #endif
--#define NB_MMU_MODES 12
+-#define FN_2(x)        FN(x + 1) FN(x)
-+#define NB_MMU_MODES 11
+-#define FN_4(x)        FN_2(x + 2) FN_2(x)
++#define FN_2(x) FN(x + 1) FN(x)
- #endif
++#define FN_4(x) FN_2(x + 2) FN_2(x)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
+-static void pxa2xx_draw_line2(void *opaque,
---- a/target/arm/cpu.h
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-+++ b/target/arm/cpu.h
++static void pxa2xx_draw_line2(void *opaque, uint8_t *dest, const uint8_t *src,
-@@ -XXX,XX +XXX,XX @@ bool write_cpustate_to_list(ARMCPU *cpu, bool kvm_sync);
++                              int width, int deststep)
-  *     handling via the TLB. The only way to do a stage 1 translation without
+ {
-  *     the immediate stage 2 translation is via the ATS or AT system insns,
+     uint32_t *palette = opaque;
-  *     which can be slow-pathed and always do a page table walk.
+     uint32_t data;
-+ *     The only use of stage 2 translations is either as part of an s1+2
+     while (width > 0) {
-+ *     lookup or when loading the descriptors during a stage 1 page table walk,
+         data = *(uint32_t *) src;
-+ *     and in both those cases we don't use the TLB.
+-#define FN(x)        COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
-  *  4. we can also safely fold together the "32 bit EL3" and "64 bit EL3"
++#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
-  *     translation regimes, because they map reasonably well to each other
+ #ifdef SWAP_WORDS
-  *     and they can't both be active at the same time.
+         FN_4(12)
-@@ -XXX,XX +XXX,XX @@ bool write_cpustate_to_list(ARMCPU *cpu, bool kvm_sync);
+         FN_4(8)
-  * NS EL1 EL1&0 stage 1+2 (aka NS PL1)
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line2(void *opaque,
-  * NS EL1 EL1&0 stage 1+2 +PAN
+     }
-  * NS EL0 EL2&0
+ }
-+ * NS EL2 EL2&0
-  * NS EL2 EL2&0 +PAN
+-static void pxa2xx_draw_line4(void *opaque,
-  * NS EL2 (aka NS PL2)
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-  * S EL0 EL1&0 (aka S PL0)
++static void pxa2xx_draw_line4(void *opaque, uint8_t *dest, const uint8_t *src,
-  * S EL1 EL1&0 (not used if EL3 is 32 bit)
++                              int width, int deststep)
-  * S EL1 EL1&0 +PAN
+ {
-  * S EL3 (aka S PL1)
+     uint32_t *palette = opaque;
-- * NS EL1&0 stage 2
+     uint32_t data;
-  *
+     while (width > 0) {
-- * for a total of 12 different mmu_idx.
+         data = *(uint32_t *) src;
-+ * for a total of 11 different mmu_idx.
+-#define FN(x)        COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
-  *
++#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
-  * R profile CPUs have an MPU, but can use the same set of MMU indexes
+ #ifdef SWAP_WORDS
-  * as A profile. They only need to distinguish NS EL0 and NS EL1 (and
+         FN_2(6)
-@@ -XXX,XX +XXX,XX @@ bool write_cpustate_to_list(ARMCPU *cpu, bool kvm_sync);
+         FN_2(4)
-  * are not quite the same -- different CPU types (most notably M profile
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line4(void *opaque,
-  * vs A/R profile) would like to use MMU indexes with different semantics,
+     }
-  * but since we don't ever need to use all of those in a single CPU we
+ }
-- * can avoid setting NB_MMU_MODES to more than 8. The lower bits of
-+ * can avoid having to set NB_MMU_MODES to "total number of A profile MMU
+-static void pxa2xx_draw_line8(void *opaque,
-+ * modes + total number of M profile MMU modes". The lower bits of
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-  * ARMMMUIdx are the core TLB mmu index, and the higher bits are always
++static void pxa2xx_draw_line8(void *opaque, uint8_t *dest, const uint8_t *src,
-  * the same for any particular CPU.
++                              int width, int deststep)
-  * Variables of type ARMMUIdx are always full values, and the core
+ {
-@@ -XXX,XX +XXX,XX @@ typedef enum ARMMMUIdx {
+     uint32_t *palette = opaque;
-     ARMMMUIdx_SE10_1_PAN = 9 | ARM_MMU_IDX_A,
+     uint32_t data;
-     ARMMMUIdx_SE3        = 10 | ARM_MMU_IDX_A,
+     while (width > 0) {
+         data = *(uint32_t *) src;
--    ARMMMUIdx_Stage2     = 11 | ARM_MMU_IDX_A,
+-#define FN(x)        COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
--
++#define FN(x) COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
-     /*
+ #ifdef SWAP_WORDS
-      * These are not allocated TLBs and are used only for AT system
+         FN(24)
-      * instructions or for the first stage of an S12 page table walk.
+         FN(16)
-@@ -XXX,XX +XXX,XX @@ typedef enum ARMMMUIdx {
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line8(void *opaque,
-     ARMMMUIdx_Stage1_E0 = 0 | ARM_MMU_IDX_NOTLB,
+     }
-     ARMMMUIdx_Stage1_E1 = 1 | ARM_MMU_IDX_NOTLB,
+ }
-     ARMMMUIdx_Stage1_E1_PAN = 2 | ARM_MMU_IDX_NOTLB,
-+    /*
+-static void pxa2xx_draw_line16(void *opaque,
-+     * Not allocated a TLB: used only for second stage of an S12 page
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-+     * table walk, or for descriptor loads during first stage of an S1
++static void pxa2xx_draw_line16(void *opaque, uint8_t *dest, const uint8_t *src,
-+     * page table walk. Note that if we ever want to have a TLB for this
++                               int width, int deststep)
-+     * then various TLB flush insns which currently are no-ops or flush
+ {
-+     * only stage 1 MMU indexes will need to change to flush stage 2.
+     uint32_t data;
-+     */
+     unsigned int r, g, b;
-+    ARMMMUIdx_Stage2     = 3 | ARM_MMU_IDX_NOTLB,
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16(void *opaque,
+     }
-     /*
+ }
-      * M-profile.
-@@ -XXX,XX +XXX,XX @@ typedef enum ARMMMUIdxBit {
+-static void pxa2xx_draw_line16t(void *opaque,
-     TO_CORE_BIT(SE10_1),
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-     TO_CORE_BIT(SE10_1_PAN),
++static void pxa2xx_draw_line16t(void *opaque, uint8_t *dest, const uint8_t *src,
-     TO_CORE_BIT(SE3),
++                                int width, int deststep)
--    TO_CORE_BIT(Stage2),
+ {
+     uint32_t data;
-     TO_CORE_BIT(MUser),
+     unsigned int r, g, b;
-     TO_CORE_BIT(MPriv),
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16t(void *opaque,
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+     }
-index XXXXXXX..XXXXXXX 100644
+ }
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
+-static void pxa2xx_draw_line18(void *opaque,
-@@ -XXX,XX +XXX,XX @@ static void tlbiall_nsnh_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-     tlb_flush_by_mmuidx(cs,
++static void pxa2xx_draw_line18(void *opaque, uint8_t *dest, const uint8_t *src,
-                         ARMMMUIdxBit_E10_1 |
++                               int width, int deststep)
-                         ARMMMUIdxBit_E10_1_PAN |
+ {
--                        ARMMMUIdxBit_E10_0 |
+     uint32_t data;
--                        ARMMMUIdxBit_Stage2);
+     unsigned int r, g, b;
-+                        ARMMMUIdxBit_E10_0);
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line18(void *opaque,
  }
- static void tlbiall_nsnh_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
+ /* The wicked packed format */
-@@ -XXX,XX +XXX,XX @@ static void tlbiall_nsnh_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-static void pxa2xx_draw_line18p(void *opaque,
-     tlb_flush_by_mmuidx_all_cpus_synced(cs,
+-                uint8_t *dest, const uint8_t *src, int width, int deststep)
-                                         ARMMMUIdxBit_E10_1 |
++static void pxa2xx_draw_line18p(void *opaque, uint8_t *dest, const uint8_t *src,
-                                         ARMMMUIdxBit_E10_1_PAN |
++                                int width, int deststep)
--                                        ARMMMUIdxBit_E10_0 |
+ {
--                                        ARMMMUIdxBit_Stage2);
+     uint32_t data[3];
-+                                        ARMMMUIdxBit_E10_0);
+     unsigned int r, g, b;
- }
+@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line18p(void *opaque,
+     }
--static void tlbiipas2_write(CPUARMState *env, const ARMCPRegInfo *ri,
+ }
--                            uint64_t value)
 -static void pxa2xx_draw_line19(void *opaque,
 -                uint8_t *dest, const uint8_t *src, int width, int deststep)
 +static void pxa2xx_draw_line19(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
  {
      uint32_t data;
      unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19(void *opaque,
  }
  /* The wicked packed format */
 -static void pxa2xx_draw_line19p(void *opaque,
 -                uint8_t *dest, const uint8_t *src, int width, int deststep)
 +static void pxa2xx_draw_line19p(void *opaque, uint8_t *dest, const uint8_t *src,
 +                                int width, int deststep)
  {
      uint32_t data[3];
      unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
      }
  }
 -static void pxa2xx_draw_line24(void *opaque,
 -                uint8_t *dest, const uint8_t *src, int width, int deststep)
 +static void pxa2xx_draw_line24(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
  {
      uint32_t data;
      unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line24(void *opaque,
      }
  }
 -static void pxa2xx_draw_line24t(void *opaque,
 -                uint8_t *dest, const uint8_t *src, int width, int deststep)
 +static void pxa2xx_draw_line24t(void *opaque, uint8_t *dest, const uint8_t *src,
 +                                int width, int deststep)
  {
      uint32_t data;
      unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line24t(void *opaque,
      }
  }
 -static void pxa2xx_draw_line25(void *opaque,
 -                uint8_t *dest, const uint8_t *src, int width, int deststep)
 +static void pxa2xx_draw_line25(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
  {
      uint32_t data;
      unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line25(void *opaque,
  }
  /* Overlay planes disabled, no transparency */
 -static drawfn pxa2xx_draw_fn_32[16] =
 -{
--    /* Invalidate by IPA. This has to invalidate any structures that
++static drawfn pxa2xx_draw_fn_32[16] = {
--     * contain only stage 2 translation information, but does not need
+     [0 ... 0xf]       = NULL,
--     * to apply to structures that contain combined stage 1 and stage 2
+     [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
--     * translation information.
+     [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
--     * This must NOP if EL2 isn't implemented or SCR_EL3.NS is zero.
+@@ -XXX,XX +XXX,XX @@ static drawfn pxa2xx_draw_fn_32[16] =
--     */
+ };
--    CPUState *cs = env_cpu(env);
--    uint64_t pageaddr;
+ /* Overlay planes enabled, transparency used */
--
+-static drawfn pxa2xx_draw_fn_32t[16] =
 -    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
 -        return;
 -    }
 -
 -    pageaddr = sextract64(value << 12, 0, 40);
 -
 -    tlb_flush_page_by_mmuidx(cs, pageaddr, ARMMMUIdxBit_Stage2);
 -}
 -
 -static void tlbiipas2_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                               uint64_t value)
 -{
--    CPUState *cs = env_cpu(env);
++static drawfn pxa2xx_draw_fn_32t[16] = {
--    uint64_t pageaddr;
+     [0 ... 0xf]       = NULL,
--
+     [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
--    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
+     [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 -        return;
 -    }
 -
 -    pageaddr = sextract64(value << 12, 0, 40);
 -
 -    tlb_flush_page_by_mmuidx_all_cpus_synced(cs, pageaddr,
 -                                             ARMMMUIdxBit_Stage2);
 -}
  static void tlbiall_hyp_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                uint64_t value)
@@ -XXX,XX +XXX,XX @@ static void vttbr_write(CPUARMState *env, const ARMCPRegInfo *ri,
          tlb_flush_by_mmuidx(cs,
                              ARMMMUIdxBit_E10_1 |
                              ARMMMUIdxBit_E10_1_PAN |
 -                            ARMMMUIdxBit_E10_0 |
 -                            ARMMMUIdxBit_Stage2);
 +                            ARMMMUIdxBit_E10_0);
          raw_write(env, ri, value);
      }
  }
@@ -XXX,XX +XXX,XX @@ static int alle1_tlbmask(CPUARMState *env)
          return ARMMMUIdxBit_SE10_1 |
                 ARMMMUIdxBit_SE10_1_PAN |
                 ARMMMUIdxBit_SE10_0;
 -    } else if (arm_feature(env, ARM_FEATURE_EL2)) {
 -        return ARMMMUIdxBit_E10_1 |
 -               ARMMMUIdxBit_E10_1_PAN |
 -               ARMMMUIdxBit_E10_0 |
 -               ARMMMUIdxBit_Stage2;
      } else {
          return ARMMMUIdxBit_E10_1 |
                 ARMMMUIdxBit_E10_1_PAN |
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_vae3is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                               ARMMMUIdxBit_SE3);
  }
 -static void tlbi_aa64_ipas2e1_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                                    uint64_t value)
 -{
 -    /* Invalidate by IPA. This has to invalidate any structures that
 -     * contain only stage 2 translation information, but does not need
 -     * to apply to structures that contain combined stage 1 and stage 2
 -     * translation information.
 -     * This must NOP if EL2 isn't implemented or SCR_EL3.NS is zero.
 -     */
 -    ARMCPU *cpu = env_archcpu(env);
 -    CPUState *cs = CPU(cpu);
 -    uint64_t pageaddr;
 -
 -    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
 -        return;
 -    }
 -
 -    pageaddr = sextract64(value << 12, 0, 48);
 -
 -    tlb_flush_page_by_mmuidx(cs, pageaddr, ARMMMUIdxBit_Stage2);
 -}
 -
 -static void tlbi_aa64_ipas2e1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                                      uint64_t value)
 -{
 -    CPUState *cs = env_cpu(env);
 -    uint64_t pageaddr;
 -
 -    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
 -        return;
 -    }
 -
 -    pageaddr = sextract64(value << 12, 0, 48);
 -
 -    tlb_flush_page_by_mmuidx_all_cpus_synced(cs, pageaddr,
 -                                             ARMMMUIdxBit_Stage2);
 -}
 -
  static CPAccessResult aa64_zva_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                        bool isread)
  {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v8_cp_reginfo[] = {
        .writefn = tlbi_aa64_vae1_write },
      { .name = "TLBI_IPAS2E1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 -      .writefn = tlbi_aa64_ipas2e1is_write },
 +      .access = PL2_W, .type = ARM_CP_NOP },
      { .name = "TLBI_IPAS2LE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 -      .writefn = tlbi_aa64_ipas2e1is_write },
 +      .access = PL2_W, .type = ARM_CP_NOP },
      { .name = "TLBI_ALLE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 4,
        .access = PL2_W, .type = ARM_CP_NO_RAW,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v8_cp_reginfo[] = {
        .writefn = tlbi_aa64_alle1is_write },
      { .name = "TLBI_IPAS2E1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 -      .writefn = tlbi_aa64_ipas2e1_write },
 +      .access = PL2_W, .type = ARM_CP_NOP },
      { .name = "TLBI_IPAS2LE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 -      .writefn = tlbi_aa64_ipas2e1_write },
 +      .access = PL2_W, .type = ARM_CP_NOP },
      { .name = "TLBI_ALLE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 4,
        .access = PL2_W, .type = ARM_CP_NO_RAW,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v8_cp_reginfo[] = {
        .writefn = tlbimva_hyp_is_write },
      { .name = "TLBIIPAS2",
        .cp = 15, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 1,
 -      .type = ARM_CP_NO_RAW, .access = PL2_W,
 -      .writefn = tlbiipas2_write },
 +      .type = ARM_CP_NOP, .access = PL2_W },
      { .name = "TLBIIPAS2IS",
        .cp = 15, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 1,
 -      .type = ARM_CP_NO_RAW, .access = PL2_W,
 -      .writefn = tlbiipas2_is_write },
 +      .type = ARM_CP_NOP, .access = PL2_W },
      { .name = "TLBIIPAS2L",
        .cp = 15, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 5,
 -      .type = ARM_CP_NO_RAW, .access = PL2_W,
 -      .writefn = tlbiipas2_write },
 +      .type = ARM_CP_NOP, .access = PL2_W },
      { .name = "TLBIIPAS2LIS",
        .cp = 15, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 5,
 -      .type = ARM_CP_NO_RAW, .access = PL2_W,
 -      .writefn = tlbiipas2_is_write },
 +      .type = ARM_CP_NOP, .access = PL2_W },
      /* 32 bit cache operations */
      { .name = "ICIALLUIS", .cp = 15, .opc1 = 0, .crn = 7, .crm = 1, .opc2 = 0,
        .type = ARM_CP_NOP, .access = PL1_W, .accessfn = aa64_cacheop_pou_access },
 --
 .20.1

-[PULL 23/39] target/arm: Convert VCMLA (vector) to decodetree
+[PULL 39/39] hw/display/pxa2xx: Inline template header
-Convert the VCMLA (vector) insns in the 3same extension group to
+The template header is now included only once; just inline its contents
-decodetree.
+in hw/display/pxa2xx_lcd.c.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Acked-by: Gerd Hoffmann <kraxel@redhat.com>
-Message-id: 20200430181003.21682-5-peter.maydell@linaro.org
+Message-id: 20210211141515.8755-10-peter.maydell@linaro.org
 ---
- target/arm/neon-shared.decode   | 11 ++++++++++
+ hw/display/pxa2xx_template.h | 434 -----------------------------------
- target/arm/translate-neon.inc.c | 37 +++++++++++++++++++++++++++++++++
+ hw/display/pxa2xx_lcd.c      | 427 +++++++++++++++++++++++++++++++++-
- target/arm/translate.c          | 11 +---------
+files changed, 425 insertions(+), 436 deletions(-)
-files changed, 49 insertions(+), 10 deletions(-)
+ delete mode 100644 hw/display/pxa2xx_template.h
-diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
+diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
 deleted file mode 100644
 index XXXXXXX..XXXXXXX
 --- a/hw/display/pxa2xx_template.h
 +++ /dev/null
@@ -XXX,XX +XXX,XX @@
 -/*
 - * Intel XScale PXA255/270 LCDC emulation.
 - *
 - * Copyright (c) 2006 Openedhand Ltd.
 - * Written by Andrzej Zaborowski <balrog@zabor.org>
 - *
 - * This code is licensed under the GPLv2.
 - *
 - * Framebuffer format conversion routines.
 - */
 -
 -# define SKIP_PIXEL(to) do { to += deststep; } while (0)
 -# define COPY_PIXEL(to, from)    \
 -    do {                         \
 -        *(uint32_t *) to = from; \
 -        SKIP_PIXEL(to);          \
 -    } while (0)
 -
 -#ifdef HOST_WORDS_BIGENDIAN
 -# define SWAP_WORDS 1
 -#endif
 -
 -#define FN_2(x) FN(x + 1) FN(x)
 -#define FN_4(x) FN_2(x + 2) FN_2(x)
 -
 -static void pxa2xx_draw_line2(void *opaque, uint8_t *dest, const uint8_t *src,
 -                              int width, int deststep)
 -{
 -    uint32_t *palette = opaque;
 -    uint32_t data;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
 -#ifdef SWAP_WORDS
 -        FN_4(12)
 -        FN_4(8)
 -        FN_4(4)
 -        FN_4(0)
 -#else
 -        FN_4(0)
 -        FN_4(4)
 -        FN_4(8)
 -        FN_4(12)
 -#endif
 -#undef FN
 -        width -= 16;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line4(void *opaque, uint8_t *dest, const uint8_t *src,
 -                              int width, int deststep)
 -{
 -    uint32_t *palette = opaque;
 -    uint32_t data;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
 -#ifdef SWAP_WORDS
 -        FN_2(6)
 -        FN_2(4)
 -        FN_2(2)
 -        FN_2(0)
 -#else
 -        FN_2(0)
 -        FN_2(2)
 -        FN_2(4)
 -        FN_2(6)
 -#endif
 -#undef FN
 -        width -= 8;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line8(void *opaque, uint8_t *dest, const uint8_t *src,
 -                              int width, int deststep)
 -{
 -    uint32_t *palette = opaque;
 -    uint32_t data;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#define FN(x) COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
 -#ifdef SWAP_WORDS
 -        FN(24)
 -        FN(16)
 -        FN(8)
 -        FN(0)
 -#else
 -        FN(0)
 -        FN(8)
 -        FN(16)
 -        FN(24)
 -#endif
 -#undef FN
 -        width -= 4;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line16(void *opaque, uint8_t *dest, const uint8_t *src,
 -                               int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = (data & 0x1f) << 3;
 -        data >>= 5;
 -        g = (data & 0x3f) << 2;
 -        data >>= 6;
 -        r = (data & 0x1f) << 3;
 -        data >>= 5;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        b = (data & 0x1f) << 3;
 -        data >>= 5;
 -        g = (data & 0x3f) << 2;
 -        data >>= 6;
 -        r = (data & 0x1f) << 3;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        width -= 2;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line16t(void *opaque, uint8_t *dest, const uint8_t *src,
 -                                int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = (data & 0x1f) << 3;
 -        data >>= 5;
 -        g = (data & 0x1f) << 3;
 -        data >>= 5;
 -        r = (data & 0x1f) << 3;
 -        data >>= 5;
 -        if (data & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        data >>= 1;
 -        b = (data & 0x1f) << 3;
 -        data >>= 5;
 -        g = (data & 0x1f) << 3;
 -        data >>= 5;
 -        r = (data & 0x1f) << 3;
 -        data >>= 5;
 -        if (data & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        width -= 2;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line18(void *opaque, uint8_t *dest, const uint8_t *src,
 -                               int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = (data & 0x3f) << 2;
 -        data >>= 6;
 -        g = (data & 0x3f) << 2;
 -        data >>= 6;
 -        r = (data & 0x3f) << 2;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        width -= 1;
 -        src += 4;
 -    }
 -}
 -
 -/* The wicked packed format */
 -static void pxa2xx_draw_line18p(void *opaque, uint8_t *dest, const uint8_t *src,
 -                                int width, int deststep)
 -{
 -    uint32_t data[3];
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data[0] = *(uint32_t *) src;
 -        src += 4;
 -        data[1] = *(uint32_t *) src;
 -        src += 4;
 -        data[2] = *(uint32_t *) src;
 -        src += 4;
 -#ifdef SWAP_WORDS
 -        data[0] = bswap32(data[0]);
 -        data[1] = bswap32(data[1]);
 -        data[2] = bswap32(data[2]);
 -#endif
 -        b = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        g = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        r = (data[0] & 0x3f) << 2;
 -        data[0] >>= 12;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        b = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
 -        data[1] >>= 4;
 -        r = (data[1] & 0x3f) << 2;
 -        data[1] >>= 12;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        b = (data[1] & 0x3f) << 2;
 -        data[1] >>= 6;
 -        g = (data[1] & 0x3f) << 2;
 -        data[1] >>= 6;
 -        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
 -        data[2] >>= 8;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        b = (data[2] & 0x3f) << 2;
 -        data[2] >>= 6;
 -        g = (data[2] & 0x3f) << 2;
 -        data[2] >>= 6;
 -        r = data[2] << 2;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        width -= 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line19(void *opaque, uint8_t *dest, const uint8_t *src,
 -                               int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = (data & 0x3f) << 2;
 -        data >>= 6;
 -        g = (data & 0x3f) << 2;
 -        data >>= 6;
 -        r = (data & 0x3f) << 2;
 -        data >>= 6;
 -        if (data & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        width -= 1;
 -        src += 4;
 -    }
 -}
 -
 -/* The wicked packed format */
 -static void pxa2xx_draw_line19p(void *opaque, uint8_t *dest, const uint8_t *src,
 -                                int width, int deststep)
 -{
 -    uint32_t data[3];
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data[0] = *(uint32_t *) src;
 -        src += 4;
 -        data[1] = *(uint32_t *) src;
 -        src += 4;
 -        data[2] = *(uint32_t *) src;
 -        src += 4;
 -# ifdef SWAP_WORDS
 -        data[0] = bswap32(data[0]);
 -        data[1] = bswap32(data[1]);
 -        data[2] = bswap32(data[2]);
 -# endif
 -        b = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        g = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        r = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        if (data[0] & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        data[0] >>= 6;
 -        b = (data[0] & 0x3f) << 2;
 -        data[0] >>= 6;
 -        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
 -        data[1] >>= 4;
 -        r = (data[1] & 0x3f) << 2;
 -        data[1] >>= 6;
 -        if (data[1] & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        data[1] >>= 6;
 -        b = (data[1] & 0x3f) << 2;
 -        data[1] >>= 6;
 -        g = (data[1] & 0x3f) << 2;
 -        data[1] >>= 6;
 -        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
 -        data[2] >>= 2;
 -        if (data[2] & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        data[2] >>= 6;
 -        b = (data[2] & 0x3f) << 2;
 -        data[2] >>= 6;
 -        g = (data[2] & 0x3f) << 2;
 -        data[2] >>= 6;
 -        r = data[2] << 2;
 -        data[2] >>= 6;
 -        if (data[2] & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        width -= 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line24(void *opaque, uint8_t *dest, const uint8_t *src,
 -                               int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = data & 0xff;
 -        data >>= 8;
 -        g = data & 0xff;
 -        data >>= 8;
 -        r = data & 0xff;
 -        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        width -= 1;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line24t(void *opaque, uint8_t *dest, const uint8_t *src,
 -                                int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = (data & 0x7f) << 1;
 -        data >>= 7;
 -        g = data & 0xff;
 -        data >>= 8;
 -        r = data & 0xff;
 -        data >>= 8;
 -        if (data & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        width -= 1;
 -        src += 4;
 -    }
 -}
 -
 -static void pxa2xx_draw_line25(void *opaque, uint8_t *dest, const uint8_t *src,
 -                               int width, int deststep)
 -{
 -    uint32_t data;
 -    unsigned int r, g, b;
 -    while (width > 0) {
 -        data = *(uint32_t *) src;
 -#ifdef SWAP_WORDS
 -        data = bswap32(data);
 -#endif
 -        b = data & 0xff;
 -        data >>= 8;
 -        g = data & 0xff;
 -        data >>= 8;
 -        r = data & 0xff;
 -        data >>= 8;
 -        if (data & 1) {
 -            SKIP_PIXEL(dest);
 -        } else {
 -            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 -        }
 -        width -= 1;
 -        src += 4;
 -    }
 -}
 -
 -/* Overlay planes disabled, no transparency */
 -static drawfn pxa2xx_draw_fn_32[16] = {
 -    [0 ... 0xf]       = NULL,
 -    [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
 -    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
 -    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 -    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16,
 -    [pxa_lcdc_18bpp]  = pxa2xx_draw_line18,
 -    [pxa_lcdc_18pbpp] = pxa2xx_draw_line18p,
 -    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24,
 -};
 -
 -/* Overlay planes enabled, transparency used */
 -static drawfn pxa2xx_draw_fn_32t[16] = {
 -    [0 ... 0xf]       = NULL,
 -    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
 -    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 -    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16t,
 -    [pxa_lcdc_19bpp]  = pxa2xx_draw_line19,
 -    [pxa_lcdc_19pbpp] = pxa2xx_draw_line19p,
 -    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24t,
 -    [pxa_lcdc_25bpp]  = pxa2xx_draw_line25,
 -};
 -
 -#undef COPY_PIXEL
 -#undef SKIP_PIXEL
 -
 -#ifdef SWAP_WORDS
 -# undef SWAP_WORDS
 -#endif
 diff --git a/hw/display/pxa2xx_lcd.c b/hw/display/pxa2xx_lcd.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-shared.decode
+--- a/hw/display/pxa2xx_lcd.c
-+++ b/target/arm/neon-shared.decode
++++ b/hw/display/pxa2xx_lcd.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ typedef struct QEMU_PACKED {
- # More specifically, this covers:
+ /* Size of a pixel in the QEMU UI output surface, in bytes */
- # 2reg scalar ext: 0b1111_1110_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
+ #define DEST_PIXEL_WIDTH 4
- # 3same ext:       0b1111_110x_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
-+
+-#define BITS 32
-+# VFP/Neon register fields; same as vfp.decode
+-#include "pxa2xx_template.h"
-+%vm_dp  5:1 0:4
++/* Line drawing code to handle the various possible guest pixel formats */
-+%vm_sp  0:4 5:1
++
-+%vn_dp  7:1 16:4
++# define SKIP_PIXEL(to) do { to += deststep; } while (0)
-+%vn_sp  16:4 7:1
++# define COPY_PIXEL(to, from)    \
-+%vd_dp  22:1 12:4
++    do {                         \
-+%vd_sp  12:4 22:1
++        *(uint32_t *) to = from; \
-+
++        SKIP_PIXEL(to);          \
-+VCMLA          1111 110 rot:2 . 1 size:1 .... .... 1000 . q:1 . 0 .... \
++    } while (0)
-+               vm=%vm_dp vn=%vn_dp vd=%vd_dp
++
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
++#ifdef HOST_WORDS_BIGENDIAN
-index XXXXXXX..XXXXXXX 100644
++# define SWAP_WORDS 1
---- a/target/arm/translate-neon.inc.c
++#endif
-+++ b/target/arm/translate-neon.inc.c
++
-@@ -XXX,XX +XXX,XX @@
++#define FN_2(x) FN(x + 1) FN(x)
- #include "decode-neon-dp.inc.c"
++#define FN_4(x) FN_2(x + 2) FN_2(x)
- #include "decode-neon-ls.inc.c"
++
- #include "decode-neon-shared.inc.c"
++static void pxa2xx_draw_line2(void *opaque, uint8_t *dest, const uint8_t *src,
-+
++                              int width, int deststep)
-+static bool trans_VCMLA(DisasContext *s, arg_VCMLA *a)
++{
-+{
++    uint32_t *palette = opaque;
-+    int opr_sz;
++    uint32_t data;
-+    TCGv_ptr fpst;
++    while (width > 0) {
-+    gen_helper_gvec_3_ptr *fn_gvec_ptr;
++        data = *(uint32_t *) src;
-+
++#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
-+    if (!dc_isar_feature(aa32_vcma, s)
++#ifdef SWAP_WORDS
-+        || (!a->size && !dc_isar_feature(aa32_fp16_arith, s))) {
++        FN_4(12)
-+        return false;
++        FN_4(8)
-+    }
++        FN_4(4)
-+
++        FN_4(0)
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++#else
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++        FN_4(0)
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
++        FN_4(4)
-+        return false;
++        FN_4(8)
-+    }
++        FN_4(12)
-+
++#endif
-+    if ((a->vn | a->vm | a->vd) & a->q) {
++#undef FN
-+        return false;
++        width -= 16;
-+    }
++        src += 4;
-+
++    }
-+    if (!vfp_access_check(s)) {
++}
-+        return true;
++
-+    }
++static void pxa2xx_draw_line4(void *opaque, uint8_t *dest, const uint8_t *src,
-+
++                              int width, int deststep)
-+    opr_sz = (1 + a->q) * 8;
++{
-+    fpst = get_fpstatus_ptr(1);
++    uint32_t *palette = opaque;
-+    fn_gvec_ptr = a->size ? gen_helper_gvec_fcmlas : gen_helper_gvec_fcmlah;
++    uint32_t data;
-+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
++    while (width > 0) {
-+                       vfp_reg_offset(1, a->vn),
++        data = *(uint32_t *) src;
-+                       vfp_reg_offset(1, a->vm),
++#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
-+                       fpst, opr_sz, opr_sz, a->rot,
++#ifdef SWAP_WORDS
-+                       fn_gvec_ptr);
++        FN_2(6)
-+    tcg_temp_free_ptr(fpst);
++        FN_2(4)
-+    return true;
++        FN_2(2)
-+}
++        FN_2(0)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
++#else
-index XXXXXXX..XXXXXXX 100644
++        FN_2(0)
---- a/target/arm/translate.c
++        FN_2(2)
-+++ b/target/arm/translate.c
++        FN_2(4)
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
++        FN_2(6)
-     bool is_long = false, q = extract32(insn, 6, 1);
++#endif
-     bool ptr_is_env = false;
++#undef FN
++        width -= 8;
--    if ((insn & 0xfe200f10) == 0xfc200800) {
++        src += 4;
--        /* VCMLA -- 1111 110R R.1S .... .... 1000 ...0 .... */
++    }
--        int size = extract32(insn, 20, 1);
++}
--        data = extract32(insn, 23, 2); /* rot */
++
--        if (!dc_isar_feature(aa32_vcma, s)
++static void pxa2xx_draw_line8(void *opaque, uint8_t *dest, const uint8_t *src,
--            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
++                              int width, int deststep)
--            return 1;
++{
--        }
++    uint32_t *palette = opaque;
--        fn_gvec_ptr = size ? gen_helper_gvec_fcmlas : gen_helper_gvec_fcmlah;
++    uint32_t data;
--    } else if ((insn & 0xfea00f10) == 0xfc800800) {
++    while (width > 0) {
-+    if ((insn & 0xfea00f10) == 0xfc800800) {
++        data = *(uint32_t *) src;
-         /* VCADD -- 1111 110R 1.0S .... .... 1000 ...0 .... */
++#define FN(x) COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
-         int size = extract32(insn, 20, 1);
++#ifdef SWAP_WORDS
-         data = extract32(insn, 24, 1); /* rot */
++        FN(24)
 +        FN(16)
 +        FN(8)
 +        FN(0)
 +#else
 +        FN(0)
 +        FN(8)
 +        FN(16)
 +        FN(24)
 +#endif
 +#undef FN
 +        width -= 4;
 +        src += 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line16(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = (data & 0x1f) << 3;
 +        data >>= 5;
 +        g = (data & 0x3f) << 2;
 +        data >>= 6;
 +        r = (data & 0x1f) << 3;
 +        data >>= 5;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        b = (data & 0x1f) << 3;
 +        data >>= 5;
 +        g = (data & 0x3f) << 2;
 +        data >>= 6;
 +        r = (data & 0x1f) << 3;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        width -= 2;
 +        src += 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line16t(void *opaque, uint8_t *dest, const uint8_t *src,
 +                                int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = (data & 0x1f) << 3;
 +        data >>= 5;
 +        g = (data & 0x1f) << 3;
 +        data >>= 5;
 +        r = (data & 0x1f) << 3;
 +        data >>= 5;
 +        if (data & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        data >>= 1;
 +        b = (data & 0x1f) << 3;
 +        data >>= 5;
 +        g = (data & 0x1f) << 3;
 +        data >>= 5;
 +        r = (data & 0x1f) << 3;
 +        data >>= 5;
 +        if (data & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        width -= 2;
 +        src += 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line18(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = (data & 0x3f) << 2;
 +        data >>= 6;
 +        g = (data & 0x3f) << 2;
 +        data >>= 6;
 +        r = (data & 0x3f) << 2;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        width -= 1;
 +        src += 4;
 +    }
 +}
 +
 +/* The wicked packed format */
 +static void pxa2xx_draw_line18p(void *opaque, uint8_t *dest, const uint8_t *src,
 +                                int width, int deststep)
 +{
 +    uint32_t data[3];
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data[0] = *(uint32_t *) src;
 +        src += 4;
 +        data[1] = *(uint32_t *) src;
 +        src += 4;
 +        data[2] = *(uint32_t *) src;
 +        src += 4;
 +#ifdef SWAP_WORDS
 +        data[0] = bswap32(data[0]);
 +        data[1] = bswap32(data[1]);
 +        data[2] = bswap32(data[2]);
 +#endif
 +        b = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        g = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        r = (data[0] & 0x3f) << 2;
 +        data[0] >>= 12;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        b = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
 +        data[1] >>= 4;
 +        r = (data[1] & 0x3f) << 2;
 +        data[1] >>= 12;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        b = (data[1] & 0x3f) << 2;
 +        data[1] >>= 6;
 +        g = (data[1] & 0x3f) << 2;
 +        data[1] >>= 6;
 +        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
 +        data[2] >>= 8;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        b = (data[2] & 0x3f) << 2;
 +        data[2] >>= 6;
 +        g = (data[2] & 0x3f) << 2;
 +        data[2] >>= 6;
 +        r = data[2] << 2;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        width -= 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line19(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = (data & 0x3f) << 2;
 +        data >>= 6;
 +        g = (data & 0x3f) << 2;
 +        data >>= 6;
 +        r = (data & 0x3f) << 2;
 +        data >>= 6;
 +        if (data & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        width -= 1;
 +        src += 4;
 +    }
 +}
 +
 +/* The wicked packed format */
 +static void pxa2xx_draw_line19p(void *opaque, uint8_t *dest, const uint8_t *src,
 +                                int width, int deststep)
 +{
 +    uint32_t data[3];
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data[0] = *(uint32_t *) src;
 +        src += 4;
 +        data[1] = *(uint32_t *) src;
 +        src += 4;
 +        data[2] = *(uint32_t *) src;
 +        src += 4;
 +# ifdef SWAP_WORDS
 +        data[0] = bswap32(data[0]);
 +        data[1] = bswap32(data[1]);
 +        data[2] = bswap32(data[2]);
 +# endif
 +        b = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        g = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        r = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        if (data[0] & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        data[0] >>= 6;
 +        b = (data[0] & 0x3f) << 2;
 +        data[0] >>= 6;
 +        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
 +        data[1] >>= 4;
 +        r = (data[1] & 0x3f) << 2;
 +        data[1] >>= 6;
 +        if (data[1] & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        data[1] >>= 6;
 +        b = (data[1] & 0x3f) << 2;
 +        data[1] >>= 6;
 +        g = (data[1] & 0x3f) << 2;
 +        data[1] >>= 6;
 +        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
 +        data[2] >>= 2;
 +        if (data[2] & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        data[2] >>= 6;
 +        b = (data[2] & 0x3f) << 2;
 +        data[2] >>= 6;
 +        g = (data[2] & 0x3f) << 2;
 +        data[2] >>= 6;
 +        r = data[2] << 2;
 +        data[2] >>= 6;
 +        if (data[2] & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        width -= 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line24(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = data & 0xff;
 +        data >>= 8;
 +        g = data & 0xff;
 +        data >>= 8;
 +        r = data & 0xff;
 +        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        width -= 1;
 +        src += 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line24t(void *opaque, uint8_t *dest, const uint8_t *src,
 +                                int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = (data & 0x7f) << 1;
 +        data >>= 7;
 +        g = data & 0xff;
 +        data >>= 8;
 +        r = data & 0xff;
 +        data >>= 8;
 +        if (data & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        width -= 1;
 +        src += 4;
 +    }
 +}
 +
 +static void pxa2xx_draw_line25(void *opaque, uint8_t *dest, const uint8_t *src,
 +                               int width, int deststep)
 +{
 +    uint32_t data;
 +    unsigned int r, g, b;
 +    while (width > 0) {
 +        data = *(uint32_t *) src;
 +#ifdef SWAP_WORDS
 +        data = bswap32(data);
 +#endif
 +        b = data & 0xff;
 +        data >>= 8;
 +        g = data & 0xff;
 +        data >>= 8;
 +        r = data & 0xff;
 +        data >>= 8;
 +        if (data & 1) {
 +            SKIP_PIXEL(dest);
 +        } else {
 +            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
 +        }
 +        width -= 1;
 +        src += 4;
 +    }
 +}
 +
 +/* Overlay planes disabled, no transparency */
 +static drawfn pxa2xx_draw_fn_32[16] = {
 +    [0 ... 0xf]       = NULL,
 +    [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
 +    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
 +    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 +    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16,
 +    [pxa_lcdc_18bpp]  = pxa2xx_draw_line18,
 +    [pxa_lcdc_18pbpp] = pxa2xx_draw_line18p,
 +    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24,
 +};
 +
 +/* Overlay planes enabled, transparency used */
 +static drawfn pxa2xx_draw_fn_32t[16] = {
 +    [0 ... 0xf]       = NULL,
 +    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
 +    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
 +    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16t,
 +    [pxa_lcdc_19bpp]  = pxa2xx_draw_line19,
 +    [pxa_lcdc_19pbpp] = pxa2xx_draw_line19p,
 +    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24t,
 +    [pxa_lcdc_25bpp]  = pxa2xx_draw_line25,
 +};
 +
 +#undef COPY_PIXEL
 +#undef SKIP_PIXEL
 +
 +#ifdef SWAP_WORDS
 +# undef SWAP_WORDS
 +#endif
  /* Route internal interrupt lines to the global IC */
  static void pxa2xx_lcdc_int_update(PXA2xxLCDState *s)
 --
 .20.1

Most of this is the Neon decodetree patches, followed by Edgar's versal cleanups.

thanks
-- PMM

The following changes since commit 2ef486e76d64436be90f7359a3071fb2a56ce835:

Merge remote-tracking branch 'remotes/marcel/tags/rdma-pull-request' into staging (2020-05-03 14:12:56 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200504

for you to fetch changes up to 9aefc6cf9b73f66062d2f914a0136756e7a28211:

target/arm: Move gen_ function typedefs to translate.h (2020-05-04 12:59:26 +0100)

----------------------------------------------------------------
target-arm queue:
 * Start of conversion of Neon insns to decodetree
 * versal board: support SD and RTC
 * Implement ARMv8.2-TTS2UXN
 * Make VQDMULL undefined when U=1
 * Some minor code cleanups

----------------------------------------------------------------
Edgar E. Iglesias (11):
      hw/arm: versal: Remove inclusion of arm_gicv3_common.h
      hw/arm: versal: Move misplaced comment
      hw/arm: versal-virt: Fix typo xlnx-ve -> xlnx-versal
      hw/arm: versal: Embed the UARTs into the SoC type
      hw/arm: versal: Embed the GEMs into the SoC type
      hw/arm: versal: Embed the ADMAs into the SoC type
      hw/arm: versal: Embed the APUs into the SoC type
      hw/arm: versal: Add support for SD
      hw/arm: versal: Add support for the RTC
      hw/arm: versal-virt: Add support for SD
      hw/arm: versal-virt: Add support for the RTC

Fredrik Strupe (1):
      target/arm: Make VQDMULL undefined when U=1

Peter Maydell (25):
      target/arm: Don't use a TLB for ARMMMUIdx_Stage2
      target/arm: Use enum constant in get_phys_addr_lpae() call
      target/arm: Add new 's1_is_el0' argument to get_phys_addr_lpae()
      target/arm: Implement ARMv8.2-TTS2UXN
      target/arm: Use correct variable for setting 'max' cpu's ID_AA64DFR0
      target/arm/translate-vfp.inc.c: Remove duplicate simd_r32 check
      target/arm: Don't allow Thumb Neon insns without FEATURE_NEON
      target/arm: Add stubs for AArch32 Neon decodetree
      target/arm: Convert VCMLA (vector) to decodetree
      target/arm: Convert VCADD (vector) to decodetree
      target/arm: Convert V[US]DOT (vector) to decodetree
      target/arm: Convert VFM[AS]L (vector) to decodetree
      target/arm: Convert VCMLA (scalar) to decodetree
      target/arm: Convert V[US]DOT (scalar) to decodetree
      target/arm: Convert VFM[AS]L (scalar) to decodetree
      target/arm: Convert Neon load/store multiple structures to decodetree
      target/arm: Convert Neon 'load single structure to all lanes' to decodetree
      target/arm: Convert Neon 'load/store single structure' to decodetree
      target/arm: Convert Neon 3-reg-same VADD/VSUB to decodetree
      target/arm: Convert Neon 3-reg-same logic ops to decodetree
      target/arm: Convert Neon 3-reg-same VMAX/VMIN to decodetree
      target/arm: Convert Neon 3-reg-same comparisons to decodetree
      target/arm: Convert Neon 3-reg-same VQADD/VQSUB to decodetree
      target/arm: Convert Neon 3-reg-same VMUL, VMLA, VMLS, VSHL to decodetree
      target/arm: Move gen_ function typedefs to translate.h

Philippe Mathieu-Daudé (2):
      hw/arm/mps2-tz: Use TYPE_IOTKIT instead of hardcoded string
      target/arm: Use uint64_t for midr field in CPU state struct

include/hw/arm/xlnx-versal.h    |  31 +-
 target/arm/cpu-param.h          |   2 +-
 target/arm/cpu.h                |  38 ++-
 target/arm/translate-a64.h      |   9 -
 target/arm/translate.h          |  26 ++
 target/arm/neon-dp.decode       |  86 +++++
 target/arm/neon-ls.decode       |  52 +++
 target/arm/neon-shared.decode   |  66 ++++
 hw/arm/mps2-tz.c                |   2 +-
 hw/arm/xlnx-versal-virt.c       |  74 ++++-
 hw/arm/xlnx-versal.c            | 115 +++++--
 target/arm/cpu.c                |   3 +-
 target/arm/cpu64.c              |   8 +-
 target/arm/helper.c             | 183 ++++------
 target/arm/translate-a64.c      |  17 -
 target/arm/translate-neon.inc.c | 714 +++++++++++++++++++++++++++++++++++++++
 target/arm/translate-vfp.inc.c  |   6 -
 target/arm/translate.c          | 716 +++-------------------------------------
 target/arm/Makefile.objs        |  18 +
 19 files changed, 1302 insertions(+), 864 deletions(-)
 create mode 100644 target/arm/neon-dp.decode
 create mode 100644 target/arm/neon-ls.decode
 create mode 100644 target/arm/neon-shared.decode
 create mode 100644 target/arm/translate-neon.inc.c

From: Fredrik Strupe <fredrik@strupe.net>

According to Arm ARM, VQDMULL is only valid when U=0, while having
U=1 is unallocated.

Signed-off-by: Fredrik Strupe <fredrik@strupe.net>
Fixes: 695272dcb976 ("target-arm: Handle UNDEF cases for Neon 3-regs-different-widths")
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     {0, 0, 0, 0}, /* VMLSL */
                     {0, 0, 0, 9}, /* VQDMLSL */
                     {0, 0, 0, 0}, /* Integer VMULL */
-                    {0, 0, 0, 1}, /* VQDMULL */
+                    {0, 0, 0, 9}, /* VQDMULL */
                     {0, 0, 0, 0xa}, /* Polynomial VMULL */
                     {0, 0, 0, 7}, /* Reserved: always UNDEF */
                 };
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

By using the TYPE_* definitions for devices, we can:
 - quickly find where devices are used with 'git-grep'
 - easily rename a device (one-line change).

Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200428154650.21991-1-f4bug@amsat.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/mps2-tz.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/mps2-tz.c b/hw/arm/mps2-tz.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/mps2-tz.c
+++ b/hw/arm/mps2-tz.c
@@ -XXX,XX +XXX,XX @@ static void mps2tz_common_init(MachineState *machine)
         exit(EXIT_FAILURE);
     }
 
-    sysbus_init_child_obj(OBJECT(machine), "iotkit", &mms->iotkit,
+    sysbus_init_child_obj(OBJECT(machine), TYPE_IOTKIT, &mms->iotkit,
                           sizeof(mms->iotkit), mmc->armsse_type);
     iotkitdev = DEVICE(&mms->iotkit);
     object_property_set_link(OBJECT(&mms->iotkit), OBJECT(system_memory),
-- 
2.20.1

We define ARMMMUIdx_Stage2 as being an MMU index which uses a QEMU
TLB.  However we never actually use the TLB -- all stage 2 lookups
are done by direct calls to get_phys_addr_lpae() followed by a
physical address load via address_space_ld*().

Remove Stage2 from the list of ARM MMU indexes which correspond to
real core MMU indexes, and instead put it in the set of "NOTLB" ARM
MMU indexes.

This allows us to drop NB_MMU_MODES to 11.  It also means we can
safely add support for the ARMv8.3-TTS2UXN extension, which adds
permission bits to the stage 2 descriptors which define execute
permission separatel for EL0 and EL1; supporting that while keeping
Stage2 in a QEMU TLB would require us to use separate TLBs for
"Stage2 for an EL0 access" and "Stage2 for an EL1 access", which is a
lot of extra complication given we aren't even using the QEMU TLB.

In the process of updating the comment on our MMU index use,
fix a couple of other minor errors:
 * NS EL2 EL2&0 was missing from the list in the comment
 * some text hadn't been updated from when we bumped NB_MMU_MODES
   above 8

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200330210400.11724-2-peter.maydell@linaro.org
---
 target/arm/cpu-param.h |   2 +-
 target/arm/cpu.h       |  21 +++++---
 target/arm/helper.c    | 112 ++++-------------------------------------
 3 files changed, 27 insertions(+), 108 deletions(-)

diff --git a/target/arm/cpu-param.h b/target/arm/cpu-param.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu-param.h
+++ b/target/arm/cpu-param.h
@@ -XXX,XX +XXX,XX @@
 # define TARGET_PAGE_BITS_MIN  10
 #endif
 
-#define NB_MMU_MODES 12
+#define NB_MMU_MODES 11
 
 #endif
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ bool write_cpustate_to_list(ARMCPU *cpu, bool kvm_sync);
  *     handling via the TLB. The only way to do a stage 1 translation without
  *     the immediate stage 2 translation is via the ATS or AT system insns,
  *     which can be slow-pathed and always do a page table walk.
+ *     The only use of stage 2 translations is either as part of an s1+2
+ *     lookup or when loading the descriptors during a stage 1 page table walk,
+ *     and in both those cases we don't use the TLB.
  *  4. we can also safely fold together the "32 bit EL3" and "64 bit EL3"
  *     translation regimes, because they map reasonably well to each other
  *     and they can't both be active at the same time.
@@ -XXX,XX +XXX,XX @@ bool write_cpustate_to_list(ARMCPU *cpu, bool kvm_sync);
  * NS EL1 EL1&0 stage 1+2 (aka NS PL1)
  * NS EL1 EL1&0 stage 1+2 +PAN
  * NS EL0 EL2&0
+ * NS EL2 EL2&0
  * NS EL2 EL2&0 +PAN
  * NS EL2 (aka NS PL2)
  * S EL0 EL1&0 (aka S PL0)
  * S EL1 EL1&0 (not used if EL3 is 32 bit)
  * S EL1 EL1&0 +PAN
  * S EL3 (aka S PL1)
- * NS EL1&0 stage 2
  *
- * for a total of 12 different mmu_idx.
+ * for a total of 11 different mmu_idx.
  *
  * R profile CPUs have an MPU, but can use the same set of MMU indexes
  * as A profile. They only need to distinguish NS EL0 and NS EL1 (and
@@ -XXX,XX +XXX,XX @@ bool write_cpustate_to_list(ARMCPU *cpu, bool kvm_sync);
  * are not quite the same -- different CPU types (most notably M profile
  * vs A/R profile) would like to use MMU indexes with different semantics,
  * but since we don't ever need to use all of those in a single CPU we
- * can avoid setting NB_MMU_MODES to more than 8. The lower bits of
+ * can avoid having to set NB_MMU_MODES to "total number of A profile MMU
+ * modes + total number of M profile MMU modes". The lower bits of
  * ARMMMUIdx are the core TLB mmu index, and the higher bits are always
  * the same for any particular CPU.
  * Variables of type ARMMUIdx are always full values, and the core
@@ -XXX,XX +XXX,XX @@ typedef enum ARMMMUIdx {
     ARMMMUIdx_SE10_1_PAN = 9 | ARM_MMU_IDX_A,
     ARMMMUIdx_SE3        = 10 | ARM_MMU_IDX_A,
 
-    ARMMMUIdx_Stage2     = 11 | ARM_MMU_IDX_A,
-
     /*
      * These are not allocated TLBs and are used only for AT system
      * instructions or for the first stage of an S12 page table walk.
@@ -XXX,XX +XXX,XX @@ typedef enum ARMMMUIdx {
     ARMMMUIdx_Stage1_E0 = 0 | ARM_MMU_IDX_NOTLB,
     ARMMMUIdx_Stage1_E1 = 1 | ARM_MMU_IDX_NOTLB,
     ARMMMUIdx_Stage1_E1_PAN = 2 | ARM_MMU_IDX_NOTLB,
+    /*
+     * Not allocated a TLB: used only for second stage of an S12 page
+     * table walk, or for descriptor loads during first stage of an S1
+     * page table walk. Note that if we ever want to have a TLB for this
+     * then various TLB flush insns which currently are no-ops or flush
+     * only stage 1 MMU indexes will need to change to flush stage 2.
+     */
+    ARMMMUIdx_Stage2     = 3 | ARM_MMU_IDX_NOTLB,
 
     /*
      * M-profile.
@@ -XXX,XX +XXX,XX @@ typedef enum ARMMMUIdxBit {
     TO_CORE_BIT(SE10_1),
     TO_CORE_BIT(SE10_1_PAN),
     TO_CORE_BIT(SE3),
-    TO_CORE_BIT(Stage2),
 
     TO_CORE_BIT(MUser),
     TO_CORE_BIT(MPriv),
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void tlbiall_nsnh_write(CPUARMState *env, const ARMCPRegInfo *ri,
     tlb_flush_by_mmuidx(cs,
                         ARMMMUIdxBit_E10_1 |
                         ARMMMUIdxBit_E10_1_PAN |
-                        ARMMMUIdxBit_E10_0 |
-                        ARMMMUIdxBit_Stage2);
+                        ARMMMUIdxBit_E10_0);
 }
 
 static void tlbiall_nsnh_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
@@ -XXX,XX +XXX,XX @@ static void tlbiall_nsnh_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
     tlb_flush_by_mmuidx_all_cpus_synced(cs,
                                         ARMMMUIdxBit_E10_1 |
                                         ARMMMUIdxBit_E10_1_PAN |
-                                        ARMMMUIdxBit_E10_0 |
-                                        ARMMMUIdxBit_Stage2);
+                                        ARMMMUIdxBit_E10_0);
 }
 
-static void tlbiipas2_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                            uint64_t value)
-{
-    /* Invalidate by IPA. This has to invalidate any structures that
-     * contain only stage 2 translation information, but does not need
-     * to apply to structures that contain combined stage 1 and stage 2
-     * translation information.
-     * This must NOP if EL2 isn't implemented or SCR_EL3.NS is zero.
-     */
-    CPUState *cs = env_cpu(env);
-    uint64_t pageaddr;
-
-    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
-        return;
-    }
-
-    pageaddr = sextract64(value << 12, 0, 40);
-
-    tlb_flush_page_by_mmuidx(cs, pageaddr, ARMMMUIdxBit_Stage2);
-}
-
-static void tlbiipas2_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                               uint64_t value)
-{
-    CPUState *cs = env_cpu(env);
-    uint64_t pageaddr;
-
-    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
-        return;
-    }
-
-    pageaddr = sextract64(value << 12, 0, 40);
-
-    tlb_flush_page_by_mmuidx_all_cpus_synced(cs, pageaddr,
-                                             ARMMMUIdxBit_Stage2);
-}
 
 static void tlbiall_hyp_write(CPUARMState *env, const ARMCPRegInfo *ri,
                               uint64_t value)
@@ -XXX,XX +XXX,XX @@ static void vttbr_write(CPUARMState *env, const ARMCPRegInfo *ri,
         tlb_flush_by_mmuidx(cs,
                             ARMMMUIdxBit_E10_1 |
                             ARMMMUIdxBit_E10_1_PAN |
-                            ARMMMUIdxBit_E10_0 |
-                            ARMMMUIdxBit_Stage2);
+                            ARMMMUIdxBit_E10_0);
         raw_write(env, ri, value);
     }
 }
@@ -XXX,XX +XXX,XX @@ static int alle1_tlbmask(CPUARMState *env)
         return ARMMMUIdxBit_SE10_1 |
                ARMMMUIdxBit_SE10_1_PAN |
                ARMMMUIdxBit_SE10_0;
-    } else if (arm_feature(env, ARM_FEATURE_EL2)) {
-        return ARMMMUIdxBit_E10_1 |
-               ARMMMUIdxBit_E10_1_PAN |
-               ARMMMUIdxBit_E10_0 |
-               ARMMMUIdxBit_Stage2;
     } else {
         return ARMMMUIdxBit_E10_1 |
                ARMMMUIdxBit_E10_1_PAN |
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_vae3is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                              ARMMMUIdxBit_SE3);
 }
 
-static void tlbi_aa64_ipas2e1_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                                    uint64_t value)
-{
-    /* Invalidate by IPA. This has to invalidate any structures that
-     * contain only stage 2 translation information, but does not need
-     * to apply to structures that contain combined stage 1 and stage 2
-     * translation information.
-     * This must NOP if EL2 isn't implemented or SCR_EL3.NS is zero.
-     */
-    ARMCPU *cpu = env_archcpu(env);
-    CPUState *cs = CPU(cpu);
-    uint64_t pageaddr;
-
-    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
-        return;
-    }
-
-    pageaddr = sextract64(value << 12, 0, 48);
-
-    tlb_flush_page_by_mmuidx(cs, pageaddr, ARMMMUIdxBit_Stage2);
-}
-
-static void tlbi_aa64_ipas2e1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                                      uint64_t value)
-{
-    CPUState *cs = env_cpu(env);
-    uint64_t pageaddr;
-
-    if (!arm_feature(env, ARM_FEATURE_EL2) || !(env->cp15.scr_el3 & SCR_NS)) {
-        return;
-    }
-
-    pageaddr = sextract64(value << 12, 0, 48);
-
-    tlb_flush_page_by_mmuidx_all_cpus_synced(cs, pageaddr,
-                                             ARMMMUIdxBit_Stage2);
-}
-
 static CPAccessResult aa64_zva_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                       bool isread)
 {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v8_cp_reginfo[] = {
       .writefn = tlbi_aa64_vae1_write },
     { .name = "TLBI_IPAS2E1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
-      .writefn = tlbi_aa64_ipas2e1is_write },
+      .access = PL2_W, .type = ARM_CP_NOP },
     { .name = "TLBI_IPAS2LE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
-      .writefn = tlbi_aa64_ipas2e1is_write },
+      .access = PL2_W, .type = ARM_CP_NOP },
     { .name = "TLBI_ALLE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 4,
       .access = PL2_W, .type = ARM_CP_NO_RAW,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v8_cp_reginfo[] = {
       .writefn = tlbi_aa64_alle1is_write },
     { .name = "TLBI_IPAS2E1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
-      .writefn = tlbi_aa64_ipas2e1_write },
+      .access = PL2_W, .type = ARM_CP_NOP },
     { .name = "TLBI_IPAS2LE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
-      .writefn = tlbi_aa64_ipas2e1_write },
+      .access = PL2_W, .type = ARM_CP_NOP },
     { .name = "TLBI_ALLE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 4,
       .access = PL2_W, .type = ARM_CP_NO_RAW,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v8_cp_reginfo[] = {
       .writefn = tlbimva_hyp_is_write },
     { .name = "TLBIIPAS2",
       .cp = 15, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 1,
-      .type = ARM_CP_NO_RAW, .access = PL2_W,
-      .writefn = tlbiipas2_write },
+      .type = ARM_CP_NOP, .access = PL2_W },
     { .name = "TLBIIPAS2IS",
       .cp = 15, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 1,
-      .type = ARM_CP_NO_RAW, .access = PL2_W,
-      .writefn = tlbiipas2_is_write },
+      .type = ARM_CP_NOP, .access = PL2_W },
     { .name = "TLBIIPAS2L",
       .cp = 15, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 5,
-      .type = ARM_CP_NO_RAW, .access = PL2_W,
-      .writefn = tlbiipas2_write },
+      .type = ARM_CP_NOP, .access = PL2_W },
     { .name = "TLBIIPAS2LIS",
       .cp = 15, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 5,
-      .type = ARM_CP_NO_RAW, .access = PL2_W,
-      .writefn = tlbiipas2_is_write },
+      .type = ARM_CP_NOP, .access = PL2_W },
     /* 32 bit cache operations */
     { .name = "ICIALLUIS", .cp = 15, .opc1 = 0, .crn = 7, .crm = 1, .opc2 = 0,
       .type = ARM_CP_NOP, .access = PL1_W, .accessfn = aa64_cacheop_pou_access },
-- 
2.20.1

The access_type argument to get_phys_addr_lpae() is an MMUAccessType;
use the enum constant MMU_DATA_LOAD rather than a literal 0 when we
call it in S1_ptw_translate().

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200330210400.11724-3-peter.maydell@linaro.org
---
 target/arm/helper.c | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
             pcacheattrs = &cacheattrs;
         }
 
-        ret = get_phys_addr_lpae(env, addr, 0, ARMMMUIdx_Stage2, &s2pa,
-                                 &txattrs, &s2prot, &s2size, fi, pcacheattrs);
+        ret = get_phys_addr_lpae(env, addr, MMU_DATA_LOAD, ARMMMUIdx_Stage2,
+                                 &s2pa, &txattrs, &s2prot, &s2size, fi,
+                                 pcacheattrs);
         if (ret) {
             assert(fi->type != ARMFault_None);
             fi->s2addr = addr;
-- 
2.20.1

For ARMv8.2-TTS2UXN, the stage 2 page table walk wants to know
whether the stage 1 access is for EL0 or not, because whether
exec permission is given can depend on whether this is an EL0
or EL1 access. Add a new argument to get_phys_addr_lpae() so
the call sites can pass this information in.

Since get_phys_addr_lpae() doesn't already have a doc comment,
add one so we have a place to put the documentation of the
semantics of the new s1_is_el0 argument.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200330210400.11724-4-peter.maydell@linaro.org
---
 target/arm/helper.c | 29 ++++++++++++++++++++++++++++-
 1 file changed, 28 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@
 
 static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
                                MMUAccessType access_type, ARMMMUIdx mmu_idx,
+                               bool s1_is_el0,
                                hwaddr *phys_ptr, MemTxAttrs *txattrs, int *prot,
                                target_ulong *page_size_ptr,
                                ARMMMUFaultInfo *fi, ARMCacheAttrs *cacheattrs);
@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
         }
 
         ret = get_phys_addr_lpae(env, addr, MMU_DATA_LOAD, ARMMMUIdx_Stage2,
+                                 false,
                                  &s2pa, &txattrs, &s2prot, &s2size, fi,
                                  pcacheattrs);
         if (ret) {
@@ -XXX,XX +XXX,XX @@ static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
     };
 }
 
+/**
+ * get_phys_addr_lpae: perform one stage of page table walk, LPAE format
+ *
+ * Returns false if the translation was successful. Otherwise, phys_ptr, attrs,
+ * prot and page_size may not be filled in, and the populated fsr value provides
+ * information on why the translation aborted, in the format of a long-format
+ * DFSR/IFSR fault register, with the following caveats:
+ *  * the WnR bit is never set (the caller must do this).
+ *
+ * @env: CPUARMState
+ * @address: virtual address to get physical address for
+ * @access_type: MMU_DATA_LOAD, MMU_DATA_STORE or MMU_INST_FETCH
+ * @mmu_idx: MMU index indicating required translation regime
+ * @s1_is_el0: if @mmu_idx is ARMMMUIdx_Stage2 (so this is a stage 2 page table
+ *             walk), must be true if this is stage 2 of a stage 1+2 walk for an
+ *             EL0 access). If @mmu_idx is anything else, @s1_is_el0 is ignored.
+ * @phys_ptr: set to the physical address corresponding to the virtual address
+ * @attrs: set to the memory transaction attributes to use
+ * @prot: set to the permissions for the page containing phys_ptr
+ * @page_size_ptr: set to the size of the page containing phys_ptr
+ * @fi: set to fault info if the translation fails
+ * @cacheattrs: (if non-NULL) set to the cacheability/shareability attributes
+ */
 static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
                                MMUAccessType access_type, ARMMMUIdx mmu_idx,
+                               bool s1_is_el0,
                                hwaddr *phys_ptr, MemTxAttrs *txattrs, int *prot,
                                target_ulong *page_size_ptr,
                                ARMMMUFaultInfo *fi, ARMCacheAttrs *cacheattrs)
@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
 
             /* S1 is done. Now do S2 translation.  */
             ret = get_phys_addr_lpae(env, ipa, access_type, ARMMMUIdx_Stage2,
+                                     mmu_idx == ARMMMUIdx_E10_0,
                                      phys_ptr, attrs, &s2_prot,
                                      page_size, fi,
                                      cacheattrs != NULL ? &cacheattrs2 : NULL);
@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
     }
 
     if (regime_using_lpae_format(env, mmu_idx)) {
-        return get_phys_addr_lpae(env, address, access_type, mmu_idx,
+        return get_phys_addr_lpae(env, address, access_type, mmu_idx, false,
                                   phys_ptr, attrs, prot, page_size,
                                   fi, cacheattrs);
     } else if (regime_sctlr(env, mmu_idx) & SCTLR_XP) {
-- 
2.20.1

The ARMv8.2-TTS2UXN feature extends the XN field in stage 2
translation table descriptors from just bit [54] to bits [54:53],
allowing stage 2 to control execution permissions separately for EL0
and EL1. Implement the new semantics of the XN field and enable
the feature for our 'max' CPU.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200330210400.11724-5-peter.maydell@linaro.org
---
 target/arm/cpu.h    | 15 +++++++++++++++
 target/arm/cpu.c    |  1 +
 target/arm/cpu64.c  |  2 ++
 target/arm/helper.c | 37 +++++++++++++++++++++++++++++++------
 4 files changed, 49 insertions(+), 6 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_ccidx(const ARMISARegisters *id)
     return FIELD_EX32(id->id_mmfr4, ID_MMFR4, CCIDX) != 0;
 }
 
+static inline bool isar_feature_aa32_tts2uxn(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_mmfr4, ID_MMFR4, XNX) != 0;
+}
+
 /*
  * 64-bit feature tests via id registers.
  */
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_ccidx(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, CCIDX) != 0;
 }
 
+static inline bool isar_feature_aa64_tts2uxn(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64mmfr1, ID_AA64MMFR1, XNX) != 0;
+}
+
 /*
  * Feature tests for "does this exist in either 32-bit or 64-bit?"
  */
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_any_ccidx(const ARMISARegisters *id)
     return isar_feature_aa64_ccidx(id) || isar_feature_aa32_ccidx(id);
 }
 
+static inline bool isar_feature_any_tts2uxn(const ARMISARegisters *id)
+{
+    return isar_feature_aa64_tts2uxn(id) || isar_feature_aa32_tts2uxn(id);
+}
+
 /*
  * Forward to the above feature tests given an ARMCPU pointer.
  */
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
             t = FIELD_DP32(t, ID_MMFR4, HPDS, 1); /* AA32HPD */
             t = FIELD_DP32(t, ID_MMFR4, AC2, 1); /* ACTLR2, HACTLR2 */
             t = FIELD_DP32(t, ID_MMFR4, CNP, 1); /* TTCNP */
+            t = FIELD_DP32(t, ID_MMFR4, XNX, 1); /* TTS2UXN */
             cpu->isar.id_mmfr4 = t;
         }
 #endif
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
         t = FIELD_DP64(t, ID_AA64MMFR1, VH, 1);
         t = FIELD_DP64(t, ID_AA64MMFR1, PAN, 2); /* ATS1E1 */
         t = FIELD_DP64(t, ID_AA64MMFR1, VMIDBITS, 2); /* VMID16 */
+        t = FIELD_DP64(t, ID_AA64MMFR1, XNX, 1); /* TTS2UXN */
         cpu->isar.id_aa64mmfr1 = t;
 
         t = cpu->isar.id_aa64mmfr2;
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
         u = FIELD_DP32(u, ID_MMFR4, HPDS, 1); /* AA32HPD */
         u = FIELD_DP32(u, ID_MMFR4, AC2, 1); /* ACTLR2, HACTLR2 */
         u = FIELD_DP32(u, ID_MMFR4, CNP, 1); /* TTCNP */
+        u = FIELD_DP32(u, ID_MMFR4, XNX, 1); /* TTS2UXN */
         cpu->isar.id_mmfr4 = u;
 
         u = cpu->isar.id_aa64dfr0;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ simple_ap_to_rw_prot(CPUARMState *env, ARMMMUIdx mmu_idx, int ap)
  *
  * @env:     CPUARMState
  * @s2ap:    The 2-bit stage2 access permissions (S2AP)
- * @xn:      XN (execute-never) bit
+ * @xn:      XN (execute-never) bits
+ * @s1_is_el0: true if this is S2 of an S1+2 walk for EL0
  */
-static int get_S2prot(CPUARMState *env, int s2ap, int xn)
+static int get_S2prot(CPUARMState *env, int s2ap, int xn, bool s1_is_el0)
 {
     int prot = 0;
 
@@ -XXX,XX +XXX,XX @@ static int get_S2prot(CPUARMState *env, int s2ap, int xn)
     if (s2ap & 2) {
         prot |= PAGE_WRITE;
     }
-    if (!xn) {
-        if (arm_el_is_aa64(env, 2) || prot & PAGE_READ) {
+
+    if (cpu_isar_feature(any_tts2uxn, env_archcpu(env))) {
+        switch (xn) {
+        case 0:
             prot |= PAGE_EXEC;
+            break;
+        case 1:
+            if (s1_is_el0) {
+                prot |= PAGE_EXEC;
+            }
+            break;
+        case 2:
+            break;
+        case 3:
+            if (!s1_is_el0) {
+                prot |= PAGE_EXEC;
+            }
+            break;
+        default:
+            g_assert_not_reached();
+        }
+    } else {
+        if (!extract32(xn, 1, 1)) {
+            if (arm_el_is_aa64(env, 2) || prot & PAGE_READ) {
+                prot |= PAGE_EXEC;
+            }
         }
     }
     return prot;
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
     }
 
     ap = extract32(attrs, 4, 2);
-    xn = extract32(attrs, 12, 1);
 
     if (mmu_idx == ARMMMUIdx_Stage2) {
         ns = true;
-        *prot = get_S2prot(env, ap, xn);
+        xn = extract32(attrs, 11, 2);
+        *prot = get_S2prot(env, ap, xn, s1_is_el0);
     } else {
         ns = extract32(attrs, 3, 1);
+        xn = extract32(attrs, 12, 1);
         pxn = extract32(attrs, 11, 1);
         *prot = get_S1prot(env, mmu_idx, aarch64, ap, ns, xn, pxn);
     }
-- 
2.20.1

In aarch64_max_initfn() we update both 32-bit and 64-bit ID
registers.  The intended pattern is that for 64-bit ID registers we
use FIELD_DP64 and the uint64_t 't' register, while 32-bit ID
registers use FIELD_DP32 and the uint32_t 'u' register.  For
ID_AA64DFR0 we accidentally used 'u', meaning that the top 32 bits of
this 64-bit ID register would end up always zero.  Luckily at the
moment that's what they should be anyway, so this bug has no visible
effects.

Use the right-sized variable.

Fixes: 3bec78447a958d481991
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200423110915.10527-1-peter.maydell@linaro.org
---
 target/arm/cpu64.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
         u = FIELD_DP32(u, ID_MMFR4, XNX, 1); /* TTS2UXN */
         cpu->isar.id_mmfr4 = u;
 
-        u = cpu->isar.id_aa64dfr0;
-        u = FIELD_DP64(u, ID_AA64DFR0, PMUVER, 5); /* v8.4-PMU */
-        cpu->isar.id_aa64dfr0 = u;
+        t = cpu->isar.id_aa64dfr0;
+        t = FIELD_DP64(t, ID_AA64DFR0, PMUVER, 5); /* v8.4-PMU */
+        cpu->isar.id_aa64dfr0 = t;
 
         u = cpu->isar.id_dfr0;
         u = FIELD_DP32(u, ID_DFR0, PERFMON, 5); /* v8.4-PMU */
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

MIDR_EL1 is a 64-bit system register with the top 32-bit being RES0.
Represent it in QEMU's ARMCPU struct with a uint64_t, not a
uint32_t.

This fixes an error when compiling with -Werror=conversion
because we were manipulating the register value using a
local uint64_t variable:

target/arm/cpu64.c: In function ‘aarch64_max_initfn’:
  target/arm/cpu64.c:628:21: error: conversion from ‘uint64_t’ {aka ‘long unsigned int’} to ‘uint32_t’ {aka ‘unsigned int’} may change value [-Werror=conversion]
    628 |         cpu->midr = t;
        |                     ^

and future-proofs us against a possible future architecture
change using some of the top 32 bits.

Suggested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Message-id: 20200428172634.29707-1-f4bug@amsat.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h | 2 +-
 target/arm/cpu.c | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
         uint64_t id_aa64dfr0;
         uint64_t id_aa64dfr1;
     } isar;
-    uint32_t midr;
+    uint64_t midr;
     uint32_t revidr;
     uint32_t reset_fpsid;
     uint32_t ctr;
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPUInfo arm_cpus[] = {
 static Property arm_cpu_properties[] = {
     DEFINE_PROP_BOOL("start-powered-off", ARMCPU, start_powered_off, false),
     DEFINE_PROP_UINT32("psci-conduit", ARMCPU, psci_conduit, 0),
-    DEFINE_PROP_UINT32("midr", ARMCPU, midr, 0),
+    DEFINE_PROP_UINT64("midr", ARMCPU, midr, 0),
     DEFINE_PROP_UINT64("mp-affinity", ARMCPU,
                         mp_affinity, ARM64_AFFINITY_INVALID),
     DEFINE_PROP_INT32("node-id", ARMCPU, node_id, CPU_UNSET_NUMA_NODE_ID),
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Move misplaced comment.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-3-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/xlnx-versal.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
 
         obj = object_new(XLNX_VERSAL_ACPU_TYPE);
         if (!obj) {
-            /* Secondary CPUs start in PSCI powered-down state */
             error_report("Unable to create apu.cpu[%d] of type %s",
                          i, XLNX_VERSAL_ACPU_TYPE);
             exit(EXIT_FAILURE);
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
         object_property_set_int(obj, s->cfg.psci_conduit,
                                 "psci-conduit", &error_abort);
         if (i) {
+            /* Secondary CPUs start in PSCI powered-down state */
             object_property_set_bool(obj, true,
                                      "start-powered-off", &error_abort);
         }
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Fix typo xlnx-ve -> xlnx-versal.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-4-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/xlnx-versal-virt.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
         psci_conduit = QEMU_PSCI_CONDUIT_SMC;
     }
 
-    sysbus_init_child_obj(OBJECT(machine), "xlnx-ve", &s->soc,
+    sysbus_init_child_obj(OBJECT(machine), "xlnx-versal", &s->soc,
                           sizeof(s->soc), TYPE_XLNX_VERSAL);
     object_property_set_link(OBJECT(&s->soc), OBJECT(machine->ram),
                              "ddr", &error_abort);
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Embed the UARTs into the SoC type.

Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-5-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-versal.h |  3 ++-
 hw/arm/xlnx-versal.c         | 12 ++++++------
 2 files changed, 8 insertions(+), 7 deletions(-)

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Embed the GEMs into the SoC type.

Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-6-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-versal.h |  3 ++-
 hw/arm/xlnx-versal.c         | 15 ++++++++-------
 2 files changed, 10 insertions(+), 8 deletions(-)

diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-versal.h
+++ b/include/hw/arm/xlnx-versal.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/arm/boot.h"
 #include "hw/intc/arm_gicv3.h"
 #include "hw/char/pl011.h"
+#include "hw/net/cadence_gem.h"
 
 #define TYPE_XLNX_VERSAL "xlnx-versal"
 #define XLNX_VERSAL(obj) OBJECT_CHECK(Versal, (obj), TYPE_XLNX_VERSAL)
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
 
         struct {
             PL011State uart[XLNX_VERSAL_NR_UARTS];
-            SysBusDevice *gem[XLNX_VERSAL_NR_GEMS];
+            CadenceGEMState gem[XLNX_VERSAL_NR_GEMS];
             SysBusDevice *adma[XLNX_VERSAL_NR_ADMAS];
         } iou;
     } lpd;
diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_gems(Versal *s, qemu_irq *pic)
         DeviceState *dev;
         MemoryRegion *mr;
 
-        dev = qdev_create(NULL, "cadence_gem");
-        s->lpd.iou.gem[i] = SYS_BUS_DEVICE(dev);
-        object_property_add_child(OBJECT(s), name, OBJECT(dev), &error_fatal);
+        sysbus_init_child_obj(OBJECT(s), name,
+                              &s->lpd.iou.gem[i], sizeof(s->lpd.iou.gem[i]),
+                              TYPE_CADENCE_GEM);
+        dev = DEVICE(&s->lpd.iou.gem[i]);
         if (nd->used) {
             qemu_check_nic_model(nd, "cadence_gem");
             qdev_set_nic_properties(dev, nd);
         }
-        object_property_set_int(OBJECT(s->lpd.iou.gem[i]),
+        object_property_set_int(OBJECT(dev),
                                 2, "num-priority-queues",
                                 &error_abort);
-        object_property_set_link(OBJECT(s->lpd.iou.gem[i]),
+        object_property_set_link(OBJECT(dev),
                                  OBJECT(&s->mr_ps), "dma",
                                  &error_abort);
         qdev_init_nofail(dev);
 
-        mr = sysbus_mmio_get_region(s->lpd.iou.gem[i], 0);
+        mr = sysbus_mmio_get_region(SYS_BUS_DEVICE(dev), 0);
         memory_region_add_subregion(&s->mr_ps, addrs[i], mr);
 
-        sysbus_connect_irq(s->lpd.iou.gem[i], 0, pic[irqs[i]]);
+        sysbus_connect_irq(SYS_BUS_DEVICE(dev), 0, pic[irqs[i]]);
         g_free(name);
     }
 }
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Embed the ADMAs into the SoC type.

Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-7-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-versal.h |  3 ++-
 hw/arm/xlnx-versal.c         | 14 +++++++-------
 2 files changed, 9 insertions(+), 8 deletions(-)

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Embed the APUs into the SoC type.

Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-8-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-versal.h |  2 +-
 hw/arm/xlnx-versal-virt.c    |  4 ++--
 hw/arm/xlnx-versal.c         | 19 +++++--------------
 3 files changed, 8 insertions(+), 17 deletions(-)

diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-versal.h
+++ b/include/hw/arm/xlnx-versal.h
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
     struct {
         struct {
             MemoryRegion mr;
-            ARMCPU *cpu[XLNX_VERSAL_NR_ACPUS];
+            ARMCPU cpu[XLNX_VERSAL_NR_ACPUS];
             GICv3State gic;
         } apu;
     } fpd;
diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
     s->binfo.get_dtb = versal_virt_get_dtb;
     s->binfo.modify_dtb = versal_virt_modify_dtb;
     if (machine->kernel_filename) {
-        arm_load_kernel(s->soc.fpd.apu.cpu[0], machine, &s->binfo);
+        arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
     } else {
-        AddressSpace *as = arm_boot_address_space(s->soc.fpd.apu.cpu[0],
+        AddressSpace *as = arm_boot_address_space(&s->soc.fpd.apu.cpu[0],
                                                   &s->binfo);
         /* Some boot-loaders (e.g u-boot) don't like blobs at address 0 (NULL).
          * Offset things by 4K.  */
diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
 
     for (i = 0; i < ARRAY_SIZE(s->fpd.apu.cpu); i++) {
         Object *obj;
-        char *name;
-
-        obj = object_new(XLNX_VERSAL_ACPU_TYPE);
-        if (!obj) {
-            error_report("Unable to create apu.cpu[%d] of type %s",
-                         i, XLNX_VERSAL_ACPU_TYPE);
-            exit(EXIT_FAILURE);
-        }
-
-        name = g_strdup_printf("apu-cpu[%d]", i);
-        object_property_add_child(OBJECT(s), name, obj, &error_fatal);
-        g_free(name);
 
+        object_initialize_child(OBJECT(s), "apu-cpu[*]",
+                                &s->fpd.apu.cpu[i], sizeof(s->fpd.apu.cpu[i]),
+                                XLNX_VERSAL_ACPU_TYPE, &error_abort, NULL);
+        obj = OBJECT(&s->fpd.apu.cpu[i]);
         object_property_set_int(obj, s->cfg.psci_conduit,
                                 "psci-conduit", &error_abort);
         if (i) {
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
         object_property_set_link(obj, OBJECT(&s->fpd.apu.mr), "memory",
                                  &error_abort);
         object_property_set_bool(obj, true, "realized", &error_fatal);
-        s->fpd.apu.cpu[i] = ARM_CPU(obj);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_gic(Versal *s, qemu_irq *pic)
     }
 
     for (i = 0; i < nr_apu_cpus; i++) {
-        DeviceState *cpudev = DEVICE(s->fpd.apu.cpu[i]);
+        DeviceState *cpudev = DEVICE(&s->fpd.apu.cpu[i]);
         int ppibase = XLNX_VERSAL_NR_IRQS + i * GIC_INTERNAL + GIC_NR_SGIS;
         qemu_irq maint_irq;
         int ti;
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Add support for SD.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-9-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-versal.h | 12 ++++++++++++
 hw/arm/xlnx-versal.c         | 31 +++++++++++++++++++++++++++++++
 2 files changed, 43 insertions(+)

diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-versal.h
+++ b/include/hw/arm/xlnx-versal.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/sysbus.h"
 #include "hw/arm/boot.h"
+#include "hw/sd/sdhci.h"
 #include "hw/intc/arm_gicv3.h"
 #include "hw/char/pl011.h"
 #include "hw/dma/xlnx-zdma.h"
@@ -XXX,XX +XXX,XX @@
 #define XLNX_VERSAL_NR_UARTS   2
 #define XLNX_VERSAL_NR_GEMS    2
 #define XLNX_VERSAL_NR_ADMAS   8
+#define XLNX_VERSAL_NR_SDS     2
 #define XLNX_VERSAL_NR_IRQS    192
 
 typedef struct Versal {
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
         } iou;
     } lpd;
 
+    /* The Platform Management Controller subsystem.  */
+    struct {
+        struct {
+            SDHCIState sd[XLNX_VERSAL_NR_SDS];
+        } iou;
+    } pmc;
+
     struct {
         MemoryRegion *mr_ddr;
         uint32_t psci_conduit;
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
 #define VERSAL_GEM1_IRQ_0          58
 #define VERSAL_GEM1_WAKE_IRQ_0     59
 #define VERSAL_ADMA_IRQ_0          60
+#define VERSAL_SD0_IRQ_0           126
 
 /* Architecturally reserved IRQs suitable for virtualization.  */
 #define VERSAL_RSVD_IRQ_FIRST 111
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
 #define MM_FPD_CRF                  0xfd1a0000U
 #define MM_FPD_CRF_SIZE             0x140000
 
+#define MM_PMC_SD0                  0xf1040000U
+#define MM_PMC_SD0_SIZE             0x10000
 #define MM_PMC_CRP                  0xf1260000U
 #define MM_PMC_CRP_SIZE             0x10000
 #endif
diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_admas(Versal *s, qemu_irq *pic)
     }
 }
 
+#define SDHCI_CAPABILITIES  0x280737ec6481 /* Same as on ZynqMP.  */
+static void versal_create_sds(Versal *s, qemu_irq *pic)
+{
+    int i;
+
+    for (i = 0; i < ARRAY_SIZE(s->pmc.iou.sd); i++) {
+        DeviceState *dev;
+        MemoryRegion *mr;
+
+        sysbus_init_child_obj(OBJECT(s), "sd[*]",
+                              &s->pmc.iou.sd[i], sizeof(s->pmc.iou.sd[i]),
+                              TYPE_SYSBUS_SDHCI);
+        dev = DEVICE(&s->pmc.iou.sd[i]);
+
+        object_property_set_uint(OBJECT(dev),
+                                 3, "sd-spec-version", &error_fatal);
+        object_property_set_uint(OBJECT(dev), SDHCI_CAPABILITIES, "capareg",
+                                 &error_fatal);
+        object_property_set_uint(OBJECT(dev), UHS_I, "uhs", &error_fatal);
+        qdev_init_nofail(dev);
+
+        mr = sysbus_mmio_get_region(SYS_BUS_DEVICE(dev), 0);
+        memory_region_add_subregion(&s->mr_ps,
+                                    MM_PMC_SD0 + i * MM_PMC_SD0_SIZE, mr);
+
+        sysbus_connect_irq(SYS_BUS_DEVICE(dev), 0,
+                           pic[VERSAL_SD0_IRQ_0 + i * 2]);
+    }
+}
+
 /* This takes the board allocated linear DDR memory and creates aliases
  * for each split DDR range/aperture on the Versal address map.
  */
@@ -XXX,XX +XXX,XX @@ static void versal_realize(DeviceState *dev, Error **errp)
     versal_create_uarts(s, pic);
     versal_create_gems(s, pic);
     versal_create_admas(s, pic);
+    versal_create_sds(s, pic);
     versal_map_ddr(s);
     versal_unimp(s);
 
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

hw/arm: versal: Add support for the RTC.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-10-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-versal.h |  8 ++++++++
 hw/arm/xlnx-versal.c         | 21 +++++++++++++++++++++
 2 files changed, 29 insertions(+)

diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-versal.h
+++ b/include/hw/arm/xlnx-versal.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/char/pl011.h"
 #include "hw/dma/xlnx-zdma.h"
 #include "hw/net/cadence_gem.h"
+#include "hw/rtc/xlnx-zynqmp-rtc.h"
 
 #define TYPE_XLNX_VERSAL "xlnx-versal"
 #define XLNX_VERSAL(obj) OBJECT_CHECK(Versal, (obj), TYPE_XLNX_VERSAL)
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
         struct {
             SDHCIState sd[XLNX_VERSAL_NR_SDS];
         } iou;
+
+        XlnxZynqMPRTC rtc;
     } pmc;
 
     struct {
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
 #define VERSAL_GEM1_IRQ_0          58
 #define VERSAL_GEM1_WAKE_IRQ_0     59
 #define VERSAL_ADMA_IRQ_0          60
+#define VERSAL_RTC_APB_ERR_IRQ     121
 #define VERSAL_SD0_IRQ_0           126
+#define VERSAL_RTC_ALARM_IRQ       142
+#define VERSAL_RTC_SECONDS_IRQ     143
 
 /* Architecturally reserved IRQs suitable for virtualization.  */
 #define VERSAL_RSVD_IRQ_FIRST 111
@@ -XXX,XX +XXX,XX @@ typedef struct Versal {
 #define MM_PMC_SD0_SIZE             0x10000
 #define MM_PMC_CRP                  0xf1260000U
 #define MM_PMC_CRP_SIZE             0x10000
+#define MM_PMC_RTC                  0xf12a0000
+#define MM_PMC_RTC_SIZE             0x10000
 #endif
diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_sds(Versal *s, qemu_irq *pic)
     }
 }
 
+static void versal_create_rtc(Versal *s, qemu_irq *pic)
+{
+    SysBusDevice *sbd;
+    MemoryRegion *mr;
+
+    sysbus_init_child_obj(OBJECT(s), "rtc", &s->pmc.rtc, sizeof(s->pmc.rtc),
+                          TYPE_XLNX_ZYNQMP_RTC);
+    sbd = SYS_BUS_DEVICE(&s->pmc.rtc);
+    qdev_init_nofail(DEVICE(sbd));
+
+    mr = sysbus_mmio_get_region(sbd, 0);
+    memory_region_add_subregion(&s->mr_ps, MM_PMC_RTC, mr);
+
+    /*
+     * TODO: Connect the ALARM and SECONDS interrupts once our RTC model
+     * supports them.
+     */
+    sysbus_connect_irq(sbd, 1, pic[VERSAL_RTC_APB_ERR_IRQ]);
+}
+
 /* This takes the board allocated linear DDR memory and creates aliases
  * for each split DDR range/aperture on the Versal address map.
  */
@@ -XXX,XX +XXX,XX @@ static void versal_realize(DeviceState *dev, Error **errp)
     versal_create_gems(s, pic);
     versal_create_admas(s, pic);
     versal_create_sds(s, pic);
+    versal_create_rtc(s, pic);
     versal_map_ddr(s);
     versal_unimp(s);
 
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Add support for SD.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-11-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/xlnx-versal-virt.c | 46 +++++++++++++++++++++++++++++++++++++++
 1 file changed, 46 insertions(+)

diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/arm/sysbus-fdt.h"
 #include "hw/arm/fdt.h"
 #include "cpu.h"
+#include "hw/qdev-properties.h"
 #include "hw/arm/xlnx-versal.h"
 
 #define TYPE_XLNX_VERSAL_VIRT_MACHINE MACHINE_TYPE_NAME("xlnx-versal-virt")
@@ -XXX,XX +XXX,XX @@ static void fdt_add_zdma_nodes(VersalVirt *s)
     }
 }
 
+static void fdt_add_sd_nodes(VersalVirt *s)
+{
+    const char clocknames[] = "clk_xin\0clk_ahb";
+    const char compat[] = "arasan,sdhci-8.9a";
+    int i;
+
+    for (i = ARRAY_SIZE(s->soc.pmc.iou.sd) - 1; i >= 0; i--) {
+        uint64_t addr = MM_PMC_SD0 + MM_PMC_SD0_SIZE * i;
+        char *name = g_strdup_printf("/sdhci@%" PRIx64, addr);
+
+        qemu_fdt_add_subnode(s->fdt, name);
+
+        qemu_fdt_setprop_cells(s->fdt, name, "clocks",
+                               s->phandle.clk_25Mhz, s->phandle.clk_25Mhz);
+        qemu_fdt_setprop(s->fdt, name, "clock-names",
+                         clocknames, sizeof(clocknames));
+        qemu_fdt_setprop_cells(s->fdt, name, "interrupts",
+                               GIC_FDT_IRQ_TYPE_SPI, VERSAL_SD0_IRQ_0 + i * 2,
+                               GIC_FDT_IRQ_FLAGS_LEVEL_HI);
+        qemu_fdt_setprop_sized_cells(s->fdt, name, "reg",
+                                     2, addr, 2, MM_PMC_SD0_SIZE);
+        qemu_fdt_setprop(s->fdt, name, "compatible", compat, sizeof(compat));
+        g_free(name);
+    }
+}
+
 static void fdt_nop_memory_nodes(void *fdt, Error **errp)
 {
     Error *err = NULL;
@@ -XXX,XX +XXX,XX @@ static void create_virtio_regions(VersalVirt *s)
     }
 }
 
+static void sd_plugin_card(SDHCIState *sd, DriveInfo *di)
+{
+    BlockBackend *blk = di ? blk_by_legacy_dinfo(di) : NULL;
+    DeviceState *card;
+
+    card = qdev_create(qdev_get_child_bus(DEVICE(sd), "sd-bus"), TYPE_SD_CARD);
+    object_property_add_child(OBJECT(sd), "card[*]", OBJECT(card),
+                              &error_fatal);
+    qdev_prop_set_drive(card, "drive", blk, &error_fatal);
+    object_property_set_bool(OBJECT(card), true, "realized", &error_fatal);
+}
+
 static void versal_virt_init(MachineState *machine)
 {
     VersalVirt *s = XLNX_VERSAL_VIRT_MACHINE(machine);
     int psci_conduit = QEMU_PSCI_CONDUIT_DISABLED;
+    int i;
 
     /*
      * If the user provides an Operating System to be loaded, we expect them
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
     fdt_add_gic_nodes(s);
     fdt_add_timer_nodes(s);
     fdt_add_zdma_nodes(s);
+    fdt_add_sd_nodes(s);
     fdt_add_cpu_nodes(s, psci_conduit);
     fdt_add_clk_node(s, "/clk125", 125000000, s->phandle.clk_125Mhz);
     fdt_add_clk_node(s, "/clk25", 25000000, s->phandle.clk_25Mhz);
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
     memory_region_add_subregion_overlap(get_system_memory(),
                                         0, &s->soc.fpd.apu.mr, 0);
 
+    /* Plugin SD cards.  */
+    for (i = 0; i < ARRAY_SIZE(s->soc.pmc.iou.sd); i++) {
+        sd_plugin_card(&s->soc.pmc.iou.sd[i], drive_get_next(IF_SD));
+    }
+
     s->binfo.ram_size = machine->ram_size;
     s->binfo.loader_start = 0x0;
     s->binfo.get_dtb = versal_virt_get_dtb;
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Add support for the RTC.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Message-id: 20200427181649.26851-12-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/xlnx-versal-virt.c | 22 ++++++++++++++++++++++
 1 file changed, 22 insertions(+)

diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@ static void fdt_add_sd_nodes(VersalVirt *s)
     }
 }
 
+static void fdt_add_rtc_node(VersalVirt *s)
+{
+    const char compat[] = "xlnx,zynqmp-rtc";
+    const char interrupt_names[] = "alarm\0sec";
+    char *name = g_strdup_printf("/rtc@%x", MM_PMC_RTC);
+
+    qemu_fdt_add_subnode(s->fdt, name);
+
+    qemu_fdt_setprop_cells(s->fdt, name, "interrupts",
+                           GIC_FDT_IRQ_TYPE_SPI, VERSAL_RTC_ALARM_IRQ,
+                           GIC_FDT_IRQ_FLAGS_LEVEL_HI,
+                           GIC_FDT_IRQ_TYPE_SPI, VERSAL_RTC_SECONDS_IRQ,
+                           GIC_FDT_IRQ_FLAGS_LEVEL_HI);
+    qemu_fdt_setprop(s->fdt, name, "interrupt-names",
+                     interrupt_names, sizeof(interrupt_names));
+    qemu_fdt_setprop_sized_cells(s->fdt, name, "reg",
+                                 2, MM_PMC_RTC, 2, MM_PMC_RTC_SIZE);
+    qemu_fdt_setprop(s->fdt, name, "compatible", compat, sizeof(compat));
+    g_free(name);
+}
+
 static void fdt_nop_memory_nodes(void *fdt, Error **errp)
 {
     Error *err = NULL;
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
     fdt_add_timer_nodes(s);
     fdt_add_zdma_nodes(s);
     fdt_add_sd_nodes(s);
+    fdt_add_rtc_node(s);
     fdt_add_cpu_nodes(s, psci_conduit);
     fdt_add_clk_node(s, "/clk125", 125000000, s->phandle.clk_125Mhz);
     fdt_add_clk_node(s, "/clk25", 25000000, s->phandle.clk_25Mhz);
-- 
2.20.1

Somewhere along theline we accidentally added a duplicate
"using D16-D31 when they don't exist" check to do_vfm_dp()
(probably an artifact of a patchseries rebase). Remove it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200430181003.21682-2-peter.maydell@linaro.org
---
 target/arm/translate-vfp.inc.c | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/target/arm/translate-vfp.inc.c b/target/arm/translate-vfp.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.inc.c
+++ b/target/arm/translate-vfp.inc.c
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
         return false;
     }
 
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vn | a->vm) & 0x10)) {
-        return false;
-    }
-
     if (!vfp_access_check(s)) {
         return true;
     }
-- 
2.20.1

We were accidentally permitting decode of Thumb Neon insns even if
the CPU didn't have the FEATURE_NEON bit set, because the feature
check was being done before the call to disas_neon_data_insn() and
disas_neon_ls_insn() in the Arm decoder but was omitted from the
Thumb decoder.  Push the feature bit check down into the called
functions so it is done for both Arm and Thumb encodings.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200430181003.21682-3-peter.maydell@linaro.org
---
 target/arm/translate.c | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
     TCGv_i32 tmp2;
     TCGv_i64 tmp64;
 
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return 1;
+    }
+
     /* FIXME: this access check should not take precedence over UNDEF
      * for invalid encodings; we will generate incorrect syndrome information
      * for attempts to execute invalid vfp/neon encodings with FP disabled.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     TCGv_ptr ptr1, ptr2, ptr3;
     TCGv_i64 tmp64;
 
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return 1;
+    }
+
     /* FIXME: this access check should not take precedence over UNDEF
      * for invalid encodings; we will generate incorrect syndrome information
      * for attempts to execute invalid vfp/neon encodings with FP disabled.
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
 
         if (((insn >> 25) & 7) == 1) {
             /* NEON Data processing.  */
-            if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-                goto illegal_op;
-            }
-
             if (disas_neon_data_insn(s, insn)) {
                 goto illegal_op;
             }
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
         }
         if ((insn & 0x0f100000) == 0x04000000) {
             /* NEON load/store.  */
-            if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-                goto illegal_op;
-            }
-
             if (disas_neon_ls_insn(s, insn)) {
                 goto illegal_op;
             }
-- 
2.20.1

Add the infrastructure for building and invoking a decodetree decoder
for the AArch32 Neon encodings.  At the moment the new decoder covers
nothing, so we always fall back to the existing hand-written decode.

We follow the same pattern we did for the VFP decodetree conversion
(commit 78e138bc1f672c145ef6ace74617d and following): code that deals
with Neon will be moving gradually out to translate-neon.vfp.inc,
which we #include into translate.c.

In order to share the decode files between A32 and T32, we
split Neon into 3 parts:
 * data-processing
 * load-store
 * 'shared' encodings

The first two groups of instructions have similar but not identical
A32 and T32 encodings, so we need to manually transform the T32
encoding into the A32 one before calling the decoder; the third group
covers the Neon instructions which are identical in A32 and T32.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-4-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       | 29 ++++++++++++++++++++++++++
 target/arm/neon-ls.decode       | 29 ++++++++++++++++++++++++++
 target/arm/neon-shared.decode   | 27 +++++++++++++++++++++++++
 target/arm/translate-neon.inc.c | 32 +++++++++++++++++++++++++++++
 target/arm/translate.c          | 36 +++++++++++++++++++++++++++++++--
 target/arm/Makefile.objs        | 18 +++++++++++++++++
 6 files changed, 169 insertions(+), 2 deletions(-)
 create mode 100644 target/arm/neon-dp.decode
 create mode 100644 target/arm/neon-ls.decode
 create mode 100644 target/arm/neon-shared.decode
 create mode 100644 target/arm/translate-neon.inc.c

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
+# AArch32 Neon data-processing instruction descriptions
+#
+#  Copyright (c) 2020 Linaro, Ltd
+#
+# This library is free software; you can redistribute it and/or
+# modify it under the terms of the GNU Lesser General Public
+# License as published by the Free Software Foundation; either
+# version 2 of the License, or (at your option) any later version.
+#
+# This library is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+# Lesser General Public License for more details.
+#
+# You should have received a copy of the GNU Lesser General Public
+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
+
+#
+# This file is processed by scripts/decodetree.py
+#
+
+# Encodings for Neon data processing instructions where the T32 encoding
+# is a simple transformation of the A32 encoding.
+# More specifically, this file covers instructions where the A32 encoding is
+#   0b1111_001p_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
+# and the T32 encoding is
+#   0b111p_1111_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
+# This file works on the A32 encoding only; calling code for T32 has to
+# transform the insn into the A32 version first.
diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/neon-ls.decode
@@ -XXX,XX +XXX,XX @@
+# AArch32 Neon load/store instruction descriptions
+#
+#  Copyright (c) 2020 Linaro, Ltd
+#
+# This library is free software; you can redistribute it and/or
+# modify it under the terms of the GNU Lesser General Public
+# License as published by the Free Software Foundation; either
+# version 2 of the License, or (at your option) any later version.
+#
+# This library is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+# Lesser General Public License for more details.
+#
+# You should have received a copy of the GNU Lesser General Public
+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
+
+#
+# This file is processed by scripts/decodetree.py
+#
+
+# Encodings for Neon load/store instructions where the T32 encoding
+# is a simple transformation of the A32 encoding.
+# More specifically, this file covers instructions where the A32 encoding is
+#   0b1111_0100_xxx0_xxxx_xxxx_xxxx_xxxx_xxxx
+# and the T32 encoding is
+#   0b1111_1001_xxx0_xxxx_xxxx_xxxx_xxxx_xxxx
+# This file works on the A32 encoding only; calling code for T32 has to
+# transform the insn into the A32 version first.
diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@
+# AArch32 Neon instruction descriptions
+#
+#  Copyright (c) 2020 Linaro, Ltd
+#
+# This library is free software; you can redistribute it and/or
+# modify it under the terms of the GNU Lesser General Public
+# License as published by the Free Software Foundation; either
+# version 2 of the License, or (at your option) any later version.
+#
+# This library is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+# Lesser General Public License for more details.
+#
+# You should have received a copy of the GNU Lesser General Public
+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
+
+#
+# This file is processed by scripts/decodetree.py
+#
+
+# Encodings for Neon instructions whose encoding is the same for
+# both A32 and T32.
+
+# More specifically, this covers:
+# 2reg scalar ext: 0b1111_1110_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
+# 3same ext:       0b1111_110x_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  ARM translation: AArch32 Neon instructions
+ *
+ *  Copyright (c) 2003 Fabrice Bellard
+ *  Copyright (c) 2005-2007 CodeSourcery
+ *  Copyright (c) 2007 OpenedHand, Ltd.
+ *  Copyright (c) 2020 Linaro, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+/*
+ * This file is intended to be included from translate.c; it uses
+ * some macros and definitions provided by that file.
+ * It might be possible to convert it to a standalone .c file eventually.
+ */
+
+/* Include the generated Neon decoder */
+#include "decode-neon-dp.inc.c"
+#include "decode-neon-ls.inc.c"
+#include "decode-neon-shared.inc.c"
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static TCGv_ptr vfp_reg_ptr(bool dp, int reg)
 
 #define ARM_CP_RW_BIT   (1 << 20)
 
-/* Include the VFP decoder */
+/* Include the VFP and Neon decoders */
 #include "translate-vfp.inc.c"
+#include "translate-neon.inc.c"
 
 static inline void iwmmxt_load_reg(TCGv_i64 var, int reg)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
         /* Unconditional instructions.  */
         /* TODO: Perhaps merge these into one decodetree output file.  */
         if (disas_a32_uncond(s, insn) ||
-            disas_vfp_uncond(s, insn)) {
+            disas_vfp_uncond(s, insn) ||
+            disas_neon_dp(s, insn) ||
+            disas_neon_ls(s, insn) ||
+            disas_neon_shared(s, insn)) {
             return;
         }
         /* fall back to legacy decoder */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
         ARCH(6T2);
     }
 
+    if ((insn & 0xef000000) == 0xef000000) {
+        /*
+         * T32 encodings 0b111p_1111_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
+         * transform into
+         * A32 encodings 0b1111_001p_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
+         */
+        uint32_t a32_insn = (insn & 0xe2ffffff) |
+            ((insn & (1 << 28)) >> 4) | (1 << 28);
+
+        if (disas_neon_dp(s, a32_insn)) {
+            return;
+        }
+    }
+
+    if ((insn & 0xff100000) == 0xf9000000) {
+        /*
+         * T32 encodings 0b1111_1001_ppp0_qqqq_qqqq_qqqq_qqqq_qqqq
+         * transform into
+         * A32 encodings 0b1111_0100_ppp0_qqqq_qqqq_qqqq_qqqq_qqqq
+         */
+        uint32_t a32_insn = (insn & 0x00ffffff) | 0xf4000000;
+
+        if (disas_neon_ls(s, a32_insn)) {
+            return;
+        }
+    }
+
     /*
      * TODO: Perhaps merge these into one decodetree output file.
      * Note disas_vfp is written for a32 with cond field in the
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
      */
     if (disas_t32(s, insn) ||
         disas_vfp_uncond(s, insn) ||
+        disas_neon_shared(s, insn) ||
         ((insn >> 28) == 0xe && disas_vfp(s, insn))) {
         return;
     }
diff --git a/target/arm/Makefile.objs b/target/arm/Makefile.objs
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/Makefile.objs
+++ b/target/arm/Makefile.objs
@@ -XXX,XX +XXX,XX @@ target/arm/decode-sve.inc.c: $(SRC_PATH)/target/arm/sve.decode $(DECODETREE)
 	  $(PYTHON) $(DECODETREE) --decode disas_sve -o $@ $<,\
 	  "GEN", $(TARGET_DIR)$@)
 
+target/arm/decode-neon-shared.inc.c: $(SRC_PATH)/target/arm/neon-shared.decode $(DECODETREE)
+	$(call quiet-command,\
+	  $(PYTHON) $(DECODETREE) --static-decode disas_neon_shared -o $@ $<,\
+	  "GEN", $(TARGET_DIR)$@)
+
+target/arm/decode-neon-dp.inc.c: $(SRC_PATH)/target/arm/neon-dp.decode $(DECODETREE)
+	$(call quiet-command,\
+	  $(PYTHON) $(DECODETREE) --static-decode disas_neon_dp -o $@ $<,\
+	  "GEN", $(TARGET_DIR)$@)
+
+target/arm/decode-neon-ls.inc.c: $(SRC_PATH)/target/arm/neon-ls.decode $(DECODETREE)
+	$(call quiet-command,\
+	  $(PYTHON) $(DECODETREE) --static-decode disas_neon_ls -o $@ $<,\
+	  "GEN", $(TARGET_DIR)$@)
+
 target/arm/decode-vfp.inc.c: $(SRC_PATH)/target/arm/vfp.decode $(DECODETREE)
 	$(call quiet-command,\
 	  $(PYTHON) $(DECODETREE) --static-decode disas_vfp -o $@ $<,\
@@ -XXX,XX +XXX,XX @@ target/arm/decode-t16.inc.c: $(SRC_PATH)/target/arm/t16.decode $(DECODETREE)
 	  "GEN", $(TARGET_DIR)$@)
 
 target/arm/translate-sve.o: target/arm/decode-sve.inc.c
+target/arm/translate.o: target/arm/decode-neon-shared.inc.c
+target/arm/translate.o: target/arm/decode-neon-dp.inc.c
+target/arm/translate.o: target/arm/decode-neon-ls.inc.c
 target/arm/translate.o: target/arm/decode-vfp.inc.c
 target/arm/translate.o: target/arm/decode-vfp-uncond.inc.c
 target/arm/translate.o: target/arm/decode-a32.inc.c
-- 
2.20.1

Convert the VCMLA (vector) insns in the 3same extension group to
decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-5-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   | 11 ++++++++++
 target/arm/translate-neon.inc.c | 37 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 11 +---------
 3 files changed, 49 insertions(+), 10 deletions(-)

diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-shared.decode
+++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@
 # More specifically, this covers:
 # 2reg scalar ext: 0b1111_1110_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
 # 3same ext:       0b1111_110x_xxxx_xxxx_xxxx_1x0x_xxxx_xxxx
+
+# VFP/Neon register fields; same as vfp.decode
+%vm_dp  5:1 0:4
+%vm_sp  0:4 5:1
+%vn_dp  7:1 16:4
+%vn_sp  16:4 7:1
+%vd_dp  22:1 12:4
+%vd_sp  12:4 22:1
+
+VCMLA          1111 110 rot:2 . 1 size:1 .... .... 1000 . q:1 . 0 .... \
+               vm=%vm_dp vn=%vn_dp vd=%vd_dp
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@
 #include "decode-neon-dp.inc.c"
 #include "decode-neon-ls.inc.c"
 #include "decode-neon-shared.inc.c"
+
+static bool trans_VCMLA(DisasContext *s, arg_VCMLA *a)
+{
+    int opr_sz;
+    TCGv_ptr fpst;
+    gen_helper_gvec_3_ptr *fn_gvec_ptr;
+
+    if (!dc_isar_feature(aa32_vcma, s)
+        || (!a->size && !dc_isar_feature(aa32_fp16_arith, s))) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & a->q) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    opr_sz = (1 + a->q) * 8;
+    fpst = get_fpstatus_ptr(1);
+    fn_gvec_ptr = a->size ? gen_helper_gvec_fcmlas : gen_helper_gvec_fcmlah;
+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                       vfp_reg_offset(1, a->vn),
+                       vfp_reg_offset(1, a->vm),
+                       fpst, opr_sz, opr_sz, a->rot,
+                       fn_gvec_ptr);
+    tcg_temp_free_ptr(fpst);
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
     bool is_long = false, q = extract32(insn, 6, 1);
     bool ptr_is_env = false;
 
-    if ((insn & 0xfe200f10) == 0xfc200800) {
-        /* VCMLA -- 1111 110R R.1S .... .... 1000 ...0 .... */
-        int size = extract32(insn, 20, 1);
-        data = extract32(insn, 23, 2); /* rot */
-        if (!dc_isar_feature(aa32_vcma, s)
-            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
-            return 1;
-        }
-        fn_gvec_ptr = size ? gen_helper_gvec_fcmlas : gen_helper_gvec_fcmlah;
-    } else if ((insn & 0xfea00f10) == 0xfc800800) {
+    if ((insn & 0xfea00f10) == 0xfc800800) {
         /* VCADD -- 1111 110R 1.0S .... .... 1000 ...0 .... */
         int size = extract32(insn, 20, 1);
         data = extract32(insn, 24, 1); /* rot */
-- 
2.20.1

Convert the VCADD (vector) insns to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-6-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   |  3 +++
 target/arm/translate-neon.inc.c | 37 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 11 +---------
 3 files changed, 41 insertions(+), 10 deletions(-)

diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-shared.decode
+++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@
 
 VCMLA          1111 110 rot:2 . 1 size:1 .... .... 1000 . q:1 . 0 .... \
                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+
+VCADD          1111 110 rot:1 1 . 0 size:1 .... .... 1000 . q:1 . 0 .... \
+               vm=%vm_dp vn=%vn_dp vd=%vd_dp
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMLA(DisasContext *s, arg_VCMLA *a)
     tcg_temp_free_ptr(fpst);
     return true;
 }
+
+static bool trans_VCADD(DisasContext *s, arg_VCADD *a)
+{
+    int opr_sz;
+    TCGv_ptr fpst;
+    gen_helper_gvec_3_ptr *fn_gvec_ptr;
+
+    if (!dc_isar_feature(aa32_vcma, s)
+        || (!a->size && !dc_isar_feature(aa32_fp16_arith, s))) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & a->q) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    opr_sz = (1 + a->q) * 8;
+    fpst = get_fpstatus_ptr(1);
+    fn_gvec_ptr = a->size ? gen_helper_gvec_fcadds : gen_helper_gvec_fcaddh;
+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                       vfp_reg_offset(1, a->vn),
+                       vfp_reg_offset(1, a->vm),
+                       fpst, opr_sz, opr_sz, a->rot,
+                       fn_gvec_ptr);
+    tcg_temp_free_ptr(fpst);
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
     bool is_long = false, q = extract32(insn, 6, 1);
     bool ptr_is_env = false;
 
-    if ((insn & 0xfea00f10) == 0xfc800800) {
-        /* VCADD -- 1111 110R 1.0S .... .... 1000 ...0 .... */
-        int size = extract32(insn, 20, 1);
-        data = extract32(insn, 24, 1); /* rot */
-        if (!dc_isar_feature(aa32_vcma, s)
-            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
-            return 1;
-        }
-        fn_gvec_ptr = size ? gen_helper_gvec_fcadds : gen_helper_gvec_fcaddh;
-    } else if ((insn & 0xfeb00f00) == 0xfc200d00) {
+    if ((insn & 0xfeb00f00) == 0xfc200d00) {
         /* V[US]DOT -- 1111 1100 0.10 .... .... 1101 .Q.U .... */
         bool u = extract32(insn, 4, 1);
         if (!dc_isar_feature(aa32_dp, s)) {
-- 
2.20.1

Convert the V[US]DOT (vector) insns to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-7-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   |  4 ++++
 target/arm/translate-neon.inc.c | 32 ++++++++++++++++++++++++++++++++
 target/arm/translate.c          |  9 +--------
 3 files changed, 37 insertions(+), 8 deletions(-)

Convert the VFM[AS]L (vector) insns to decodetree.  This is the last
insn in the legacy decoder for the 3same_ext group, so we can
delete the legacy decoder function for the group entirely.

Note that in disas_thumb2_insn() the parts of this encoding space
where the decodetree decoder returns false will correctly be directed
to illegal_op by the "(insn & (1 << 28))" check so they won't fall
into disas_coproc_insn() by mistake.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-8-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   |  6 +++
 target/arm/translate-neon.inc.c | 31 +++++++++++
 target/arm/translate.c          | 92 +--------------------------------
 3 files changed, 38 insertions(+), 91 deletions(-)

diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-shared.decode
+++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@ VCADD          1111 110 rot:1 1 . 0 size:1 .... .... 1000 . q:1 . 0 .... \
 # VUDOT and VSDOT
 VDOT           1111 110 00 . 10 .... .... 1101 . q:1 . u:1 .... \
                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+
+# VFM[AS]L
+VFML           1111 110 0 s:1 . 10 .... .... 1000 . 0 . 1 .... \
+               vm=%vm_sp vn=%vn_sp vd=%vd_dp q=0
+VFML           1111 110 0 s:1 . 10 .... .... 1000 . 1 . 1 .... \
+               vm=%vm_dp vn=%vn_dp vd=%vd_dp q=1
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VDOT(DisasContext *s, arg_VDOT *a)
                        opr_sz, opr_sz, 0, fn_gvec);
     return true;
 }
+
+static bool trans_VFML(DisasContext *s, arg_VFML *a)
+{
+    int opr_sz;
+
+    if (!dc_isar_feature(aa32_fhm, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        (a->vd & 0x10)) {
+        return false;
+    }
+
+    if (a->vd & a->q) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    opr_sz = (1 + a->q) * 8;
+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                       vfp_reg_offset(a->q, a->vn),
+                       vfp_reg_offset(a->q, a->vm),
+                       cpu_env, opr_sz, opr_sz, a->s, /* is_2 == 0 */
+                       gen_helper_gvec_fmlal_a32);
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     return 0;
 }
 
-/* Advanced SIMD three registers of the same length extension.
- *  31           25    23  22    20   16   12  11   10   9    8        3     0
- * +---------------+-----+---+-----+----+----+---+----+---+----+---------+----+
- * | 1 1 1 1 1 1 0 | op1 | D | op2 | Vn | Vd | 1 | o3 | 0 | o4 | N Q M U | Vm |
- * +---------------+-----+---+-----+----+----+---+----+---+----+---------+----+
- */
-static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
-{
-    gen_helper_gvec_3 *fn_gvec = NULL;
-    gen_helper_gvec_3_ptr *fn_gvec_ptr = NULL;
-    int rd, rn, rm, opr_sz;
-    int data = 0;
-    int off_rn, off_rm;
-    bool is_long = false, q = extract32(insn, 6, 1);
-    bool ptr_is_env = false;
-
-    if ((insn & 0xff300f10) == 0xfc200810) {
-        /* VFM[AS]L -- 1111 1100 S.10 .... .... 1000 .Q.1 .... */
-        int is_s = extract32(insn, 23, 1);
-        if (!dc_isar_feature(aa32_fhm, s)) {
-            return 1;
-        }
-        is_long = true;
-        data = is_s; /* is_2 == 0 */
-        fn_gvec_ptr = gen_helper_gvec_fmlal_a32;
-        ptr_is_env = true;
-    } else {
-        return 1;
-    }
-
-    VFP_DREG_D(rd, insn);
-    if (rd & q) {
-        return 1;
-    }
-    if (q || !is_long) {
-        VFP_DREG_N(rn, insn);
-        VFP_DREG_M(rm, insn);
-        if ((rn | rm) & q & !is_long) {
-            return 1;
-        }
-        off_rn = vfp_reg_offset(1, rn);
-        off_rm = vfp_reg_offset(1, rm);
-    } else {
-        rn = VFP_SREG_N(insn);
-        rm = VFP_SREG_M(insn);
-        off_rn = vfp_reg_offset(0, rn);
-        off_rm = vfp_reg_offset(0, rm);
-    }
-
-    if (s->fp_excp_el) {
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
-        return 0;
-    }
-    if (!s->vfp_enabled) {
-        return 1;
-    }
-
-    opr_sz = (1 + q) * 8;
-    if (fn_gvec_ptr) {
-        TCGv_ptr ptr;
-        if (ptr_is_env) {
-            ptr = cpu_env;
-        } else {
-            ptr = get_fpstatus_ptr(1);
-        }
-        tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd), off_rn, off_rm, ptr,
-                           opr_sz, opr_sz, data, fn_gvec_ptr);
-        if (!ptr_is_env) {
-            tcg_temp_free_ptr(ptr);
-        }
-    } else {
-        tcg_gen_gvec_3_ool(vfp_reg_offset(1, rd), off_rn, off_rm,
-                           opr_sz, opr_sz, data, fn_gvec);
-    }
-    return 0;
-}
-
 /* Advanced SIMD two registers and a scalar extension.
  *  31             24   23  22   20   16   12  11   10   9    8        3     0
  * +-----------------+----+---+----+----+----+---+----+---+----+---------+----+
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
                     }
                 }
             }
-        } else if ((insn & 0x0e000a00) == 0x0c000800
-                   && arm_dc_feature(s, ARM_FEATURE_V8)) {
-            if (disas_neon_insn_3same_ext(s, insn)) {
-                goto illegal_op;
-            }
-            return;
         } else if ((insn & 0x0f000a00) == 0x0e000800
                    && arm_dc_feature(s, ARM_FEATURE_V8)) {
             if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
             }
             break;
         }
-        if ((insn & 0xfe000a00) == 0xfc000800
+        if ((insn & 0xff000a00) == 0xfe000800
             && arm_dc_feature(s, ARM_FEATURE_V8)) {
             /* The Thumb2 and ARM encodings are identical.  */
-            if (disas_neon_insn_3same_ext(s, insn)) {
-                goto illegal_op;
-            }
-        } else if ((insn & 0xff000a00) == 0xfe000800
-                   && arm_dc_feature(s, ARM_FEATURE_V8)) {
-            /* The Thumb2 and ARM encodings are identical.  */
             if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
                 goto illegal_op;
             }
-- 
2.20.1

Convert VCMLA (scalar) in the 2reg-scalar-ext group to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-9-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   |  5 +++++
 target/arm/translate-neon.inc.c | 40 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 26 +--------------------
 3 files changed, 46 insertions(+), 25 deletions(-)

diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-shared.decode
+++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@ VFML           1111 110 0 s:1 . 10 .... .... 1000 . 0 . 1 .... \
                vm=%vm_sp vn=%vn_sp vd=%vd_dp q=0
 VFML           1111 110 0 s:1 . 10 .... .... 1000 . 1 . 1 .... \
                vm=%vm_dp vn=%vn_dp vd=%vd_dp q=1
+
+VCMLA_scalar   1111 1110 0 . rot:2 .... .... 1000 . q:1 index:1 0 vm:4 \
+               vn=%vn_dp vd=%vd_dp size=0
+VCMLA_scalar   1111 1110 1 . rot:2 .... .... 1000 . q:1 . 0 .... \
+               vm=%vm_dp vn=%vn_dp vd=%vd_dp size=1 index=0
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VFML(DisasContext *s, arg_VFML *a)
                        gen_helper_gvec_fmlal_a32);
     return true;
 }
+
+static bool trans_VCMLA_scalar(DisasContext *s, arg_VCMLA_scalar *a)
+{
+    gen_helper_gvec_3_ptr *fn_gvec_ptr;
+    int opr_sz;
+    TCGv_ptr fpst;
+
+    if (!dc_isar_feature(aa32_vcma, s)) {
+        return false;
+    }
+    if (a->size == 0 && !dc_isar_feature(aa32_fp16_arith, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vd | a->vn) & a->q) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    fn_gvec_ptr = (a->size ? gen_helper_gvec_fcmlas_idx
+                   : gen_helper_gvec_fcmlah_idx);
+    opr_sz = (1 + a->q) * 8;
+    fpst = get_fpstatus_ptr(1);
+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                       vfp_reg_offset(1, a->vn),
+                       vfp_reg_offset(1, a->vm),
+                       fpst, opr_sz, opr_sz,
+                       (a->index << 2) | a->rot, fn_gvec_ptr);
+    tcg_temp_free_ptr(fpst);
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
     bool is_long = false, q = extract32(insn, 6, 1);
     bool ptr_is_env = false;
 
-    if ((insn & 0xff000f10) == 0xfe000800) {
-        /* VCMLA (indexed) -- 1111 1110 S.RR .... .... 1000 ...0 .... */
-        int rot = extract32(insn, 20, 2);
-        int size = extract32(insn, 23, 1);
-        int index;
-
-        if (!dc_isar_feature(aa32_vcma, s)) {
-            return 1;
-        }
-        if (size == 0) {
-            if (!dc_isar_feature(aa32_fp16_arith, s)) {
-                return 1;
-            }
-            /* For fp16, rm is just Vm, and index is M.  */
-            rm = extract32(insn, 0, 4);
-            index = extract32(insn, 5, 1);
-        } else {
-            /* For fp32, rm is the usual M:Vm, and index is 0.  */
-            VFP_DREG_M(rm, insn);
-            index = 0;
-        }
-        data = (index << 2) | rot;
-        fn_gvec_ptr = (size ? gen_helper_gvec_fcmlas_idx
-                       : gen_helper_gvec_fcmlah_idx);
-    } else if ((insn & 0xffb00f00) == 0xfe200d00) {
+    if ((insn & 0xffb00f00) == 0xfe200d00) {
         /* V[US]DOT -- 1111 1110 0.10 .... .... 1101 .Q.U .... */
         int u = extract32(insn, 4, 1);
 
-- 
2.20.1

Convert the V[US]DOT (scalar) insns in the 2reg-scalar-ext group
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-10-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   |  3 +++
 target/arm/translate-neon.inc.c | 35 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 13 +-----------
 3 files changed, 39 insertions(+), 12 deletions(-)

Convert the VFM[AS]L (scalar) insns in the 2reg-scalar-ext group
to decodetree. These are the last ones in the group so we can remove
all the legacy decode for the group.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-11-peter.maydell@linaro.org
---
 target/arm/neon-shared.decode   |   7 +++
 target/arm/translate-neon.inc.c |  32 ++++++++++
 target/arm/translate.c          | 107 +-------------------------------
 3 files changed, 40 insertions(+), 106 deletions(-)

diff --git a/target/arm/neon-shared.decode b/target/arm/neon-shared.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-shared.decode
+++ b/target/arm/neon-shared.decode
@@ -XXX,XX +XXX,XX @@ VCMLA_scalar   1111 1110 1 . rot:2 .... .... 1000 . q:1 . 0 .... \
 
 VDOT_scalar    1111 1110 0 . 10 .... .... 1101 . q:1 index:1 u:1 rm:4 \
                vm=%vm_dp vn=%vn_dp vd=%vd_dp
+
+%vfml_scalar_q0_rm 0:3 5:1
+%vfml_scalar_q1_index 5:1 3:1
+VFML_scalar    1111 1110 0 . 0 s:1 .... .... 1000 . 0 . 1 index:1 ... \
+               rm=%vfml_scalar_q0_rm vn=%vn_sp vd=%vd_dp q=0
+VFML_scalar    1111 1110 0 . 0 s:1 .... .... 1000 . 1 . 1 . rm:3 \
+               index=%vfml_scalar_q1_index vn=%vn_dp vd=%vd_dp q=1
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VDOT_scalar(DisasContext *s, arg_VDOT_scalar *a)
     tcg_temp_free_ptr(fpst);
     return true;
 }
+
+static bool trans_VFML_scalar(DisasContext *s, arg_VFML_scalar *a)
+{
+    int opr_sz;
+
+    if (!dc_isar_feature(aa32_fhm, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd & 0x10) || (a->q && (a->vn & 0x10)))) {
+        return false;
+    }
+
+    if (a->vd & a->q) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    opr_sz = (1 + a->q) * 8;
+    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
+                       vfp_reg_offset(a->q, a->vn),
+                       vfp_reg_offset(a->q, a->rm),
+                       cpu_env, opr_sz, opr_sz,
+                       (a->index << 2) | a->s, /* is_2 == 0 */
+                       gen_helper_gvec_fmlal_idx_a32);
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_dsp_insn(DisasContext *s, uint32_t insn)
 }
 
 #define VFP_REG_SHR(x, n) (((n) > 0) ? (x) >> (n) : (x) << -(n))
-#define VFP_SREG(insn, bigbit, smallbit) \
-  ((VFP_REG_SHR(insn, bigbit - 1) & 0x1e) | (((insn) >> (smallbit)) & 1))
 #define VFP_DREG(reg, insn, bigbit, smallbit) do { \
     if (dc_isar_feature(aa32_simd_r32, s)) { \
         reg = (((insn) >> (bigbit)) & 0x0f) \
@@ -XXX,XX +XXX,XX @@ static int disas_dsp_insn(DisasContext *s, uint32_t insn)
         reg = ((insn) >> (bigbit)) & 0x0f; \
     }} while (0)
 
-#define VFP_SREG_D(insn) VFP_SREG(insn, 12, 22)
 #define VFP_DREG_D(reg, insn) VFP_DREG(reg, insn, 12, 22)
-#define VFP_SREG_N(insn) VFP_SREG(insn, 16,  7)
 #define VFP_DREG_N(reg, insn) VFP_DREG(reg, insn, 16,  7)
-#define VFP_SREG_M(insn) VFP_SREG(insn,  0,  5)
 #define VFP_DREG_M(reg, insn) VFP_DREG(reg, insn,  0,  5)
 
 static void gen_neon_dup_low16(TCGv_i32 var)
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     return 0;
 }
 
-/* Advanced SIMD two registers and a scalar extension.
- *  31             24   23  22   20   16   12  11   10   9    8        3     0
- * +-----------------+----+---+----+----+----+---+----+---+----+---------+----+
- * | 1 1 1 1 1 1 1 0 | o1 | D | o2 | Vn | Vd | 1 | o3 | 0 | o4 | N Q M U | Vm |
- * +-----------------+----+---+----+----+----+---+----+---+----+---------+----+
- *
- */
-
-static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
-{
-    gen_helper_gvec_3 *fn_gvec = NULL;
-    gen_helper_gvec_3_ptr *fn_gvec_ptr = NULL;
-    int rd, rn, rm, opr_sz, data;
-    int off_rn, off_rm;
-    bool is_long = false, q = extract32(insn, 6, 1);
-    bool ptr_is_env = false;
-
-    if ((insn & 0xffa00f10) == 0xfe000810) {
-        /* VFM[AS]L -- 1111 1110 0.0S .... .... 1000 .Q.1 .... */
-        int is_s = extract32(insn, 20, 1);
-        int vm20 = extract32(insn, 0, 3);
-        int vm3 = extract32(insn, 3, 1);
-        int m = extract32(insn, 5, 1);
-        int index;
-
-        if (!dc_isar_feature(aa32_fhm, s)) {
-            return 1;
-        }
-        if (q) {
-            rm = vm20;
-            index = m * 2 + vm3;
-        } else {
-            rm = vm20 * 2 + m;
-            index = vm3;
-        }
-        is_long = true;
-        data = (index << 2) | is_s; /* is_2 == 0 */
-        fn_gvec_ptr = gen_helper_gvec_fmlal_idx_a32;
-        ptr_is_env = true;
-    } else {
-        return 1;
-    }
-
-    VFP_DREG_D(rd, insn);
-    if (rd & q) {
-        return 1;
-    }
-    if (q || !is_long) {
-        VFP_DREG_N(rn, insn);
-        if (rn & q & !is_long) {
-            return 1;
-        }
-        off_rn = vfp_reg_offset(1, rn);
-        off_rm = vfp_reg_offset(1, rm);
-    } else {
-        rn = VFP_SREG_N(insn);
-        off_rn = vfp_reg_offset(0, rn);
-        off_rm = vfp_reg_offset(0, rm);
-    }
-    if (s->fp_excp_el) {
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
-        return 0;
-    }
-    if (!s->vfp_enabled) {
-        return 1;
-    }
-
-    opr_sz = (1 + q) * 8;
-    if (fn_gvec_ptr) {
-        TCGv_ptr ptr;
-        if (ptr_is_env) {
-            ptr = cpu_env;
-        } else {
-            ptr = get_fpstatus_ptr(1);
-        }
-        tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd), off_rn, off_rm, ptr,
-                           opr_sz, opr_sz, data, fn_gvec_ptr);
-        if (!ptr_is_env) {
-            tcg_temp_free_ptr(ptr);
-        }
-    } else {
-        tcg_gen_gvec_3_ool(vfp_reg_offset(1, rd), off_rn, off_rm,
-                           opr_sz, opr_sz, data, fn_gvec);
-    }
-    return 0;
-}
-
 static int disas_coproc_insn(DisasContext *s, uint32_t insn)
 {
     int cpnum, is64, crn, crm, opc1, opc2, isread, rt, rt2;
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
                     }
                 }
             }
-        } else if ((insn & 0x0f000a00) == 0x0e000800
-                   && arm_dc_feature(s, ARM_FEATURE_V8)) {
-            if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
-                goto illegal_op;
-            }
-            return;
         }
         goto illegal_op;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
             }
             break;
         }
-        if ((insn & 0xff000a00) == 0xfe000800
-            && arm_dc_feature(s, ARM_FEATURE_V8)) {
-            /* The Thumb2 and ARM encodings are identical.  */
-            if (disas_neon_insn_2reg_scalar_ext(s, insn)) {
-                goto illegal_op;
-            }
-        } else if (((insn >> 24) & 3) == 3) {
+        if (((insn >> 24) & 3) == 3) {
             /* Translate into the equivalent ARM encoding.  */
             insn = (insn & 0xe2ffffff) | ((insn & (1 << 28)) >> 4) | (1 << 28);
             if (disas_neon_data_insn(s, insn)) {
-- 
2.20.1

Convert the Neon "load/store multiple structures" insns to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-12-peter.maydell@linaro.org
---
 target/arm/neon-ls.decode       |   7 ++
 target/arm/translate-neon.inc.c | 124 ++++++++++++++++++++++++++++++++
 target/arm/translate.c          |  91 +----------------------
 3 files changed, 133 insertions(+), 89 deletions(-)

diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-ls.decode
+++ b/target/arm/neon-ls.decode
@@ -XXX,XX +XXX,XX @@
 #   0b1111_1001_xxx0_xxxx_xxxx_xxxx_xxxx_xxxx
 # This file works on the A32 encoding only; calling code for T32 has to
 # transform the insn into the A32 version first.
+
+%vd_dp  22:1 12:4
+
+# Neon load/store multiple structures
+
+VLDST_multiple 1111 0100 0 . l:1 0 rn:4 .... itype:4 size:2 align:2 rm:4 \
+               vd=%vd_dp
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VFML_scalar(DisasContext *s, arg_VFML_scalar *a)
                        gen_helper_gvec_fmlal_idx_a32);
     return true;
 }
+
+static struct {
+    int nregs;
+    int interleave;
+    int spacing;
+} const neon_ls_element_type[11] = {
+    {1, 4, 1},
+    {1, 4, 2},
+    {4, 1, 1},
+    {2, 2, 2},
+    {1, 3, 1},
+    {1, 3, 2},
+    {3, 1, 1},
+    {1, 1, 1},
+    {1, 2, 1},
+    {1, 2, 2},
+    {2, 1, 1}
+};
+
+static void gen_neon_ldst_base_update(DisasContext *s, int rm, int rn,
+                                      int stride)
+{
+    if (rm != 15) {
+        TCGv_i32 base;
+
+        base = load_reg(s, rn);
+        if (rm == 13) {
+            tcg_gen_addi_i32(base, base, stride);
+        } else {
+            TCGv_i32 index;
+            index = load_reg(s, rm);
+            tcg_gen_add_i32(base, base, index);
+            tcg_temp_free_i32(index);
+        }
+        store_reg(s, rn, base);
+    }
+}
+
+static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
+{
+    /* Neon load/store multiple structures */
+    int nregs, interleave, spacing, reg, n;
+    MemOp endian = s->be_data;
+    int mmu_idx = get_mem_index(s);
+    int size = a->size;
+    TCGv_i64 tmp64;
+    TCGv_i32 addr, tmp;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist */
+    if (!dc_isar_feature(aa32_simd_r32, s) && (a->vd & 0x10)) {
+        return false;
+    }
+    if (a->itype > 10) {
+        return false;
+    }
+    /* Catch UNDEF cases for bad values of align field */
+    switch (a->itype & 0xc) {
+    case 4:
+        if (a->align >= 2) {
+            return false;
+        }
+        break;
+    case 8:
+        if (a->align == 3) {
+            return false;
+        }
+        break;
+    default:
+        break;
+    }
+    nregs = neon_ls_element_type[a->itype].nregs;
+    interleave = neon_ls_element_type[a->itype].interleave;
+    spacing = neon_ls_element_type[a->itype].spacing;
+    if (size == 3 && (interleave | spacing) != 1) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    /* For our purposes, bytes are always little-endian.  */
+    if (size == 0) {
+        endian = MO_LE;
+    }
+    /*
+     * Consecutive little-endian elements from a single register
+     * can be promoted to a larger little-endian operation.
+     */
+    if (interleave == 1 && endian == MO_LE) {
+        size = 3;
+    }
+    tmp64 = tcg_temp_new_i64();
+    addr = tcg_temp_new_i32();
+    tmp = tcg_const_i32(1 << size);
+    load_reg_var(s, addr, a->rn);
+    for (reg = 0; reg < nregs; reg++) {
+        for (n = 0; n < 8 >> size; n++) {
+            int xs;
+            for (xs = 0; xs < interleave; xs++) {
+                int tt = a->vd + reg + spacing * xs;
+
+                if (a->l) {
+                    gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
+                    neon_store_element64(tt, n, size, tmp64);
+                } else {
+                    neon_load_element64(tmp64, tt, n, size);
+                    gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
+                }
+                tcg_gen_add_i32(addr, addr, tmp);
+            }
+        }
+    }
+    tcg_temp_free_i32(addr);
+    tcg_temp_free_i32(tmp);
+    tcg_temp_free_i64(tmp64);
+
+    gen_neon_ldst_base_update(s, a->rm, a->rn, nregs * interleave * 8);
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_neon_trn_u16(TCGv_i32 t0, TCGv_i32 t1)
 }
 
 
-static struct {
-    int nregs;
-    int interleave;
-    int spacing;
-} const neon_ls_element_type[11] = {
-    {1, 4, 1},
-    {1, 4, 2},
-    {4, 1, 1},
-    {2, 2, 2},
-    {1, 3, 1},
-    {1, 3, 2},
-    {3, 1, 1},
-    {1, 1, 1},
-    {1, 2, 1},
-    {1, 2, 2},
-    {2, 1, 1}
-};
-
 /* Translate a NEON load/store element instruction.  Return nonzero if the
    instruction is invalid.  */
 static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
 {
     int rd, rn, rm;
-    int op;
     int nregs;
-    int interleave;
-    int spacing;
     int stride;
     int size;
     int reg;
     int load;
-    int n;
     int vec_size;
-    int mmu_idx;
-    MemOp endian;
     TCGv_i32 addr;
     TCGv_i32 tmp;
-    TCGv_i32 tmp2;
-    TCGv_i64 tmp64;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
         return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
     rn = (insn >> 16) & 0xf;
     rm = insn & 0xf;
     load = (insn & (1 << 21)) != 0;
-    endian = s->be_data;
-    mmu_idx = get_mem_index(s);
     if ((insn & (1 << 23)) == 0) {
-        /* Load store all elements.  */
-        op = (insn >> 8) & 0xf;
-        size = (insn >> 6) & 3;
-        if (op > 10)
-            return 1;
-        /* Catch UNDEF cases for bad values of align field */
-        switch (op & 0xc) {
-        case 4:
-            if (((insn >> 5) & 1) == 1) {
-                return 1;
-            }
-            break;
-        case 8:
-            if (((insn >> 4) & 3) == 3) {
-                return 1;
-            }
-            break;
-        default:
-            break;
-        }
-        nregs = neon_ls_element_type[op].nregs;
-        interleave = neon_ls_element_type[op].interleave;
-        spacing = neon_ls_element_type[op].spacing;
-        if (size == 3 && (interleave | spacing) != 1) {
-            return 1;
-        }
-        /* For our purposes, bytes are always little-endian.  */
-        if (size == 0) {
-            endian = MO_LE;
-        }
-        /* Consecutive little-endian elements from a single register
-         * can be promoted to a larger little-endian operation.
-         */
-        if (interleave == 1 && endian == MO_LE) {
-            size = 3;
-        }
-        tmp64 = tcg_temp_new_i64();
-        addr = tcg_temp_new_i32();
-        tmp2 = tcg_const_i32(1 << size);
-        load_reg_var(s, addr, rn);
-        for (reg = 0; reg < nregs; reg++) {
-            for (n = 0; n < 8 >> size; n++) {
-                int xs;
-                for (xs = 0; xs < interleave; xs++) {
-                    int tt = rd + reg + spacing * xs;
-
-                    if (load) {
-                        gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
-                        neon_store_element64(tt, n, size, tmp64);
-                    } else {
-                        neon_load_element64(tmp64, tt, n, size);
-                        gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
-                    }
-                    tcg_gen_add_i32(addr, addr, tmp2);
-                }
-            }
-        }
-        tcg_temp_free_i32(addr);
-        tcg_temp_free_i32(tmp2);
-        tcg_temp_free_i64(tmp64);
-        stride = nregs * interleave * 8;
+        /* Load store all elements -- handled already by decodetree */
+        return 1;
     } else {
         size = (insn >> 10) & 3;
         if (size == 3) {
-- 
2.20.1

Convert the Neon "load single structure to all lanes" insns to
decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-13-peter.maydell@linaro.org
---
 target/arm/neon-ls.decode       |  5 +++
 target/arm/translate-neon.inc.c | 73 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 55 +------------------------
 3 files changed, 80 insertions(+), 53 deletions(-)

Convert the Neon "load/store single structure to one lane" insns to
decodetree.

As this is the last set of insns in the neon load/store group,
we can remove the whole disas_neon_ls_insn() function.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-14-peter.maydell@linaro.org
---
 target/arm/neon-ls.decode       |  11 +++
 target/arm/translate-neon.inc.c |  89 +++++++++++++++++++
 target/arm/translate.c          | 147 --------------------------------
 3 files changed, 100 insertions(+), 147 deletions(-)

diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-ls.decode
+++ b/target/arm/neon-ls.decode
@@ -XXX,XX +XXX,XX @@ VLDST_multiple 1111 0100 0 . l:1 0 rn:4 .... itype:4 size:2 align:2 rm:4 \
 
 VLD_all_lanes  1111 0100 1 . 1 0 rn:4 .... 11 n:2 size:2 t:1 a:1 rm:4 \
                vd=%vd_dp
+
+# Neon load/store single structure to one lane
+%imm1_5_p1 5:1 !function=plus1
+%imm1_6_p1 6:1 !function=plus1
+
+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 00 n:2 reg_idx:3 align:1 rm:4 \
+               vd=%vd_dp size=0 stride=1
+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 align:2 rm:4 \
+               vd=%vd_dp size=1 stride=%imm1_5_p1
+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 align:3 rm:4 \
+               vd=%vd_dp size=2 stride=%imm1_6_p1
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@
  * It might be possible to convert it to a standalone .c file eventually.
  */
 
+static inline int plus1(DisasContext *s, int x)
+{
+    return x + 1;
+}
+
 /* Include the generated Neon decoder */
 #include "decode-neon-dp.inc.c"
 #include "decode-neon-ls.inc.c"
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
 
     return true;
 }
+
+static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
+{
+    /* Neon load/store single structure to one lane */
+    int reg;
+    int nregs = a->n + 1;
+    int vd = a->vd;
+    TCGv_i32 addr, tmp;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist */
+    if (!dc_isar_feature(aa32_simd_r32, s) && (a->vd & 0x10)) {
+        return false;
+    }
+
+    /* Catch the UNDEF cases. This is unavoidably a bit messy. */
+    switch (nregs) {
+    case 1:
+        if (((a->align & (1 << a->size)) != 0) ||
+            (a->size == 2 && ((a->align & 3) == 1 || (a->align & 3) == 2))) {
+            return false;
+        }
+        break;
+    case 3:
+        if ((a->align & 1) != 0) {
+            return false;
+        }
+        /* fall through */
+    case 2:
+        if (a->size == 2 && (a->align & 2) != 0) {
+            return false;
+        }
+        break;
+    case 4:
+        if ((a->size == 2) && ((a->align & 3) == 3)) {
+            return false;
+        }
+        break;
+    default:
+        abort();
+    }
+    if ((vd + a->stride * (nregs - 1)) > 31) {
+        /*
+         * Attempts to write off the end of the register file are
+         * UNPREDICTABLE; we choose to UNDEF because otherwise we would
+         * access off the end of the array that holds the register data.
+         */
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    tmp = tcg_temp_new_i32();
+    addr = tcg_temp_new_i32();
+    load_reg_var(s, addr, a->rn);
+    /*
+     * TODO: if we implemented alignment exceptions, we should check
+     * addr against the alignment encoded in a->align here.
+     */
+    for (reg = 0; reg < nregs; reg++) {
+        if (a->l) {
+            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
+                            s->be_data | a->size);
+            neon_store_element(vd, a->reg_idx, a->size, tmp);
+        } else { /* Store */
+            neon_load_element(tmp, vd, a->reg_idx, a->size);
+            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
+                            s->be_data | a->size);
+        }
+        vd += a->stride;
+        tcg_gen_addi_i32(addr, addr, 1 << a->size);
+    }
+    tcg_temp_free_i32(addr);
+    tcg_temp_free_i32(tmp);
+
+    gen_neon_ldst_base_update(s, a->rm, a->rn, (1 << a->size) * nregs);
+
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_neon_trn_u16(TCGv_i32 t0, TCGv_i32 t1)
     tcg_temp_free_i32(rd);
 }
 
-
-/* Translate a NEON load/store element instruction.  Return nonzero if the
-   instruction is invalid.  */
-static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-{
-    int rd, rn, rm;
-    int nregs;
-    int stride;
-    int size;
-    int reg;
-    int load;
-    TCGv_i32 addr;
-    TCGv_i32 tmp;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return 1;
-    }
-
-    /* FIXME: this access check should not take precedence over UNDEF
-     * for invalid encodings; we will generate incorrect syndrome information
-     * for attempts to execute invalid vfp/neon encodings with FP disabled.
-     */
-    if (s->fp_excp_el) {
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
-        return 0;
-    }
-
-    if (!s->vfp_enabled)
-      return 1;
-    VFP_DREG_D(rd, insn);
-    rn = (insn >> 16) & 0xf;
-    rm = insn & 0xf;
-    load = (insn & (1 << 21)) != 0;
-    if ((insn & (1 << 23)) == 0) {
-        /* Load store all elements -- handled already by decodetree */
-        return 1;
-    } else {
-        size = (insn >> 10) & 3;
-        if (size == 3) {
-            /* Load single element to all lanes -- handled by decodetree  */
-            return 1;
-        } else {
-            /* Single element.  */
-            int idx = (insn >> 4) & 0xf;
-            int reg_idx;
-            switch (size) {
-            case 0:
-                reg_idx = (insn >> 5) & 7;
-                stride = 1;
-                break;
-            case 1:
-                reg_idx = (insn >> 6) & 3;
-                stride = (insn & (1 << 5)) ? 2 : 1;
-                break;
-            case 2:
-                reg_idx = (insn >> 7) & 1;
-                stride = (insn & (1 << 6)) ? 2 : 1;
-                break;
-            default:
-                abort();
-            }
-            nregs = ((insn >> 8) & 3) + 1;
-            /* Catch the UNDEF cases. This is unavoidably a bit messy. */
-            switch (nregs) {
-            case 1:
-                if (((idx & (1 << size)) != 0) ||
-                    (size == 2 && ((idx & 3) == 1 || (idx & 3) == 2))) {
-                    return 1;
-                }
-                break;
-            case 3:
-                if ((idx & 1) != 0) {
-                    return 1;
-                }
-                /* fall through */
-            case 2:
-                if (size == 2 && (idx & 2) != 0) {
-                    return 1;
-                }
-                break;
-            case 4:
-                if ((size == 2) && ((idx & 3) == 3)) {
-                    return 1;
-                }
-                break;
-            default:
-                abort();
-            }
-            if ((rd + stride * (nregs - 1)) > 31) {
-                /* Attempts to write off the end of the register file
-                 * are UNPREDICTABLE; we choose to UNDEF because otherwise
-                 * the neon_load_reg() would write off the end of the array.
-                 */
-                return 1;
-            }
-            tmp = tcg_temp_new_i32();
-            addr = tcg_temp_new_i32();
-            load_reg_var(s, addr, rn);
-            for (reg = 0; reg < nregs; reg++) {
-                if (load) {
-                    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
-                                    s->be_data | size);
-                    neon_store_element(rd, reg_idx, size, tmp);
-                } else { /* Store */
-                    neon_load_element(tmp, rd, reg_idx, size);
-                    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
-                                    s->be_data | size);
-                }
-                rd += stride;
-                tcg_gen_addi_i32(addr, addr, 1 << size);
-            }
-            tcg_temp_free_i32(addr);
-            tcg_temp_free_i32(tmp);
-            stride = nregs * (1 << size);
-        }
-    }
-    if (rm != 15) {
-        TCGv_i32 base;
-
-        base = load_reg(s, rn);
-        if (rm == 13) {
-            tcg_gen_addi_i32(base, base, stride);
-        } else {
-            TCGv_i32 index;
-            index = load_reg(s, rm);
-            tcg_gen_add_i32(base, base, index);
-            tcg_temp_free_i32(index);
-        }
-        store_reg(s, rn, base);
-    }
-    return 0;
-}
-
 static inline void gen_neon_narrow(int size, TCGv_i32 dest, TCGv_i64 src)
 {
     switch (size) {
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
             }
             return;
         }
-        if ((insn & 0x0f100000) == 0x04000000) {
-            /* NEON load/store.  */
-            if (disas_neon_ls_insn(s, insn)) {
-                goto illegal_op;
-            }
-            return;
-        }
         if ((insn & 0x0e000f00) == 0x0c000100) {
             if (arm_dc_feature(s, ARM_FEATURE_IWMMXT)) {
                 /* iWMMXt register transfer.  */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
         }
         break;
     case 12:
-        if ((insn & 0x01100000) == 0x01000000) {
-            if (disas_neon_ls_insn(s, insn)) {
-                goto illegal_op;
-            }
-            break;
-        }
         goto illegal_op;
     default:
     illegal_op:
-- 
2.20.1

Convert the Neon 3-reg-same VADD and VSUB insns to decodetree.

Note that we don't need the neon_3r_sizes[op] check here because all
size values are OK for VADD and VSUB; we'll add this when we convert
the first insn that has size restrictions.

For this we need one of the GVecGen*Fn typedefs currently in
translate-a64.h; move them all to translate.h as a block so they
are visible to the 32-bit decoder.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-15-peter.maydell@linaro.org
---
 target/arm/translate-a64.h      |  9 --------
 target/arm/translate.h          |  9 ++++++++
 target/arm/neon-dp.decode       | 17 +++++++++++++++
 target/arm/translate-neon.inc.c | 38 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 14 ++++--------
 5 files changed, 68 insertions(+), 19 deletions(-)

diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.h
+++ b/target/arm/translate-a64.h
@@ -XXX,XX +XXX,XX @@ static inline int vec_full_reg_size(DisasContext *s)
 
 bool disas_sve(DisasContext *, uint32_t);
 
-/* Note that the gvec expanders operate on offsets + sizes.  */
-typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
-typedef void GVecGen2iFn(unsigned, uint32_t, uint32_t, int64_t,
-                         uint32_t, uint32_t);
-typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
-                        uint32_t, uint32_t, uint32_t);
-typedef void GVecGen4Fn(unsigned, uint32_t, uint32_t, uint32_t,
-                        uint32_t, uint32_t, uint32_t);
-
 #endif /* TARGET_ARM_TRANSLATE_A64_H */
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 #define dc_isar_feature(name, ctx) \
     ({ DisasContext *ctx_ = (ctx); isar_feature_##name(ctx_->isar); })
 
+/* Note that the gvec expanders operate on offsets + sizes.  */
+typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
+typedef void GVecGen2iFn(unsigned, uint32_t, uint32_t, int64_t,
+                         uint32_t, uint32_t);
+typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
+                        uint32_t, uint32_t, uint32_t);
+typedef void GVecGen4Fn(unsigned, uint32_t, uint32_t, uint32_t,
+                        uint32_t, uint32_t, uint32_t);
+
 #endif /* TARGET_ARM_TRANSLATE_H */
diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
 #
 # This file is processed by scripts/decodetree.py
 #
+# VFP/Neon register fields; same as vfp.decode
+%vm_dp  5:1 0:4
+%vn_dp  7:1 16:4
+%vd_dp  22:1 12:4
 
 # Encodings for Neon data processing instructions where the T32 encoding
 # is a simple transformation of the A32 encoding.
@@ -XXX,XX +XXX,XX @@
 #   0b111p_1111_qqqq_qqqq_qqqq_qqqq_qqqq_qqqq
 # This file works on the A32 encoding only; calling code for T32 has to
 # transform the insn into the A32 version first.
+
+######################################################################
+# 3-reg-same grouping:
+# 1111 001 U 0 D sz:2 Vn:4 Vd:4 opc:4 N Q M op Vm:4
+######################################################################
+
+&3same vm vn vd q size
+
+@3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+
+VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
+VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
 
     return true;
 }
+
+static bool do_3same(DisasContext *s, arg_3same *a, GVecGen3Fn fn)
+{
+    int vec_size = a->q ? 16 : 8;
+    int rd_ofs = neon_reg_offset(a->vd, 0);
+    int rn_ofs = neon_reg_offset(a->vn, 0);
+    int rm_ofs = neon_reg_offset(a->vm, 0);
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & a->q) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    fn(a->size, rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
+    return true;
+}
+
+#define DO_3SAME(INSN, FUNC)                                            \
+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+    {                                                                   \
+        return do_3same(s, a, FUNC);                                    \
+    }
+
+DO_3SAME(VADD, tcg_gen_gvec_add)
+DO_3SAME(VSUB, tcg_gen_gvec_sub)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             }
             return 0;
 
-        case NEON_3R_VADD_VSUB:
-            if (u) {
-                tcg_gen_gvec_sub(size, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-            } else {
-                tcg_gen_gvec_add(size, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-            }
-            return 0;
-
         case NEON_3R_VQADD:
             tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
                            rn_ofs, rm_ofs, vec_size, vec_size,
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
                            u ? &ushl_op[size] : &sshl_op[size]);
             return 0;
+
+        case NEON_3R_VADD_VSUB:
+            /* Already handled by decodetree */
+            return 1;
         }
 
         if (size == 3) {
-- 
2.20.1

Convert the Neon logic ops in the 3-reg-same grouping to decodetree.
Note that for the logic ops the 'size' field forms part of their
decode and the actual operations are always bitwise.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-16-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       | 12 +++++++++++
 target/arm/translate-neon.inc.c | 19 +++++++++++++++++
 target/arm/translate.c          | 38 +--------------------------------
 3 files changed, 32 insertions(+), 37 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
 @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 
+@3same_logic     .... ... . . . .. .... .... .... . q:1 .. .... \
+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp size=0
+
+VAND_3s          1111 001 0 0 . 00 .... .... 0001 ... 1 .... @3same_logic
+VBIC_3s          1111 001 0 0 . 01 .... .... 0001 ... 1 .... @3same_logic
+VORR_3s          1111 001 0 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+VORN_3s          1111 001 0 0 . 11 .... .... 0001 ... 1 .... @3same_logic
+VEOR_3s          1111 001 1 0 . 00 .... .... 0001 ... 1 .... @3same_logic
+VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
+VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
+
 VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
 VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool do_3same(DisasContext *s, arg_3same *a, GVecGen3Fn fn)
 
 DO_3SAME(VADD, tcg_gen_gvec_add)
 DO_3SAME(VSUB, tcg_gen_gvec_sub)
+DO_3SAME(VAND, tcg_gen_gvec_and)
+DO_3SAME(VBIC, tcg_gen_gvec_andc)
+DO_3SAME(VORR, tcg_gen_gvec_or)
+DO_3SAME(VORN, tcg_gen_gvec_orc)
+DO_3SAME(VEOR, tcg_gen_gvec_xor)
+
+/* These insns are all gvec_bitsel but with the inputs in various orders. */
+#define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        tcg_gen_gvec_bitsel(vece, rd_ofs, O1, O2, O3, oprsz, maxsz);    \
+    }                                                                   \
+    DO_3SAME(INSN, gen_##INSN##_3s)
+
+DO_3SAME_BITSEL(VBSL, rd_ofs, rn_ofs, rm_ofs)
+DO_3SAME_BITSEL(VBIT, rm_ofs, rn_ofs, rd_ofs)
+DO_3SAME_BITSEL(VBIF, rm_ofs, rd_ofs, rn_ofs)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             }
             return 1;
 
-        case NEON_3R_LOGIC: /* Logic ops.  */
-            switch ((u << 2) | size) {
-            case 0: /* VAND */
-                tcg_gen_gvec_and(0, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-                break;
-            case 1: /* VBIC */
-                tcg_gen_gvec_andc(0, rd_ofs, rn_ofs, rm_ofs,
-                                  vec_size, vec_size);
-                break;
-            case 2: /* VORR */
-                tcg_gen_gvec_or(0, rd_ofs, rn_ofs, rm_ofs,
-                                vec_size, vec_size);
-                break;
-            case 3: /* VORN */
-                tcg_gen_gvec_orc(0, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-                break;
-            case 4: /* VEOR */
-                tcg_gen_gvec_xor(0, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-                break;
-            case 5: /* VBSL */
-                tcg_gen_gvec_bitsel(MO_8, rd_ofs, rd_ofs, rn_ofs, rm_ofs,
-                                    vec_size, vec_size);
-                break;
-            case 6: /* VBIT */
-                tcg_gen_gvec_bitsel(MO_8, rd_ofs, rm_ofs, rn_ofs, rd_ofs,
-                                    vec_size, vec_size);
-                break;
-            case 7: /* VBIF */
-                tcg_gen_gvec_bitsel(MO_8, rd_ofs, rm_ofs, rd_ofs, rn_ofs,
-                                    vec_size, vec_size);
-                break;
-            }
-            return 0;
-
         case NEON_3R_VQADD:
             tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
                            rn_ofs, rm_ofs, vec_size, vec_size,
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             return 0;
 
         case NEON_3R_VADD_VSUB:
+        case NEON_3R_LOGIC:
             /* Already handled by decodetree */
             return 1;
         }
-- 
2.20.1

Convert the Neon 3-reg-same VMAX and VMIN insns to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-17-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  5 +++++
 target/arm/translate-neon.inc.c | 14 ++++++++++++++
 target/arm/translate.c          | 21 ++-------------------
 3 files changed, 21 insertions(+), 19 deletions(-)

Convert the Neon comparison ops in the 3-reg-same grouping
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-18-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  8 ++++++++
 target/arm/translate-neon.inc.c | 22 ++++++++++++++++++++++
 target/arm/translate.c          | 23 +++--------------------
 3 files changed, 33 insertions(+), 20 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
 VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
 VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
 
+VCGT_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 0 .... @3same
+VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
+VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
+VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
+
 VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
 VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
 VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
@@ -XXX,XX +XXX,XX @@ VMIN_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 1 .... @3same
 
 VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
 VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
+
+VTST_3s          1111 001 0 0 . .. .... .... 1000 . . . 1 .... @3same
+VCEQ_3s          1111 001 1 0 . .. .... .... 1000 . . . 1 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMAX_S, tcg_gen_gvec_smax)
 DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
 DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
 DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
+
+#define DO_3SAME_CMP(INSN, COND)                                        \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        tcg_gen_gvec_cmp(COND, vece, rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz); \
+    }                                                                   \
+    DO_3SAME_NO_SZ_3(INSN, gen_##INSN##_3s)
+
+DO_3SAME_CMP(VCGT_S, TCG_COND_GT)
+DO_3SAME_CMP(VCGT_U, TCG_COND_GTU)
+DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
+DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
+DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
+
+static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                         uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
+{
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
+}
+DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                            u ? &mls_op[size] : &mla_op[size]);
             return 0;
 
-        case NEON_3R_VTST_VCEQ:
-            if (u) { /* VCEQ */
-                tcg_gen_gvec_cmp(TCG_COND_EQ, size, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-            } else { /* VTST */
-                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
-                               vec_size, vec_size, &cmtst_op[size]);
-            }
-            return 0;
-
-        case NEON_3R_VCGT:
-            tcg_gen_gvec_cmp(u ? TCG_COND_GTU : TCG_COND_GT, size,
-                             rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
-            return 0;
-
-        case NEON_3R_VCGE:
-            tcg_gen_gvec_cmp(u ? TCG_COND_GEU : TCG_COND_GE, size,
-                             rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
-            return 0;
-
         case NEON_3R_VSHL:
             /* Note the operation is vshl vd,vm,vn */
             tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_LOGIC:
         case NEON_3R_VMAX:
         case NEON_3R_VMIN:
+        case NEON_3R_VTST_VCEQ:
+        case NEON_3R_VCGT:
+        case NEON_3R_VCGE:
             /* Already handled by decodetree */
             return 1;
         }
-- 
2.20.1

Convert the Neon VQADD/VQSUB insns in the 3-reg-same grouping
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-19-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  6 ++++++
 target/arm/translate-neon.inc.c | 15 +++++++++++++++
 target/arm/translate.c          | 14 ++------------
 3 files changed, 23 insertions(+), 12 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
 @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 
+VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
+VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
+
 @3same_logic     .... ... . . . .. .... .... .... . q:1 .. .... \
                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp size=0
 
@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
 VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
 VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
 
+VQSUB_S_3s       1111 001 0 0 . .. .... .... 0010 . . . 1 .... @3same
+VQSUB_U_3s       1111 001 1 0 . .. .... .... 0010 . . . 1 .... @3same
+
 VCGT_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 0 .... @3same
 VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
 VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
     tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
 }
 DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
+
+#define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),           \
+                       rn_ofs, rm_ofs, oprsz, maxsz, &OPARRAY[vece]);   \
+    }                                                                   \
+    DO_3SAME(INSN, gen_##INSN##_3s)
+
+DO_3SAME_GVEC4(VQADD_S, sqadd_op)
+DO_3SAME_GVEC4(VQADD_U, uqadd_op)
+DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
+DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             }
             return 1;
 
-        case NEON_3R_VQADD:
-            tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                           rn_ofs, rm_ofs, vec_size, vec_size,
-                           (u ? uqadd_op : sqadd_op) + size);
-            return 0;
-
-        case NEON_3R_VQSUB:
-            tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                           rn_ofs, rm_ofs, vec_size, vec_size,
-                           (u ? uqsub_op : sqsub_op) + size);
-            return 0;
-
         case NEON_3R_VMUL: /* VMUL */
             if (u) {
                 /* Polynomial case allows only P8.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VTST_VCEQ:
         case NEON_3R_VCGT:
         case NEON_3R_VCGE:
+        case NEON_3R_VQADD:
+        case NEON_3R_VQSUB:
             /* Already handled by decodetree */
             return 1;
         }
-- 
2.20.1

Convert the Neon VMUL, VMLA, VMLS and VSHL insns in the
3-reg-same grouping to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-20-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  9 +++++++
 target/arm/translate-neon.inc.c | 44 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 28 +++------------------
 3 files changed, 56 insertions(+), 25 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
 VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
 VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
 
+VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same
+VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same
+
 VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
 VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
 VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
@@ -XXX,XX +XXX,XX @@ VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
 
 VTST_3s          1111 001 0 0 . .. .... .... 1000 . . . 1 .... @3same
 VCEQ_3s          1111 001 1 0 . .. .... .... 1000 . . . 1 .... @3same
+
+VMLA_3s          1111 001 0 0 . .. .... .... 1001 . . . 0 .... @3same
+VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
+
+VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
+VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMAX_S, tcg_gen_gvec_smax)
 DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
 DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
 DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
+DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_GVEC4(VQADD_S, sqadd_op)
 DO_3SAME_GVEC4(VQADD_U, uqadd_op)
 DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
 DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
+
+static void gen_VMUL_p_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                           uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
+{
+    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz,
+                       0, gen_helper_gvec_pmul_b);
+}
+
+static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
+{
+    if (a->size != 0) {
+        return false;
+    }
+    return do_3same(s, a, gen_VMUL_p_3s);
+}
+
+#define DO_3SAME_GVEC3_NO_SZ_3(INSN, OPARRAY)                           \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
+                       oprsz, maxsz, &OPARRAY[vece]);                   \
+    }                                                                   \
+    DO_3SAME_NO_SZ_3(INSN, gen_##INSN##_3s)
+
+
+DO_3SAME_GVEC3_NO_SZ_3(VMLA, mla_op)
+DO_3SAME_GVEC3_NO_SZ_3(VMLS, mls_op)
+
+#define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        /* Note the operation is vshl vd,vm,vn */                       \
+        tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs,                          \
+                       oprsz, maxsz, &OPARRAY[vece]);                   \
+    }                                                                   \
+    DO_3SAME(INSN, gen_##INSN##_3s)
+
+DO_3SAME_GVEC3_SHIFT(VSHL_S, sshl_op)
+DO_3SAME_GVEC3_SHIFT(VSHL_U, ushl_op)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             }
             return 1;
 
-        case NEON_3R_VMUL: /* VMUL */
-            if (u) {
-                /* Polynomial case allows only P8.  */
-                if (size != 0) {
-                    return 1;
-                }
-                tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size,
-                                   0, gen_helper_gvec_pmul_b);
-            } else {
-                tcg_gen_gvec_mul(size, rd_ofs, rn_ofs, rm_ofs,
-                                 vec_size, vec_size);
-            }
-            return 0;
-
-        case NEON_3R_VML: /* VMLA, VMLS */
-            tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size,
-                           u ? &mls_op[size] : &mla_op[size]);
-            return 0;
-
-        case NEON_3R_VSHL:
-            /* Note the operation is vshl vd,vm,vn */
-            tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs, vec_size, vec_size,
-                           u ? &ushl_op[size] : &sshl_op[size]);
-            return 0;
-
         case NEON_3R_VADD_VSUB:
         case NEON_3R_LOGIC:
         case NEON_3R_VMAX:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VCGE:
         case NEON_3R_VQADD:
         case NEON_3R_VQSUB:
+        case NEON_3R_VMUL:
+        case NEON_3R_VML:
+        case NEON_3R_VSHL:
             /* Already handled by decodetree */
             return 1;
         }
-- 
2.20.1

We're going to want at least some of the NeonGen* typedefs
for the refactored 32-bit Neon decoder, so move them all
to translate.h since it makes more sense to keep them in
one group.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200430181003.21682-23-peter.maydell@linaro.org
---
 target/arm/translate.h     | 17 +++++++++++++++++
 target/arm/translate-a64.c | 17 -----------------
 2 files changed, 17 insertions(+), 17 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
 typedef void GVecGen4Fn(unsigned, uint32_t, uint32_t, uint32_t,
                         uint32_t, uint32_t, uint32_t);
 
+/* Function prototype for gen_ functions for calling Neon helpers */
+typedef void NeonGenOneOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32);
+typedef void NeonGenTwoOpFn(TCGv_i32, TCGv_i32, TCGv_i32);
+typedef void NeonGenTwoOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
+typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
+typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
+typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
+typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
+typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
+typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
+typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
+typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
+typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
+typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
+
 #endif /* TARGET_ARM_TRANSLATE_H */
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ typedef struct AArch64DecodeTable {
     AArch64DecodeFn *disas_fn;
 } AArch64DecodeTable;
 
-/* Function prototype for gen_ functions for calling Neon helpers */
-typedef void NeonGenOneOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32);
-typedef void NeonGenTwoOpFn(TCGv_i32, TCGv_i32, TCGv_i32);
-typedef void NeonGenTwoOpEnvFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
-typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
-typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
-typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
-typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
-typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
-typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
-typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
-typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
-typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
-typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
-typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
-typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
-
 /* initialize TCG globals.  */
 void a64_translate_init(void)
 {
-- 
2.20.1

Last pullreq before 6.0 softfreeze: a few minor feature patches,
some bugfixes, some cleanups.

-- PMM

The following changes since commit 6f34661b6c97a37a5efc27d31c037ddeda4547e2:

Merge remote-tracking branch 'remotes/vivier2/tags/trivial-branch-for-6.0-pull-request' into staging (2021-03-11 18:55:27 +0000)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210312-1

for you to fetch changes up to 41f09f2e9f09e4dd386d84174a6dcb5136af17ca:

hw/display/pxa2xx: Inline template header (2021-03-12 13:26:08 +0000)

----------------------------------------------------------------
target-arm queue:
 * versal: Support XRAMs and XRAM controller
 * smmu: Various minor bug fixes
 * SVE emulation: fix bugs handling odd vector lengths
 * allwinner-sun8i-emac: traverse transmit queue using TX_CUR_DESC register value
 * tests/acceptance: fix orangepi-pc acceptance tests
 * hw/timer/sse-timer: Propagate eventual error in sse_timer_realize()
 * hw/arm/virt: KVM: The IPA lower bound is 32
 * npcm7xx: support MFT module
 * pl110, pxa2xx_lcd: tidy up template headers

----------------------------------------------------------------
Andrew Jones (2):
      accel: kvm: Fix kvm_type invocation
      hw/arm/virt: KVM: The IPA lower bound is 32

Edgar E. Iglesias (2):
      hw/misc: versal: Add a model of the XRAM controller
      hw/arm: versal: Add support for the XRAMs

Eric Auger (7):
      intel_iommu: Fix mask may be uninitialized in vtd_context_device_invalidate
      dma: Introduce dma_aligned_pow2_mask()
      virtio-iommu: Handle non power of 2 range invalidations
      hw/arm/smmu-common: Fix smmu_iotlb_inv_iova when asid is not set
      hw/arm/smmuv3: Enforce invalidation on a power of two range
      hw/arm/smmuv3: Fix SMMU_CMD_CFGI_STE_RANGE handling
      hw/arm/smmuv3: Uniformize sid traces

Hao Wu (5):
      hw/misc: Add GPIOs for duty in NPCM7xx PWM
      hw/misc: Add NPCM7XX MFT Module
      hw/arm: Add MFT device to NPCM7xx Soc
      hw/arm: Connect PWM fans in NPCM7XX boards
      tests/qtest: Test PWM fan RPM using MFT in PWM test

Niek Linnenbank (5):
      hw/net/allwinner-sun8i-emac: traverse transmit queue using TX_CUR_DESC register value
      tests/acceptance/boot_linux_console: remove Armbian 19.11.3 bionic test for orangepi-pc machine
      tests/acceptance/boot_linux_console: change URL for test_arm_orangepi_bionic_20_08
      tests/acceptance: update sunxi kernel from armbian to 5.10.16
      tests/acceptance: drop ARMBIAN_ARTIFACTS_CACHED condition for orangepi-pc, cubieboard tests

Peter Maydell (9):
      hw/display/pl110: Remove dead code for non-32-bpp surfaces
      hw/display/pl110: Pull included-once parts of template header into pl110.c
      hw/display/pl110: Remove use of BITS from pl110_template.h
      hw/display/pxa2xx_lcd: Remove dead code for non-32-bpp surfaces
      hw/display/pxa2xx_lcd: Remove dest_width state field
      hw/display/pxa2xx: Remove use of BITS in pxa2xx_template.h
      hw/display/pxa2xx: Apply brace-related coding style fixes to template header
      hw/display/pxa2xx: Apply whitespace-only coding style fixes to template header
      hw/display/pxa2xx: Inline template header

Philippe Mathieu-Daudé (1):
      hw/timer/sse-timer: Propagate eventual error in sse_timer_realize()

Richard Henderson (8):
      target/arm: Fix sve_uzp_p vs odd vector lengths
      target/arm: Fix sve_zip_p vs odd vector lengths
      target/arm: Fix sve_punpk_p vs odd vector lengths
      target/arm: Update find_last_active for PREDDESC
      target/arm: Update BRKA, BRKB, BRKN for PREDDESC
      target/arm: Update CNTP for PREDDESC
      target/arm: Update WHILE for PREDDESC
      target/arm: Update sve reduction vs simd_desc

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Add a model of the Xilinx Versal Accelerator RAM (XRAM).
This is mainly a stub to make firmware happy. The size of
the RAMs can be probed. The interrupt mask logic is
modelled but none of the interrups will ever be raised
unless injected.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20210308224637.2949533-2-edgar.iglesias@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/misc/xlnx-versal-xramc.h |  97 +++++++++++
 hw/misc/xlnx-versal-xramc.c         | 253 ++++++++++++++++++++++++++++
 hw/misc/meson.build                 |   1 +
 3 files changed, 351 insertions(+)
 create mode 100644 include/hw/misc/xlnx-versal-xramc.h
 create mode 100644 hw/misc/xlnx-versal-xramc.c

diff --git a/include/hw/misc/xlnx-versal-xramc.h b/include/hw/misc/xlnx-versal-xramc.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/misc/xlnx-versal-xramc.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * QEMU model of the Xilinx XRAM Controller.
+ *
+ * Copyright (c) 2021 Xilinx Inc.
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+ */
+
+#ifndef XLNX_VERSAL_XRAMC_H
+#define XLNX_VERSAL_XRAMC_H
+
+#include "hw/sysbus.h"
+#include "hw/register.h"
+
+#define TYPE_XLNX_XRAM_CTRL "xlnx.versal-xramc"
+
+#define XLNX_XRAM_CTRL(obj) \
+     OBJECT_CHECK(XlnxXramCtrl, (obj), TYPE_XLNX_XRAM_CTRL)
+
+REG32(XRAM_ERR_CTRL, 0x0)
+    FIELD(XRAM_ERR_CTRL, UE_RES, 3, 1)
+    FIELD(XRAM_ERR_CTRL, PWR_ERR_RES, 2, 1)
+    FIELD(XRAM_ERR_CTRL, PZ_ERR_RES, 1, 1)
+    FIELD(XRAM_ERR_CTRL, APB_ERR_RES, 0, 1)
+REG32(XRAM_ISR, 0x4)
+    FIELD(XRAM_ISR, INV_APB, 0, 1)
+REG32(XRAM_IMR, 0x8)
+    FIELD(XRAM_IMR, INV_APB, 0, 1)
+REG32(XRAM_IEN, 0xc)
+    FIELD(XRAM_IEN, INV_APB, 0, 1)
+REG32(XRAM_IDS, 0x10)
+    FIELD(XRAM_IDS, INV_APB, 0, 1)
+REG32(XRAM_ECC_CNTL, 0x14)
+    FIELD(XRAM_ECC_CNTL, FI_MODE, 2, 1)
+    FIELD(XRAM_ECC_CNTL, DET_ONLY, 1, 1)
+    FIELD(XRAM_ECC_CNTL, ECC_ON_OFF, 0, 1)
+REG32(XRAM_CLR_EXE, 0x18)
+    FIELD(XRAM_CLR_EXE, MON_7, 7, 1)
+    FIELD(XRAM_CLR_EXE, MON_6, 6, 1)
+    FIELD(XRAM_CLR_EXE, MON_5, 5, 1)
+    FIELD(XRAM_CLR_EXE, MON_4, 4, 1)
+    FIELD(XRAM_CLR_EXE, MON_3, 3, 1)
+    FIELD(XRAM_CLR_EXE, MON_2, 2, 1)
+    FIELD(XRAM_CLR_EXE, MON_1, 1, 1)
+    FIELD(XRAM_CLR_EXE, MON_0, 0, 1)
+REG32(XRAM_CE_FFA, 0x1c)
+    FIELD(XRAM_CE_FFA, ADDR, 0, 20)
+REG32(XRAM_CE_FFD0, 0x20)
+REG32(XRAM_CE_FFD1, 0x24)
+REG32(XRAM_CE_FFD2, 0x28)
+REG32(XRAM_CE_FFD3, 0x2c)
+REG32(XRAM_CE_FFE, 0x30)
+    FIELD(XRAM_CE_FFE, SYNDROME, 0, 16)
+REG32(XRAM_UE_FFA, 0x34)
+    FIELD(XRAM_UE_FFA, ADDR, 0, 20)
+REG32(XRAM_UE_FFD0, 0x38)
+REG32(XRAM_UE_FFD1, 0x3c)
+REG32(XRAM_UE_FFD2, 0x40)
+REG32(XRAM_UE_FFD3, 0x44)
+REG32(XRAM_UE_FFE, 0x48)
+    FIELD(XRAM_UE_FFE, SYNDROME, 0, 16)
+REG32(XRAM_FI_D0, 0x4c)
+REG32(XRAM_FI_D1, 0x50)
+REG32(XRAM_FI_D2, 0x54)
+REG32(XRAM_FI_D3, 0x58)
+REG32(XRAM_FI_SY, 0x5c)
+    FIELD(XRAM_FI_SY, DATA, 0, 16)
+REG32(XRAM_RMW_UE_FFA, 0x70)
+    FIELD(XRAM_RMW_UE_FFA, ADDR, 0, 20)
+REG32(XRAM_FI_CNTR, 0x74)
+    FIELD(XRAM_FI_CNTR, COUNT, 0, 24)
+REG32(XRAM_IMP, 0x80)
+    FIELD(XRAM_IMP, SIZE, 0, 4)
+REG32(XRAM_PRDY_DBG, 0x84)
+    FIELD(XRAM_PRDY_DBG, ISLAND3, 12, 4)
+    FIELD(XRAM_PRDY_DBG, ISLAND2, 8, 4)
+    FIELD(XRAM_PRDY_DBG, ISLAND1, 4, 4)
+    FIELD(XRAM_PRDY_DBG, ISLAND0, 0, 4)
+REG32(XRAM_SAFETY_CHK, 0xff8)
+
+#define XRAM_CTRL_R_MAX (R_XRAM_SAFETY_CHK + 1)
+
+typedef struct XlnxXramCtrl {
+    SysBusDevice parent_obj;
+    MemoryRegion ram;
+    qemu_irq irq;
+
+    struct {
+        uint64_t size;
+        unsigned int encoded_size;
+    } cfg;
+
+    RegisterInfoArray *reg_array;
+    uint32_t regs[XRAM_CTRL_R_MAX];
+    RegisterInfo regs_info[XRAM_CTRL_R_MAX];
+} XlnxXramCtrl;
+#endif
diff --git a/hw/misc/xlnx-versal-xramc.c b/hw/misc/xlnx-versal-xramc.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/misc/xlnx-versal-xramc.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QEMU model of the Xilinx XRAM Controller.
+ *
+ * Copyright (c) 2021 Xilinx Inc.
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ * Written by Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/units.h"
+#include "qapi/error.h"
+#include "migration/vmstate.h"
+#include "hw/sysbus.h"
+#include "hw/register.h"
+#include "hw/qdev-properties.h"
+#include "hw/irq.h"
+#include "hw/misc/xlnx-versal-xramc.h"
+
+#ifndef XLNX_XRAM_CTRL_ERR_DEBUG
+#define XLNX_XRAM_CTRL_ERR_DEBUG 0
+#endif
+
+static void xram_update_irq(XlnxXramCtrl *s)
+{
+    bool pending = s->regs[R_XRAM_ISR] & ~s->regs[R_XRAM_IMR];
+    qemu_set_irq(s->irq, pending);
+}
+
+static void xram_isr_postw(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(reg->opaque);
+    xram_update_irq(s);
+}
+
+static uint64_t xram_ien_prew(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(reg->opaque);
+    uint32_t val = val64;
+
+    s->regs[R_XRAM_IMR] &= ~val;
+    xram_update_irq(s);
+    return 0;
+}
+
+static uint64_t xram_ids_prew(RegisterInfo *reg, uint64_t val64)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(reg->opaque);
+    uint32_t val = val64;
+
+    s->regs[R_XRAM_IMR] |= val;
+    xram_update_irq(s);
+    return 0;
+}
+
+static const RegisterAccessInfo xram_ctrl_regs_info[] = {
+    {   .name = "XRAM_ERR_CTRL",  .addr = A_XRAM_ERR_CTRL,
+        .reset = 0xf,
+        .rsvd = 0xfffffff0,
+    },{ .name = "XRAM_ISR",  .addr = A_XRAM_ISR,
+        .rsvd = 0xfffff800,
+        .w1c = 0x7ff,
+        .post_write = xram_isr_postw,
+    },{ .name = "XRAM_IMR",  .addr = A_XRAM_IMR,
+        .reset = 0x7ff,
+        .rsvd = 0xfffff800,
+        .ro = 0x7ff,
+    },{ .name = "XRAM_IEN",  .addr = A_XRAM_IEN,
+        .rsvd = 0xfffff800,
+        .pre_write = xram_ien_prew,
+    },{ .name = "XRAM_IDS",  .addr = A_XRAM_IDS,
+        .rsvd = 0xfffff800,
+        .pre_write = xram_ids_prew,
+    },{ .name = "XRAM_ECC_CNTL",  .addr = A_XRAM_ECC_CNTL,
+        .rsvd = 0xfffffff8,
+    },{ .name = "XRAM_CLR_EXE",  .addr = A_XRAM_CLR_EXE,
+        .rsvd = 0xffffff00,
+    },{ .name = "XRAM_CE_FFA",  .addr = A_XRAM_CE_FFA,
+        .rsvd = 0xfff00000,
+        .ro = 0xfffff,
+    },{ .name = "XRAM_CE_FFD0",  .addr = A_XRAM_CE_FFD0,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_CE_FFD1",  .addr = A_XRAM_CE_FFD1,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_CE_FFD2",  .addr = A_XRAM_CE_FFD2,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_CE_FFD3",  .addr = A_XRAM_CE_FFD3,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_CE_FFE",  .addr = A_XRAM_CE_FFE,
+        .rsvd = 0xffff0000,
+        .ro = 0xffff,
+    },{ .name = "XRAM_UE_FFA",  .addr = A_XRAM_UE_FFA,
+        .rsvd = 0xfff00000,
+        .ro = 0xfffff,
+    },{ .name = "XRAM_UE_FFD0",  .addr = A_XRAM_UE_FFD0,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_UE_FFD1",  .addr = A_XRAM_UE_FFD1,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_UE_FFD2",  .addr = A_XRAM_UE_FFD2,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_UE_FFD3",  .addr = A_XRAM_UE_FFD3,
+        .ro = 0xffffffff,
+    },{ .name = "XRAM_UE_FFE",  .addr = A_XRAM_UE_FFE,
+        .rsvd = 0xffff0000,
+        .ro = 0xffff,
+    },{ .name = "XRAM_FI_D0",  .addr = A_XRAM_FI_D0,
+    },{ .name = "XRAM_FI_D1",  .addr = A_XRAM_FI_D1,
+    },{ .name = "XRAM_FI_D2",  .addr = A_XRAM_FI_D2,
+    },{ .name = "XRAM_FI_D3",  .addr = A_XRAM_FI_D3,
+    },{ .name = "XRAM_FI_SY",  .addr = A_XRAM_FI_SY,
+        .rsvd = 0xffff0000,
+    },{ .name = "XRAM_RMW_UE_FFA",  .addr = A_XRAM_RMW_UE_FFA,
+        .rsvd = 0xfff00000,
+        .ro = 0xfffff,
+    },{ .name = "XRAM_FI_CNTR",  .addr = A_XRAM_FI_CNTR,
+        .rsvd = 0xff000000,
+    },{ .name = "XRAM_IMP",  .addr = A_XRAM_IMP,
+        .reset = 0x4,
+        .rsvd = 0xfffffff0,
+        .ro = 0xf,
+    },{ .name = "XRAM_PRDY_DBG",  .addr = A_XRAM_PRDY_DBG,
+        .reset = 0xffff,
+        .rsvd = 0xffff0000,
+        .ro = 0xffff,
+    },{ .name = "XRAM_SAFETY_CHK",  .addr = A_XRAM_SAFETY_CHK,
+    }
+};
+
+static void xram_ctrl_reset_enter(Object *obj, ResetType type)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
+    unsigned int i;
+
+    for (i = 0; i < ARRAY_SIZE(s->regs_info); ++i) {
+        register_reset(&s->regs_info[i]);
+    }
+
+    ARRAY_FIELD_DP32(s->regs, XRAM_IMP, SIZE, s->cfg.encoded_size);
+}
+
+static void xram_ctrl_reset_hold(Object *obj)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
+
+    xram_update_irq(s);
+}
+
+static const MemoryRegionOps xram_ctrl_ops = {
+    .read = register_read_memory,
+    .write = register_write_memory,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid = {
+        .min_access_size = 4,
+        .max_access_size = 4,
+    },
+};
+
+static void xram_ctrl_realize(DeviceState *dev, Error **errp)
+{
+    SysBusDevice *sbd = SYS_BUS_DEVICE(dev);
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(dev);
+
+    switch (s->cfg.size) {
+    case 64 * KiB:
+        s->cfg.encoded_size = 0;
+        break;
+    case 128 * KiB:
+        s->cfg.encoded_size = 1;
+        break;
+    case 256 * KiB:
+        s->cfg.encoded_size = 2;
+        break;
+    case 512 * KiB:
+        s->cfg.encoded_size = 3;
+        break;
+    case 1 * MiB:
+        s->cfg.encoded_size = 4;
+        break;
+    default:
+        error_setg(errp, "Unsupported XRAM size %" PRId64, s->cfg.size);
+        return;
+    }
+
+    memory_region_init_ram(&s->ram, OBJECT(s),
+                           object_get_canonical_path_component(OBJECT(s)),
+                           s->cfg.size, &error_fatal);
+    sysbus_init_mmio(sbd, &s->ram);
+}
+
+static void xram_ctrl_init(Object *obj)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
+    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
+
+    s->reg_array =
+        register_init_block32(DEVICE(obj), xram_ctrl_regs_info,
+                              ARRAY_SIZE(xram_ctrl_regs_info),
+                              s->regs_info, s->regs,
+                              &xram_ctrl_ops,
+                              XLNX_XRAM_CTRL_ERR_DEBUG,
+                              XRAM_CTRL_R_MAX * 4);
+    sysbus_init_mmio(sbd, &s->reg_array->mem);
+    sysbus_init_irq(sbd, &s->irq);
+}
+
+static void xram_ctrl_finalize(Object *obj)
+{
+    XlnxXramCtrl *s = XLNX_XRAM_CTRL(obj);
+    register_finalize_block(s->reg_array);
+}
+
+static const VMStateDescription vmstate_xram_ctrl = {
+    .name = TYPE_XLNX_XRAM_CTRL,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_UINT32_ARRAY(regs, XlnxXramCtrl, XRAM_CTRL_R_MAX),
+        VMSTATE_END_OF_LIST(),
+    }
+};
+
+static Property xram_ctrl_properties[] = {
+    DEFINE_PROP_UINT64("size", XlnxXramCtrl, cfg.size, 1 * MiB),
+    DEFINE_PROP_END_OF_LIST(),
+};
+
+static void xram_ctrl_class_init(ObjectClass *klass, void *data)
+{
+    ResettableClass *rc = RESETTABLE_CLASS(klass);
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->realize = xram_ctrl_realize;
+    dc->vmsd = &vmstate_xram_ctrl;
+    device_class_set_props(dc, xram_ctrl_properties);
+
+    rc->phases.enter = xram_ctrl_reset_enter;
+    rc->phases.hold = xram_ctrl_reset_hold;
+}
+
+static const TypeInfo xram_ctrl_info = {
+    .name              = TYPE_XLNX_XRAM_CTRL,
+    .parent            = TYPE_SYS_BUS_DEVICE,
+    .instance_size     = sizeof(XlnxXramCtrl),
+    .class_init        = xram_ctrl_class_init,
+    .instance_init     = xram_ctrl_init,
+    .instance_finalize = xram_ctrl_finalize,
+};
+
+static void xram_ctrl_register_types(void)
+{
+    type_register_static(&xram_ctrl_info);
+}
+
+type_init(xram_ctrl_register_types)
diff --git a/hw/misc/meson.build b/hw/misc/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/meson.build
+++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
 ))
 softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
 softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
+softmmu_ss.add(when: 'CONFIG_XLNX_VERSAL', if_true: files('xlnx-versal-xramc.c'))
 softmmu_ss.add(when: 'CONFIG_STM32F2XX_SYSCFG', if_true: files('stm32f2xx_syscfg.c'))
 softmmu_ss.add(when: 'CONFIG_STM32F4XX_SYSCFG', if_true: files('stm32f4xx_syscfg.c'))
 softmmu_ss.add(when: 'CONFIG_STM32F4XX_EXTI', if_true: files('stm32f4xx_exti.c'))
-- 
2.20.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Connect the support for the Versal Accelerator RAMs (XRAMs).

Reviewed-by: Luc Michel <luc@lmichel.fr>
Acked-by: Alistair Francis <alistair.francis@wdc.com>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20210308224637.2949533-3-edgar.iglesias@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/xlnx-versal-virt.rst |  1 +
 include/hw/arm/xlnx-versal.h         | 13 ++++++++++
 hw/arm/xlnx-versal.c                 | 36 ++++++++++++++++++++++++++++
 3 files changed, 50 insertions(+)

diff --git a/docs/system/arm/xlnx-versal-virt.rst b/docs/system/arm/xlnx-versal-virt.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/xlnx-versal-virt.rst
+++ b/docs/system/arm/xlnx-versal-virt.rst
@@ -XXX,XX +XXX,XX @@ Implemented devices:
 - 8 ADMA (Xilinx zDMA) channels
 - 2 SD Controllers
 - OCM (256KB of On Chip Memory)
+- XRAM (4MB of on chip Accelerator RAM)
 - DDR memory
 
 QEMU does not yet model any other devices, including the PL and the AI Engine.
diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-versal.h
+++ b/include/hw/arm/xlnx-versal.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/sysbus.h"
 #include "hw/arm/boot.h"
+#include "hw/or-irq.h"
 #include "hw/sd/sdhci.h"
 #include "hw/intc/arm_gicv3.h"
 #include "hw/char/pl011.h"
@@ -XXX,XX +XXX,XX @@
 #include "hw/rtc/xlnx-zynqmp-rtc.h"
 #include "qom/object.h"
 #include "hw/usb/xlnx-usb-subsystem.h"
+#include "hw/misc/xlnx-versal-xramc.h"
 
 #define TYPE_XLNX_VERSAL "xlnx-versal"
 OBJECT_DECLARE_SIMPLE_TYPE(Versal, XLNX_VERSAL)
@@ -XXX,XX +XXX,XX @@ OBJECT_DECLARE_SIMPLE_TYPE(Versal, XLNX_VERSAL)
 #define XLNX_VERSAL_NR_GEMS    2
 #define XLNX_VERSAL_NR_ADMAS   8
 #define XLNX_VERSAL_NR_SDS     2
+#define XLNX_VERSAL_NR_XRAM    4
 #define XLNX_VERSAL_NR_IRQS    192
 
 struct Versal {
@@ -XXX,XX +XXX,XX @@ struct Versal {
             XlnxZDMA adma[XLNX_VERSAL_NR_ADMAS];
             VersalUsb2 usb;
         } iou;
+
+        struct {
+            qemu_or_irq irq_orgate;
+            XlnxXramCtrl ctrl[XLNX_VERSAL_NR_XRAM];
+        } xram;
     } lpd;
 
     /* The Platform Management Controller subsystem.  */
@@ -XXX,XX +XXX,XX @@ struct Versal {
 #define VERSAL_GEM1_IRQ_0          58
 #define VERSAL_GEM1_WAKE_IRQ_0     59
 #define VERSAL_ADMA_IRQ_0          60
+#define VERSAL_XRAM_IRQ_0          79
 #define VERSAL_RTC_APB_ERR_IRQ     121
 #define VERSAL_SD0_IRQ_0           126
 #define VERSAL_RTC_ALARM_IRQ       142
@@ -XXX,XX +XXX,XX @@ struct Versal {
 #define MM_OCM                      0xfffc0000U
 #define MM_OCM_SIZE                 0x40000
 
+#define MM_XRAM                     0xfe800000
+#define MM_XRAMC                    0xff8e0000
+#define MM_XRAMC_SIZE               0x10000
+
 #define MM_USB2_CTRL_REGS           0xFF9D0000
 #define MM_USB2_CTRL_REGS_SIZE      0x10000
 
diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/units.h"
 #include "qapi/error.h"
 #include "qemu/log.h"
 #include "qemu/module.h"
@@ -XXX,XX +XXX,XX @@ static void versal_create_rtc(Versal *s, qemu_irq *pic)
     sysbus_connect_irq(sbd, 1, pic[VERSAL_RTC_APB_ERR_IRQ]);
 }
 
+static void versal_create_xrams(Versal *s, qemu_irq *pic)
+{
+    int nr_xrams = ARRAY_SIZE(s->lpd.xram.ctrl);
+    DeviceState *orgate;
+    int i;
+
+    /* XRAM IRQs get ORed into a single line.  */
+    object_initialize_child(OBJECT(s), "xram-irq-orgate",
+                            &s->lpd.xram.irq_orgate, TYPE_OR_IRQ);
+    orgate = DEVICE(&s->lpd.xram.irq_orgate);
+    object_property_set_int(OBJECT(orgate),
+                            "num-lines", nr_xrams, &error_fatal);
+    qdev_realize(orgate, NULL, &error_fatal);
+    qdev_connect_gpio_out(orgate, 0, pic[VERSAL_XRAM_IRQ_0]);
+
+    for (i = 0; i < ARRAY_SIZE(s->lpd.xram.ctrl); i++) {
+        SysBusDevice *sbd;
+        MemoryRegion *mr;
+
+        object_initialize_child(OBJECT(s), "xram[*]", &s->lpd.xram.ctrl[i],
+                                TYPE_XLNX_XRAM_CTRL);
+        sbd = SYS_BUS_DEVICE(&s->lpd.xram.ctrl[i]);
+        sysbus_realize(sbd, &error_fatal);
+
+        mr = sysbus_mmio_get_region(sbd, 0);
+        memory_region_add_subregion(&s->mr_ps,
+                                    MM_XRAMC + i * MM_XRAMC_SIZE, mr);
+        mr = sysbus_mmio_get_region(sbd, 1);
+        memory_region_add_subregion(&s->mr_ps, MM_XRAM + i * MiB, mr);
+
+        sysbus_connect_irq(sbd, 0, qdev_get_gpio_in(orgate, i));
+    }
+}
+
 /* This takes the board allocated linear DDR memory and creates aliases
  * for each split DDR range/aperture on the Versal address map.
  */
@@ -XXX,XX +XXX,XX @@ static void versal_realize(DeviceState *dev, Error **errp)
     versal_create_admas(s, pic);
     versal_create_sds(s, pic);
     versal_create_rtc(s, pic);
+    versal_create_xrams(s, pic);
     versal_map_ddr(s);
     versal_unimp(s);
 
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

With -Werror=maybe-uninitialized configuration we get
../hw/i386/intel_iommu.c: In function ‘vtd_context_device_invalidate’:
../hw/i386/intel_iommu.c:1888:10: error: ‘mask’ may be used
uninitialized in this function [-Werror=maybe-uninitialized]
 1888 |     mask = ~mask;
      |     ~~~~~^~~~~~~

Add a g_assert_not_reached() to avoid the error.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Peter Xu <peterx@redhat.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20210309102742.30442-2-eric.auger@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/i386/intel_iommu.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/hw/i386/intel_iommu.c b/hw/i386/intel_iommu.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/i386/intel_iommu.c
+++ b/hw/i386/intel_iommu.c
@@ -XXX,XX +XXX,XX @@ static void vtd_context_device_invalidate(IntelIOMMUState *s,
     case 3:
         mask = 7;   /* Mask bit 2:0 in the SID field */
         break;
+    default:
+        g_assert_not_reached();
     }
     mask = ~mask;
 
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

Currently get_naturally_aligned_size() is used by the intel iommu
to compute the maximum invalidation range based on @size which is
a power of 2 while being aligned with the @start address and less
than the maximum range defined by @gaw.

This helper is also useful for other iommu devices (virtio-iommu,
SMMUv3) to make sure IOMMU UNMAP notifiers only are called with
power of 2 range sizes.

Let's move this latter into dma-helpers.c and rename it into
dma_aligned_pow2_mask(). Also rewrite the helper so that it
accomodates UINT64_MAX values for the size mask and max mask.
It now returns a mask instead of a size. Change the caller.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Peter Xu <peterx@redhat.com>
Message-id: 20210309102742.30442-3-eric.auger@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/sysemu/dma.h  | 12 ++++++++++++
 hw/i386/intel_iommu.c | 30 +++++++-----------------------
 softmmu/dma-helpers.c | 26 ++++++++++++++++++++++++++
 3 files changed, 45 insertions(+), 23 deletions(-)

diff --git a/include/sysemu/dma.h b/include/sysemu/dma.h
index XXXXXXX..XXXXXXX 100644
--- a/include/sysemu/dma.h
+++ b/include/sysemu/dma.h
@@ -XXX,XX +XXX,XX @@ uint64_t dma_buf_write(uint8_t *ptr, int32_t len, QEMUSGList *sg);
 void dma_acct_start(BlockBackend *blk, BlockAcctCookie *cookie,
                     QEMUSGList *sg, enum BlockAcctType type);
 
+/**
+ * dma_aligned_pow2_mask: Return the address bit mask of the largest
+ * power of 2 size less or equal than @end - @start + 1, aligned with @start,
+ * and bounded by 1 << @max_addr_bits bits.
+ *
+ * @start: range start address
+ * @end: range end address (greater than @start)
+ * @max_addr_bits: max address bits (<= 64)
+ */
+uint64_t dma_aligned_pow2_mask(uint64_t start, uint64_t end,
+                               int max_addr_bits);
+
 #endif
diff --git a/hw/i386/intel_iommu.c b/hw/i386/intel_iommu.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/i386/intel_iommu.c
+++ b/hw/i386/intel_iommu.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/i386/x86-iommu.h"
 #include "hw/pci-host/q35.h"
 #include "sysemu/kvm.h"
+#include "sysemu/dma.h"
 #include "sysemu/sysemu.h"
 #include "hw/i386/apic_internal.h"
 #include "kvm/kvm_i386.h"
@@ -XXX,XX +XXX,XX @@ VTDAddressSpace *vtd_find_add_as(IntelIOMMUState *s, PCIBus *bus, int devfn)
     return vtd_dev_as;
 }
 
-static uint64_t get_naturally_aligned_size(uint64_t start,
-                                           uint64_t size, int gaw)
-{
-    uint64_t max_mask = 1ULL << gaw;
-    uint64_t alignment = start ? start & -start : max_mask;
-
-    alignment = MIN(alignment, max_mask);
-    size = MIN(size, max_mask);
-
-    if (alignment <= size) {
-        /* Increase the alignment of start */
-        return alignment;
-    } else {
-        /* Find the largest page mask from size */
-        return 1ULL << (63 - clz64(size));
-    }
-}
-
 /* Unmap the whole range in the notifier's scope. */
 static void vtd_address_space_unmap(VTDAddressSpace *as, IOMMUNotifier *n)
 {
@@ -XXX,XX +XXX,XX @@ static void vtd_address_space_unmap(VTDAddressSpace *as, IOMMUNotifier *n)
 
     while (remain >= VTD_PAGE_SIZE) {
         IOMMUTLBEvent event;
-        uint64_t mask = get_naturally_aligned_size(start, remain, s->aw_bits);
+        uint64_t mask = dma_aligned_pow2_mask(start, end, s->aw_bits);
+        uint64_t size = mask + 1;
 
-        assert(mask);
+        assert(size);
 
         event.type = IOMMU_NOTIFIER_UNMAP;
         event.entry.iova = start;
-        event.entry.addr_mask = mask - 1;
+        event.entry.addr_mask = mask;
         event.entry.target_as = &address_space_memory;
         event.entry.perm = IOMMU_NONE;
         /* This field is meaningless for unmap */
@@ -XXX,XX +XXX,XX @@ static void vtd_address_space_unmap(VTDAddressSpace *as, IOMMUNotifier *n)
 
         memory_region_notify_iommu_one(n, &event);
 
-        start += mask;
-        remain -= mask;
+        start += size;
+        remain -= size;
     }
 
     assert(!remain);
diff --git a/softmmu/dma-helpers.c b/softmmu/dma-helpers.c
index XXXXXXX..XXXXXXX 100644
--- a/softmmu/dma-helpers.c
+++ b/softmmu/dma-helpers.c
@@ -XXX,XX +XXX,XX @@ void dma_acct_start(BlockBackend *blk, BlockAcctCookie *cookie,
 {
     block_acct_start(blk_get_stats(blk), cookie, sg->size, type);
 }
+
+uint64_t dma_aligned_pow2_mask(uint64_t start, uint64_t end, int max_addr_bits)
+{
+    uint64_t max_mask = UINT64_MAX, addr_mask = end - start;
+    uint64_t alignment_mask, size_mask;
+
+    if (max_addr_bits != 64) {
+        max_mask = (1ULL << max_addr_bits) - 1;
+    }
+
+    alignment_mask = start ? (start & -start) - 1 : max_mask;
+    alignment_mask = MIN(alignment_mask, max_mask);
+    size_mask = MIN(addr_mask, max_mask);
+
+    if (alignment_mask <= size_mask) {
+        /* Increase the alignment of start */
+        return alignment_mask;
+    } else {
+        /* Find the largest page mask from size */
+        if (addr_mask == UINT64_MAX) {
+            return UINT64_MAX;
+        }
+        return (1ULL << (63 - clz64(addr_mask + 1))) - 1;
+    }
+}
+
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

Unmap notifiers work with an address mask assuming an
invalidation range of a power of 2. Nothing mandates this
in the VIRTIO-IOMMU spec.

So in case the range is not a power of 2, split it into
several invalidations.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Peter Xu <peterx@redhat.com>
Message-id: 20210309102742.30442-4-eric.auger@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/virtio/virtio-iommu.c | 19 ++++++++++++++++---
 1 file changed, 16 insertions(+), 3 deletions(-)

diff --git a/hw/virtio/virtio-iommu.c b/hw/virtio/virtio-iommu.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/virtio/virtio-iommu.c
+++ b/hw/virtio/virtio-iommu.c
@@ -XXX,XX +XXX,XX @@ static void virtio_iommu_notify_unmap(IOMMUMemoryRegion *mr, hwaddr virt_start,
                                       hwaddr virt_end)
 {
     IOMMUTLBEvent event;
+    uint64_t delta = virt_end - virt_start;
 
     if (!(mr->iommu_notify_flags & IOMMU_NOTIFIER_UNMAP)) {
         return;
@@ -XXX,XX +XXX,XX @@ static void virtio_iommu_notify_unmap(IOMMUMemoryRegion *mr, hwaddr virt_start,
 
     event.type = IOMMU_NOTIFIER_UNMAP;
     event.entry.target_as = &address_space_memory;
-    event.entry.addr_mask = virt_end - virt_start;
-    event.entry.iova = virt_start;
     event.entry.perm = IOMMU_NONE;
     event.entry.translated_addr = 0;
+    event.entry.addr_mask = delta;
+    event.entry.iova = virt_start;
 
-    memory_region_notify_iommu(mr, 0, event);
+    if (delta == UINT64_MAX) {
+        memory_region_notify_iommu(mr, 0, event);
+    }
+
+
+    while (virt_start != virt_end + 1) {
+        uint64_t mask = dma_aligned_pow2_mask(virt_start, virt_end, 64);
+
+        event.entry.addr_mask = mask;
+        event.entry.iova = virt_start;
+        memory_region_notify_iommu(mr, 0, event);
+        virt_start += mask + 1;
+    }
 }
 
 static gboolean virtio_iommu_notify_unmap_cb(gpointer key, gpointer value,
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

If the asid is not set, do not attempt to locate the key directly
as all inserted keys have a valid asid.

Use g_hash_table_foreach_remove instead.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Message-id: 20210309102742.30442-5-eric.auger@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmu-common.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

From: Eric Auger <eric.auger@redhat.com>

As of today, the driver can invalidate a number of pages that is
not a power of 2. However IOTLB unmap notifications and internal
IOTLB invalidations work with masks leading to erroneous
invalidations.

In case the range is not a power of 2, split invalidations into
power of 2 invalidations.

When looking for a single page entry in the vSMMU internal IOTLB,
let's make sure that if the entry is not found using a
g_hash_table_remove() we iterate over all the entries to find a
potential range that overlaps it.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Message-id: 20210309102742.30442-6-eric.auger@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmu-common.c | 30 ++++++++++++++++++------------
 hw/arm/smmuv3.c      | 24 ++++++++++++++++++++----
 2 files changed, 38 insertions(+), 16 deletions(-)

diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmu-common.c
+++ b/hw/arm/smmu-common.c
@@ -XXX,XX +XXX,XX @@ inline void
 smmu_iotlb_inv_iova(SMMUState *s, int asid, dma_addr_t iova,
                     uint8_t tg, uint64_t num_pages, uint8_t ttl)
 {
+    /* if tg is not set we use 4KB range invalidation */
+    uint8_t granule = tg ? tg * 2 + 10 : 12;
+
     if (ttl && (num_pages == 1) && (asid >= 0)) {
         SMMUIOTLBKey key = smmu_get_iotlb_key(asid, iova, tg, ttl);
 
-        g_hash_table_remove(s->iotlb, &key);
-    } else {
-        /* if tg is not set we use 4KB range invalidation */
-        uint8_t granule = tg ? tg * 2 + 10 : 12;
-
-        SMMUIOTLBPageInvInfo info = {
-            .asid = asid, .iova = iova,
-            .mask = (num_pages * 1 << granule) - 1};
-
-        g_hash_table_foreach_remove(s->iotlb,
-                                    smmu_hash_remove_by_asid_iova,
-                                    &info);
+        if (g_hash_table_remove(s->iotlb, &key)) {
+            return;
+        }
+        /*
+         * if the entry is not found, let's see if it does not
+         * belong to a larger IOTLB entry
+         */
     }
+
+    SMMUIOTLBPageInvInfo info = {
+        .asid = asid, .iova = iova,
+        .mask = (num_pages * 1 << granule) - 1};
+
+    g_hash_table_foreach_remove(s->iotlb,
+                                smmu_hash_remove_by_asid_iova,
+                                &info);
 }
 
 inline void smmu_iotlb_inv_asid(SMMUState *s, uint16_t asid)
diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmuv3.c
+++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
     uint16_t vmid = CMD_VMID(cmd);
     bool leaf = CMD_LEAF(cmd);
     uint8_t tg = CMD_TG(cmd);
-    hwaddr num_pages = 1;
+    uint64_t first_page = 0, last_page;
+    uint64_t num_pages = 1;
     int asid = -1;
 
     if (tg) {
@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
     if (type == SMMU_CMD_TLBI_NH_VA) {
         asid = CMD_ASID(cmd);
     }
-    trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, num_pages, ttl, leaf);
-    smmuv3_inv_notifiers_iova(s, asid, addr, tg, num_pages);
-    smmu_iotlb_inv_iova(s, asid, addr, tg, num_pages, ttl);
+
+    /* Split invalidations into ^2 range invalidations */
+    last_page = num_pages - 1;
+    while (num_pages) {
+        uint8_t granule = tg * 2 + 10;
+        uint64_t mask, count;
+
+        mask = dma_aligned_pow2_mask(first_page, last_page, 64 - granule);
+        count = mask + 1;
+
+        trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, count, ttl, leaf);
+        smmuv3_inv_notifiers_iova(s, asid, addr, tg, count);
+        smmu_iotlb_inv_iova(s, asid, addr, tg, count, ttl);
+
+        num_pages -= count;
+        first_page += count;
+        addr += count * BIT_ULL(granule);
+    }
 }
 
 static int smmuv3_cmdq_consume(SMMUv3State *s)
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

If the whole SID range (32b) is invalidated (SMMU_CMD_CFGI_ALL),
@end overflows and we fail to handle the command properly.

Once this gets fixed, the current code really is awkward in the
sense it loops over the whole range instead of removing the
currently cached configs through a hash table lookup.

Fix both the overflow and the lookup.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20210309102742.30442-7-eric.auger@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmu-internal.h |  5 +++++
 hw/arm/smmuv3.c        | 34 ++++++++++++++++++++--------------
 2 files changed, 25 insertions(+), 14 deletions(-)

diff --git a/hw/arm/smmu-internal.h b/hw/arm/smmu-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmu-internal.h
+++ b/hw/arm/smmu-internal.h
@@ -XXX,XX +XXX,XX @@ typedef struct SMMUIOTLBPageInvInfo {
     uint64_t mask;
 } SMMUIOTLBPageInvInfo;
 
+typedef struct SMMUSIDRange {
+    uint32_t start;
+    uint32_t end;
+} SMMUSIDRange;
+
 #endif
diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmuv3.c
+++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/arm/smmuv3.h"
 #include "smmuv3-internal.h"
+#include "smmu-internal.h"
 
 /**
  * smmuv3_trigger_irq - pulse @irq if enabled and update
@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
     }
 }
 
+static gboolean
+smmuv3_invalidate_ste(gpointer key, gpointer value, gpointer user_data)
+{
+    SMMUDevice *sdev = (SMMUDevice *)key;
+    uint32_t sid = smmu_get_sid(sdev);
+    SMMUSIDRange *sid_range = (SMMUSIDRange *)user_data;
+
+    if (sid < sid_range->start || sid > sid_range->end) {
+        return false;
+    }
+    trace_smmuv3_config_cache_inv(sid);
+    return true;
+}
+
 static int smmuv3_cmdq_consume(SMMUv3State *s)
 {
     SMMUState *bs = ARM_SMMU(s);
@@ -XXX,XX +XXX,XX @@ static int smmuv3_cmdq_consume(SMMUv3State *s)
         }
         case SMMU_CMD_CFGI_STE_RANGE: /* same as SMMU_CMD_CFGI_ALL */
         {
-            uint32_t start = CMD_SID(&cmd), end, i;
+            uint32_t start = CMD_SID(&cmd);
             uint8_t range = CMD_STE_RANGE(&cmd);
+            uint64_t end = start + (1ULL << (range + 1)) - 1;
+            SMMUSIDRange sid_range = {start, end};
 
             if (CMD_SSEC(&cmd)) {
                 cmd_error = SMMU_CERROR_ILL;
                 break;
             }
-
-            end = start + (1 << (range + 1)) - 1;
             trace_smmuv3_cmdq_cfgi_ste_range(start, end);
-
-            for (i = start; i <= end; i++) {
-                IOMMUMemoryRegion *mr = smmu_iommu_mr(bs, i);
-                SMMUDevice *sdev;
-
-                if (!mr) {
-                    continue;
-                }
-                sdev = container_of(mr, SMMUDevice, iommu);
-                smmuv3_flush_config(sdev);
-            }
+            g_hash_table_foreach_remove(bs->configs, smmuv3_invalidate_ste,
+                                        &sid_range);
             break;
         }
         case SMMU_CMD_CFGI_CD:
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

Convert all sid printouts to sid=0x%x.

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20210309102742.30442-8-eric.auger@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/trace-events | 24 ++++++++++++------------
 1 file changed, 12 insertions(+), 12 deletions(-)

diff --git a/hw/arm/trace-events b/hw/arm/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/trace-events
+++ b/hw/arm/trace-events
@@ -XXX,XX +XXX,XX @@ smmuv3_cmdq_opcode(const char *opcode) "<--- %s"
 smmuv3_cmdq_consume_out(uint32_t prod, uint32_t cons, uint8_t prod_wrap, uint8_t cons_wrap) "prod:%d, cons:%d, prod_wrap:%d, cons_wrap:%d "
 smmuv3_cmdq_consume_error(const char *cmd_name, uint8_t cmd_error) "Error on %s command execution: %d"
 smmuv3_write_mmio(uint64_t addr, uint64_t val, unsigned size, uint32_t r) "addr: 0x%"PRIx64" val:0x%"PRIx64" size: 0x%x(%d)"
-smmuv3_record_event(const char *type, uint32_t sid) "%s sid=%d"
-smmuv3_find_ste(uint16_t sid, uint32_t features, uint16_t sid_split) "SID:0x%x features:0x%x, sid_split:0x%x"
+smmuv3_record_event(const char *type, uint32_t sid) "%s sid=0x%x"
+smmuv3_find_ste(uint16_t sid, uint32_t features, uint16_t sid_split) "sid=0x%x features:0x%x, sid_split:0x%x"
 smmuv3_find_ste_2lvl(uint64_t strtab_base, uint64_t l1ptr, int l1_ste_offset, uint64_t l2ptr, int l2_ste_offset, int max_l2_ste) "strtab_base:0x%"PRIx64" l1ptr:0x%"PRIx64" l1_off:0x%x, l2ptr:0x%"PRIx64" l2_off:0x%x max_l2_ste:%d"
 smmuv3_get_ste(uint64_t addr) "STE addr: 0x%"PRIx64
-smmuv3_translate_disable(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=%d bypass (smmu disabled) iova:0x%"PRIx64" is_write=%d"
-smmuv3_translate_bypass(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=%d STE bypass iova:0x%"PRIx64" is_write=%d"
-smmuv3_translate_abort(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=%d abort on iova:0x%"PRIx64" is_write=%d"
-smmuv3_translate_success(const char *n, uint16_t sid, uint64_t iova, uint64_t translated, int perm) "%s sid=%d iova=0x%"PRIx64" translated=0x%"PRIx64" perm=0x%x"
+smmuv3_translate_disable(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=0x%x bypass (smmu disabled) iova:0x%"PRIx64" is_write=%d"
+smmuv3_translate_bypass(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=0x%x STE bypass iova:0x%"PRIx64" is_write=%d"
+smmuv3_translate_abort(const char *n, uint16_t sid, uint64_t addr, bool is_write) "%s sid=0x%x abort on iova:0x%"PRIx64" is_write=%d"
+smmuv3_translate_success(const char *n, uint16_t sid, uint64_t iova, uint64_t translated, int perm) "%s sid=0x%x iova=0x%"PRIx64" translated=0x%"PRIx64" perm=0x%x"
 smmuv3_get_cd(uint64_t addr) "CD addr: 0x%"PRIx64
 smmuv3_decode_cd(uint32_t oas) "oas=%d"
 smmuv3_decode_cd_tt(int i, uint32_t tsz, uint64_t ttb, uint32_t granule_sz, bool had) "TT[%d]:tsz:%d ttb:0x%"PRIx64" granule_sz:%d had:%d"
-smmuv3_cmdq_cfgi_ste(int streamid) "streamid =%d"
+smmuv3_cmdq_cfgi_ste(int streamid) "streamid= 0x%x"
 smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%x - end=0x%x"
-smmuv3_cmdq_cfgi_cd(uint32_t sid) "streamid = %d"
-smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid %d (hits=%d, misses=%d, hit rate=%d)"
-smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid %d (hits=%d, misses=%d, hit rate=%d)"
-smmuv3_s1_range_inval(int vmid, int asid, uint64_t addr, uint8_t tg, uint64_t num_pages, uint8_t ttl, bool leaf) "vmid =%d asid =%d addr=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64" ttl=%d leaf=%d"
+smmuv3_cmdq_cfgi_cd(uint32_t sid) "sid=0x%x"
+smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid=0x%x (hits=%d, misses=%d, hit rate=%d)"
+smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid=0x%x (hits=%d, misses=%d, hit rate=%d)"
+smmuv3_s1_range_inval(int vmid, int asid, uint64_t addr, uint8_t tg, uint64_t num_pages, uint8_t ttl, bool leaf) "vmid=%d asid=%d addr=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64" ttl=%d leaf=%d"
 smmuv3_cmdq_tlbi_nh(void) ""
 smmuv3_cmdq_tlbi_nh_asid(uint16_t asid) "asid=%d"
-smmuv3_config_cache_inv(uint32_t sid) "Config cache INV for sid %d"
+smmuv3_config_cache_inv(uint32_t sid) "Config cache INV for sid=0x%x"
 smmuv3_notify_flag_add(const char *iommu) "ADD SMMUNotifier node for iommu mr=%s"
 smmuv3_notify_flag_del(const char *iommu) "DEL SMMUNotifier node for iommu mr=%s"
 smmuv3_inv_notifiers_iova(const char *name, uint16_t asid, uint64_t iova, uint8_t tg, uint64_t num_pages) "iommu mr=%s asid=%d iova=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Missed out on compressing the second half of a predicate
with length vl % 512 > 256.

Adjust all of the x + (y << s) to x | (y << s) as a
general style fix.  Drop the extract64 because the input
uint64_t are known to be already zero-extended from the
current size of the predicate.

Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-2-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 30 +++++++++++++++++++++---------
 1 file changed, 21 insertions(+), 9 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uzp_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
     if (oprsz <= 8) {
         l = compress_bits(n[0] >> odd, esz);
         h = compress_bits(m[0] >> odd, esz);
-        d[0] = extract64(l + (h << (4 * oprsz)), 0, 8 * oprsz);
+        d[0] = l | (h << (4 * oprsz));
     } else {
         ARMPredicateReg tmp_m;
         intptr_t oprsz_16 = oprsz / 16;
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uzp_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
             h = n[2 * i + 1];
             l = compress_bits(l >> odd, esz);
             h = compress_bits(h >> odd, esz);
-            d[i] = l + (h << 32);
+            d[i] = l | (h << 32);
         }
 
-        /* For VL which is not a power of 2, the results from M do not
-           align nicely with the uint64_t for D.  Put the aligned results
-           from M into TMP_M and then copy it into place afterward.  */
+        /*
+         * For VL which is not a multiple of 512, the results from M do not
+         * align nicely with the uint64_t for D.  Put the aligned results
+         * from M into TMP_M and then copy it into place afterward.
+         */
         if (oprsz & 15) {
-            d[i] = compress_bits(n[2 * i] >> odd, esz);
+            int final_shift = (oprsz & 15) * 2;
+
+            l = n[2 * i + 0];
+            h = n[2 * i + 1];
+            l = compress_bits(l >> odd, esz);
+            h = compress_bits(h >> odd, esz);
+            d[i] = l | (h << final_shift);
 
             for (i = 0; i < oprsz_16; i++) {
                 l = m[2 * i + 0];
                 h = m[2 * i + 1];
                 l = compress_bits(l >> odd, esz);
                 h = compress_bits(h >> odd, esz);
-                tmp_m.p[i] = l + (h << 32);
+                tmp_m.p[i] = l | (h << 32);
             }
-            tmp_m.p[i] = compress_bits(m[2 * i] >> odd, esz);
+            l = m[2 * i + 0];
+            h = m[2 * i + 1];
+            l = compress_bits(l >> odd, esz);
+            h = compress_bits(h >> odd, esz);
+            tmp_m.p[i] = l | (h << final_shift);
 
             swap_memmove(vd + oprsz / 2, &tmp_m, oprsz / 2);
         } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_uzp_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
                 h = m[2 * i + 1];
                 l = compress_bits(l >> odd, esz);
                 h = compress_bits(h >> odd, esz);
-                d[oprsz_16 + i] = l + (h << 32);
+                d[oprsz_16 + i] = l | (h << 32);
             }
         }
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Wrote too much with low-half zip (zip1) with vl % 512 != 0.

Adjust all of the x + (y << s) to x | (y << s) as a style fix.

We only ever have exact overlap between D, M, and N.  Therefore
we only need a single temporary, and we do not need to check for
partial overlap.

Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-3-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 25 ++++++++++++++-----------
 1 file changed, 14 insertions(+), 11 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_zip_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
     intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     int esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
     intptr_t high = FIELD_EX32(pred_desc, PREDDESC, DATA);
+    int esize = 1 << esz;
     uint64_t *d = vd;
     intptr_t i;
 
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_zip_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
         mm = extract64(mm, high * half, half);
         nn = expand_bits(nn, esz);
         mm = expand_bits(mm, esz);
-        d[0] = nn + (mm << (1 << esz));
+        d[0] = nn | (mm << esize);
     } else {
-        ARMPredicateReg tmp_n, tmp_m;
+        ARMPredicateReg tmp;
 
         /* We produce output faster than we consume input.
            Therefore we must be mindful of possible overlap.  */
-        if ((vn - vd) < (uintptr_t)oprsz) {
-            vn = memcpy(&tmp_n, vn, oprsz);
-        }
-        if ((vm - vd) < (uintptr_t)oprsz) {
-            vm = memcpy(&tmp_m, vm, oprsz);
+        if (vd == vn) {
+            vn = memcpy(&tmp, vn, oprsz);
+            if (vd == vm) {
+                vm = vn;
+            }
+        } else if (vd == vm) {
+            vm = memcpy(&tmp, vm, oprsz);
         }
         if (high) {
             high = oprsz >> 1;
         }
 
-        if ((high & 3) == 0) {
+        if ((oprsz & 7) == 0) {
             uint32_t *n = vn, *m = vm;
             high >>= 2;
 
-            for (i = 0; i < DIV_ROUND_UP(oprsz, 8); i++) {
+            for (i = 0; i < oprsz / 8; i++) {
                 uint64_t nn = n[H4(high + i)];
                 uint64_t mm = m[H4(high + i)];
 
                 nn = expand_bits(nn, esz);
                 mm = expand_bits(mm, esz);
-                d[i] = nn + (mm << (1 << esz));
+                d[i] = nn | (mm << esize);
             }
         } else {
             uint8_t *n = vn, *m = vm;
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_zip_p)(void *vd, void *vn, void *vm, uint32_t pred_desc)
 
                 nn = expand_bits(nn, esz);
                 mm = expand_bits(mm, esz);
-                d16[H2(i)] = nn + (mm << (1 << esz));
+                d16[H2(i)] = nn | (mm << esize);
             }
         }
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Wrote too much with punpk1 with vl % 512 != 0.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_punpk_p)(void *vd, void *vn, uint32_t pred_desc)
             high = oprsz >> 1;
         }
 
-        if ((high & 3) == 0) {
+        if ((oprsz & 7) == 0) {
             uint32_t *n = vn;
             high >>= 2;
 
-            for (i = 0; i < DIV_ROUND_UP(oprsz, 8); i++) {
+            for (i = 0; i < oprsz / 8; i++) {
                 uint64_t nn = n[H4(high + i)];
                 d[i] = expand_bits(nn, 0);
             }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Since b64ee454a4a0, all predicate operations should be
using these field macros for predicates.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-5-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c    | 6 +++---
 target/arm/translate-sve.c | 7 +++----
 2 files changed, 6 insertions(+), 7 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_compact_d)(void *vd, void *vn, void *vg, uint32_t desc)
  */
 int32_t HELPER(sve_last_active_element)(void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
+    intptr_t words = DIV_ROUND_UP(FIELD_EX32(pred_desc, PREDDESC, OPRSZ), 8);
+    intptr_t esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
 
-    return last_active_element(vg, DIV_ROUND_UP(oprsz, 8), esz);
+    return last_active_element(vg, words, esz);
 }
 
 void HELPER(sve_splice)(void *vd, void *vn, void *vm, void *vg, uint32_t desc)
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void find_last_active(DisasContext *s, TCGv_i32 ret, int esz, int pg)
      */
     TCGv_ptr t_p = tcg_temp_new_ptr();
     TCGv_i32 t_desc;
-    unsigned vsz = pred_full_reg_size(s);
-    unsigned desc;
+    unsigned desc = 0;
 
-    desc = vsz - 2;
-    desc = deposit32(desc, SIMD_DATA_SHIFT, 2, esz);
+    desc = FIELD_DP32(desc, PREDDESC, OPRSZ, pred_full_reg_size(s));
+    desc = FIELD_DP32(desc, PREDDESC, ESZ, esz);
 
     tcg_gen_addi_ptr(t_p, cpu_env, pred_full_reg_offset(s, pg));
     t_desc = tcg_const_i32(desc);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Since b64ee454a4a0, all predicate operations should be
using these field macros for predicates.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-6-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c    | 30 ++++++++++++++----------------
 target/arm/translate-sve.c |  4 ++--
 2 files changed, 16 insertions(+), 18 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t do_zero(ARMPredicateReg *d, intptr_t oprsz)
 void HELPER(sve_brkpa)(void *vd, void *vn, void *vm, void *vg,
                        uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     if (last_active_pred(vn, vg, oprsz)) {
         compute_brk_z(vd, vm, vg, oprsz, true);
     } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_brkpa)(void *vd, void *vn, void *vm, void *vg,
 uint32_t HELPER(sve_brkpas)(void *vd, void *vn, void *vm, void *vg,
                             uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     if (last_active_pred(vn, vg, oprsz)) {
         return compute_brks_z(vd, vm, vg, oprsz, true);
     } else {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_brkpas)(void *vd, void *vn, void *vm, void *vg,
 void HELPER(sve_brkpb)(void *vd, void *vn, void *vm, void *vg,
                        uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     if (last_active_pred(vn, vg, oprsz)) {
         compute_brk_z(vd, vm, vg, oprsz, false);
     } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_brkpb)(void *vd, void *vn, void *vm, void *vg,
 uint32_t HELPER(sve_brkpbs)(void *vd, void *vn, void *vm, void *vg,
                             uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     if (last_active_pred(vn, vg, oprsz)) {
         return compute_brks_z(vd, vm, vg, oprsz, false);
     } else {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_brkpbs)(void *vd, void *vn, void *vm, void *vg,
 
 void HELPER(sve_brka_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     compute_brk_z(vd, vn, vg, oprsz, true);
 }
 
 uint32_t HELPER(sve_brkas_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     return compute_brks_z(vd, vn, vg, oprsz, true);
 }
 
 void HELPER(sve_brkb_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     compute_brk_z(vd, vn, vg, oprsz, false);
 }
 
 uint32_t HELPER(sve_brkbs_z)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     return compute_brks_z(vd, vn, vg, oprsz, false);
 }
 
 void HELPER(sve_brka_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     compute_brk_m(vd, vn, vg, oprsz, true);
 }
 
 uint32_t HELPER(sve_brkas_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     return compute_brks_m(vd, vn, vg, oprsz, true);
 }
 
 void HELPER(sve_brkb_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     compute_brk_m(vd, vn, vg, oprsz, false);
 }
 
 uint32_t HELPER(sve_brkbs_m)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     return compute_brks_m(vd, vn, vg, oprsz, false);
 }
 
 void HELPER(sve_brkn)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     if (!last_active_pred(vn, vg, oprsz)) {
         do_zero(vd, oprsz);
     }
@@ -XXX,XX +XXX,XX @@ static uint32_t predtest_ones(ARMPredicateReg *d, intptr_t oprsz,
 
 uint32_t HELPER(sve_brkns)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
     if (last_active_pred(vn, vg, oprsz)) {
         return predtest_ones(vd, oprsz, -1);
     } else {
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool do_brk3(DisasContext *s, arg_rprr_s *a,
     TCGv_ptr n = tcg_temp_new_ptr();
     TCGv_ptr m = tcg_temp_new_ptr();
     TCGv_ptr g = tcg_temp_new_ptr();
-    TCGv_i32 t = tcg_const_i32(vsz - 2);
+    TCGv_i32 t = tcg_const_i32(FIELD_DP32(0, PREDDESC, OPRSZ, vsz));
 
     tcg_gen_addi_ptr(d, cpu_env, pred_full_reg_offset(s, a->rd));
     tcg_gen_addi_ptr(n, cpu_env, pred_full_reg_offset(s, a->rn));
@@ -XXX,XX +XXX,XX @@ static bool do_brk2(DisasContext *s, arg_rpr_s *a,
     TCGv_ptr d = tcg_temp_new_ptr();
     TCGv_ptr n = tcg_temp_new_ptr();
     TCGv_ptr g = tcg_temp_new_ptr();
-    TCGv_i32 t = tcg_const_i32(vsz - 2);
+    TCGv_i32 t = tcg_const_i32(FIELD_DP32(0, PREDDESC, OPRSZ, vsz));
 
     tcg_gen_addi_ptr(d, cpu_env, pred_full_reg_offset(s, a->rd));
     tcg_gen_addi_ptr(n, cpu_env, pred_full_reg_offset(s, a->rn));
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Since b64ee454a4a0, all predicate operations should be
using these field macros for predicates.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-7-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c    | 6 +++---
 target/arm/translate-sve.c | 6 +++---
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(sve_brkns)(void *vd, void *vn, void *vg, uint32_t pred_desc)
 
 uint64_t HELPER(sve_cntp)(void *vn, void *vg, uint32_t pred_desc)
 {
-    intptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
+    intptr_t words = DIV_ROUND_UP(FIELD_EX32(pred_desc, PREDDESC, OPRSZ), 8);
+    intptr_t esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
     uint64_t *n = vn, *g = vg, sum = 0, mask = pred_esz_masks[esz];
     intptr_t i;
 
-    for (i = 0; i < DIV_ROUND_UP(oprsz, 8); ++i) {
+    for (i = 0; i < words; ++i) {
         uint64_t t = n[i] & g[i] & mask;
         sum += ctpop64(t);
     }
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_cntp(DisasContext *s, TCGv_i64 val, int esz, int pn, int pg)
     } else {
         TCGv_ptr t_pn = tcg_temp_new_ptr();
         TCGv_ptr t_pg = tcg_temp_new_ptr();
-        unsigned desc;
+        unsigned desc = 0;
         TCGv_i32 t_desc;
 
-        desc = psz - 2;
-        desc = deposit32(desc, SIMD_DATA_SHIFT, 2, esz);
+        desc = FIELD_DP32(desc, PREDDESC, OPRSZ, psz);
+        desc = FIELD_DP32(desc, PREDDESC, ESZ, esz);
 
         tcg_gen_addi_ptr(t_pn, cpu_env, pred_full_reg_offset(s, pn));
         tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Since b64ee454a4a0, all predicate operations should be
using these field macros for predicates.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-8-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c    | 4 ++--
 target/arm/translate-sve.c | 7 ++++---
 2 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_cntp)(void *vn, void *vg, uint32_t pred_desc)
 
 uint32_t HELPER(sve_while)(void *vd, uint32_t count, uint32_t pred_desc)
 {
-    uintptr_t oprsz = extract32(pred_desc, 0, SIMD_OPRSZ_BITS) + 2;
-    intptr_t esz = extract32(pred_desc, SIMD_DATA_SHIFT, 2);
+    intptr_t oprsz = FIELD_EX32(pred_desc, PREDDESC, OPRSZ);
+    intptr_t esz = FIELD_EX32(pred_desc, PREDDESC, ESZ);
     uint64_t esz_mask = pred_esz_masks[esz];
     ARMPredicateReg *d = vd;
     uint32_t flags;
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WHILE(DisasContext *s, arg_WHILE *a)
     TCGv_i64 op0, op1, t0, t1, tmax;
     TCGv_i32 t2, t3;
     TCGv_ptr ptr;
-    unsigned desc, vsz = vec_full_reg_size(s);
+    unsigned vsz = vec_full_reg_size(s);
+    unsigned desc = 0;
     TCGCond cond;
 
     if (!sve_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_WHILE(DisasContext *s, arg_WHILE *a)
     /* Scale elements to bits.  */
     tcg_gen_shli_i32(t2, t2, a->esz);
 
-    desc = (vsz / 8) - 2;
-    desc = deposit32(desc, SIMD_DATA_SHIFT, 2, a->esz);
+    desc = FIELD_DP32(desc, PREDDESC, OPRSZ, vsz / 8);
+    desc = FIELD_DP32(desc, PREDDESC, ESZ, a->esz);
     t3 = tcg_const_i32(desc);
 
     ptr = tcg_temp_new_ptr();
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

With the reduction operations, we intentionally increase maxsz to
the next power of 2, so as to fill out the reduction tree correctly.
Since e2e7168a214b, oprsz must equal maxsz, with exceptions for small
vectors, so this triggers an assertion for vector sizes > 32 that are
not themselves a power of 2.

Pass the power-of-two value in the simd_data field instead.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210309155305.11301-9-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c    | 2 +-
 target/arm/translate-sve.c | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static TYPE NAME##_reduce(TYPE *data, float_status *status, uintptr_t n) \
 }                                                                     \
 uint64_t HELPER(NAME)(void *vn, void *vg, void *vs, uint32_t desc)    \
 {                                                                     \
-    uintptr_t i, oprsz = simd_oprsz(desc), maxsz = simd_maxsz(desc);  \
+    uintptr_t i, oprsz = simd_oprsz(desc), maxsz = simd_data(desc);   \
     TYPE data[sizeof(ARMVectorReg) / sizeof(TYPE)];                   \
     for (i = 0; i < oprsz; ) {                                        \
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));               \
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_reduce(DisasContext *s, arg_rpr_esz *a,
 {
     unsigned vsz = vec_full_reg_size(s);
     unsigned p2vsz = pow2ceil(vsz);
-    TCGv_i32 t_desc = tcg_const_i32(simd_desc(vsz, p2vsz, 0));
+    TCGv_i32 t_desc = tcg_const_i32(simd_desc(vsz, vsz, p2vsz));
     TCGv_ptr t_zn, t_pg, status;
     TCGv_i64 temp;
 
-- 
2.20.1

From: Niek Linnenbank <nieklinnenbank@gmail.com>

Currently the emulated EMAC for sun8i always traverses the transmit queue
from the head when transferring packets. It searches for a list of consecutive
descriptors whichs are flagged as ready for processing and transmits their payloads
accordingly. The controller stops processing once it finds a descriptor that is not
marked ready.

While the above behaviour works in most situations, it is not the same as the actual
EMAC in hardware. Actual hardware uses the TX_CUR_DESC register value to keep track
of the last position in the transmit queue and continues processing from that position
when software triggers the start of DMA processing. The currently emulated behaviour can
lead to packet loss on transmit when software fills the transmit queue with ready
descriptors that overlap the tail of the circular list.

This commit modifies the emulated EMAC for sun8i such that it processes
the transmit queue using the TX_CUR_DESC register in the same way as hardware.

Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20210310195820.21950-2-nieklinnenbank@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/net/allwinner-sun8i-emac.c | 62 +++++++++++++++++++----------------
 1 file changed, 34 insertions(+), 28 deletions(-)

diff --git a/hw/net/allwinner-sun8i-emac.c b/hw/net/allwinner-sun8i-emac.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/allwinner-sun8i-emac.c
+++ b/hw/net/allwinner-sun8i-emac.c
@@ -XXX,XX +XXX,XX @@ static void allwinner_sun8i_emac_update_irq(AwSun8iEmacState *s)
     qemu_set_irq(s->irq, (s->int_sta & s->int_en) != 0);
 }
 
-static uint32_t allwinner_sun8i_emac_next_desc(AwSun8iEmacState *s,
-                                               FrameDescriptor *desc,
-                                               size_t min_size)
+static bool allwinner_sun8i_emac_desc_owned(FrameDescriptor *desc,
+                                            size_t min_buf_size)
 {
-    uint32_t paddr = desc->next;
-
-    dma_memory_read(&s->dma_as, paddr, desc, sizeof(*desc));
-
-    if ((desc->status & DESC_STATUS_CTL) &&
-        (desc->status2 & DESC_STATUS2_BUF_SIZE_MASK) >= min_size) {
-        return paddr;
-    } else {
-        return 0;
-    }
+    return (desc->status & DESC_STATUS_CTL) && (min_buf_size == 0 ||
+           (desc->status2 & DESC_STATUS2_BUF_SIZE_MASK) >= min_buf_size);
 }
 
-static uint32_t allwinner_sun8i_emac_get_desc(AwSun8iEmacState *s,
-                                              FrameDescriptor *desc,
-                                              uint32_t start_addr,
-                                              size_t min_size)
+static void allwinner_sun8i_emac_get_desc(AwSun8iEmacState *s,
+                                          FrameDescriptor *desc,
+                                          uint32_t phys_addr)
+{
+    dma_memory_read(&s->dma_as, phys_addr, desc, sizeof(*desc));
+}
+
+static uint32_t allwinner_sun8i_emac_next_desc(AwSun8iEmacState *s,
+                                               FrameDescriptor *desc)
+{
+    const uint32_t nxt = desc->next;
+    allwinner_sun8i_emac_get_desc(s, desc, nxt);
+    return nxt;
+}
+
+static uint32_t allwinner_sun8i_emac_find_desc(AwSun8iEmacState *s,
+                                               FrameDescriptor *desc,
+                                               uint32_t start_addr,
+                                               size_t min_size)
 {
     uint32_t desc_addr = start_addr;
 
     /* Note that the list is a cycle. Last entry points back to the head. */
     while (desc_addr != 0) {
-        dma_memory_read(&s->dma_as, desc_addr, desc, sizeof(*desc));
+        allwinner_sun8i_emac_get_desc(s, desc, desc_addr);
 
-        if ((desc->status & DESC_STATUS_CTL) &&
-            (desc->status2 & DESC_STATUS2_BUF_SIZE_MASK) >= min_size) {
+        if (allwinner_sun8i_emac_desc_owned(desc, min_size)) {
             return desc_addr;
         } else if (desc->next == start_addr) {
             break;
@@ -XXX,XX +XXX,XX @@ static uint32_t allwinner_sun8i_emac_rx_desc(AwSun8iEmacState *s,
                                              FrameDescriptor *desc,
                                              size_t min_size)
 {
-    return allwinner_sun8i_emac_get_desc(s, desc, s->rx_desc_curr, min_size);
+    return allwinner_sun8i_emac_find_desc(s, desc, s->rx_desc_curr, min_size);
 }
 
 static uint32_t allwinner_sun8i_emac_tx_desc(AwSun8iEmacState *s,
-                                             FrameDescriptor *desc,
-                                             size_t min_size)
+                                             FrameDescriptor *desc)
 {
-    return allwinner_sun8i_emac_get_desc(s, desc, s->tx_desc_head, min_size);
+    allwinner_sun8i_emac_get_desc(s, desc, s->tx_desc_curr);
+    return s->tx_desc_curr;
 }
 
 static void allwinner_sun8i_emac_flush_desc(AwSun8iEmacState *s,
@@ -XXX,XX +XXX,XX @@ static ssize_t allwinner_sun8i_emac_receive(NetClientState *nc,
         bytes_left -= desc_bytes;
 
         /* Move to the next descriptor */
-        s->rx_desc_curr = allwinner_sun8i_emac_next_desc(s, &desc, 64);
+        s->rx_desc_curr = allwinner_sun8i_emac_find_desc(s, &desc, desc.next,
+                                                         AW_SUN8I_EMAC_MIN_PKT_SZ);
         if (!s->rx_desc_curr) {
             /* Not enough buffer space available */
             s->int_sta |= INT_STA_RX_BUF_UA;
@@ -XXX,XX +XXX,XX @@ static void allwinner_sun8i_emac_transmit(AwSun8iEmacState *s)
     size_t transmitted = 0;
     static uint8_t packet_buf[2048];
 
-    s->tx_desc_curr = allwinner_sun8i_emac_tx_desc(s, &desc, 0);
+    s->tx_desc_curr = allwinner_sun8i_emac_tx_desc(s, &desc);
 
     /* Read all transmit descriptors */
-    while (s->tx_desc_curr != 0) {
+    while (allwinner_sun8i_emac_desc_owned(&desc, 0)) {
 
         /* Read from physical memory into packet buffer */
         bytes = desc.status2 & DESC_STATUS2_BUF_SIZE_MASK;
@@ -XXX,XX +XXX,XX @@ static void allwinner_sun8i_emac_transmit(AwSun8iEmacState *s)
             packet_bytes = 0;
             transmitted++;
         }
-        s->tx_desc_curr = allwinner_sun8i_emac_next_desc(s, &desc, 0);
+        s->tx_desc_curr = allwinner_sun8i_emac_next_desc(s, &desc);
     }
 
     /* Raise transmit completed interrupt */
-- 
2.20.1

From: Niek Linnenbank <nieklinnenbank@gmail.com>

The image for Armbian 19.11.3 bionic has been removed from the armbian server.
Without the image as input the test arm_orangepi_bionic_19_11 cannot run.

This commit removes the test completely and merges the code of the generic function
do_test_arm_orangepi_uboot_armbian back with the 20.08 test.

Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Reviewed-by: Willian Rampazzo <willianr@redhat.com>
Message-id: 20210310195820.21950-3-nieklinnenbank@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/acceptance/boot_linux_console.py | 72 ++++++++------------------
 1 file changed, 23 insertions(+), 49 deletions(-)

From: Niek Linnenbank <nieklinnenbank@gmail.com>

Update the download URL of the Armbian 20.08 Bionic image for
test_arm_orangepi_bionic_20_08 of the orangepi-pc machine.

The archive.armbian.com URL contains more images and should keep stable
for a longer period of time than dl.armbian.com.

Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Tested-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Willian Rampazzo <willianr@redhat.com>
Message-id: 20210310195820.21950-4-nieklinnenbank@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/acceptance/boot_linux_console.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

From: Niek Linnenbank <nieklinnenbank@gmail.com>

The linux kernel 4.20.7 binary for sunxi has been removed from apt.armbian.com:

$ ARMBIAN_ARTIFACTS_CACHED=yes AVOCADO_ALLOW_LARGE_STORAGE=yes avocado --show=app,console run -t machine:orangepi-pc tests/acceptance/boot_linux_console.py
  Fetching asset from tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_orangepi
  ...
  (1/6) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_orangepi:
    CANCEL: Missing asset https://apt.armbian.com/pool/main/l/linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb (0.55 s)

This commit updates the sunxi kernel to 5.10.16 for the acceptance
tests of the orangepi-pc and cubieboard machines.

Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Reviewed-by: Willian Rampazzo <willianr@redhat.com>
Message-id: 20210310195820.21950-5-nieklinnenbank@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/acceptance/boot_linux_console.py | 40 +++++++++++++-------------
 tests/acceptance/replay_kernel.py      |  8 +++---
 2 files changed, 24 insertions(+), 24 deletions(-)

diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
index XXXXXXX..XXXXXXX 100644
--- a/tests/acceptance/boot_linux_console.py
+++ b/tests/acceptance/boot_linux_console.py
@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_initrd(self):
         :avocado: tags=machine:cubieboard
         """
         deb_url = ('https://apt.armbian.com/pool/main/l/'
-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
+                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
+        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
         kernel_path = self.extract_from_deb(deb_path,
-                                            '/boot/vmlinuz-4.20.7-sunxi')
-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun4i-a10-cubieboard.dtb'
+                                            '/boot/vmlinuz-5.10.16-sunxi')
+        dtb_path = '/usr/lib/linux-image-current-sunxi/sun4i-a10-cubieboard.dtb'
         dtb_path = self.extract_from_deb(deb_path, dtb_path)
         initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
                       '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_sata(self):
         :avocado: tags=machine:cubieboard
         """
         deb_url = ('https://apt.armbian.com/pool/main/l/'
-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
+                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
+        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
         kernel_path = self.extract_from_deb(deb_path,
-                                            '/boot/vmlinuz-4.20.7-sunxi')
-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun4i-a10-cubieboard.dtb'
+                                            '/boot/vmlinuz-5.10.16-sunxi')
+        dtb_path = '/usr/lib/linux-image-current-sunxi/sun4i-a10-cubieboard.dtb'
         dtb_path = self.extract_from_deb(deb_path, dtb_path)
         rootfs_url = ('https://github.com/groeck/linux-build-test/raw/'
                       '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi(self):
         :avocado: tags=machine:orangepi-pc
         """
         deb_url = ('https://apt.armbian.com/pool/main/l/'
-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
+                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
+        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
         kernel_path = self.extract_from_deb(deb_path,
-                                            '/boot/vmlinuz-4.20.7-sunxi')
-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun8i-h3-orangepi-pc.dtb'
+                                            '/boot/vmlinuz-5.10.16-sunxi')
+        dtb_path = '/usr/lib/linux-image-current-sunxi/sun8i-h3-orangepi-pc.dtb'
         dtb_path = self.extract_from_deb(deb_path, dtb_path)
 
         self.vm.set_console()
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_initrd(self):
         :avocado: tags=machine:orangepi-pc
         """
         deb_url = ('https://apt.armbian.com/pool/main/l/'
-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
+                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
+        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
         kernel_path = self.extract_from_deb(deb_path,
-                                            '/boot/vmlinuz-4.20.7-sunxi')
-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun8i-h3-orangepi-pc.dtb'
+                                            '/boot/vmlinuz-5.10.16-sunxi')
+        dtb_path = '/usr/lib/linux-image-current-sunxi/sun8i-h3-orangepi-pc.dtb'
         dtb_path = self.extract_from_deb(deb_path, dtb_path)
         initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
                       '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
@@ -XXX,XX +XXX,XX @@ def test_arm_orangepi_sd(self):
         :avocado: tags=device:sd
         """
         deb_url = ('https://apt.armbian.com/pool/main/l/'
-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
+                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
+        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
         kernel_path = self.extract_from_deb(deb_path,
-                                            '/boot/vmlinuz-4.20.7-sunxi')
-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun8i-h3-orangepi-pc.dtb'
+                                            '/boot/vmlinuz-5.10.16-sunxi')
+        dtb_path = '/usr/lib/linux-image-current-sunxi/sun8i-h3-orangepi-pc.dtb'
         dtb_path = self.extract_from_deb(deb_path, dtb_path)
         rootfs_url = ('http://storage.kernelci.org/images/rootfs/buildroot/'
                       'kci-2019.02/armel/base/rootfs.ext2.xz')
diff --git a/tests/acceptance/replay_kernel.py b/tests/acceptance/replay_kernel.py
index XXXXXXX..XXXXXXX 100644
--- a/tests/acceptance/replay_kernel.py
+++ b/tests/acceptance/replay_kernel.py
@@ -XXX,XX +XXX,XX @@ def test_arm_cubieboard_initrd(self):
         :avocado: tags=machine:cubieboard
         """
         deb_url = ('https://apt.armbian.com/pool/main/l/'
-                   'linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb')
-        deb_hash = '1334c29c44d984ffa05ed10de8c3361f33d78315'
+                   'linux-5.10.16-sunxi/linux-image-current-sunxi_21.02.2_armhf.deb')
+        deb_hash = '9fa84beda245cabf0b4fa84cf6eaa7738ead1da0'
         deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
         kernel_path = self.extract_from_deb(deb_path,
-                                            '/boot/vmlinuz-4.20.7-sunxi')
-        dtb_path = '/usr/lib/linux-image-dev-sunxi/sun4i-a10-cubieboard.dtb'
+                                            '/boot/vmlinuz-5.10.16-sunxi')
+        dtb_path = '/usr/lib/linux-image-current-sunxi/sun4i-a10-cubieboard.dtb'
         dtb_path = self.extract_from_deb(deb_path, dtb_path)
         initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
                       '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
-- 
2.20.1

From: Niek Linnenbank <nieklinnenbank@gmail.com>

Previously the ARMBIAN_ARTIFACTS_CACHED pre-condition was added to allow running
tests that have already existing armbian.com artifacts stored in the local avocado cache,
but do not have working URLs to download a fresh copy.

At this time of writing the URLs for artifacts on the armbian.com server are updated and working.
Any future broken URLs will result in a skipped acceptance test, for example:

(1/5) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_orangepi:
  CANCEL: Missing asset https://apt.armbian.com/pool/main/l/linux-4.20.7-sunxi/linux-image-dev-sunxi_5.75_armhf.deb (0.53 s)

This commits removes the ARMBIAN_ARTIFACTS_CACHED pre-condition such that
the acceptance tests for the orangepi-pc and cubieboard machines can run.

Signed-off-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Reviewed-by: Willian Rampazzo <willianr@redhat.com>
Message-id: 20210310195820.21950-6-nieklinnenbank@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/acceptance/boot_linux_console.py | 12 ------------
 tests/acceptance/replay_kernel.py      |  2 --
 2 files changed, 14 deletions(-)

From: Andrew Jones <drjones@redhat.com>

Prior to commit f2ce39b4f067 a MachineClass kvm_type method
only needed to be registered to ensure it would be executed.
With commit f2ce39b4f067 a kvm-type machine property must also
be specified. hw/arm/virt relies on the kvm_type method to pass
its selected IPA limit to KVM, but this is not exposed as a
machine property. Restore the previous functionality of invoking
kvm_type when it's present.

Fixes: f2ce39b4f067 ("vl: make qemu_get_machine_opts static")
Signed-off-by: Andrew Jones <drjones@redhat.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Message-id: 20210310135218.255205-2-drjones@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/boards.h | 1 +
 accel/kvm/kvm-all.c | 2 ++
 2 files changed, 3 insertions(+)

diff --git a/include/hw/boards.h b/include/hw/boards.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/boards.h
+++ b/include/hw/boards.h
@@ -XXX,XX +XXX,XX @@ typedef struct {
  * @kvm_type:
  *    Return the type of KVM corresponding to the kvm-type string option or
  *    computed based on other criteria such as the host kernel capabilities.
+ *    kvm-type may be NULL if it is not needed.
  * @numa_mem_supported:
  *    true if '--numa node.mem' option is supported and false otherwise
  * @smp_parse:
diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/kvm/kvm-all.c
+++ b/accel/kvm/kvm-all.c
@@ -XXX,XX +XXX,XX @@ static int kvm_init(MachineState *ms)
                                                             "kvm-type",
                                                             &error_abort);
         type = mc->kvm_type(ms, kvm_type);
+    } else if (mc->kvm_type) {
+        type = mc->kvm_type(ms, NULL);
     }
 
     do {
-- 
2.20.1

From: Andrew Jones <drjones@redhat.com>

The virt machine already checks KVM_CAP_ARM_VM_IPA_SIZE to get the
upper bound of the IPA size. If that bound is lower than the highest
possible GPA for the machine, then QEMU will error out. However, the
IPA is set to 40 when the highest GPA is less than or equal to 40,
even when KVM may support an IPA limit as low as 32. This means KVM
may fail the VM creation unnecessarily. Additionally, 40 is selected
with the value 0, which means use the default, and that gets around
a check in some versions of KVM, causing a difficult to debug fail.
Always use the IPA size that corresponds to the highest possible GPA,
unless it's lower than 32, in which case use 32. Also, we must still
use 0 when KVM only supports the legacy fixed 40 bit IPA.

Suggested-by: Marc Zyngier <maz@kernel.org>
Signed-off-by: Andrew Jones <drjones@redhat.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Reviewed-by: Marc Zyngier <maz@kernel.org>
Message-id: 20210310135218.255205-3-drjones@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/kvm_arm.h |  6 ++++--
 hw/arm/virt.c        | 23 ++++++++++++++++-------
 target/arm/kvm.c     |  4 +++-
 3 files changed, 23 insertions(+), 10 deletions(-)

diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm_arm.h
+++ b/target/arm/kvm_arm.h
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_sve_supported(void);
 /**
  * kvm_arm_get_max_vm_ipa_size:
  * @ms: Machine state handle
+ * @fixed_ipa: True when the IPA limit is fixed at 40. This is the case
+ * for legacy KVM.
  *
  * Returns the number of bits in the IPA address space supported by KVM
  */
-int kvm_arm_get_max_vm_ipa_size(MachineState *ms);
+int kvm_arm_get_max_vm_ipa_size(MachineState *ms, bool *fixed_ipa);
 
 /**
  * kvm_arm_sync_mpstate_to_kvm:
@@ -XXX,XX +XXX,XX @@ static inline void kvm_arm_add_vcpu_properties(Object *obj)
     g_assert_not_reached();
 }
 
-static inline int kvm_arm_get_max_vm_ipa_size(MachineState *ms)
+static inline int kvm_arm_get_max_vm_ipa_size(MachineState *ms, bool *fixed_ipa)
 {
     g_assert_not_reached();
 }
diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static HotplugHandler *virt_machine_get_hotplug_handler(MachineState *machine,
 static int virt_kvm_type(MachineState *ms, const char *type_str)
 {
     VirtMachineState *vms = VIRT_MACHINE(ms);
-    int max_vm_pa_size = kvm_arm_get_max_vm_ipa_size(ms);
-    int requested_pa_size;
+    int max_vm_pa_size, requested_pa_size;
+    bool fixed_ipa;
+
+    max_vm_pa_size = kvm_arm_get_max_vm_ipa_size(ms, &fixed_ipa);
 
     /* we freeze the memory map to compute the highest gpa */
     virt_set_memmap(vms);
 
     requested_pa_size = 64 - clz64(vms->highest_gpa);
 
+    /*
+     * KVM requires the IPA size to be at least 32 bits.
+     */
+    if (requested_pa_size < 32) {
+        requested_pa_size = 32;
+    }
+
     if (requested_pa_size > max_vm_pa_size) {
         error_report("-m and ,maxmem option values "
                      "require an IPA range (%d bits) larger than "
                      "the one supported by the host (%d bits)",
                      requested_pa_size, max_vm_pa_size);
-       exit(1);
+        exit(1);
     }
     /*
-     * By default we return 0 which corresponds to an implicit legacy
-     * 40b IPA setting. Otherwise we return the actual requested PA
-     * logsize
+     * We return the requested PA log size, unless KVM only supports
+     * the implicit legacy 40b IPA setting, in which case the kvm_type
+     * must be 0.
      */
-    return requested_pa_size > 40 ? requested_pa_size : 0;
+    return fixed_ipa ? 0 : requested_pa_size;
 }
 
 static void virt_machine_class_init(ObjectClass *oc, void *data)
diff --git a/target/arm/kvm.c b/target/arm/kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm.c
+++ b/target/arm/kvm.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_pmu_supported(void)
     return kvm_check_extension(kvm_state, KVM_CAP_ARM_PMU_V3);
 }
 
-int kvm_arm_get_max_vm_ipa_size(MachineState *ms)
+int kvm_arm_get_max_vm_ipa_size(MachineState *ms, bool *fixed_ipa)
 {
     KVMState *s = KVM_STATE(ms->accelerator);
     int ret;
 
     ret = kvm_check_extension(s, KVM_CAP_ARM_VM_IPA_SIZE);
+    *fixed_ipa = ret <= 0;
+
     return ret > 0 ? ret : 40;
 }
 
-- 
2.20.1

From: Hao Wu <wuhaotsh@google.com>

This patch adds GPIOs in NPCM7xx PWM module for its duty values.
The purpose of this is to connect it to the MFT module to provide
an input for measuring a PWM fan's RPM. Each PWM module has
NPCM7XX_PWM_PER_MODULE of GPIOs, each one corresponds to
one PWM instance and can connect to multiple fan instances in MFT.

Reviewed-by: Doug Evans <dje@google.com>
Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Hao Wu <wuhaotsh@google.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20210311180855.149764-2-wuhaotsh@google.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/misc/npcm7xx_pwm.h | 4 +++-
 hw/misc/npcm7xx_pwm.c         | 4 ++++
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/include/hw/misc/npcm7xx_pwm.h b/include/hw/misc/npcm7xx_pwm.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/npcm7xx_pwm.h
+++ b/include/hw/misc/npcm7xx_pwm.h
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxPWM {
  * @iomem: Memory region through which registers are accessed.
  * @clock: The PWM clock.
  * @pwm: The PWM channels owned by this module.
+ * @duty_gpio_out: The duty cycle of each PWM channels as a output GPIO.
  * @ppr: The prescaler register.
  * @csr: The clock selector register.
  * @pcr: The control register.
@@ -XXX,XX +XXX,XX @@ struct NPCM7xxPWMState {
     MemoryRegion iomem;
 
     Clock       *clock;
-    NPCM7xxPWM pwm[NPCM7XX_PWM_PER_MODULE];
+    NPCM7xxPWM  pwm[NPCM7XX_PWM_PER_MODULE];
+    qemu_irq    duty_gpio_out[NPCM7XX_PWM_PER_MODULE];
 
     uint32_t    ppr;
     uint32_t    csr;
diff --git a/hw/misc/npcm7xx_pwm.c b/hw/misc/npcm7xx_pwm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/npcm7xx_pwm.c
+++ b/hw/misc/npcm7xx_pwm.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_pwm_update_duty(NPCM7xxPWM *p)
         trace_npcm7xx_pwm_update_duty(DEVICE(p->module)->canonical_path,
                                       p->index, p->duty, duty);
         p->duty = duty;
+        qemu_set_irq(p->module->duty_gpio_out[p->index], p->duty);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_pwm_init(Object *obj)
     SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
     int i;
 
+    QEMU_BUILD_BUG_ON(ARRAY_SIZE(s->pwm) != NPCM7XX_PWM_PER_MODULE);
     for (i = 0; i < NPCM7XX_PWM_PER_MODULE; i++) {
         NPCM7xxPWM *p = &s->pwm[i];
         p->module = s;
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_pwm_init(Object *obj)
         object_property_add_uint32_ptr(obj, "duty[*]",
                 &s->pwm[i].duty, OBJ_PROP_FLAG_READ);
     }
+    qdev_init_gpio_out_named(DEVICE(s), s->duty_gpio_out,
+                             "duty-gpio-out", NPCM7XX_PWM_PER_MODULE);
 }
 
 static const VMStateDescription vmstate_npcm7xx_pwm = {
-- 
2.20.1

From: Hao Wu <wuhaotsh@google.com>

This patch implements Multi Function Timer (MFT) module for NPCM7XX.
This module is mainly used to configure PWM fans. It has just enough
functionality to make the PWM fan kernel module work.

The module takes two input, the max_rpm of a fan (modifiable via QMP)
and duty cycle (a GPIO from the PWM module.) The actual measured RPM
is equal to max_rpm * duty_cycle / NPCM7XX_PWM_MAX_DUTY. The RPM is
measured as a counter compared to a prescaled input clock. The kernel
driver reads this counter and report to user space.

Refs:
https://github.com/torvalds/linux/blob/master/drivers/hwmon/npcm750-pwm-fan.c

Reviewed-by: Doug Evans <dje@google.com>
Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Hao Wu <wuhaotsh@google.com>
Message-id: 20210311180855.149764-3-wuhaotsh@google.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/misc/npcm7xx_mft.h |  70 +++++
 hw/misc/npcm7xx_mft.c         | 540 ++++++++++++++++++++++++++++++++++
 hw/misc/meson.build           |   1 +
 hw/misc/trace-events          |   8 +
 4 files changed, 619 insertions(+)
 create mode 100644 include/hw/misc/npcm7xx_mft.h
 create mode 100644 hw/misc/npcm7xx_mft.c

diff --git a/include/hw/misc/npcm7xx_mft.h b/include/hw/misc/npcm7xx_mft.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/misc/npcm7xx_mft.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Nuvoton NPCM7xx MFT Module
+ *
+ * Copyright 2021 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+#ifndef NPCM7XX_MFT_H
+#define NPCM7XX_MFT_H
+
+#include "exec/memory.h"
+#include "hw/clock.h"
+#include "hw/irq.h"
+#include "hw/sysbus.h"
+#include "qom/object.h"
+
+/* Max Fan input number. */
+#define NPCM7XX_MFT_MAX_FAN_INPUT 19
+
+/*
+ * Number of registers in one MFT module. Don't change this without increasing
+ * the version_id in vmstate.
+ */
+#define NPCM7XX_MFT_NR_REGS (0x20 / sizeof(uint16_t))
+
+/*
+ * The MFT can take up to 4 inputs: A0, B0, A1, B1. It can measure one A and one
+ * B simultaneously. NPCM7XX_MFT_INASEL and NPCM7XX_MFT_INBSEL are used to
+ * select which A or B input are used.
+ */
+#define NPCM7XX_MFT_FANIN_COUNT 4
+
+/**
+ * struct NPCM7xxMFTState - Multi Functional Tachometer device state.
+ * @parent: System bus device.
+ * @iomem: Memory region through which registers are accessed.
+ * @clock_in: The input clock for MFT from CLK module.
+ * @clock_{1,2}: The counter clocks for NPCM7XX_MFT_CNT{1,2}
+ * @irq: The IRQ for this MFT state.
+ * @regs: The MMIO registers.
+ * @max_rpm: The maximum rpm for fans. Order: A0, B0, A1, B1.
+ * @duty: The duty cycles for fans, relative to NPCM7XX_PWM_MAX_DUTY.
+ */
+typedef struct NPCM7xxMFTState {
+    SysBusDevice parent;
+
+    MemoryRegion iomem;
+
+    Clock       *clock_in;
+    Clock       *clock_1, *clock_2;
+    qemu_irq    irq;
+    uint16_t    regs[NPCM7XX_MFT_NR_REGS];
+
+    uint32_t    max_rpm[NPCM7XX_MFT_FANIN_COUNT];
+    uint32_t    duty[NPCM7XX_MFT_FANIN_COUNT];
+} NPCM7xxMFTState;
+
+#define TYPE_NPCM7XX_MFT "npcm7xx-mft"
+#define NPCM7XX_MFT(obj) \
+    OBJECT_CHECK(NPCM7xxMFTState, (obj), TYPE_NPCM7XX_MFT)
+
+#endif /* NPCM7XX_MFT_H */
diff --git a/hw/misc/npcm7xx_mft.c b/hw/misc/npcm7xx_mft.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/misc/npcm7xx_mft.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Nuvoton NPCM7xx MFT Module
+ *
+ * Copyright 2021 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+
+#include "qemu/osdep.h"
+#include "hw/irq.h"
+#include "hw/qdev-clock.h"
+#include "hw/qdev-properties.h"
+#include "hw/misc/npcm7xx_mft.h"
+#include "hw/misc/npcm7xx_pwm.h"
+#include "hw/registerfields.h"
+#include "migration/vmstate.h"
+#include "qapi/error.h"
+#include "qapi/visitor.h"
+#include "qemu/bitops.h"
+#include "qemu/error-report.h"
+#include "qemu/log.h"
+#include "qemu/module.h"
+#include "qemu/timer.h"
+#include "qemu/units.h"
+#include "trace.h"
+
+/*
+ * Some of the registers can only accessed via 16-bit ops and some can only
+ * be accessed via 8-bit ops. However we mark all of them using REG16 to
+ * simplify implementation. npcm7xx_mft_check_mem_op checks the access length
+ * of memory operations.
+ */
+REG16(NPCM7XX_MFT_CNT1, 0x00);
+REG16(NPCM7XX_MFT_CRA, 0x02);
+REG16(NPCM7XX_MFT_CRB, 0x04);
+REG16(NPCM7XX_MFT_CNT2, 0x06);
+REG16(NPCM7XX_MFT_PRSC, 0x08);
+REG16(NPCM7XX_MFT_CKC, 0x0a);
+REG16(NPCM7XX_MFT_MCTRL, 0x0c);
+REG16(NPCM7XX_MFT_ICTRL, 0x0e);
+REG16(NPCM7XX_MFT_ICLR, 0x10);
+REG16(NPCM7XX_MFT_IEN, 0x12);
+REG16(NPCM7XX_MFT_CPA, 0x14);
+REG16(NPCM7XX_MFT_CPB, 0x16);
+REG16(NPCM7XX_MFT_CPCFG, 0x18);
+REG16(NPCM7XX_MFT_INASEL, 0x1a);
+REG16(NPCM7XX_MFT_INBSEL, 0x1c);
+
+/* Register Fields */
+#define NPCM7XX_MFT_CKC_C2CSEL          BIT(3)
+#define NPCM7XX_MFT_CKC_C1CSEL          BIT(0)
+
+#define NPCM7XX_MFT_MCTRL_TBEN          BIT(6)
+#define NPCM7XX_MFT_MCTRL_TAEN          BIT(5)
+#define NPCM7XX_MFT_MCTRL_TBEDG         BIT(4)
+#define NPCM7XX_MFT_MCTRL_TAEDG         BIT(3)
+#define NPCM7XX_MFT_MCTRL_MODE5         BIT(2)
+
+#define NPCM7XX_MFT_ICTRL_TFPND         BIT(5)
+#define NPCM7XX_MFT_ICTRL_TEPND         BIT(4)
+#define NPCM7XX_MFT_ICTRL_TDPND         BIT(3)
+#define NPCM7XX_MFT_ICTRL_TCPND         BIT(2)
+#define NPCM7XX_MFT_ICTRL_TBPND         BIT(1)
+#define NPCM7XX_MFT_ICTRL_TAPND         BIT(0)
+
+#define NPCM7XX_MFT_ICLR_TFCLR          BIT(5)
+#define NPCM7XX_MFT_ICLR_TECLR          BIT(4)
+#define NPCM7XX_MFT_ICLR_TDCLR          BIT(3)
+#define NPCM7XX_MFT_ICLR_TCCLR          BIT(2)
+#define NPCM7XX_MFT_ICLR_TBCLR          BIT(1)
+#define NPCM7XX_MFT_ICLR_TACLR          BIT(0)
+
+#define NPCM7XX_MFT_IEN_TFIEN           BIT(5)
+#define NPCM7XX_MFT_IEN_TEIEN           BIT(4)
+#define NPCM7XX_MFT_IEN_TDIEN           BIT(3)
+#define NPCM7XX_MFT_IEN_TCIEN           BIT(2)
+#define NPCM7XX_MFT_IEN_TBIEN           BIT(1)
+#define NPCM7XX_MFT_IEN_TAIEN           BIT(0)
+
+#define NPCM7XX_MFT_CPCFG_GET_B(rv)     extract8((rv), 4, 4)
+#define NPCM7XX_MFT_CPCFG_GET_A(rv)     extract8((rv), 0, 4)
+#define NPCM7XX_MFT_CPCFG_HIEN          BIT(3)
+#define NPCM7XX_MFT_CPCFG_EQEN          BIT(2)
+#define NPCM7XX_MFT_CPCFG_LOEN          BIT(1)
+#define NPCM7XX_MFT_CPCFG_CPSEL         BIT(0)
+
+#define NPCM7XX_MFT_INASEL_SELA         BIT(0)
+#define NPCM7XX_MFT_INBSEL_SELB         BIT(0)
+
+/* Max CNT values of the module. The CNT value is a countdown from it. */
+#define NPCM7XX_MFT_MAX_CNT             0xFFFF
+
+/* Each fan revolution should generated 2 pulses */
+#define NPCM7XX_MFT_PULSE_PER_REVOLUTION 2
+
+typedef enum NPCM7xxMFTCaptureState {
+    /* capture succeeded with a valid CNT value. */
+    NPCM7XX_CAPTURE_SUCCEED,
+    /* capture stopped prematurely due to reaching CPCFG condition. */
+    NPCM7XX_CAPTURE_COMPARE_HIT,
+    /* capture fails since it reaches underflow condition for CNT. */
+    NPCM7XX_CAPTURE_UNDERFLOW,
+} NPCM7xxMFTCaptureState;
+
+static void npcm7xx_mft_reset(NPCM7xxMFTState *s)
+{
+    int i;
+
+    /* Only registers PRSC ~ INBSEL need to be reset. */
+    for (i = R_NPCM7XX_MFT_PRSC; i <= R_NPCM7XX_MFT_INBSEL; ++i) {
+        s->regs[i] = 0;
+    }
+}
+
+static void npcm7xx_mft_clear_interrupt(NPCM7xxMFTState *s, uint8_t iclr)
+{
+    /*
+     * Clear bits in ICTRL where corresponding bits in iclr is 1.
+     * Both iclr and ictrl are 8-bit regs. (See npcm7xx_mft_check_mem_op)
+     */
+    s->regs[R_NPCM7XX_MFT_ICTRL] &= ~iclr;
+}
+
+/*
+ * If the CPCFG's condition should be triggered during count down from
+ * NPCM7XX_MFT_MAX_CNT to src if compared to tgt, return the count when
+ * the condition is triggered.
+ * Otherwise return -1.
+ * Since tgt is uint16_t it must always <= NPCM7XX_MFT_MAX_CNT.
+ */
+static int npcm7xx_mft_compare(int32_t src, uint16_t tgt, uint8_t cpcfg)
+{
+    if (cpcfg & NPCM7XX_MFT_CPCFG_HIEN) {
+        return NPCM7XX_MFT_MAX_CNT;
+    }
+    if ((cpcfg & NPCM7XX_MFT_CPCFG_EQEN) && (src <= tgt)) {
+        return tgt;
+    }
+    if ((cpcfg & NPCM7XX_MFT_CPCFG_LOEN) && (tgt > 0) && (src < tgt)) {
+        return tgt - 1;
+    }
+
+    return -1;
+}
+
+/* Compute CNT according to corresponding fan's RPM. */
+static NPCM7xxMFTCaptureState npcm7xx_mft_compute_cnt(
+    Clock *clock, uint32_t max_rpm, uint32_t duty, uint16_t tgt,
+    uint8_t cpcfg, uint16_t *cnt)
+{
+    uint32_t rpm = (uint64_t)max_rpm * (uint64_t)duty / NPCM7XX_PWM_MAX_DUTY;
+    int32_t count;
+    int stopped;
+    NPCM7xxMFTCaptureState state;
+
+    if (rpm == 0) {
+        /*
+         * If RPM = 0, capture won't happen. CNT will continue count down.
+         * So it's effective equivalent to have a cnt > NPCM7XX_MFT_MAX_CNT
+         */
+        count = NPCM7XX_MFT_MAX_CNT + 1;
+    } else {
+        /*
+         * RPM = revolution/min. The time for one revlution (in ns) is
+         * MINUTE_TO_NANOSECOND / RPM.
+         */
+        count = clock_ns_to_ticks(clock, (60 * NANOSECONDS_PER_SECOND) /
+            (rpm * NPCM7XX_MFT_PULSE_PER_REVOLUTION));
+    }
+
+    if (count > NPCM7XX_MFT_MAX_CNT) {
+        count = -1;
+    } else {
+        /* The CNT is a countdown value from NPCM7XX_MFT_MAX_CNT. */
+        count = NPCM7XX_MFT_MAX_CNT - count;
+    }
+    stopped = npcm7xx_mft_compare(count, tgt, cpcfg);
+    if (stopped == -1) {
+        if (count == -1) {
+            /* Underflow */
+            state = NPCM7XX_CAPTURE_UNDERFLOW;
+        } else {
+            state = NPCM7XX_CAPTURE_SUCCEED;
+        }
+    } else {
+        count = stopped;
+        state = NPCM7XX_CAPTURE_COMPARE_HIT;
+    }
+
+    if (count != -1) {
+        *cnt = count;
+    }
+    trace_npcm7xx_mft_rpm(clock->canonical_path, clock_get_hz(clock),
+                          state, count, rpm, duty);
+    return state;
+}
+
+/*
+ * Capture Fan RPM and update CNT and CR registers accordingly.
+ * Raise IRQ if certain contidions are met in IEN.
+ */
+static void npcm7xx_mft_capture(NPCM7xxMFTState *s)
+{
+    int irq_level = 0;
+    NPCM7xxMFTCaptureState state;
+    int sel;
+    uint8_t cpcfg;
+
+    /*
+     * If not mode 5, the behavior is undefined. We just do nothing in this
+     * case.
+     */
+    if (!(s->regs[R_NPCM7XX_MFT_MCTRL] & NPCM7XX_MFT_MCTRL_MODE5)) {
+        return;
+    }
+
+    /* Capture input A. */
+    if (s->regs[R_NPCM7XX_MFT_MCTRL] & NPCM7XX_MFT_MCTRL_TAEN &&
+        s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C1CSEL) {
+        sel = s->regs[R_NPCM7XX_MFT_INASEL] & NPCM7XX_MFT_INASEL_SELA;
+        cpcfg = NPCM7XX_MFT_CPCFG_GET_A(s->regs[R_NPCM7XX_MFT_CPCFG]);
+        state = npcm7xx_mft_compute_cnt(s->clock_1,
+                                        sel ? s->max_rpm[2] : s->max_rpm[0],
+                                        sel ? s->duty[2] : s->duty[0],
+                                        s->regs[R_NPCM7XX_MFT_CPA],
+                                        cpcfg,
+                                        &s->regs[R_NPCM7XX_MFT_CNT1]);
+        switch (state) {
+        case NPCM7XX_CAPTURE_SUCCEED:
+            /* Interrupt on input capture on TAn transition - TAPND */
+            s->regs[R_NPCM7XX_MFT_CRA] = s->regs[R_NPCM7XX_MFT_CNT1];
+            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TAPND;
+            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TAIEN) {
+                irq_level = 1;
+            }
+            break;
+
+        case NPCM7XX_CAPTURE_COMPARE_HIT:
+            /* Compare Hit - TEPND */
+            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TEPND;
+            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TEIEN) {
+                irq_level = 1;
+            }
+            break;
+
+        case NPCM7XX_CAPTURE_UNDERFLOW:
+            /* Underflow - TCPND */
+            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TCPND;
+            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TCIEN) {
+                irq_level = 1;
+            }
+            break;
+
+        default:
+            g_assert_not_reached();
+        }
+    }
+
+    /* Capture input B. */
+    if (s->regs[R_NPCM7XX_MFT_MCTRL] & NPCM7XX_MFT_MCTRL_TBEN &&
+        s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C2CSEL) {
+        sel = s->regs[R_NPCM7XX_MFT_INBSEL] & NPCM7XX_MFT_INBSEL_SELB;
+        cpcfg = NPCM7XX_MFT_CPCFG_GET_B(s->regs[R_NPCM7XX_MFT_CPCFG]);
+        state = npcm7xx_mft_compute_cnt(s->clock_2,
+                                        sel ? s->max_rpm[3] : s->max_rpm[1],
+                                        sel ? s->duty[3] : s->duty[1],
+                                        s->regs[R_NPCM7XX_MFT_CPB],
+                                        cpcfg,
+                                        &s->regs[R_NPCM7XX_MFT_CNT2]);
+        switch (state) {
+        case NPCM7XX_CAPTURE_SUCCEED:
+            /* Interrupt on input capture on TBn transition - TBPND */
+            s->regs[R_NPCM7XX_MFT_CRB] = s->regs[R_NPCM7XX_MFT_CNT2];
+            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TBPND;
+            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TBIEN) {
+                irq_level = 1;
+            }
+            break;
+
+        case NPCM7XX_CAPTURE_COMPARE_HIT:
+            /* Compare Hit - TFPND */
+            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TFPND;
+            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TFIEN) {
+                irq_level = 1;
+            }
+            break;
+
+        case NPCM7XX_CAPTURE_UNDERFLOW:
+            /* Underflow - TDPND */
+            s->regs[R_NPCM7XX_MFT_ICTRL] |= NPCM7XX_MFT_ICTRL_TDPND;
+            if (s->regs[R_NPCM7XX_MFT_IEN] & NPCM7XX_MFT_IEN_TDIEN) {
+                irq_level = 1;
+            }
+            break;
+
+        default:
+            g_assert_not_reached();
+        }
+    }
+
+    trace_npcm7xx_mft_capture(DEVICE(s)->canonical_path, irq_level);
+    qemu_set_irq(s->irq, irq_level);
+}
+
+/* Update clock for counters. */
+static void npcm7xx_mft_update_clock(void *opaque, ClockEvent event)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
+    uint64_t prescaled_clock_period;
+
+    prescaled_clock_period = clock_get(s->clock_in) *
+        (s->regs[R_NPCM7XX_MFT_PRSC] + 1ULL);
+    trace_npcm7xx_mft_update_clock(s->clock_in->canonical_path,
+                                   s->regs[R_NPCM7XX_MFT_CKC],
+                                   clock_get(s->clock_in),
+                                   prescaled_clock_period);
+    /* Update clock 1 */
+    if (s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C1CSEL) {
+        /* Clock is prescaled. */
+        clock_update(s->clock_1, prescaled_clock_period);
+    } else {
+        /* Clock stopped. */
+        clock_update(s->clock_1, 0);
+    }
+    /* Update clock 2 */
+    if (s->regs[R_NPCM7XX_MFT_CKC] & NPCM7XX_MFT_CKC_C2CSEL) {
+        /* Clock is prescaled. */
+        clock_update(s->clock_2, prescaled_clock_period);
+    } else {
+        /* Clock stopped. */
+        clock_update(s->clock_2, 0);
+    }
+
+    npcm7xx_mft_capture(s);
+}
+
+static uint64_t npcm7xx_mft_read(void *opaque, hwaddr offset, unsigned size)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
+    uint16_t value = 0;
+
+    switch (offset) {
+    case A_NPCM7XX_MFT_ICLR:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: register @ 0x%04" HWADDR_PRIx " is write-only\n",
+                      __func__, offset);
+        break;
+
+    default:
+        value = s->regs[offset / 2];
+    }
+
+    trace_npcm7xx_mft_read(DEVICE(s)->canonical_path, offset, value);
+    return value;
+}
+
+static void npcm7xx_mft_write(void *opaque, hwaddr offset,
+                              uint64_t v, unsigned size)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
+
+    trace_npcm7xx_mft_write(DEVICE(s)->canonical_path, offset, v);
+    switch (offset) {
+    case A_NPCM7XX_MFT_ICLR:
+        npcm7xx_mft_clear_interrupt(s, v);
+        break;
+
+    case A_NPCM7XX_MFT_CKC:
+    case A_NPCM7XX_MFT_PRSC:
+        s->regs[offset / 2] = v;
+        npcm7xx_mft_update_clock(s, ClockUpdate);
+        break;
+
+    default:
+        s->regs[offset / 2] = v;
+        npcm7xx_mft_capture(s);
+        break;
+    }
+}
+
+static bool npcm7xx_mft_check_mem_op(void *opaque, hwaddr offset,
+                                     unsigned size, bool is_write,
+                                     MemTxAttrs attrs)
+{
+    switch (offset) {
+    /* 16-bit registers. Must be accessed with 16-bit read/write.*/
+    case A_NPCM7XX_MFT_CNT1:
+    case A_NPCM7XX_MFT_CRA:
+    case A_NPCM7XX_MFT_CRB:
+    case A_NPCM7XX_MFT_CNT2:
+    case A_NPCM7XX_MFT_CPA:
+    case A_NPCM7XX_MFT_CPB:
+        return size == 2;
+
+    /* 8-bit registers. Must be accessed with 8-bit read/write.*/
+    case A_NPCM7XX_MFT_PRSC:
+    case A_NPCM7XX_MFT_CKC:
+    case A_NPCM7XX_MFT_MCTRL:
+    case A_NPCM7XX_MFT_ICTRL:
+    case A_NPCM7XX_MFT_ICLR:
+    case A_NPCM7XX_MFT_IEN:
+    case A_NPCM7XX_MFT_CPCFG:
+    case A_NPCM7XX_MFT_INASEL:
+    case A_NPCM7XX_MFT_INBSEL:
+        return size == 1;
+
+    default:
+        /* Invalid registers. */
+        return false;
+    }
+}
+
+static void npcm7xx_mft_get_max_rpm(Object *obj, Visitor *v, const char *name,
+                                    void *opaque, Error **errp)
+{
+    visit_type_uint32(v, name, (uint32_t *)opaque, errp);
+}
+
+static void npcm7xx_mft_set_max_rpm(Object *obj, Visitor *v, const char *name,
+                                    void *opaque, Error **errp)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
+    uint32_t *max_rpm = opaque;
+    uint32_t value;
+
+    if (!visit_type_uint32(v, name, &value, errp)) {
+        return;
+    }
+
+    *max_rpm = value;
+    npcm7xx_mft_capture(s);
+}
+
+static void npcm7xx_mft_duty_handler(void *opaque, int n, int value)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(opaque);
+
+    trace_npcm7xx_mft_set_duty(DEVICE(s)->canonical_path, n, value);
+    s->duty[n] = value;
+    npcm7xx_mft_capture(s);
+}
+
+static const struct MemoryRegionOps npcm7xx_mft_ops = {
+    .read       = npcm7xx_mft_read,
+    .write      = npcm7xx_mft_write,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid      = {
+        .min_access_size        = 1,
+        .max_access_size        = 2,
+        .unaligned              = false,
+        .accepts                = npcm7xx_mft_check_mem_op,
+    },
+};
+
+static void npcm7xx_mft_enter_reset(Object *obj, ResetType type)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
+
+    npcm7xx_mft_reset(s);
+}
+
+static void npcm7xx_mft_hold_reset(Object *obj)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
+
+    qemu_irq_lower(s->irq);
+}
+
+static void npcm7xx_mft_init(Object *obj)
+{
+    NPCM7xxMFTState *s = NPCM7XX_MFT(obj);
+    SysBusDevice *sbd = SYS_BUS_DEVICE(obj);
+    DeviceState *dev = DEVICE(obj);
+
+    memory_region_init_io(&s->iomem, obj, &npcm7xx_mft_ops, s,
+                          TYPE_NPCM7XX_MFT, 4 * KiB);
+    sysbus_init_mmio(sbd, &s->iomem);
+    sysbus_init_irq(sbd, &s->irq);
+    s->clock_in = qdev_init_clock_in(dev, "clock-in", npcm7xx_mft_update_clock,
+                                     s, ClockUpdate);
+    s->clock_1 = qdev_init_clock_out(dev, "clock1");
+    s->clock_2 = qdev_init_clock_out(dev, "clock2");
+
+    for (int i = 0; i < NPCM7XX_PWM_PER_MODULE; ++i) {
+        object_property_add(obj, "max_rpm[*]", "uint32",
+                            npcm7xx_mft_get_max_rpm,
+                            npcm7xx_mft_set_max_rpm,
+                            NULL, &s->max_rpm[i]);
+    }
+    qdev_init_gpio_in_named(dev, npcm7xx_mft_duty_handler, "duty",
+                            NPCM7XX_MFT_FANIN_COUNT);
+}
+
+static const VMStateDescription vmstate_npcm7xx_mft = {
+    .name = "npcm7xx-mft-module",
+    .version_id = 0,
+    .minimum_version_id = 0,
+    .fields = (VMStateField[]) {
+        VMSTATE_CLOCK(clock_in, NPCM7xxMFTState),
+        VMSTATE_CLOCK(clock_1, NPCM7xxMFTState),
+        VMSTATE_CLOCK(clock_2, NPCM7xxMFTState),
+        VMSTATE_UINT16_ARRAY(regs, NPCM7xxMFTState, NPCM7XX_MFT_NR_REGS),
+        VMSTATE_UINT32_ARRAY(max_rpm, NPCM7xxMFTState, NPCM7XX_MFT_FANIN_COUNT),
+        VMSTATE_UINT32_ARRAY(duty, NPCM7xxMFTState, NPCM7XX_MFT_FANIN_COUNT),
+        VMSTATE_END_OF_LIST(),
+    },
+};
+
+static void npcm7xx_mft_class_init(ObjectClass *klass, void *data)
+{
+    ResettableClass *rc = RESETTABLE_CLASS(klass);
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->desc = "NPCM7xx MFT Controller";
+    dc->vmsd = &vmstate_npcm7xx_mft;
+    rc->phases.enter = npcm7xx_mft_enter_reset;
+    rc->phases.hold = npcm7xx_mft_hold_reset;
+}
+
+static const TypeInfo npcm7xx_mft_info = {
+    .name               = TYPE_NPCM7XX_MFT,
+    .parent             = TYPE_SYS_BUS_DEVICE,
+    .instance_size      = sizeof(NPCM7xxMFTState),
+    .class_init         = npcm7xx_mft_class_init,
+    .instance_init      = npcm7xx_mft_init,
+};
+
+static void npcm7xx_mft_register_type(void)
+{
+    type_register_static(&npcm7xx_mft_info);
+}
+type_init(npcm7xx_mft_register_type);
diff --git a/hw/misc/meson.build b/hw/misc/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/meson.build
+++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_MAINSTONE', if_true: files('mst_fpga.c'))
 softmmu_ss.add(when: 'CONFIG_NPCM7XX', if_true: files(
   'npcm7xx_clk.c',
   'npcm7xx_gcr.c',
+  'npcm7xx_mft.c',
   'npcm7xx_pwm.c',
   'npcm7xx_rng.c',
 ))
diff --git a/hw/misc/trace-events b/hw/misc/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/trace-events
+++ b/hw/misc/trace-events
@@ -XXX,XX +XXX,XX @@ npcm7xx_clk_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " valu
 npcm7xx_gcr_read(uint64_t offset, uint32_t value) " offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
 npcm7xx_gcr_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
 
+# npcm7xx_mft.c
+npcm7xx_mft_read(const char *name, uint64_t offset, uint16_t value) "%s: offset: 0x%04" PRIx64 " value: 0x%04" PRIx16
+npcm7xx_mft_write(const char *name, uint64_t offset, uint16_t value) "%s: offset: 0x%04" PRIx64 " value: 0x%04" PRIx16
+npcm7xx_mft_rpm(const char *clock, uint32_t clock_hz, int state, int32_t cnt, uint32_t rpm, uint32_t duty) " fan clk: %s clock_hz: %" PRIu32 ", state: %d, cnt: %" PRIi32 ", rpm: %" PRIu32 ", duty: %" PRIu32
+npcm7xx_mft_capture(const char *name, int irq_level) "%s: level: %d"
+npcm7xx_mft_update_clock(const char *name, uint16_t sel, uint64_t clock_period, uint64_t prescaled_clock_period) "%s: sel: 0x%02" PRIx16 ", period: %" PRIu64 ", prescaled: %" PRIu64
+npcm7xx_mft_set_duty(const char *name, int n, int value) "%s[%d]: %d"
+
 # npcm7xx_rng.c
 npcm7xx_rng_read(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
 npcm7xx_rng_write(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
-- 
2.20.1

From: Hao Wu <wuhaotsh@google.com>

This patch adds the recently implemented MFT device to the NPCM7XX
SoC file.

Reviewed-by: Doug Evans <dje@google.com>
Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Hao Wu <wuhaotsh@google.com>
Message-id: 20210311180855.149764-4-wuhaotsh@google.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/nuvoton.rst |  2 +-
 include/hw/arm/npcm7xx.h    |  2 ++
 hw/arm/npcm7xx.c            | 45 ++++++++++++++++++++++++++++++-------
 3 files changed, 40 insertions(+), 9 deletions(-)

diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/nuvoton.rst
+++ b/docs/system/arm/nuvoton.rst
@@ -XXX,XX +XXX,XX @@ Supported devices
  * Pulse Width Modulation (PWM)
  * SMBus controller (SMBF)
  * Ethernet controller (EMC)
+ * Tachometer
 
 Missing devices
 ---------------
@@ -XXX,XX +XXX,XX @@ Missing devices
  * Peripheral SPI controller (PSPI)
  * SD/MMC host
  * PECI interface
- * Tachometer
  * PCI and PCIe root complex and bridges
  * VDM and MCTP support
  * Serial I/O expansion
diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/npcm7xx.h
+++ b/include/hw/arm/npcm7xx.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/mem/npcm7xx_mc.h"
 #include "hw/misc/npcm7xx_clk.h"
 #include "hw/misc/npcm7xx_gcr.h"
+#include "hw/misc/npcm7xx_mft.h"
 #include "hw/misc/npcm7xx_pwm.h"
 #include "hw/misc/npcm7xx_rng.h"
 #include "hw/net/npcm7xx_emc.h"
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
     NPCM7xxTimerCtrlState tim[3];
     NPCM7xxADCState     adc;
     NPCM7xxPWMState     pwm[2];
+    NPCM7xxMFTState     mft[8];
     NPCM7xxOTPState     key_storage;
     NPCM7xxOTPState     fuse_array;
     NPCM7xxMCState      mc;
diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
     NPCM7XX_SMBUS15_IRQ,
     NPCM7XX_PWM0_IRQ            = 93,   /* PWM module 0 */
     NPCM7XX_PWM1_IRQ,                   /* PWM module 1 */
+    NPCM7XX_MFT0_IRQ            = 96,   /* MFT module 0 */
+    NPCM7XX_MFT1_IRQ,                   /* MFT module 1 */
+    NPCM7XX_MFT2_IRQ,                   /* MFT module 2 */
+    NPCM7XX_MFT3_IRQ,                   /* MFT module 3 */
+    NPCM7XX_MFT4_IRQ,                   /* MFT module 4 */
+    NPCM7XX_MFT5_IRQ,                   /* MFT module 5 */
+    NPCM7XX_MFT6_IRQ,                   /* MFT module 6 */
+    NPCM7XX_MFT7_IRQ,                   /* MFT module 7 */
     NPCM7XX_EMC2RX_IRQ          = 114,
     NPCM7XX_EMC2TX_IRQ,
     NPCM7XX_GPIO0_IRQ           = 116,
@@ -XXX,XX +XXX,XX @@ static const hwaddr npcm7xx_pwm_addr[] = {
     0xf0104000,
 };
 
+/* Register base address for each MFT Module */
+static const hwaddr npcm7xx_mft_addr[] = {
+    0xf0180000,
+    0xf0181000,
+    0xf0182000,
+    0xf0183000,
+    0xf0184000,
+    0xf0185000,
+    0xf0186000,
+    0xf0187000,
+};
+
 /* Direct memory-mapped access to each SMBus Module. */
 static const hwaddr npcm7xx_smbus_addr[] = {
     0xf0080000,
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
         object_initialize_child(obj, "pwm[*]", &s->pwm[i], TYPE_NPCM7XX_PWM);
     }
 
+    for (i = 0; i < ARRAY_SIZE(s->mft); i++) {
+        object_initialize_child(obj, "mft[*]", &s->mft[i], TYPE_NPCM7XX_MFT);
+    }
+
     for (i = 0; i < ARRAY_SIZE(s->emc); i++) {
         object_initialize_child(obj, "emc[*]", &s->emc[i], TYPE_NPCM7XX_EMC);
     }
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
         sysbus_connect_irq(sbd, i, npcm7xx_irq(s, NPCM7XX_PWM0_IRQ + i));
     }
 
+    /* MFT Modules. Cannot fail. */
+    QEMU_BUILD_BUG_ON(ARRAY_SIZE(npcm7xx_mft_addr) != ARRAY_SIZE(s->mft));
+    for (i = 0; i < ARRAY_SIZE(s->mft); i++) {
+        SysBusDevice *sbd = SYS_BUS_DEVICE(&s->mft[i]);
+
+        qdev_connect_clock_in(DEVICE(&s->mft[i]), "clock-in",
+                              qdev_get_clock_out(DEVICE(&s->clk),
+                                                 "apb4-clock"));
+        sysbus_realize(sbd, &error_abort);
+        sysbus_mmio_map(sbd, 0, npcm7xx_mft_addr[i]);
+        sysbus_connect_irq(sbd, 0, npcm7xx_irq(s, NPCM7XX_MFT0_IRQ + i));
+    }
+
     /*
      * EMC Modules. Cannot fail.
      * The mapping of the device to its netdev backend works as follows:
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
     create_unimplemented_device("npcm7xx.peci",         0xf0100000,   4 * KiB);
     create_unimplemented_device("npcm7xx.siox[1]",      0xf0101000,   4 * KiB);
     create_unimplemented_device("npcm7xx.siox[2]",      0xf0102000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[0]",       0xf0180000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[1]",       0xf0181000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[2]",       0xf0182000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[3]",       0xf0183000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[4]",       0xf0184000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[5]",       0xf0185000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[6]",       0xf0186000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.mft[7]",       0xf0187000,   4 * KiB);
     create_unimplemented_device("npcm7xx.pspi1",        0xf0200000,   4 * KiB);
     create_unimplemented_device("npcm7xx.pspi2",        0xf0201000,   4 * KiB);
     create_unimplemented_device("npcm7xx.ahbpci",       0xf0400000,   1 * MiB);
-- 
2.20.1

From: Hao Wu <wuhaotsh@google.com>

This patch adds fan_splitters (split IRQs) in NPCM7XX boards. Each fan
splitter corresponds to 1 PWM output and can connect to multiple fan
inputs (MFT devices).
In NPCM7XX boards(NPCM750 EVB and Quanta GSJ boards), we initializes
these splitters and connect them to their corresponding modules
according their specific device trees.

Reviewed-by: Doug Evans <dje@google.com>
Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Hao Wu <wuhaotsh@google.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20210311180855.149764-5-wuhaotsh@google.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/npcm7xx.h | 11 ++++-
 hw/arm/npcm7xx_boards.c  | 99 ++++++++++++++++++++++++++++++++++++++++
 2 files changed, 109 insertions(+), 1 deletion(-)

diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/npcm7xx.h
+++ b/include/hw/arm/npcm7xx.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/boards.h"
 #include "hw/adc/npcm7xx_adc.h"
+#include "hw/core/split-irq.h"
 #include "hw/cpu/a9mpcore.h"
 #include "hw/gpio/npcm7xx_gpio.h"
 #include "hw/i2c/npcm7xx_smbus.h"
@@ -XXX,XX +XXX,XX @@
 #define NPCM7XX_GIC_CPU_IF_ADDR         (0xf03fe100)  /* GIC within A9 */
 #define NPCM7XX_BOARD_SETUP_ADDR        (0xffff1000)  /* Boot ROM */
 
+#define NPCM7XX_NR_PWM_MODULES 2
+
 typedef struct NPCM7xxMachine {
     MachineState        parent;
+    /*
+     * PWM fan splitter. each splitter connects to one PWM output and
+     * multiple MFT inputs.
+     */
+    SplitIRQ            fan_splitter[NPCM7XX_NR_PWM_MODULES *
+                                     NPCM7XX_PWM_PER_MODULE];
 } NPCM7xxMachine;
 
 #define TYPE_NPCM7XX_MACHINE MACHINE_TYPE_NAME("npcm7xx")
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
     NPCM7xxCLKState     clk;
     NPCM7xxTimerCtrlState tim[3];
     NPCM7xxADCState     adc;
-    NPCM7xxPWMState     pwm[2];
+    NPCM7xxPWMState     pwm[NPCM7XX_NR_PWM_MODULES];
     NPCM7xxMFTState     mft[8];
     NPCM7xxOTPState     key_storage;
     NPCM7xxOTPState     fuse_array;
diff --git a/hw/arm/npcm7xx_boards.c b/hw/arm/npcm7xx_boards.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx_boards.c
+++ b/hw/arm/npcm7xx_boards.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/core/cpu.h"
 #include "hw/i2c/smbus_eeprom.h"
 #include "hw/loader.h"
+#include "hw/qdev-core.h"
 #include "hw/qdev-properties.h"
 #include "qapi/error.h"
 #include "qemu-common.h"
@@ -XXX,XX +XXX,XX @@ static void at24c_eeprom_init(NPCM7xxState *soc, int bus, uint8_t addr,
     i2c_slave_realize_and_unref(i2c_dev, i2c_bus, &error_abort);
 }
 
+static void npcm7xx_init_pwm_splitter(NPCM7xxMachine *machine,
+                                      NPCM7xxState *soc, const int *fan_counts)
+{
+    SplitIRQ *splitters = machine->fan_splitter;
+
+    /*
+     * PWM 0~3 belong to module 0 output 0~3.
+     * PWM 4~7 belong to module 1 output 0~3.
+     */
+    for (int i = 0; i < NPCM7XX_NR_PWM_MODULES; ++i) {
+        for (int j = 0; j < NPCM7XX_PWM_PER_MODULE; ++j) {
+            int splitter_no = i * NPCM7XX_PWM_PER_MODULE + j;
+            DeviceState *splitter;
+
+            if (fan_counts[splitter_no] < 1) {
+                continue;
+            }
+            object_initialize_child(OBJECT(machine), "fan-splitter[*]",
+                                    &splitters[splitter_no], TYPE_SPLIT_IRQ);
+            splitter = DEVICE(&splitters[splitter_no]);
+            qdev_prop_set_uint16(splitter, "num-lines",
+                                 fan_counts[splitter_no]);
+            qdev_realize(splitter, NULL, &error_abort);
+            qdev_connect_gpio_out_named(DEVICE(&soc->pwm[i]), "duty-gpio-out",
+                                        j, qdev_get_gpio_in(splitter, 0));
+        }
+    }
+}
+
+static void npcm7xx_connect_pwm_fan(NPCM7xxState *soc, SplitIRQ *splitter,
+                                    int fan_no, int output_no)
+{
+    DeviceState *fan;
+    int fan_input;
+    qemu_irq fan_duty_gpio;
+
+    g_assert(fan_no >= 0 && fan_no <= NPCM7XX_MFT_MAX_FAN_INPUT);
+    /*
+     * Fan 0~1 belong to module 0 input 0~1.
+     * Fan 2~3 belong to module 1 input 0~1.
+     * ...
+     * Fan 14~15 belong to module 7 input 0~1.
+     * Fan 16~17 belong to module 0 input 2~3.
+     * Fan 18~19 belong to module 1 input 2~3.
+     */
+    if (fan_no < 16) {
+        fan = DEVICE(&soc->mft[fan_no / 2]);
+        fan_input = fan_no % 2;
+    } else {
+        fan = DEVICE(&soc->mft[(fan_no - 16) / 2]);
+        fan_input = fan_no % 2 + 2;
+    }
+
+    /* Connect the Fan to PWM module */
+    fan_duty_gpio = qdev_get_gpio_in_named(fan, "duty", fan_input);
+    qdev_connect_gpio_out(DEVICE(splitter), output_no, fan_duty_gpio);
+}
+
 static void npcm750_evb_i2c_init(NPCM7xxState *soc)
 {
     /* lm75 temperature sensor on SVB, tmp105 is compatible */
@@ -XXX,XX +XXX,XX @@ static void npcm750_evb_i2c_init(NPCM7xxState *soc)
     i2c_slave_create_simple(npcm7xx_i2c_get_bus(soc, 6), "tmp105", 0x48);
 }
 
+static void npcm750_evb_fan_init(NPCM7xxMachine *machine, NPCM7xxState *soc)
+{
+    SplitIRQ *splitter = machine->fan_splitter;
+    static const int fan_counts[] = {2, 2, 2, 2, 2, 2, 2, 2};
+
+    npcm7xx_init_pwm_splitter(machine, soc, fan_counts);
+    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x00, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x01, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x02, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x03, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x04, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x05, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[3], 0x06, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[3], 0x07, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[4], 0x08, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[4], 0x09, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[5], 0x0a, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[5], 0x0b, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[6], 0x0c, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[6], 0x0d, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[7], 0x0e, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[7], 0x0f, 1);
+}
+
 static void quanta_gsj_i2c_init(NPCM7xxState *soc)
 {
     /* GSJ machine have 4 max31725 temperature sensors, tmp105 is compatible. */
@@ -XXX,XX +XXX,XX @@ static void quanta_gsj_i2c_init(NPCM7xxState *soc)
     /* TODO: Add additional i2c devices. */
 }
 
+static void quanta_gsj_fan_init(NPCM7xxMachine *machine, NPCM7xxState *soc)
+{
+    SplitIRQ *splitter = machine->fan_splitter;
+    static const int fan_counts[] = {2, 2, 2, 0, 0, 0, 0, 0};
+
+    npcm7xx_init_pwm_splitter(machine, soc, fan_counts);
+    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x00, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[0], 0x01, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x02, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[1], 0x03, 1);
+    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x04, 0);
+    npcm7xx_connect_pwm_fan(soc, &splitter[2], 0x05, 1);
+}
+
 static void npcm750_evb_init(MachineState *machine)
 {
     NPCM7xxState *soc;
@@ -XXX,XX +XXX,XX @@ static void npcm750_evb_init(MachineState *machine)
     npcm7xx_load_bootrom(machine, soc);
     npcm7xx_connect_flash(&soc->fiu[0], 0, "w25q256", drive_get(IF_MTD, 0, 0));
     npcm750_evb_i2c_init(soc);
+    npcm750_evb_fan_init(NPCM7XX_MACHINE(machine), soc);
     npcm7xx_load_kernel(machine, soc);
 }
 
@@ -XXX,XX +XXX,XX @@ static void quanta_gsj_init(MachineState *machine)
     npcm7xx_connect_flash(&soc->fiu[0], 0, "mx25l25635e",
                           drive_get(IF_MTD, 0, 0));
     quanta_gsj_i2c_init(soc);
+    quanta_gsj_fan_init(NPCM7XX_MACHINE(machine), soc);
     npcm7xx_load_kernel(machine, soc);
 }
 
-- 
2.20.1

From: Hao Wu <wuhaotsh@google.com>

This patch adds testing of PWM fan RPMs in the existing npcm7xx pwm
test. It tests whether the MFT module can measure correct fan values
for a PWM fan in NPCM7XX boards.

Reviewed-by: Doug Evans <dje@google.com>
Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Hao Wu <wuhaotsh@google.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20210311180855.149764-6-wuhaotsh@google.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/qtest/npcm7xx_pwm-test.c | 205 ++++++++++++++++++++++++++++++++-
 1 file changed, 199 insertions(+), 6 deletions(-)

diff --git a/tests/qtest/npcm7xx_pwm-test.c b/tests/qtest/npcm7xx_pwm-test.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/npcm7xx_pwm-test.c
+++ b/tests/qtest/npcm7xx_pwm-test.c
@@ -XXX,XX +XXX,XX @@
 #define PLL_FBDV(rv)    extract32((rv), 16, 12)
 #define PLL_OTDV1(rv)   extract32((rv), 8, 3)
 #define PLL_OTDV2(rv)   extract32((rv), 13, 3)
+#define APB4CKDIV(rv)   extract32((rv), 30, 2)
 #define APB3CKDIV(rv)   extract32((rv), 28, 2)
 #define CLK2CKDIV(rv)   extract32((rv), 0, 1)
 #define CLK4CKDIV(rv)   extract32((rv), 26, 2)
@@ -XXX,XX +XXX,XX @@
 
 #define MAX_DUTY        1000000
 
+/* MFT (PWM fan) related */
+#define MFT_BA(n)       (0xf0180000 + ((n) * 0x1000))
+#define MFT_IRQ(n)      (96 + (n))
+#define MFT_CNT1        0x00
+#define MFT_CRA         0x02
+#define MFT_CRB         0x04
+#define MFT_CNT2        0x06
+#define MFT_PRSC        0x08
+#define MFT_CKC         0x0a
+#define MFT_MCTRL       0x0c
+#define MFT_ICTRL       0x0e
+#define MFT_ICLR        0x10
+#define MFT_IEN         0x12
+#define MFT_CPA         0x14
+#define MFT_CPB         0x16
+#define MFT_CPCFG       0x18
+#define MFT_INASEL      0x1a
+#define MFT_INBSEL      0x1c
+
+#define MFT_MCTRL_ALL   0x64
+#define MFT_ICLR_ALL    0x3f
+#define MFT_IEN_ALL     0x3f
+#define MFT_CPCFG_EQ_MODE 0x44
+
+#define MFT_CKC_C2CSEL  BIT(3)
+#define MFT_CKC_C1CSEL  BIT(0)
+
+#define MFT_ICTRL_TFPND BIT(5)
+#define MFT_ICTRL_TEPND BIT(4)
+#define MFT_ICTRL_TDPND BIT(3)
+#define MFT_ICTRL_TCPND BIT(2)
+#define MFT_ICTRL_TBPND BIT(1)
+#define MFT_ICTRL_TAPND BIT(0)
+
+#define MFT_MAX_CNT     0xffff
+#define MFT_TIMEOUT     0x5000
+
+#define DEFAULT_RPM     19800
+#define DEFAULT_PRSC    255
+#define MFT_PULSE_PER_REVOLUTION 2
+
+#define MAX_ERROR       1
+
 typedef struct PWMModule {
     int irq;
     uint64_t base_addr;
@@ -XXX,XX +XXX,XX @@ static uint64_t pwm_get_duty(QTestState *qts, int module_index, int pwm_index)
     return pwm_qom_get(qts, path, name);
 }
 
+static void mft_qom_set(QTestState *qts, int index, const char *name,
+                        uint32_t value)
+{
+    QDict *response;
+    char *path = g_strdup_printf("/machine/soc/mft[%d]", index);
+
+    g_test_message("Setting properties %s of mft[%d] with value %u",
+                   name, index, value);
+    response = qtest_qmp(qts, "{ 'execute': 'qom-set',"
+            " 'arguments': { 'path': %s, "
+            " 'property': %s, 'value': %u}}",
+            path, name, value);
+    /* The qom set message returns successfully. */
+    g_assert_true(qdict_haskey(response, "return"));
+}
+
 static uint32_t get_pll(uint32_t con)
 {
     return REF_HZ * PLL_FBDV(con) / (PLL_INDV(con) * PLL_OTDV1(con)
             * PLL_OTDV2(con));
 }
 
-static uint64_t read_pclk(QTestState *qts)
+static uint64_t read_pclk(QTestState *qts, bool mft)
 {
     uint64_t freq = REF_HZ;
     uint32_t clksel = qtest_readl(qts, CLK_BA + CLKSEL);
     uint32_t pllcon;
     uint32_t clkdiv1 = qtest_readl(qts, CLK_BA + CLKDIV1);
     uint32_t clkdiv2 = qtest_readl(qts, CLK_BA + CLKDIV2);
+    uint32_t apbdiv = mft ? APB4CKDIV(clkdiv2) : APB3CKDIV(clkdiv2);
 
     switch (CPUCKSEL(clksel)) {
     case 0:
@@ -XXX,XX +XXX,XX @@ static uint64_t read_pclk(QTestState *qts)
         g_assert_not_reached();
     }
 
-    freq >>= (CLK2CKDIV(clkdiv1) + CLK4CKDIV(clkdiv1) + APB3CKDIV(clkdiv2));
+    freq >>= (CLK2CKDIV(clkdiv1) + CLK4CKDIV(clkdiv1) + apbdiv);
 
     return freq;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t pwm_selector(uint32_t csr)
 static uint64_t pwm_compute_freq(QTestState *qts, uint32_t ppr, uint32_t csr,
         uint32_t cnr)
 {
-    return read_pclk(qts) / ((ppr + 1) * pwm_selector(csr) * (cnr + 1));
+    return read_pclk(qts, false) / ((ppr + 1) * pwm_selector(csr) * (cnr + 1));
 }
 
 static uint64_t pwm_compute_duty(uint32_t cnr, uint32_t cmr, bool inverted)
@@ -XXX,XX +XXX,XX @@ static void pwm_write(QTestState *qts, const TestData *td, unsigned offset,
     qtest_writel(qts, td->module->base_addr + offset, value);
 }
 
+static uint8_t mft_readb(QTestState *qts, int index, unsigned offset)
+{
+    return qtest_readb(qts, MFT_BA(index) + offset);
+}
+
+static uint16_t mft_readw(QTestState *qts, int index, unsigned offset)
+{
+    return qtest_readw(qts, MFT_BA(index) + offset);
+}
+
+static void mft_writeb(QTestState *qts, int index, unsigned offset,
+                        uint8_t value)
+{
+    qtest_writeb(qts, MFT_BA(index) + offset, value);
+}
+
+static void mft_writew(QTestState *qts, int index, unsigned offset,
+                        uint16_t value)
+{
+    return qtest_writew(qts, MFT_BA(index) + offset, value);
+}
+
 static uint32_t pwm_read_ppr(QTestState *qts, const TestData *td)
 {
     return extract32(pwm_read(qts, td, PPR), ppr_base[pwm_index(td->pwm)], 8);
@@ -XXX,XX +XXX,XX @@ static void pwm_write_cmr(QTestState *qts, const TestData *td, uint32_t value)
     pwm_write(qts, td, td->pwm->cmr_offset, value);
 }
 
+static int mft_compute_index(const TestData *td)
+{
+    int index = pwm_module_index(td->module) * ARRAY_SIZE(pwm_list) +
+                pwm_index(td->pwm);
+
+    g_assert_cmpint(index, <,
+                    ARRAY_SIZE(pwm_module_list) * ARRAY_SIZE(pwm_list));
+
+    return index;
+}
+
+static void mft_reset_counters(QTestState *qts, int index)
+{
+    mft_writew(qts, index, MFT_CNT1, MFT_MAX_CNT);
+    mft_writew(qts, index, MFT_CNT2, MFT_MAX_CNT);
+    mft_writew(qts, index, MFT_CRA, MFT_MAX_CNT);
+    mft_writew(qts, index, MFT_CRB, MFT_MAX_CNT);
+    mft_writew(qts, index, MFT_CPA, MFT_MAX_CNT - MFT_TIMEOUT);
+    mft_writew(qts, index, MFT_CPB, MFT_MAX_CNT - MFT_TIMEOUT);
+}
+
+static void mft_init(QTestState *qts, const TestData *td)
+{
+    int index = mft_compute_index(td);
+
+    /* Enable everything */
+    mft_writeb(qts, index, MFT_CKC, 0);
+    mft_writeb(qts, index, MFT_ICLR, MFT_ICLR_ALL);
+    mft_writeb(qts, index, MFT_MCTRL, MFT_MCTRL_ALL);
+    mft_writeb(qts, index, MFT_IEN, MFT_IEN_ALL);
+    mft_writeb(qts, index, MFT_INASEL, 0);
+    mft_writeb(qts, index, MFT_INBSEL, 0);
+
+    /* Set cpcfg to use EQ mode, same as kernel driver */
+    mft_writeb(qts, index, MFT_CPCFG, MFT_CPCFG_EQ_MODE);
+
+    /* Write default counters, timeout and prescaler */
+    mft_reset_counters(qts, index);
+    mft_writeb(qts, index, MFT_PRSC, DEFAULT_PRSC);
+
+    /* Write default max rpm via QMP */
+    mft_qom_set(qts, index, "max_rpm[0]", DEFAULT_RPM);
+    mft_qom_set(qts, index, "max_rpm[1]", DEFAULT_RPM);
+}
+
+static int32_t mft_compute_cnt(uint32_t rpm, uint64_t clk)
+{
+    uint64_t cnt;
+
+    if (rpm == 0) {
+        return -1;
+    }
+
+    cnt = clk * 60 / ((DEFAULT_PRSC + 1) * rpm * MFT_PULSE_PER_REVOLUTION);
+    if (cnt >= MFT_TIMEOUT) {
+        return -1;
+    }
+    return MFT_MAX_CNT - cnt;
+}
+
+static void mft_verify_rpm(QTestState *qts, const TestData *td, uint64_t duty)
+{
+    int index = mft_compute_index(td);
+    uint16_t cnt, cr;
+    uint32_t rpm = DEFAULT_RPM * duty / MAX_DUTY;
+    uint64_t clk = read_pclk(qts, true);
+    int32_t expected_cnt = mft_compute_cnt(rpm, clk);
+
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+    g_test_message(
+        "verifying rpm for mft[%d]: clk: %lu, duty: %lu, rpm: %u, cnt: %d",
+        index, clk, duty, rpm, expected_cnt);
+
+    /* Verify rpm for fan A */
+    /* Stop capture */
+    mft_writeb(qts, index, MFT_CKC, 0);
+    mft_writeb(qts, index, MFT_ICLR, MFT_ICLR_ALL);
+    mft_reset_counters(qts, index);
+    g_assert_cmphex(mft_readw(qts, index, MFT_CNT1), ==, MFT_MAX_CNT);
+    g_assert_cmphex(mft_readw(qts, index, MFT_CRA), ==, MFT_MAX_CNT);
+    g_assert_cmphex(mft_readw(qts, index, MFT_CPA), ==,
+                    MFT_MAX_CNT - MFT_TIMEOUT);
+    /* Start capture */
+    mft_writeb(qts, index, MFT_CKC, MFT_CKC_C1CSEL);
+    g_assert_true(qtest_get_irq(qts, MFT_IRQ(index)));
+    if (expected_cnt == -1) {
+        g_assert_cmphex(mft_readb(qts, index, MFT_ICTRL), ==, MFT_ICTRL_TEPND);
+    } else {
+        g_assert_cmphex(mft_readb(qts, index, MFT_ICTRL), ==, MFT_ICTRL_TAPND);
+        cnt = mft_readw(qts, index, MFT_CNT1);
+        /*
+         * Due to error in clock measurement and rounding, we might have a small
+         * error in measuring RPM.
+         */
+        g_assert_cmphex(cnt + MAX_ERROR, >=, expected_cnt);
+        g_assert_cmphex(cnt, <=, expected_cnt + MAX_ERROR);
+        cr = mft_readw(qts, index, MFT_CRA);
+        g_assert_cmphex(cnt, ==, cr);
+    }
+
+    /* Verify rpm for fan B */
+
+    qtest_irq_intercept_out(qts, "/machine/soc/a9mpcore/gic");
+}
+
 /* Check pwm registers can be reset to default value */
 static void test_init(gconstpointer test_data)
 {
     const TestData *td = test_data;
-    QTestState *qts = qtest_init("-machine quanta-gsj");
+    QTestState *qts = qtest_init("-machine npcm750-evb");
     int module = pwm_module_index(td->module);
     int pwm = pwm_index(td->pwm);
 
@@ -XXX,XX +XXX,XX @@ static void test_init(gconstpointer test_data)
 static void test_oneshot(gconstpointer test_data)
 {
     const TestData *td = test_data;
-    QTestState *qts = qtest_init("-machine quanta-gsj");
+    QTestState *qts = qtest_init("-machine npcm750-evb");
     int module = pwm_module_index(td->module);
     int pwm = pwm_index(td->pwm);
     uint32_t ppr, csr, pcr;
@@ -XXX,XX +XXX,XX @@ static void test_oneshot(gconstpointer test_data)
 static void test_toggle(gconstpointer test_data)
 {
     const TestData *td = test_data;
-    QTestState *qts = qtest_init("-machine quanta-gsj");
+    QTestState *qts = qtest_init("-machine npcm750-evb");
     int module = pwm_module_index(td->module);
     int pwm = pwm_index(td->pwm);
     uint32_t ppr, csr, pcr, cnr, cmr;
     int i, j, k, l;
     uint64_t expected_freq, expected_duty;
 
+    mft_init(qts, td);
+
     pcr = CH_EN | CH_MOD;
     for (i = 0; i < ARRAY_SIZE(ppr_list); ++i) {
         ppr = ppr_list[i];
@@ -XXX,XX +XXX,XX @@ static void test_toggle(gconstpointer test_data)
                                 ==, expected_freq);
                     }
 
+                    /* Test MFT's RPM is correct. */
+                    mft_verify_rpm(qts, td, expected_duty);
+
                     /* Test inverted mode */
                     expected_duty = pwm_compute_duty(cnr, cmr, true);
                     pwm_write_pcr(qts, td, pcr | CH_INV);
-- 
2.20.1

For a long time now the UI layer has guaranteed that the console
surface is always 32 bits per pixel. Remove the legacy dead
code from the pl110 display device which was handling the
possibility that the console surface was some other format.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-2-peter.maydell@linaro.org
---
 hw/display/pl110.c | 53 +++++++---------------------------------------
 1 file changed, 8 insertions(+), 45 deletions(-)

diff --git a/hw/display/pl110.c b/hw/display/pl110.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pl110.c
+++ b/hw/display/pl110.c
@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
     pl111_id
 };
 
-#define BITS 8
-#include "pl110_template.h"
-#define BITS 15
-#include "pl110_template.h"
-#define BITS 16
-#include "pl110_template.h"
-#define BITS 24
-#include "pl110_template.h"
 #define BITS 32
 #include "pl110_template.h"
 
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
     PL110State *s = (PL110State *)opaque;
     SysBusDevice *sbd;
     DisplaySurface *surface = qemu_console_surface(s->con);
-    drawfn* fntable;
     drawfn fn;
-    int dest_width;
     int src_width;
     int bpp_offset;
     int first;
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
 
     sbd = SYS_BUS_DEVICE(s);
 
-    switch (surface_bits_per_pixel(surface)) {
-    case 0:
-        return;
-    case 8:
-        fntable = pl110_draw_fn_8;
-        dest_width = 1;
-        break;
-    case 15:
-        fntable = pl110_draw_fn_15;
-        dest_width = 2;
-        break;
-    case 16:
-        fntable = pl110_draw_fn_16;
-        dest_width = 2;
-        break;
-    case 24:
-        fntable = pl110_draw_fn_24;
-        dest_width = 3;
-        break;
-    case 32:
-        fntable = pl110_draw_fn_32;
-        dest_width = 4;
-        break;
-    default:
-        fprintf(stderr, "pl110: Bad color depth\n");
-        exit(1);
-    }
     if (s->cr & PL110_CR_BGR)
         bpp_offset = 0;
     else
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
         }
     }
 
-    if (s->cr & PL110_CR_BEBO)
-        fn = fntable[s->bpp + 8 + bpp_offset];
-    else if (s->cr & PL110_CR_BEPO)
-        fn = fntable[s->bpp + 16 + bpp_offset];
-    else
-        fn = fntable[s->bpp + bpp_offset];
+    if (s->cr & PL110_CR_BEBO) {
+        fn = pl110_draw_fn_32[s->bpp + 8 + bpp_offset];
+    } else if (s->cr & PL110_CR_BEPO) {
+        fn = pl110_draw_fn_32[s->bpp + 16 + bpp_offset];
+    } else {
+        fn = pl110_draw_fn_32[s->bpp + bpp_offset];
+    }
 
     src_width = s->cols;
     switch (s->bpp) {
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
         src_width <<= 2;
         break;
     }
-    dest_width *= s->cols;
     first = 0;
     if (s->invalidate) {
         framebuffer_update_memory_section(&s->fbsection,
@@ -XXX,XX +XXX,XX @@ static void pl110_update_display(void *opaque)
 
     framebuffer_update_display(surface, &s->fbsection,
                                s->cols, s->rows,
-                               src_width, dest_width, 0,
+                               src_width, s->cols * 4, 0,
                                s->invalidate,
                                fn, s->palette,
                                &first, &last);
-- 
2.20.1

The pl110_template.h header has a doubly-nested multiple-include pattern:
 * pl110.c includes it once for each host bit depth (now always 32)
 * every time it is included, it includes itself 6 times, to account
   for multiple guest device pixel and byte orders

Now we only have to deal with 32-bit host bit depths, we can move the
code corresponding to the outer layer of this double-nesting to be
directly in pl110.c and reduce the template header to a single layer
of nesting.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-3-peter.maydell@linaro.org
---
 hw/display/pl110_template.h | 100 +-----------------------------------
 hw/display/pl110.c          |  79 ++++++++++++++++++++++++++++
 2 files changed, 80 insertions(+), 99 deletions(-)

diff --git a/hw/display/pl110_template.h b/hw/display/pl110_template.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pl110_template.h
+++ b/hw/display/pl110_template.h
@@ -XXX,XX +XXX,XX @@
  */
 
 #ifndef ORDER
-
-#if BITS == 8
-#define COPY_PIXEL(to, from) *(to++) = from
-#elif BITS == 15 || BITS == 16
-#define COPY_PIXEL(to, from) do { *(uint16_t *)to = from; to += 2; } while (0)
-#elif BITS == 24
-#define COPY_PIXEL(to, from)    \
-    do {                        \
-        *(to++) = from;         \
-        *(to++) = (from) >> 8;  \
-        *(to++) = (from) >> 16; \
-    } while (0)
-#elif BITS == 32
-#define COPY_PIXEL(to, from) do { *(uint32_t *)to = from; to += 4; } while (0)
-#else
-#error unknown bit depth
+#error "pl110_template.h is only for inclusion by pl110.c"
 #endif
 
-#undef RGB
-#define BORDER bgr
-#define ORDER 0
-#include "pl110_template.h"
-#define ORDER 1
-#include "pl110_template.h"
-#define ORDER 2
-#include "pl110_template.h"
-#undef BORDER
-#define RGB
-#define BORDER rgb
-#define ORDER 0
-#include "pl110_template.h"
-#define ORDER 1
-#include "pl110_template.h"
-#define ORDER 2
-#include "pl110_template.h"
-#undef BORDER
-
-static drawfn glue(pl110_draw_fn_,BITS)[48] =
-{
-    glue(pl110_draw_line1_lblp_bgr,BITS),
-    glue(pl110_draw_line2_lblp_bgr,BITS),
-    glue(pl110_draw_line4_lblp_bgr,BITS),
-    glue(pl110_draw_line8_lblp_bgr,BITS),
-    glue(pl110_draw_line16_555_lblp_bgr,BITS),
-    glue(pl110_draw_line32_lblp_bgr,BITS),
-    glue(pl110_draw_line16_lblp_bgr,BITS),
-    glue(pl110_draw_line12_lblp_bgr,BITS),
-
-    glue(pl110_draw_line1_bbbp_bgr,BITS),
-    glue(pl110_draw_line2_bbbp_bgr,BITS),
-    glue(pl110_draw_line4_bbbp_bgr,BITS),
-    glue(pl110_draw_line8_bbbp_bgr,BITS),
-    glue(pl110_draw_line16_555_bbbp_bgr,BITS),
-    glue(pl110_draw_line32_bbbp_bgr,BITS),
-    glue(pl110_draw_line16_bbbp_bgr,BITS),
-    glue(pl110_draw_line12_bbbp_bgr,BITS),
-
-    glue(pl110_draw_line1_lbbp_bgr,BITS),
-    glue(pl110_draw_line2_lbbp_bgr,BITS),
-    glue(pl110_draw_line4_lbbp_bgr,BITS),
-    glue(pl110_draw_line8_lbbp_bgr,BITS),
-    glue(pl110_draw_line16_555_lbbp_bgr,BITS),
-    glue(pl110_draw_line32_lbbp_bgr,BITS),
-    glue(pl110_draw_line16_lbbp_bgr,BITS),
-    glue(pl110_draw_line12_lbbp_bgr,BITS),
-
-    glue(pl110_draw_line1_lblp_rgb,BITS),
-    glue(pl110_draw_line2_lblp_rgb,BITS),
-    glue(pl110_draw_line4_lblp_rgb,BITS),
-    glue(pl110_draw_line8_lblp_rgb,BITS),
-    glue(pl110_draw_line16_555_lblp_rgb,BITS),
-    glue(pl110_draw_line32_lblp_rgb,BITS),
-    glue(pl110_draw_line16_lblp_rgb,BITS),
-    glue(pl110_draw_line12_lblp_rgb,BITS),
-
-    glue(pl110_draw_line1_bbbp_rgb,BITS),
-    glue(pl110_draw_line2_bbbp_rgb,BITS),
-    glue(pl110_draw_line4_bbbp_rgb,BITS),
-    glue(pl110_draw_line8_bbbp_rgb,BITS),
-    glue(pl110_draw_line16_555_bbbp_rgb,BITS),
-    glue(pl110_draw_line32_bbbp_rgb,BITS),
-    glue(pl110_draw_line16_bbbp_rgb,BITS),
-    glue(pl110_draw_line12_bbbp_rgb,BITS),
-
-    glue(pl110_draw_line1_lbbp_rgb,BITS),
-    glue(pl110_draw_line2_lbbp_rgb,BITS),
-    glue(pl110_draw_line4_lbbp_rgb,BITS),
-    glue(pl110_draw_line8_lbbp_rgb,BITS),
-    glue(pl110_draw_line16_555_lbbp_rgb,BITS),
-    glue(pl110_draw_line32_lbbp_rgb,BITS),
-    glue(pl110_draw_line16_lbbp_rgb,BITS),
-    glue(pl110_draw_line12_lbbp_rgb,BITS),
-};
-
-#undef BITS
-#undef COPY_PIXEL
-
-#else
-
 #if ORDER == 0
 #define NAME glue(glue(lblp_, BORDER), BITS)
 #ifdef HOST_WORDS_BIGENDIAN
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line12_,NAME)(void *opaque, uint8_t *d, const uint8_
 #undef NAME
 #undef SWAP_WORDS
 #undef ORDER
-
-#endif
diff --git a/hw/display/pl110.c b/hw/display/pl110.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pl110.c
+++ b/hw/display/pl110.c
@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
 };
 
 #define BITS 32
+#define COPY_PIXEL(to, from) do { *(uint32_t *)to = from; to += 4; } while (0)
+
+#undef RGB
+#define BORDER bgr
+#define ORDER 0
 #include "pl110_template.h"
+#define ORDER 1
+#include "pl110_template.h"
+#define ORDER 2
+#include "pl110_template.h"
+#undef BORDER
+#define RGB
+#define BORDER rgb
+#define ORDER 0
+#include "pl110_template.h"
+#define ORDER 1
+#include "pl110_template.h"
+#define ORDER 2
+#include "pl110_template.h"
+#undef BORDER
+
+static drawfn pl110_draw_fn_32[48] = {
+    pl110_draw_line1_lblp_bgr32,
+    pl110_draw_line2_lblp_bgr32,
+    pl110_draw_line4_lblp_bgr32,
+    pl110_draw_line8_lblp_bgr32,
+    pl110_draw_line16_555_lblp_bgr32,
+    pl110_draw_line32_lblp_bgr32,
+    pl110_draw_line16_lblp_bgr32,
+    pl110_draw_line12_lblp_bgr32,
+
+    pl110_draw_line1_bbbp_bgr32,
+    pl110_draw_line2_bbbp_bgr32,
+    pl110_draw_line4_bbbp_bgr32,
+    pl110_draw_line8_bbbp_bgr32,
+    pl110_draw_line16_555_bbbp_bgr32,
+    pl110_draw_line32_bbbp_bgr32,
+    pl110_draw_line16_bbbp_bgr32,
+    pl110_draw_line12_bbbp_bgr32,
+
+    pl110_draw_line1_lbbp_bgr32,
+    pl110_draw_line2_lbbp_bgr32,
+    pl110_draw_line4_lbbp_bgr32,
+    pl110_draw_line8_lbbp_bgr32,
+    pl110_draw_line16_555_lbbp_bgr32,
+    pl110_draw_line32_lbbp_bgr32,
+    pl110_draw_line16_lbbp_bgr32,
+    pl110_draw_line12_lbbp_bgr32,
+
+    pl110_draw_line1_lblp_rgb32,
+    pl110_draw_line2_lblp_rgb32,
+    pl110_draw_line4_lblp_rgb32,
+    pl110_draw_line8_lblp_rgb32,
+    pl110_draw_line16_555_lblp_rgb32,
+    pl110_draw_line32_lblp_rgb32,
+    pl110_draw_line16_lblp_rgb32,
+    pl110_draw_line12_lblp_rgb32,
+
+    pl110_draw_line1_bbbp_rgb32,
+    pl110_draw_line2_bbbp_rgb32,
+    pl110_draw_line4_bbbp_rgb32,
+    pl110_draw_line8_bbbp_rgb32,
+    pl110_draw_line16_555_bbbp_rgb32,
+    pl110_draw_line32_bbbp_rgb32,
+    pl110_draw_line16_bbbp_rgb32,
+    pl110_draw_line12_bbbp_rgb32,
+
+    pl110_draw_line1_lbbp_rgb32,
+    pl110_draw_line2_lbbp_rgb32,
+    pl110_draw_line4_lbbp_rgb32,
+    pl110_draw_line8_lbbp_rgb32,
+    pl110_draw_line16_555_lbbp_rgb32,
+    pl110_draw_line32_lbbp_rgb32,
+    pl110_draw_line16_lbbp_rgb32,
+    pl110_draw_line12_lbbp_rgb32,
+};
+
+#undef BITS
+#undef COPY_PIXEL
+
 
 static int pl110_enabled(PL110State *s)
 {
-- 
2.20.1

BITS is always 32, so remove all uses of it from the template header,
by dropping the trailing '32' from the draw function names and
not constructing the name of rgb_to_pixel32() via the glue() macro.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-4-peter.maydell@linaro.org
---
 hw/display/pl110_template.h |  20 +++----
 hw/display/pl110.c          | 113 ++++++++++++++++++------------------
 2 files changed, 65 insertions(+), 68 deletions(-)

diff --git a/hw/display/pl110_template.h b/hw/display/pl110_template.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pl110_template.h
+++ b/hw/display/pl110_template.h
@@ -XXX,XX +XXX,XX @@
 #endif
 
 #if ORDER == 0
-#define NAME glue(glue(lblp_, BORDER), BITS)
+#define NAME glue(lblp_, BORDER)
 #ifdef HOST_WORDS_BIGENDIAN
 #define SWAP_WORDS 1
 #endif
 #elif ORDER == 1
-#define NAME glue(glue(bbbp_, BORDER), BITS)
+#define NAME glue(bbbp_, BORDER)
 #ifndef HOST_WORDS_BIGENDIAN
 #define SWAP_WORDS 1
 #endif
 #else
 #define SWAP_PIXELS 1
-#define NAME glue(glue(lbbp_, BORDER), BITS)
+#define NAME glue(lbbp_, BORDER)
 #ifdef HOST_WORDS_BIGENDIAN
 #define SWAP_WORDS 1
 #endif
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line16_,NAME)(void *opaque, uint8_t *d, const uint8_
         MSB = (data & 0x1f) << 3;
         data >>= 5;
 #endif
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
         LSB = (data & 0x1f) << 3;
         data >>= 5;
         g = (data & 0x3f) << 2;
         data >>= 6;
         MSB = (data & 0x1f) << 3;
         data >>= 5;
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
 #undef MSB
 #undef LSB
         width -= 2;
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line32_,NAME)(void *opaque, uint8_t *d, const uint8_
         g = (data >> 16) & 0xff;
         MSB = (data >> 8) & 0xff;
 #endif
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
 #undef MSB
 #undef LSB
         width--;
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line16_555_,NAME)(void *opaque, uint8_t *d, const ui
         data >>= 5;
         MSB = (data & 0x1f) << 3;
         data >>= 5;
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
         LSB = (data & 0x1f) << 3;
         data >>= 5;
         g = (data & 0x1f) << 3;
         data >>= 5;
         MSB = (data & 0x1f) << 3;
         data >>= 6;
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
 #undef MSB
 #undef LSB
         width -= 2;
@@ -XXX,XX +XXX,XX @@ static void glue(pl110_draw_line12_,NAME)(void *opaque, uint8_t *d, const uint8_
         data >>= 4;
         MSB = (data & 0xf) << 4;
         data >>= 8;
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
         LSB = (data & 0xf) << 4;
         data >>= 4;
         g = (data & 0xf) << 4;
         data >>= 4;
         MSB = (data & 0xf) << 4;
         data >>= 8;
-        COPY_PIXEL(d, glue(rgb_to_pixel,BITS)(r, g, b));
+        COPY_PIXEL(d, rgb_to_pixel32(r, g, b));
 #undef MSB
 #undef LSB
         width -= 2;
diff --git a/hw/display/pl110.c b/hw/display/pl110.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pl110.c
+++ b/hw/display/pl110.c
@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
     pl111_id
 };
 
-#define BITS 32
 #define COPY_PIXEL(to, from) do { *(uint32_t *)to = from; to += 4; } while (0)
 
 #undef RGB
@@ -XXX,XX +XXX,XX @@ static const unsigned char *idregs[] = {
 #include "pl110_template.h"
 #undef BORDER
 
-static drawfn pl110_draw_fn_32[48] = {
-    pl110_draw_line1_lblp_bgr32,
-    pl110_draw_line2_lblp_bgr32,
-    pl110_draw_line4_lblp_bgr32,
-    pl110_draw_line8_lblp_bgr32,
-    pl110_draw_line16_555_lblp_bgr32,
-    pl110_draw_line32_lblp_bgr32,
-    pl110_draw_line16_lblp_bgr32,
-    pl110_draw_line12_lblp_bgr32,
-
-    pl110_draw_line1_bbbp_bgr32,
-    pl110_draw_line2_bbbp_bgr32,
-    pl110_draw_line4_bbbp_bgr32,
-    pl110_draw_line8_bbbp_bgr32,
-    pl110_draw_line16_555_bbbp_bgr32,
-    pl110_draw_line32_bbbp_bgr32,
-    pl110_draw_line16_bbbp_bgr32,
-    pl110_draw_line12_bbbp_bgr32,
-
-    pl110_draw_line1_lbbp_bgr32,
-    pl110_draw_line2_lbbp_bgr32,
-    pl110_draw_line4_lbbp_bgr32,
-    pl110_draw_line8_lbbp_bgr32,
-    pl110_draw_line16_555_lbbp_bgr32,
-    pl110_draw_line32_lbbp_bgr32,
-    pl110_draw_line16_lbbp_bgr32,
-    pl110_draw_line12_lbbp_bgr32,
-
-    pl110_draw_line1_lblp_rgb32,
-    pl110_draw_line2_lblp_rgb32,
-    pl110_draw_line4_lblp_rgb32,
-    pl110_draw_line8_lblp_rgb32,
-    pl110_draw_line16_555_lblp_rgb32,
-    pl110_draw_line32_lblp_rgb32,
-    pl110_draw_line16_lblp_rgb32,
-    pl110_draw_line12_lblp_rgb32,
-
-    pl110_draw_line1_bbbp_rgb32,
-    pl110_draw_line2_bbbp_rgb32,
-    pl110_draw_line4_bbbp_rgb32,
-    pl110_draw_line8_bbbp_rgb32,
-    pl110_draw_line16_555_bbbp_rgb32,
-    pl110_draw_line32_bbbp_rgb32,
-    pl110_draw_line16_bbbp_rgb32,
-    pl110_draw_line12_bbbp_rgb32,
-
-    pl110_draw_line1_lbbp_rgb32,
-    pl110_draw_line2_lbbp_rgb32,
-    pl110_draw_line4_lbbp_rgb32,
-    pl110_draw_line8_lbbp_rgb32,
-    pl110_draw_line16_555_lbbp_rgb32,
-    pl110_draw_line32_lbbp_rgb32,
-    pl110_draw_line16_lbbp_rgb32,
-    pl110_draw_line12_lbbp_rgb32,
-};
-
-#undef BITS
 #undef COPY_PIXEL
 
+static drawfn pl110_draw_fn_32[48] = {
+    pl110_draw_line1_lblp_bgr,
+    pl110_draw_line2_lblp_bgr,
+    pl110_draw_line4_lblp_bgr,
+    pl110_draw_line8_lblp_bgr,
+    pl110_draw_line16_555_lblp_bgr,
+    pl110_draw_line32_lblp_bgr,
+    pl110_draw_line16_lblp_bgr,
+    pl110_draw_line12_lblp_bgr,
+
+    pl110_draw_line1_bbbp_bgr,
+    pl110_draw_line2_bbbp_bgr,
+    pl110_draw_line4_bbbp_bgr,
+    pl110_draw_line8_bbbp_bgr,
+    pl110_draw_line16_555_bbbp_bgr,
+    pl110_draw_line32_bbbp_bgr,
+    pl110_draw_line16_bbbp_bgr,
+    pl110_draw_line12_bbbp_bgr,
+
+    pl110_draw_line1_lbbp_bgr,
+    pl110_draw_line2_lbbp_bgr,
+    pl110_draw_line4_lbbp_bgr,
+    pl110_draw_line8_lbbp_bgr,
+    pl110_draw_line16_555_lbbp_bgr,
+    pl110_draw_line32_lbbp_bgr,
+    pl110_draw_line16_lbbp_bgr,
+    pl110_draw_line12_lbbp_bgr,
+
+    pl110_draw_line1_lblp_rgb,
+    pl110_draw_line2_lblp_rgb,
+    pl110_draw_line4_lblp_rgb,
+    pl110_draw_line8_lblp_rgb,
+    pl110_draw_line16_555_lblp_rgb,
+    pl110_draw_line32_lblp_rgb,
+    pl110_draw_line16_lblp_rgb,
+    pl110_draw_line12_lblp_rgb,
+
+    pl110_draw_line1_bbbp_rgb,
+    pl110_draw_line2_bbbp_rgb,
+    pl110_draw_line4_bbbp_rgb,
+    pl110_draw_line8_bbbp_rgb,
+    pl110_draw_line16_555_bbbp_rgb,
+    pl110_draw_line32_bbbp_rgb,
+    pl110_draw_line16_bbbp_rgb,
+    pl110_draw_line12_bbbp_rgb,
+
+    pl110_draw_line1_lbbp_rgb,
+    pl110_draw_line2_lbbp_rgb,
+    pl110_draw_line4_lbbp_rgb,
+    pl110_draw_line8_lbbp_rgb,
+    pl110_draw_line16_555_lbbp_rgb,
+    pl110_draw_line32_lbbp_rgb,
+    pl110_draw_line16_lbbp_rgb,
+    pl110_draw_line12_lbbp_rgb,
+};
 
 static int pl110_enabled(PL110State *s)
 {
-- 
2.20.1

For a long time now the UI layer has guaranteed that the console
surface is always 32 bits per pixel.  Remove the legacy dead code
from the pxa2xx_lcd display device which was handling the possibility
that the console surface was some other format.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-5-peter.maydell@linaro.org
---
 hw/display/pxa2xx_lcd.c | 79 +++++++++--------------------------------
 1 file changed, 17 insertions(+), 62 deletions(-)

diff --git a/hw/display/pxa2xx_lcd.c b/hw/display/pxa2xx_lcd.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pxa2xx_lcd.c
+++ b/hw/display/pxa2xx_lcd.c
@@ -XXX,XX +XXX,XX @@ struct PXA2xxLCDState {
 
     int invalidated;
     QemuConsole *con;
-    drawfn *line_fn[2];
     int dest_width;
     int xres, yres;
     int pal_for;
@@ -XXX,XX +XXX,XX @@ typedef struct QEMU_PACKED {
 #define LDCMD_SOFINT	(1 << 22)
 #define LDCMD_PAL	(1 << 26)
 
+#define BITS 32
+#include "pxa2xx_template.h"
+
 /* Route internal interrupt lines to the global IC */
 static void pxa2xx_lcdc_int_update(PXA2xxLCDState *s)
 {
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_palette_parse(PXA2xxLCDState *s, int ch, int bpp)
     }
 }
 
+static inline drawfn pxa2xx_drawfn(PXA2xxLCDState *s)
+{
+    if (s->transp) {
+        return pxa2xx_draw_fn_32t[s->bpp];
+    } else {
+        return pxa2xx_draw_fn_32[s->bpp];
+    }
+}
+
 static void pxa2xx_lcdc_dma0_redraw_rot0(PXA2xxLCDState *s,
                 hwaddr addr, int *miny, int *maxy)
 {
     DisplaySurface *surface = qemu_console_surface(s->con);
     int src_width, dest_width;
-    drawfn fn = NULL;
-    if (s->dest_width)
-        fn = s->line_fn[s->transp][s->bpp];
+    drawfn fn = pxa2xx_drawfn(s);
     if (!fn)
         return;
 
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot90(PXA2xxLCDState *s,
 {
     DisplaySurface *surface = qemu_console_surface(s->con);
     int src_width, dest_width;
-    drawfn fn = NULL;
-    if (s->dest_width)
-        fn = s->line_fn[s->transp][s->bpp];
+    drawfn fn = pxa2xx_drawfn(s);
     if (!fn)
         return;
 
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot180(PXA2xxLCDState *s,
 {
     DisplaySurface *surface = qemu_console_surface(s->con);
     int src_width, dest_width;
-    drawfn fn = NULL;
-    if (s->dest_width) {
-        fn = s->line_fn[s->transp][s->bpp];
-    }
+    drawfn fn = pxa2xx_drawfn(s);
     if (!fn) {
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot270(PXA2xxLCDState *s,
 {
     DisplaySurface *surface = qemu_console_surface(s->con);
     int src_width, dest_width;
-    drawfn fn = NULL;
-    if (s->dest_width) {
-        fn = s->line_fn[s->transp][s->bpp];
-    }
+    drawfn fn = pxa2xx_drawfn(s);
     if (!fn) {
         return;
     }
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_pxa2xx_lcdc = {
     }
 };
 
-#define BITS 8
-#include "pxa2xx_template.h"
-#define BITS 15
-#include "pxa2xx_template.h"
-#define BITS 16
-#include "pxa2xx_template.h"
-#define BITS 24
-#include "pxa2xx_template.h"
-#define BITS 32
-#include "pxa2xx_template.h"
-
 static const GraphicHwOps pxa2xx_ops = {
     .invalidate  = pxa2xx_invalidate_display,
     .gfx_update  = pxa2xx_update_display,
@@ -XXX,XX +XXX,XX @@ PXA2xxLCDState *pxa2xx_lcdc_init(MemoryRegion *sysmem,
                                  hwaddr base, qemu_irq irq)
 {
     PXA2xxLCDState *s;
-    DisplaySurface *surface;
 
     s = (PXA2xxLCDState *) g_malloc0(sizeof(PXA2xxLCDState));
     s->invalidated = 1;
@@ -XXX,XX +XXX,XX @@ PXA2xxLCDState *pxa2xx_lcdc_init(MemoryRegion *sysmem,
     memory_region_add_subregion(sysmem, base, &s->iomem);
 
     s->con = graphic_console_init(NULL, 0, &pxa2xx_ops, s);
-    surface = qemu_console_surface(s->con);
-
-    switch (surface_bits_per_pixel(surface)) {
-    case 0:
-        s->dest_width = 0;
-        break;
-    case 8:
-        s->line_fn[0] = pxa2xx_draw_fn_8;
-        s->line_fn[1] = pxa2xx_draw_fn_8t;
-        s->dest_width = 1;
-        break;
-    case 15:
-        s->line_fn[0] = pxa2xx_draw_fn_15;
-        s->line_fn[1] = pxa2xx_draw_fn_15t;
-        s->dest_width = 2;
-        break;
-    case 16:
-        s->line_fn[0] = pxa2xx_draw_fn_16;
-        s->line_fn[1] = pxa2xx_draw_fn_16t;
-        s->dest_width = 2;
-        break;
-    case 24:
-        s->line_fn[0] = pxa2xx_draw_fn_24;
-        s->line_fn[1] = pxa2xx_draw_fn_24t;
-        s->dest_width = 3;
-        break;
-    case 32:
-        s->line_fn[0] = pxa2xx_draw_fn_32;
-        s->line_fn[1] = pxa2xx_draw_fn_32t;
-        s->dest_width = 4;
-        break;
-    default:
-        fprintf(stderr, "%s: Bad color depth\n", __func__);
-        exit(1);
-    }
+    s->dest_width = 4;
 
     vmstate_register(NULL, 0, &vmstate_pxa2xx_lcdc, s);
 
-- 
2.20.1

Since the dest_width is now always 4 because the output surface is
32bpp, we can replace the dest_width state field with a constant.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-6-peter.maydell@linaro.org
---
 hw/display/pxa2xx_lcd.c | 20 +++++++++++---------
 1 file changed, 11 insertions(+), 9 deletions(-)

diff --git a/hw/display/pxa2xx_lcd.c b/hw/display/pxa2xx_lcd.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pxa2xx_lcd.c
+++ b/hw/display/pxa2xx_lcd.c
@@ -XXX,XX +XXX,XX @@ typedef struct QEMU_PACKED {
 #define LDCMD_SOFINT	(1 << 22)
 #define LDCMD_PAL	(1 << 26)
 
+/* Size of a pixel in the QEMU UI output surface, in bytes */
+#define DEST_PIXEL_WIDTH 4
+
 #define BITS 32
 #include "pxa2xx_template.h"
 
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot0(PXA2xxLCDState *s,
     else if (s->bpp > pxa_lcdc_8bpp)
         src_width *= 2;
 
-    dest_width = s->xres * s->dest_width;
+    dest_width = s->xres * DEST_PIXEL_WIDTH;
     *miny = 0;
     if (s->invalidated) {
         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
                                           addr, s->yres, src_width);
     }
     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-                               src_width, dest_width, s->dest_width,
+                               src_width, dest_width, DEST_PIXEL_WIDTH,
                                s->invalidated,
                                fn, s->dma_ch[0].palette, miny, maxy);
 }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot90(PXA2xxLCDState *s,
     else if (s->bpp > pxa_lcdc_8bpp)
         src_width *= 2;
 
-    dest_width = s->yres * s->dest_width;
+    dest_width = s->yres * DEST_PIXEL_WIDTH;
     *miny = 0;
     if (s->invalidated) {
         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
                                           addr, s->yres, src_width);
     }
     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-                               src_width, s->dest_width, -dest_width,
+                               src_width, DEST_PIXEL_WIDTH, -dest_width,
                                s->invalidated,
                                fn, s->dma_ch[0].palette,
                                miny, maxy);
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot180(PXA2xxLCDState *s,
         src_width *= 2;
     }
 
-    dest_width = s->xres * s->dest_width;
+    dest_width = s->xres * DEST_PIXEL_WIDTH;
     *miny = 0;
     if (s->invalidated) {
         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
                                           addr, s->yres, src_width);
     }
     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-                               src_width, -dest_width, -s->dest_width,
+                               src_width, -dest_width, -DEST_PIXEL_WIDTH,
                                s->invalidated,
                                fn, s->dma_ch[0].palette, miny, maxy);
 }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_lcdc_dma0_redraw_rot270(PXA2xxLCDState *s,
         src_width *= 2;
     }
 
-    dest_width = s->yres * s->dest_width;
+    dest_width = s->yres * DEST_PIXEL_WIDTH;
     *miny = 0;
     if (s->invalidated) {
         framebuffer_update_memory_section(&s->fbsection, s->sysmem,
                                           addr, s->yres, src_width);
     }
     framebuffer_update_display(surface, &s->fbsection, s->xres, s->yres,
-                               src_width, -s->dest_width, dest_width,
+                               src_width, -DEST_PIXEL_WIDTH, dest_width,
                                s->invalidated,
                                fn, s->dma_ch[0].palette,
                                miny, maxy);
@@ -XXX,XX +XXX,XX @@ PXA2xxLCDState *pxa2xx_lcdc_init(MemoryRegion *sysmem,
     memory_region_add_subregion(sysmem, base, &s->iomem);
 
     s->con = graphic_console_init(NULL, 0, &pxa2xx_ops, s);
-    s->dest_width = 4;
 
     vmstate_register(NULL, 0, &vmstate_pxa2xx_lcdc, s);
 
-- 
2.20.1

Now that BITS is always 32, expand out all its uses in the template
header, including removing now-useless uses of the glue() macro.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-7-peter.maydell@linaro.org
---
 hw/display/pxa2xx_template.h | 110 ++++++++++++++---------------------
 1 file changed, 45 insertions(+), 65 deletions(-)

diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pxa2xx_template.h
+++ b/hw/display/pxa2xx_template.h
@@ -XXX,XX +XXX,XX @@
  */
 
 # define SKIP_PIXEL(to)		to += deststep
-#if BITS == 8
-# define COPY_PIXEL(to, from)  do { *to = from; SKIP_PIXEL(to); } while (0)
-#elif BITS == 15 || BITS == 16
-# define COPY_PIXEL(to, from)    \
-    do {                         \
-        *(uint16_t *) to = from; \
-        SKIP_PIXEL(to);          \
-    } while (0)
-#elif BITS == 24
-# define COPY_PIXEL(to, from)     \
-    do {                          \
-        *(uint16_t *) to = from;  \
-        *(to + 2) = (from) >> 16; \
-        SKIP_PIXEL(to);           \
-    } while (0)
-#elif BITS == 32
 # define COPY_PIXEL(to, from)    \
     do {                         \
         *(uint32_t *) to = from; \
         SKIP_PIXEL(to);          \
     } while (0)
-#else
-# error unknown bit depth
-#endif
 
 #ifdef HOST_WORDS_BIGENDIAN
 # define SWAP_WORDS	1
@@ -XXX,XX +XXX,XX @@
 #define FN_2(x)		FN(x + 1) FN(x)
 #define FN_4(x)		FN_2(x + 2) FN_2(x)
 
-static void glue(pxa2xx_draw_line2_, BITS)(void *opaque,
+static void pxa2xx_draw_line2(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t *palette = opaque;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line2_, BITS)(void *opaque,
     }
 }
 
-static void glue(pxa2xx_draw_line4_, BITS)(void *opaque,
+static void pxa2xx_draw_line4(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t *palette = opaque;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line4_, BITS)(void *opaque,
     }
 }
 
-static void glue(pxa2xx_draw_line8_, BITS)(void *opaque,
+static void pxa2xx_draw_line8(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t *palette = opaque;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line8_, BITS)(void *opaque,
     }
 }
 
-static void glue(pxa2xx_draw_line16_, BITS)(void *opaque,
+static void pxa2xx_draw_line16(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line16_, BITS)(void *opaque,
         data >>= 6;
         r = (data & 0x1f) << 3;
         data >>= 5;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         b = (data & 0x1f) << 3;
         data >>= 5;
         g = (data & 0x3f) << 2;
         data >>= 6;
         r = (data & 0x1f) << 3;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 2;
         src += 4;
     }
 }
 
-static void glue(pxa2xx_draw_line16t_, BITS)(void *opaque,
+static void pxa2xx_draw_line16t(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line16t_, BITS)(void *opaque,
         if (data & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         data >>= 1;
         b = (data & 0x1f) << 3;
         data >>= 5;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line16t_, BITS)(void *opaque,
         if (data & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 2;
         src += 4;
     }
 }
 
-static void glue(pxa2xx_draw_line18_, BITS)(void *opaque,
+static void pxa2xx_draw_line18(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line18_, BITS)(void *opaque,
         g = (data & 0x3f) << 2;
         data >>= 6;
         r = (data & 0x3f) << 2;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 1;
         src += 4;
     }
 }
 
 /* The wicked packed format */
-static void glue(pxa2xx_draw_line18p_, BITS)(void *opaque,
+static void pxa2xx_draw_line18p(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data[3];
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line18p_, BITS)(void *opaque,
         data[0] >>= 6;
         r = (data[0] & 0x3f) << 2;
         data[0] >>= 12;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         b = (data[0] & 0x3f) << 2;
         data[0] >>= 6;
         g = ((data[1] & 0xf) << 4) | (data[0] << 2);
         data[1] >>= 4;
         r = (data[1] & 0x3f) << 2;
         data[1] >>= 12;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         b = (data[1] & 0x3f) << 2;
         data[1] >>= 6;
         g = (data[1] & 0x3f) << 2;
         data[1] >>= 6;
         r = ((data[2] & 0x3) << 6) | (data[1] << 2);
         data[2] >>= 8;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         b = (data[2] & 0x3f) << 2;
         data[2] >>= 6;
         g = (data[2] & 0x3f) << 2;
         data[2] >>= 6;
         r = data[2] << 2;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 4;
     }
 }
 
-static void glue(pxa2xx_draw_line19_, BITS)(void *opaque,
+static void pxa2xx_draw_line19(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19_, BITS)(void *opaque,
         if (data & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 1;
         src += 4;
     }
 }
 
 /* The wicked packed format */
-static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
+static void pxa2xx_draw_line19p(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data[3];
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
         if (data[0] & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         data[0] >>= 6;
         b = (data[0] & 0x3f) << 2;
         data[0] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
         if (data[1] & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         data[1] >>= 6;
         b = (data[1] & 0x3f) << 2;
         data[1] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
         if (data[2] & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         data[2] >>= 6;
         b = (data[2] & 0x3f) << 2;
         data[2] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line19p_, BITS)(void *opaque,
         if (data[2] & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 4;
     }
 }
 
-static void glue(pxa2xx_draw_line24_, BITS)(void *opaque,
+static void pxa2xx_draw_line24(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line24_, BITS)(void *opaque,
         g = data & 0xff;
         data >>= 8;
         r = data & 0xff;
-        COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 1;
         src += 4;
     }
 }
 
-static void glue(pxa2xx_draw_line24t_, BITS)(void *opaque,
+static void pxa2xx_draw_line24t(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line24t_, BITS)(void *opaque,
         if (data & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 1;
         src += 4;
     }
 }
 
-static void glue(pxa2xx_draw_line25_, BITS)(void *opaque,
+static void pxa2xx_draw_line25(void *opaque,
                 uint8_t *dest, const uint8_t *src, int width, int deststep)
 {
     uint32_t data;
@@ -XXX,XX +XXX,XX @@ static void glue(pxa2xx_draw_line25_, BITS)(void *opaque,
         if (data & 1)
             SKIP_PIXEL(dest);
         else
-            COPY_PIXEL(dest, glue(rgb_to_pixel, BITS)(r, g, b));
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
         width -= 1;
         src += 4;
     }
 }
 
 /* Overlay planes disabled, no transparency */
-static drawfn glue(pxa2xx_draw_fn_, BITS)[16] =
+static drawfn pxa2xx_draw_fn_32[16] =
 {
     [0 ... 0xf]       = NULL,
-    [pxa_lcdc_2bpp]   = glue(pxa2xx_draw_line2_, BITS),
-    [pxa_lcdc_4bpp]   = glue(pxa2xx_draw_line4_, BITS),
-    [pxa_lcdc_8bpp]   = glue(pxa2xx_draw_line8_, BITS),
-    [pxa_lcdc_16bpp]  = glue(pxa2xx_draw_line16_, BITS),
-    [pxa_lcdc_18bpp]  = glue(pxa2xx_draw_line18_, BITS),
-    [pxa_lcdc_18pbpp] = glue(pxa2xx_draw_line18p_, BITS),
-    [pxa_lcdc_24bpp]  = glue(pxa2xx_draw_line24_, BITS),
+    [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
+    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
+    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
+    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16,
+    [pxa_lcdc_18bpp]  = pxa2xx_draw_line18,
+    [pxa_lcdc_18pbpp] = pxa2xx_draw_line18p,
+    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24,
 };
 
 /* Overlay planes enabled, transparency used */
-static drawfn glue(glue(pxa2xx_draw_fn_, BITS), t)[16] =
+static drawfn pxa2xx_draw_fn_32t[16] =
 {
     [0 ... 0xf]       = NULL,
-    [pxa_lcdc_4bpp]   = glue(pxa2xx_draw_line4_, BITS),
-    [pxa_lcdc_8bpp]   = glue(pxa2xx_draw_line8_, BITS),
-    [pxa_lcdc_16bpp]  = glue(pxa2xx_draw_line16t_, BITS),
-    [pxa_lcdc_19bpp]  = glue(pxa2xx_draw_line19_, BITS),
-    [pxa_lcdc_19pbpp] = glue(pxa2xx_draw_line19p_, BITS),
-    [pxa_lcdc_24bpp]  = glue(pxa2xx_draw_line24t_, BITS),
-    [pxa_lcdc_25bpp]  = glue(pxa2xx_draw_line25_, BITS),
+    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
+    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
+    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16t,
+    [pxa_lcdc_19bpp]  = pxa2xx_draw_line19,
+    [pxa_lcdc_19pbpp] = pxa2xx_draw_line19p,
+    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24t,
+    [pxa_lcdc_25bpp]  = pxa2xx_draw_line25,
 };
 
-#undef BITS
 #undef COPY_PIXEL
 #undef SKIP_PIXEL
 
-- 
2.20.1

We're about to move code from the template header into pxa2xx_lcd.c.
Before doing that, make coding style fixes so checkpatch doesn't
complain about the patch which moves the code. This commit fixes
missing braces in the SKIP_PIXEL() macro definition and in if()
statements.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-8-peter.maydell@linaro.org
---
 hw/display/pxa2xx_template.h | 47 +++++++++++++++++++++---------------
 1 file changed, 28 insertions(+), 19 deletions(-)

diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pxa2xx_template.h
+++ b/hw/display/pxa2xx_template.h
@@ -XXX,XX +XXX,XX @@
  * Framebuffer format conversion routines.
  */
 
-# define SKIP_PIXEL(to)		to += deststep
+# define SKIP_PIXEL(to) do { to += deststep; } while (0)
 # define COPY_PIXEL(to, from)    \
     do {                         \
         *(uint32_t *) to = from; \
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16t(void *opaque,
         data >>= 5;
         r = (data & 0x1f) << 3;
         data >>= 5;
-        if (data & 1)
+        if (data & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         data >>= 1;
         b = (data & 0x1f) << 3;
         data >>= 5;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16t(void *opaque,
         data >>= 5;
         r = (data & 0x1f) << 3;
         data >>= 5;
-        if (data & 1)
+        if (data & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         width -= 2;
         src += 4;
     }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19(void *opaque,
         data >>= 6;
         r = (data & 0x3f) << 2;
         data >>= 6;
-        if (data & 1)
+        if (data & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         width -= 1;
         src += 4;
     }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
         data[0] >>= 6;
         r = (data[0] & 0x3f) << 2;
         data[0] >>= 6;
-        if (data[0] & 1)
+        if (data[0] & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         data[0] >>= 6;
         b = (data[0] & 0x3f) << 2;
         data[0] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
         data[1] >>= 4;
         r = (data[1] & 0x3f) << 2;
         data[1] >>= 6;
-        if (data[1] & 1)
+        if (data[1] & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         data[1] >>= 6;
         b = (data[1] & 0x3f) << 2;
         data[1] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
         data[1] >>= 6;
         r = ((data[2] & 0x3) << 6) | (data[1] << 2);
         data[2] >>= 2;
-        if (data[2] & 1)
+        if (data[2] & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         data[2] >>= 6;
         b = (data[2] & 0x3f) << 2;
         data[2] >>= 6;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
         data[2] >>= 6;
         r = data[2] << 2;
         data[2] >>= 6;
-        if (data[2] & 1)
+        if (data[2] & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         width -= 4;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line24t(void *opaque,
         data >>= 8;
         r = data & 0xff;
         data >>= 8;
-        if (data & 1)
+        if (data & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         width -= 1;
         src += 4;
     }
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line25(void *opaque,
         data >>= 8;
         r = data & 0xff;
         data >>= 8;
-        if (data & 1)
+        if (data & 1) {
             SKIP_PIXEL(dest);
-        else
+        } else {
             COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
         width -= 1;
         src += 4;
     }
-- 
2.20.1

We're about to move code from the template header into pxa2xx_lcd.c.
Before doing that, make coding style fixes so checkpatch doesn't
complain about the patch which moves the code. This commit is
whitespace changes only:
 * avoid hard-coded tabs
 * fix ident on function prototypes
 * no newline before open brace on array definitions

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-9-peter.maydell@linaro.org
---
 hw/display/pxa2xx_template.h | 66 +++++++++++++++++-------------------
 1 file changed, 32 insertions(+), 34 deletions(-)

diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pxa2xx_template.h
+++ b/hw/display/pxa2xx_template.h
@@ -XXX,XX +XXX,XX @@
     } while (0)
 
 #ifdef HOST_WORDS_BIGENDIAN
-# define SWAP_WORDS	1
+# define SWAP_WORDS 1
 #endif
 
-#define FN_2(x)		FN(x + 1) FN(x)
-#define FN_4(x)		FN_2(x + 2) FN_2(x)
+#define FN_2(x) FN(x + 1) FN(x)
+#define FN_4(x) FN_2(x + 2) FN_2(x)
 
-static void pxa2xx_draw_line2(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line2(void *opaque, uint8_t *dest, const uint8_t *src,
+                              int width, int deststep)
 {
     uint32_t *palette = opaque;
     uint32_t data;
     while (width > 0) {
         data = *(uint32_t *) src;
-#define FN(x)		COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
+#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
 #ifdef SWAP_WORDS
         FN_4(12)
         FN_4(8)
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line2(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line4(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line4(void *opaque, uint8_t *dest, const uint8_t *src,
+                              int width, int deststep)
 {
     uint32_t *palette = opaque;
     uint32_t data;
     while (width > 0) {
         data = *(uint32_t *) src;
-#define FN(x)		COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
+#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
 #ifdef SWAP_WORDS
         FN_2(6)
         FN_2(4)
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line4(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line8(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line8(void *opaque, uint8_t *dest, const uint8_t *src,
+                              int width, int deststep)
 {
     uint32_t *palette = opaque;
     uint32_t data;
     while (width > 0) {
         data = *(uint32_t *) src;
-#define FN(x)		COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
+#define FN(x) COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
 #ifdef SWAP_WORDS
         FN(24)
         FN(16)
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line8(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line16(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line16(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line16t(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line16t(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line16t(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line18(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line18(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line18(void *opaque,
 }
 
 /* The wicked packed format */
-static void pxa2xx_draw_line18p(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line18p(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
 {
     uint32_t data[3];
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line18p(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line19(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line19(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19(void *opaque,
 }
 
 /* The wicked packed format */
-static void pxa2xx_draw_line19p(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line19p(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
 {
     uint32_t data[3];
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line19p(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line24(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line24(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line24(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line24t(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line24t(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line24t(void *opaque,
     }
 }
 
-static void pxa2xx_draw_line25(void *opaque,
-                uint8_t *dest, const uint8_t *src, int width, int deststep)
+static void pxa2xx_draw_line25(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
 {
     uint32_t data;
     unsigned int r, g, b;
@@ -XXX,XX +XXX,XX @@ static void pxa2xx_draw_line25(void *opaque,
 }
 
 /* Overlay planes disabled, no transparency */
-static drawfn pxa2xx_draw_fn_32[16] =
-{
+static drawfn pxa2xx_draw_fn_32[16] = {
     [0 ... 0xf]       = NULL,
     [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
     [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
@@ -XXX,XX +XXX,XX @@ static drawfn pxa2xx_draw_fn_32[16] =
 };
 
 /* Overlay planes enabled, transparency used */
-static drawfn pxa2xx_draw_fn_32t[16] =
-{
+static drawfn pxa2xx_draw_fn_32t[16] = {
     [0 ... 0xf]       = NULL,
     [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
     [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
-- 
2.20.1

The template header is now included only once; just inline its contents
in hw/display/pxa2xx_lcd.c.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Acked-by: Gerd Hoffmann <kraxel@redhat.com>
Message-id: 20210211141515.8755-10-peter.maydell@linaro.org
---
 hw/display/pxa2xx_template.h | 434 -----------------------------------
 hw/display/pxa2xx_lcd.c      | 427 +++++++++++++++++++++++++++++++++-
 2 files changed, 425 insertions(+), 436 deletions(-)
 delete mode 100644 hw/display/pxa2xx_template.h

diff --git a/hw/display/pxa2xx_template.h b/hw/display/pxa2xx_template.h
deleted file mode 100644
index XXXXXXX..XXXXXXX
--- a/hw/display/pxa2xx_template.h
+++ /dev/null
@@ -XXX,XX +XXX,XX @@
-/*
- * Intel XScale PXA255/270 LCDC emulation.
- *
- * Copyright (c) 2006 Openedhand Ltd.
- * Written by Andrzej Zaborowski <balrog@zabor.org>
- *
- * This code is licensed under the GPLv2.
- *
- * Framebuffer format conversion routines.
- */
-
-# define SKIP_PIXEL(to) do { to += deststep; } while (0)
-# define COPY_PIXEL(to, from)    \
-    do {                         \
-        *(uint32_t *) to = from; \
-        SKIP_PIXEL(to);          \
-    } while (0)
-
-#ifdef HOST_WORDS_BIGENDIAN
-# define SWAP_WORDS 1
-#endif
-
-#define FN_2(x) FN(x + 1) FN(x)
-#define FN_4(x) FN_2(x + 2) FN_2(x)
-
-static void pxa2xx_draw_line2(void *opaque, uint8_t *dest, const uint8_t *src,
-                              int width, int deststep)
-{
-    uint32_t *palette = opaque;
-    uint32_t data;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
-#ifdef SWAP_WORDS
-        FN_4(12)
-        FN_4(8)
-        FN_4(4)
-        FN_4(0)
-#else
-        FN_4(0)
-        FN_4(4)
-        FN_4(8)
-        FN_4(12)
-#endif
-#undef FN
-        width -= 16;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line4(void *opaque, uint8_t *dest, const uint8_t *src,
-                              int width, int deststep)
-{
-    uint32_t *palette = opaque;
-    uint32_t data;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
-#ifdef SWAP_WORDS
-        FN_2(6)
-        FN_2(4)
-        FN_2(2)
-        FN_2(0)
-#else
-        FN_2(0)
-        FN_2(2)
-        FN_2(4)
-        FN_2(6)
-#endif
-#undef FN
-        width -= 8;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line8(void *opaque, uint8_t *dest, const uint8_t *src,
-                              int width, int deststep)
-{
-    uint32_t *palette = opaque;
-    uint32_t data;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#define FN(x) COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
-#ifdef SWAP_WORDS
-        FN(24)
-        FN(16)
-        FN(8)
-        FN(0)
-#else
-        FN(0)
-        FN(8)
-        FN(16)
-        FN(24)
-#endif
-#undef FN
-        width -= 4;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line16(void *opaque, uint8_t *dest, const uint8_t *src,
-                               int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = (data & 0x1f) << 3;
-        data >>= 5;
-        g = (data & 0x3f) << 2;
-        data >>= 6;
-        r = (data & 0x1f) << 3;
-        data >>= 5;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        b = (data & 0x1f) << 3;
-        data >>= 5;
-        g = (data & 0x3f) << 2;
-        data >>= 6;
-        r = (data & 0x1f) << 3;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        width -= 2;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line16t(void *opaque, uint8_t *dest, const uint8_t *src,
-                                int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = (data & 0x1f) << 3;
-        data >>= 5;
-        g = (data & 0x1f) << 3;
-        data >>= 5;
-        r = (data & 0x1f) << 3;
-        data >>= 5;
-        if (data & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        data >>= 1;
-        b = (data & 0x1f) << 3;
-        data >>= 5;
-        g = (data & 0x1f) << 3;
-        data >>= 5;
-        r = (data & 0x1f) << 3;
-        data >>= 5;
-        if (data & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        width -= 2;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line18(void *opaque, uint8_t *dest, const uint8_t *src,
-                               int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = (data & 0x3f) << 2;
-        data >>= 6;
-        g = (data & 0x3f) << 2;
-        data >>= 6;
-        r = (data & 0x3f) << 2;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        width -= 1;
-        src += 4;
-    }
-}
-
-/* The wicked packed format */
-static void pxa2xx_draw_line18p(void *opaque, uint8_t *dest, const uint8_t *src,
-                                int width, int deststep)
-{
-    uint32_t data[3];
-    unsigned int r, g, b;
-    while (width > 0) {
-        data[0] = *(uint32_t *) src;
-        src += 4;
-        data[1] = *(uint32_t *) src;
-        src += 4;
-        data[2] = *(uint32_t *) src;
-        src += 4;
-#ifdef SWAP_WORDS
-        data[0] = bswap32(data[0]);
-        data[1] = bswap32(data[1]);
-        data[2] = bswap32(data[2]);
-#endif
-        b = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        g = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        r = (data[0] & 0x3f) << 2;
-        data[0] >>= 12;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        b = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
-        data[1] >>= 4;
-        r = (data[1] & 0x3f) << 2;
-        data[1] >>= 12;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        b = (data[1] & 0x3f) << 2;
-        data[1] >>= 6;
-        g = (data[1] & 0x3f) << 2;
-        data[1] >>= 6;
-        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
-        data[2] >>= 8;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        b = (data[2] & 0x3f) << 2;
-        data[2] >>= 6;
-        g = (data[2] & 0x3f) << 2;
-        data[2] >>= 6;
-        r = data[2] << 2;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        width -= 4;
-    }
-}
-
-static void pxa2xx_draw_line19(void *opaque, uint8_t *dest, const uint8_t *src,
-                               int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = (data & 0x3f) << 2;
-        data >>= 6;
-        g = (data & 0x3f) << 2;
-        data >>= 6;
-        r = (data & 0x3f) << 2;
-        data >>= 6;
-        if (data & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        width -= 1;
-        src += 4;
-    }
-}
-
-/* The wicked packed format */
-static void pxa2xx_draw_line19p(void *opaque, uint8_t *dest, const uint8_t *src,
-                                int width, int deststep)
-{
-    uint32_t data[3];
-    unsigned int r, g, b;
-    while (width > 0) {
-        data[0] = *(uint32_t *) src;
-        src += 4;
-        data[1] = *(uint32_t *) src;
-        src += 4;
-        data[2] = *(uint32_t *) src;
-        src += 4;
-# ifdef SWAP_WORDS
-        data[0] = bswap32(data[0]);
-        data[1] = bswap32(data[1]);
-        data[2] = bswap32(data[2]);
-# endif
-        b = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        g = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        r = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        if (data[0] & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        data[0] >>= 6;
-        b = (data[0] & 0x3f) << 2;
-        data[0] >>= 6;
-        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
-        data[1] >>= 4;
-        r = (data[1] & 0x3f) << 2;
-        data[1] >>= 6;
-        if (data[1] & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        data[1] >>= 6;
-        b = (data[1] & 0x3f) << 2;
-        data[1] >>= 6;
-        g = (data[1] & 0x3f) << 2;
-        data[1] >>= 6;
-        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
-        data[2] >>= 2;
-        if (data[2] & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        data[2] >>= 6;
-        b = (data[2] & 0x3f) << 2;
-        data[2] >>= 6;
-        g = (data[2] & 0x3f) << 2;
-        data[2] >>= 6;
-        r = data[2] << 2;
-        data[2] >>= 6;
-        if (data[2] & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        width -= 4;
-    }
-}
-
-static void pxa2xx_draw_line24(void *opaque, uint8_t *dest, const uint8_t *src,
-                               int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = data & 0xff;
-        data >>= 8;
-        g = data & 0xff;
-        data >>= 8;
-        r = data & 0xff;
-        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        width -= 1;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line24t(void *opaque, uint8_t *dest, const uint8_t *src,
-                                int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = (data & 0x7f) << 1;
-        data >>= 7;
-        g = data & 0xff;
-        data >>= 8;
-        r = data & 0xff;
-        data >>= 8;
-        if (data & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        width -= 1;
-        src += 4;
-    }
-}
-
-static void pxa2xx_draw_line25(void *opaque, uint8_t *dest, const uint8_t *src,
-                               int width, int deststep)
-{
-    uint32_t data;
-    unsigned int r, g, b;
-    while (width > 0) {
-        data = *(uint32_t *) src;
-#ifdef SWAP_WORDS
-        data = bswap32(data);
-#endif
-        b = data & 0xff;
-        data >>= 8;
-        g = data & 0xff;
-        data >>= 8;
-        r = data & 0xff;
-        data >>= 8;
-        if (data & 1) {
-            SKIP_PIXEL(dest);
-        } else {
-            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
-        }
-        width -= 1;
-        src += 4;
-    }
-}
-
-/* Overlay planes disabled, no transparency */
-static drawfn pxa2xx_draw_fn_32[16] = {
-    [0 ... 0xf]       = NULL,
-    [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
-    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
-    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
-    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16,
-    [pxa_lcdc_18bpp]  = pxa2xx_draw_line18,
-    [pxa_lcdc_18pbpp] = pxa2xx_draw_line18p,
-    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24,
-};
-
-/* Overlay planes enabled, transparency used */
-static drawfn pxa2xx_draw_fn_32t[16] = {
-    [0 ... 0xf]       = NULL,
-    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
-    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
-    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16t,
-    [pxa_lcdc_19bpp]  = pxa2xx_draw_line19,
-    [pxa_lcdc_19pbpp] = pxa2xx_draw_line19p,
-    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24t,
-    [pxa_lcdc_25bpp]  = pxa2xx_draw_line25,
-};
-
-#undef COPY_PIXEL
-#undef SKIP_PIXEL
-
-#ifdef SWAP_WORDS
-# undef SWAP_WORDS
-#endif
diff --git a/hw/display/pxa2xx_lcd.c b/hw/display/pxa2xx_lcd.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/pxa2xx_lcd.c
+++ b/hw/display/pxa2xx_lcd.c
@@ -XXX,XX +XXX,XX @@ typedef struct QEMU_PACKED {
 /* Size of a pixel in the QEMU UI output surface, in bytes */
 #define DEST_PIXEL_WIDTH 4
 
-#define BITS 32
-#include "pxa2xx_template.h"
+/* Line drawing code to handle the various possible guest pixel formats */
+
+# define SKIP_PIXEL(to) do { to += deststep; } while (0)
+# define COPY_PIXEL(to, from)    \
+    do {                         \
+        *(uint32_t *) to = from; \
+        SKIP_PIXEL(to);          \
+    } while (0)
+
+#ifdef HOST_WORDS_BIGENDIAN
+# define SWAP_WORDS 1
+#endif
+
+#define FN_2(x) FN(x + 1) FN(x)
+#define FN_4(x) FN_2(x + 2) FN_2(x)
+
+static void pxa2xx_draw_line2(void *opaque, uint8_t *dest, const uint8_t *src,
+                              int width, int deststep)
+{
+    uint32_t *palette = opaque;
+    uint32_t data;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 2)) & 3]);
+#ifdef SWAP_WORDS
+        FN_4(12)
+        FN_4(8)
+        FN_4(4)
+        FN_4(0)
+#else
+        FN_4(0)
+        FN_4(4)
+        FN_4(8)
+        FN_4(12)
+#endif
+#undef FN
+        width -= 16;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line4(void *opaque, uint8_t *dest, const uint8_t *src,
+                              int width, int deststep)
+{
+    uint32_t *palette = opaque;
+    uint32_t data;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#define FN(x) COPY_PIXEL(dest, palette[(data >> ((x) * 4)) & 0xf]);
+#ifdef SWAP_WORDS
+        FN_2(6)
+        FN_2(4)
+        FN_2(2)
+        FN_2(0)
+#else
+        FN_2(0)
+        FN_2(2)
+        FN_2(4)
+        FN_2(6)
+#endif
+#undef FN
+        width -= 8;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line8(void *opaque, uint8_t *dest, const uint8_t *src,
+                              int width, int deststep)
+{
+    uint32_t *palette = opaque;
+    uint32_t data;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#define FN(x) COPY_PIXEL(dest, palette[(data >> (x)) & 0xff]);
+#ifdef SWAP_WORDS
+        FN(24)
+        FN(16)
+        FN(8)
+        FN(0)
+#else
+        FN(0)
+        FN(8)
+        FN(16)
+        FN(24)
+#endif
+#undef FN
+        width -= 4;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line16(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = (data & 0x1f) << 3;
+        data >>= 5;
+        g = (data & 0x3f) << 2;
+        data >>= 6;
+        r = (data & 0x1f) << 3;
+        data >>= 5;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        b = (data & 0x1f) << 3;
+        data >>= 5;
+        g = (data & 0x3f) << 2;
+        data >>= 6;
+        r = (data & 0x1f) << 3;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        width -= 2;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line16t(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = (data & 0x1f) << 3;
+        data >>= 5;
+        g = (data & 0x1f) << 3;
+        data >>= 5;
+        r = (data & 0x1f) << 3;
+        data >>= 5;
+        if (data & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        data >>= 1;
+        b = (data & 0x1f) << 3;
+        data >>= 5;
+        g = (data & 0x1f) << 3;
+        data >>= 5;
+        r = (data & 0x1f) << 3;
+        data >>= 5;
+        if (data & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        width -= 2;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line18(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = (data & 0x3f) << 2;
+        data >>= 6;
+        g = (data & 0x3f) << 2;
+        data >>= 6;
+        r = (data & 0x3f) << 2;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        width -= 1;
+        src += 4;
+    }
+}
+
+/* The wicked packed format */
+static void pxa2xx_draw_line18p(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
+{
+    uint32_t data[3];
+    unsigned int r, g, b;
+    while (width > 0) {
+        data[0] = *(uint32_t *) src;
+        src += 4;
+        data[1] = *(uint32_t *) src;
+        src += 4;
+        data[2] = *(uint32_t *) src;
+        src += 4;
+#ifdef SWAP_WORDS
+        data[0] = bswap32(data[0]);
+        data[1] = bswap32(data[1]);
+        data[2] = bswap32(data[2]);
+#endif
+        b = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        g = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        r = (data[0] & 0x3f) << 2;
+        data[0] >>= 12;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        b = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
+        data[1] >>= 4;
+        r = (data[1] & 0x3f) << 2;
+        data[1] >>= 12;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        b = (data[1] & 0x3f) << 2;
+        data[1] >>= 6;
+        g = (data[1] & 0x3f) << 2;
+        data[1] >>= 6;
+        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
+        data[2] >>= 8;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        b = (data[2] & 0x3f) << 2;
+        data[2] >>= 6;
+        g = (data[2] & 0x3f) << 2;
+        data[2] >>= 6;
+        r = data[2] << 2;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        width -= 4;
+    }
+}
+
+static void pxa2xx_draw_line19(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = (data & 0x3f) << 2;
+        data >>= 6;
+        g = (data & 0x3f) << 2;
+        data >>= 6;
+        r = (data & 0x3f) << 2;
+        data >>= 6;
+        if (data & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        width -= 1;
+        src += 4;
+    }
+}
+
+/* The wicked packed format */
+static void pxa2xx_draw_line19p(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
+{
+    uint32_t data[3];
+    unsigned int r, g, b;
+    while (width > 0) {
+        data[0] = *(uint32_t *) src;
+        src += 4;
+        data[1] = *(uint32_t *) src;
+        src += 4;
+        data[2] = *(uint32_t *) src;
+        src += 4;
+# ifdef SWAP_WORDS
+        data[0] = bswap32(data[0]);
+        data[1] = bswap32(data[1]);
+        data[2] = bswap32(data[2]);
+# endif
+        b = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        g = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        r = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        if (data[0] & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        data[0] >>= 6;
+        b = (data[0] & 0x3f) << 2;
+        data[0] >>= 6;
+        g = ((data[1] & 0xf) << 4) | (data[0] << 2);
+        data[1] >>= 4;
+        r = (data[1] & 0x3f) << 2;
+        data[1] >>= 6;
+        if (data[1] & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        data[1] >>= 6;
+        b = (data[1] & 0x3f) << 2;
+        data[1] >>= 6;
+        g = (data[1] & 0x3f) << 2;
+        data[1] >>= 6;
+        r = ((data[2] & 0x3) << 6) | (data[1] << 2);
+        data[2] >>= 2;
+        if (data[2] & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        data[2] >>= 6;
+        b = (data[2] & 0x3f) << 2;
+        data[2] >>= 6;
+        g = (data[2] & 0x3f) << 2;
+        data[2] >>= 6;
+        r = data[2] << 2;
+        data[2] >>= 6;
+        if (data[2] & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        width -= 4;
+    }
+}
+
+static void pxa2xx_draw_line24(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = data & 0xff;
+        data >>= 8;
+        g = data & 0xff;
+        data >>= 8;
+        r = data & 0xff;
+        COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        width -= 1;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line24t(void *opaque, uint8_t *dest, const uint8_t *src,
+                                int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = (data & 0x7f) << 1;
+        data >>= 7;
+        g = data & 0xff;
+        data >>= 8;
+        r = data & 0xff;
+        data >>= 8;
+        if (data & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        width -= 1;
+        src += 4;
+    }
+}
+
+static void pxa2xx_draw_line25(void *opaque, uint8_t *dest, const uint8_t *src,
+                               int width, int deststep)
+{
+    uint32_t data;
+    unsigned int r, g, b;
+    while (width > 0) {
+        data = *(uint32_t *) src;
+#ifdef SWAP_WORDS
+        data = bswap32(data);
+#endif
+        b = data & 0xff;
+        data >>= 8;
+        g = data & 0xff;
+        data >>= 8;
+        r = data & 0xff;
+        data >>= 8;
+        if (data & 1) {
+            SKIP_PIXEL(dest);
+        } else {
+            COPY_PIXEL(dest, rgb_to_pixel32(r, g, b));
+        }
+        width -= 1;
+        src += 4;
+    }
+}
+
+/* Overlay planes disabled, no transparency */
+static drawfn pxa2xx_draw_fn_32[16] = {
+    [0 ... 0xf]       = NULL,
+    [pxa_lcdc_2bpp]   = pxa2xx_draw_line2,
+    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
+    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
+    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16,
+    [pxa_lcdc_18bpp]  = pxa2xx_draw_line18,
+    [pxa_lcdc_18pbpp] = pxa2xx_draw_line18p,
+    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24,
+};
+
+/* Overlay planes enabled, transparency used */
+static drawfn pxa2xx_draw_fn_32t[16] = {
+    [0 ... 0xf]       = NULL,
+    [pxa_lcdc_4bpp]   = pxa2xx_draw_line4,
+    [pxa_lcdc_8bpp]   = pxa2xx_draw_line8,
+    [pxa_lcdc_16bpp]  = pxa2xx_draw_line16t,
+    [pxa_lcdc_19bpp]  = pxa2xx_draw_line19,
+    [pxa_lcdc_19pbpp] = pxa2xx_draw_line19p,
+    [pxa_lcdc_24bpp]  = pxa2xx_draw_line24t,
+    [pxa_lcdc_25bpp]  = pxa2xx_draw_line25,
+};
+
+#undef COPY_PIXEL
+#undef SKIP_PIXEL
+
+#ifdef SWAP_WORDS
+# undef SWAP_WORDS
+#endif
 
 /* Route internal interrupt lines to the global IC */
 static void pxa2xx_lcdc_int_update(PXA2xxLCDState *s)
-- 
2.20.1