Series comparison

-[Qemu-devel] [PULL 00/21] target-arm queue
+[PULL 00/24] target-arm queue
-Arm queue built up to a point where it seems worth sending:
+The following changes since commit 5a67d7735d4162630769ef495cf813244fc850df:
 various bug fixes, plus RTH's refactoring in preparation for SVE.
-thanks
+  Merge remote-tracking branch 'remotes/berrange-gitlab/tags/tls-deps-pull-request' into staging (2021-07-02 08:22:39 +0100)
 -- PMM
 The following changes since commit 0f79bfe38a2cf0f43c7ea4959da7f8ebd7858f3d:
-  Merge remote-tracking branch 'remotes/vivier2/tags/linux-user-for-2.12-pull-request' into staging (2018-01-25 09:53:53 +0000)
+are available in the Git repository at:
-are available in the git repository at:
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210702
-  git://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20180125
+for you to fetch changes up to 04ea4d3cfd0a21b248ece8eb7a9436a3d9898dd8:
-for you to fetch changes up to 24da047af0e99a83fcc0d50b86c0f2627f7418b3:
+  target/arm: Implement MVE shifts by register (2021-07-02 11:48:38 +0100)
   pl110: Implement vertical compare/next base interrupts (2018-01-25 11:45:30 +0000)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: Fix address truncation in 64-bit pagetable walks
+ * more MVE instructions
- * i.MX: Fix FEC/ENET receive functions
+ * hw/gpio/gpio_pwr: use shutdown function for reboot
- * target/arm: preparatory refactoring for SVE emulation
+ * target/arm: Check NaN mode before silencing NaN
- * hw/intc/arm_gic: Prevent the GIC from signaling an IRQ when it's "active and pending"
+ * tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
- * hw/intc/arm_gic: Fix C_RPR value on idle priority
+ * hw/arm: Add basic power management to raspi.
- * hw/intc/arm_gic: Fix group priority computation for group 1 IRQs
+ * docs/system/arm: Add quanta-gbs-bmc, quanta-q7l1-bmc
  * hw/intc/arm_gic: Fix the NS view of C_BPR when C_CTRL.CBPR is 1
  * hw/arm/virt: Check that the CPU realize method succeeded
  * sdhci: fix a NULL pointer dereference due to uninitialized AddressSpace object
  * xilinx_spips: Correct usage of an uninitialized local variable
  * pl110: Implement vertical compare/next base interrupts
 ----------------------------------------------------------------
-Ard Biesheuvel (1):
+Joe Komlodi (1):
-      target/arm: Fix 32-bit address truncation
+      target/arm: Check NaN mode before silencing NaN
-Francisco Iglesias (1):
+Maxim Uvarov (1):
-      xilinx_spips: Correct usage of an uninitialized local variable
+      hw/gpio/gpio_pwr: use shutdown function for reboot
-Jean-Christophe Dubois (1):
+Nolan Leake (1):
-      i.MX: Fix FEC/ENET receive funtions
+      hw/arm: Add basic power management to raspi.
-Linus Walleij (1):
+Patrick Venture (2):
-      pl110: Implement vertical compare/next base interrupts
+      docs/system/arm: Add quanta-q7l1-bmc reference
       docs/system/arm: Add quanta-gbs-bmc reference
-Luc MICHEL (4):
+Peter Maydell (18):
-      hw/intc/arm_gic: Prevent the GIC from signaling an IRQ when it's "active and pending"
+      target/arm: Fix MVE widening/narrowing VLDR/VSTR offset calculation
-      hw/intc/arm_gic: Fix C_RPR value on idle priority
+      target/arm: Fix bugs in MVE VRMLALDAVH, VRMLSLDAVH
-      hw/intc/arm_gic: Fix group priority computation for group 1 IRQs
+      target/arm: Make asimd_imm_const() public
-      hw/intc/arm_gic: Fix the NS view of C_BPR when C_CTRL.CBPR is 1
+      target/arm: Use asimd_imm_const for A64 decode
+      target/arm: Use dup_const() instead of bitfield_replicate()
-Peter Maydell (1):
+      target/arm: Implement MVE logical immediate insns
-      hw/arm/virt: Check that the CPU realize method succeeded
+      target/arm: Implement MVE vector shift left by immediate insns
       target/arm: Implement MVE vector shift right by immediate insns
       target/arm: Implement MVE VSHLL
       target/arm: Implement MVE VSRI, VSLI
       target/arm: Implement MVE VSHRN, VRSHRN
       target/arm: Implement MVE saturating narrowing shifts
       target/arm: Implement MVE VSHLC
       target/arm: Implement MVE VADDLV
       target/arm: Implement MVE long shifts by immediate
       target/arm: Implement MVE long shifts by register
       target/arm: Implement MVE shifts by immediate
       target/arm: Implement MVE shifts by register
 Philippe Mathieu-Daudé (1):
-      sdhci: fix a NULL pointer dereference due to uninitialized AddresSpace object
+      tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
-Richard Henderson (11):
+ docs/system/arm/aspeed.rst             |   1 +
-      target/arm: Mark disas_set_insn_syndrome inline
+ docs/system/arm/nuvoton.rst            |   5 +-
-      target/arm: Use pointers in crypto helpers
+ include/hw/arm/bcm2835_peripherals.h   |   3 +-
-      target/arm: Use pointers in neon zip/uzp helpers
+ include/hw/misc/bcm2835_powermgt.h     |  29 ++
-      target/arm: Use pointers in neon tbl helper
+ target/arm/helper-mve.h                | 108 +++++++
-      target/arm: Change the type of vfp.regs
+ target/arm/translate.h                 |  41 +++
-      target/arm: Add aa{32, 64}_vfp_{dreg, qreg} helpers
+ target/arm/mve.decode                  | 177 ++++++++++-
-      vmstate: Add VMSTATE_UINT64_SUB_ARRAY
+ target/arm/t32.decode                  |  71 ++++-
-      target/arm: Add ARM_FEATURE_SVE
+ hw/arm/bcm2835_peripherals.c           |  13 +-
-      target/arm: Move cpu_get_tb_cpu_state out of line
+ hw/gpio/gpio_pwr.c                     |   2 +-
-      target/arm: Hoist store to flags output in cpu_get_tb_cpu_state
+ hw/misc/bcm2835_powermgt.c             | 160 ++++++++++
-      target/arm: Simplify fp_exception_el for user-only
+ target/arm/helper-a64.c                |  12 +-
  target/arm/mve_helper.c                | 524 +++++++++++++++++++++++++++++++--
  target/arm/translate-a64.c             |  86 +-----
  target/arm/translate-mve.c             | 261 +++++++++++++++-
  target/arm/translate-neon.c            |  81 -----
  target/arm/translate.c                 | 327 +++++++++++++++++++-
  target/arm/vfp_helper.c                |  24 +-
  hw/misc/meson.build                    |   1 +
  tests/acceptance/boot_linux_console.py |  43 +++
 files changed, 1760 insertions(+), 209 deletions(-)
  create mode 100644 include/hw/misc/bcm2835_powermgt.h
  create mode 100644 hw/misc/bcm2835_powermgt.c
- include/hw/sd/sdhci.h       |   1 +
- include/migration/vmstate.h |   9 ++-
- target/arm/cpu.h            | 157 ++++++++-----------------------------
- target/arm/helper.h         |  46 +++++------
- target/arm/translate.h      |   2 +-
- hw/arm/virt.c               |   2 +-
- hw/display/pl110.c          |  30 +++++++-
- hw/intc/arm_gic.c           |  25 +++++-
- hw/net/imx_fec.c            |   8 +-
- hw/sd/sdhci.c               |   1 +
- hw/ssi/xilinx_spips.c       |  18 ++++-
- linux-user/signal.c         |  22 +++---
- target/arm/arch_dump.c      |   8 +-
- target/arm/crypto_helper.c  | 184 +++++++++++++++++---------------------------
- target/arm/helper-a64.c     |   5 +-
- target/arm/helper.c         | 164 +++++++++++++++++++++++++++++++++++----
- target/arm/kvm32.c          |   4 +-
- target/arm/kvm64.c          |  31 +++-----
- target/arm/machine.c        |   2 +-
- target/arm/neon_helper.c    | 162 ++++++++++++++++++++------------------
- target/arm/op_helper.c      |  17 ++--
- target/arm/translate-a64.c  | 100 ++++++++++++------------
- target/arm/translate.c      | 134 +++++++++++++++++---------------
-files changed, 607 insertions(+), 525 deletions(-)

-[Qemu-devel] [PULL 14/21] hw/intc/arm_gic: Prevent the GIC from signaling an IRQ when it's "active and pending"
+[PULL 01/24] docs/system/arm: Add quanta-q7l1-bmc reference
-From: Luc MICHEL <luc.michel@git.antfield.fr>
+From: Patrick Venture <venture@google.com>
-In the GIC, when an IRQ is acknowledged, its state goes from "pending"
+Adds a line-item reference to the supported quanta-q71l-bmc aspeed
-to:
+entry.
    - "active" if the corresponding IRQ pin has been de-asserted
    - "active and pending" otherwise.
 The GICv2 manual states that when a IRQ becomes active (or active and
 pending), the GIC should either signal another (higher priority) IRQ to
 the CPU if there is one, or de-assert the CPU IRQ pin.
-The current implementation of the GIC in QEMU does not check if the
+Signed-off-by: Patrick Venture <venture@google.com>
-IRQ is already active when looking for pending interrupts with
+Reviewed-by: Cédric Le Goater <clg@kaod.org>
-sufficient priority in gic_update(). This can lead to signaling an
+Message-id: 20210615192848.1065297-2-venture@google.com
 interrupt that is already active.
 This usually happens when splitting priority drop and interrupt
 deactivation. On priority drop, the IRQ stays active until deactivation.
 If it becomes pending again, chances are that it will be incorrectly
 selected as best_irq in gic_update().
 This commit fixes this by checking if the IRQ is not already active when
 looking for best_irq in gic_update().
 Note that regarding the ARM11MPCore GIC version, the corresponding
 manual is not clear on that point, but it has has no priority
 drop/interrupt deactivation separation, so this case should not happen.
 Signed-off-by: Luc MICHEL <luc.michel@git.antfield.fr>
 Message-id: 20180119145756.7629-3-luc.michel@greensocs.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/intc/arm_gic.c | 1 +
+ docs/system/arm/aspeed.rst | 1 +
 file changed, 1 insertion(+)
-diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
+diff --git a/docs/system/arm/aspeed.rst b/docs/system/arm/aspeed.rst
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gic.c
+--- a/docs/system/arm/aspeed.rst
-+++ b/hw/intc/arm_gic.c
++++ b/docs/system/arm/aspeed.rst
-@@ -XXX,XX +XXX,XX @@ void gic_update(GICState *s)
+@@ -XXX,XX +XXX,XX @@ etc.
-         best_irq = 1023;
+ AST2400 SoC based machines :
-         for (irq = 0; irq < s->num_irq; irq++) {
-             if (GIC_TEST_ENABLED(irq, cm) && gic_test_pending(s, irq, cm) &&
+ - ``palmetto-bmc``         OpenPOWER Palmetto POWER8 BMC
-+                (!GIC_TEST_ACTIVE(irq, cm)) &&
++- ``quanta-q71l-bmc``      OpenBMC Quanta BMC
-                 (irq < GIC_INTERNAL || GIC_TARGET(irq) & cm)) {
-                 if (GIC_GET_PRIORITY(irq, cpu) < best_prio) {
+ AST2500 SoC based machines :
-                     best_prio = GIC_GET_PRIORITY(irq, cpu);
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 10/21] target/arm: Add ARM_FEATURE_SVE
+[PULL 02/24] docs/system/arm: Add quanta-gbs-bmc reference
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Patrick Venture <venture@google.com>
-Not enabled anywhere so far.
+Add line item reference to quanta-gbs-bmc machine.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Patrick Venture <venture@google.com>
-Message-id: 20180119045438.28582-11-richard.henderson@linaro.org
+Reviewed-by: Cédric Le Goater <clg@kaod.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20210615192848.1065297-3-venture@google.com
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+[PMM: fixed underline Sphinx warning]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h | 1 +
+ docs/system/arm/nuvoton.rst | 5 +++--
-file changed, 1 insertion(+)
+file changed, 3 insertions(+), 2 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/docs/system/arm/nuvoton.rst
-+++ b/target/arm/cpu.h
++++ b/docs/system/arm/nuvoton.rst
-@@ -XXX,XX +XXX,XX @@ enum arm_features {
+@@ -XXX,XX +XXX,XX @@
-     ARM_FEATURE_VBAR, /* has cp15 VBAR */
+-Nuvoton iBMC boards (``npcm750-evb``, ``quanta-gsj``)
-     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
+-=====================================================
-     ARM_FEATURE_JAZELLE, /* has (trivial) Jazelle implementation */
++Nuvoton iBMC boards (``*-bmc``, ``npcm750-evb``, ``quanta-gsj``)
-+    ARM_FEATURE_SVE, /* has Scalable Vector Extension */
++================================================================
- };
+ The `Nuvoton iBMC`_ chips (NPCM7xx) are a family of ARM-based SoCs that are
- static inline int arm_feature(CPUARMState *env, int feature)
+ designed to be used as Baseboard Management Controllers (BMCs) in various
@@ -XXX,XX +XXX,XX @@ segment. The following machines are based on this chip :
  The NPCM730 SoC has two Cortex-A9 cores and is targeted for Data Center and
  Hyperscale applications. The following machines are based on this chip :
 +- ``quanta-gbs-bmc``    Quanta GBS server BMC
  - ``quanta-gsj``        Quanta GSJ server BMC
  There are also two more SoCs, NPCM710 and NPCM705, which are single-core
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 20/21] xilinx_spips: Correct usage of an uninitialized local variable
+[PULL 03/24] hw/arm: Add basic power management to raspi.
-From: Francisco Iglesias <frasse.iglesias@gmail.com>
+From: Nolan Leake <nolan@sigbus.net>
-Coverity found that the variable tx_rx in the function
+This is just enough to make reboot and poweroff work. Works for
-xilinx_spips_flush_txfifo was being used uninitialized (CID 1383841). This
+linux, u-boot, and the arm trusted firmware. Not tested, but should
-patch corrects this by always initializing tx_rx to zeros.
+work for plan9, and bare-metal/hobby OSes, since they seem to generally
+do what linux does for reset.
-Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
-Message-id: 20180124215708.30400-1-frasse.iglesias@gmail.com
+The watchdog timer functionality is not yet implemented.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Resolves: https://gitlab.com/qemu-project/qemu/-/issues/64
 Signed-off-by: Nolan Leake <nolan@sigbus.net>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20210625210209.1870217-1-nolan@sigbus.net
 [PMM: tweaked commit title; fixed region size to 0x200;
  moved header file to include/]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/ssi/xilinx_spips.c | 18 +++++++++++++++++-
+ include/hw/arm/bcm2835_peripherals.h |   3 +-
-file changed, 17 insertions(+), 1 deletion(-)
+ include/hw/misc/bcm2835_powermgt.h   |  29 +++++
+ hw/arm/bcm2835_peripherals.c         |  13 ++-
-diff --git a/hw/ssi/xilinx_spips.c b/hw/ssi/xilinx_spips.c
+ hw/misc/bcm2835_powermgt.c           | 160 +++++++++++++++++++++++++++
  hw/misc/meson.build                  |   1 +
 files changed, 204 insertions(+), 2 deletions(-)
  create mode 100644 include/hw/misc/bcm2835_powermgt.h
  create mode 100644 hw/misc/bcm2835_powermgt.c
 diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/ssi/xilinx_spips.c
+--- a/include/hw/arm/bcm2835_peripherals.h
-+++ b/hw/ssi/xilinx_spips.c
++++ b/include/hw/arm/bcm2835_peripherals.h
 @@ -XXX,XX +XXX,XX @@
- #define SNOOP_NONE 0xEE
+ #include "hw/misc/bcm2835_mphi.h"
- #define SNOOP_STRIPING 0
+ #include "hw/misc/bcm2835_thermal.h"
+ #include "hw/misc/bcm2835_cprman.h"
-+#define MIN_NUM_BUSSES 1
++#include "hw/misc/bcm2835_powermgt.h"
-+#define MAX_NUM_BUSSES 2
+ #include "hw/sd/sdhci.h"
-+
+ #include "hw/sd/bcm2835_sdhost.h"
- static inline int num_effective_busses(XilinxSPIPS *s)
+ #include "hw/gpio/bcm2835_gpio.h"
- {
+@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
-     return (s->regs[R_LQSPI_CFG] & LQSPI_CFG_SEP_BUS &&
+     BCM2835MphiState mphi;
-@@ -XXX,XX +XXX,XX @@ static void xilinx_spips_flush_txfifo(XilinxSPIPS *s)
+     UnimplementedDeviceState txp;
-     for (;;) {
+     UnimplementedDeviceState armtmr;
-         int i;
+-    UnimplementedDeviceState powermgt;
-         uint8_t tx = 0;
++    BCM2835PowerMgtState powermgt;
--        uint8_t tx_rx[num_effective_busses(s)];
+     BCM2835CprmanState cprman;
-+        uint8_t tx_rx[MAX_NUM_BUSSES] = { 0 };
+     PL011State uart0;
-         uint8_t dummy_cycles = 0;
+     BCM2835AuxState aux;
-         uint8_t addr_length;
+diff --git a/include/hw/misc/bcm2835_powermgt.h b/include/hw/misc/bcm2835_powermgt.h
+new file mode 100644
-@@ -XXX,XX +XXX,XX @@ static void xilinx_spips_realize(DeviceState *dev, Error **errp)
+index XXXXXXX..XXXXXXX
+--- /dev/null
-     DB_PRINT_L(0, "realized spips\n");
++++ b/include/hw/misc/bcm2835_powermgt.h
+@@ -XXX,XX +XXX,XX @@
-+    if (s->num_busses > MAX_NUM_BUSSES) {
++/*
-+        error_setg(errp,
++ * BCM2835 Power Management emulation
-+                   "requested number of SPI busses %u exceeds maximum %d",
++ *
-+                   s->num_busses, MAX_NUM_BUSSES);
++ * Copyright (C) 2017 Marcin Chojnacki <marcinch7@gmail.com>
 + * Copyright (C) 2021 Nolan Leake <nolan@sigbus.net>
 + *
 + * This work is licensed under the terms of the GNU GPL, version 2 or later.
 + * See the COPYING file in the top-level directory.
 + */
 +
 +#ifndef BCM2835_POWERMGT_H
 +#define BCM2835_POWERMGT_H
 +
 +#include "hw/sysbus.h"
 +#include "qom/object.h"
 +
 +#define TYPE_BCM2835_POWERMGT "bcm2835-powermgt"
 +OBJECT_DECLARE_SIMPLE_TYPE(BCM2835PowerMgtState, BCM2835_POWERMGT)
 +
 +struct BCM2835PowerMgtState {
 +    SysBusDevice busdev;
 +    MemoryRegion iomem;
 +
 +    uint32_t rstc;
 +    uint32_t rsts;
 +    uint32_t wdog;
 +};
 +
 +#endif
 diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/bcm2835_peripherals.c
 +++ b/hw/arm/bcm2835_peripherals.c
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_init(Object *obj)
      object_property_add_const_link(OBJECT(&s->dwc2), "dma-mr",
                                     OBJECT(&s->gpu_bus_mr));
 +
 +    /* Power Management */
 +    object_initialize_child(obj, "powermgt", &s->powermgt,
 +                            TYPE_BCM2835_POWERMGT);
  }
  static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
          qdev_get_gpio_in_named(DEVICE(&s->ic), BCM2835_IC_GPU_IRQ,
                                 INTERRUPT_USB));
 +    /* Power Management */
 +    if (!sysbus_realize(SYS_BUS_DEVICE(&s->powermgt), errp)) {
 +        return;
 +    }
-+    if (s->num_busses < MIN_NUM_BUSSES) {
++
-+        error_setg(errp,
++    memory_region_add_subregion(&s->peri_mr, PM_OFFSET,
-+                   "requested number of SPI busses %u is below minimum %d",
++                sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->powermgt), 0));
-+                   s->num_busses, MIN_NUM_BUSSES);
++
      create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
      create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
 -    create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
      create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
      create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
      create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
 diff --git a/hw/misc/bcm2835_powermgt.c b/hw/misc/bcm2835_powermgt.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/misc/bcm2835_powermgt.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * BCM2835 Power Management emulation
 + *
 + * Copyright (C) 2017 Marcin Chojnacki <marcinch7@gmail.com>
 + * Copyright (C) 2021 Nolan Leake <nolan@sigbus.net>
 + *
 + * This work is licensed under the terms of the GNU GPL, version 2 or later.
 + * See the COPYING file in the top-level directory.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/log.h"
 +#include "qemu/module.h"
 +#include "hw/misc/bcm2835_powermgt.h"
 +#include "migration/vmstate.h"
 +#include "sysemu/runstate.h"
 +
 +#define PASSWORD 0x5a000000
 +#define PASSWORD_MASK 0xff000000
 +
 +#define R_RSTC 0x1c
 +#define V_RSTC_RESET 0x20
 +#define R_RSTS 0x20
 +#define V_RSTS_POWEROFF 0x555 /* Linux uses partition 63 to indicate halt. */
 +#define R_WDOG 0x24
 +
 +static uint64_t bcm2835_powermgt_read(void *opaque, hwaddr offset,
 +                                      unsigned size)
 +{
 +    BCM2835PowerMgtState *s = (BCM2835PowerMgtState *)opaque;
 +    uint32_t res = 0;
 +
 +    switch (offset) {
 +    case R_RSTC:
 +        res = s->rstc;
 +        break;
 +    case R_RSTS:
 +        res = s->rsts;
 +        break;
 +    case R_WDOG:
 +        res = s->wdog;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_read: Unknown offset 0x%08"HWADDR_PRIx
 +                      "\n", offset);
 +        res = 0;
 +        break;
 +    }
 +
 +    return res;
 +}
 +
 +static void bcm2835_powermgt_write(void *opaque, hwaddr offset,
 +                                   uint64_t value, unsigned size)
 +{
 +    BCM2835PowerMgtState *s = (BCM2835PowerMgtState *)opaque;
 +
 +    if ((value & PASSWORD_MASK) != PASSWORD) {
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "bcm2835_powermgt_write: Bad password 0x%"PRIx64
 +                      " at offset 0x%08"HWADDR_PRIx"\n",
 +                      value, offset);
 +        return;
 +    }
 +
-     s->spi = g_new(SSIBus *, s->num_busses);
++    value = value & ~PASSWORD_MASK;
-     for (i = 0; i < s->num_busses; ++i) {
++
-         char bus_name[16];
++    switch (offset) {
 +    case R_RSTC:
 +        s->rstc = value;
 +        if (value & V_RSTC_RESET) {
 +            if ((s->rsts & 0xfff) == V_RSTS_POWEROFF) {
 +                qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
 +            } else {
 +                qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_RESET);
 +            }
 +        }
 +        break;
 +    case R_RSTS:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: RSTS\n");
 +        s->rsts = value;
 +        break;
 +    case R_WDOG:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: WDOG\n");
 +        s->wdog = value;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: Unknown offset 0x%08"HWADDR_PRIx
 +                      "\n", offset);
 +        break;
 +    }
 +}
 +
 +static const MemoryRegionOps bcm2835_powermgt_ops = {
 +    .read = bcm2835_powermgt_read,
 +    .write = bcm2835_powermgt_write,
 +    .endianness = DEVICE_NATIVE_ENDIAN,
 +    .impl.min_access_size = 4,
 +    .impl.max_access_size = 4,
 +};
 +
 +static const VMStateDescription vmstate_bcm2835_powermgt = {
 +    .name = TYPE_BCM2835_POWERMGT,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT32(rstc, BCM2835PowerMgtState),
 +        VMSTATE_UINT32(rsts, BCM2835PowerMgtState),
 +        VMSTATE_UINT32(wdog, BCM2835PowerMgtState),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
 +static void bcm2835_powermgt_init(Object *obj)
 +{
 +    BCM2835PowerMgtState *s = BCM2835_POWERMGT(obj);
 +
 +    memory_region_init_io(&s->iomem, obj, &bcm2835_powermgt_ops, s,
 +                          TYPE_BCM2835_POWERMGT, 0x200);
 +    sysbus_init_mmio(SYS_BUS_DEVICE(s), &s->iomem);
 +}
 +
 +static void bcm2835_powermgt_reset(DeviceState *dev)
 +{
 +    BCM2835PowerMgtState *s = BCM2835_POWERMGT(dev);
 +
 +    /* https://elinux.org/BCM2835_registers#PM */
 +    s->rstc = 0x00000102;
 +    s->rsts = 0x00001000;
 +    s->wdog = 0x00000000;
 +}
 +
 +static void bcm2835_powermgt_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->reset = bcm2835_powermgt_reset;
 +    dc->vmsd = &vmstate_bcm2835_powermgt;
 +}
 +
 +static TypeInfo bcm2835_powermgt_info = {
 +    .name          = TYPE_BCM2835_POWERMGT,
 +    .parent        = TYPE_SYS_BUS_DEVICE,
 +    .instance_size = sizeof(BCM2835PowerMgtState),
 +    .class_init    = bcm2835_powermgt_class_init,
 +    .instance_init = bcm2835_powermgt_init,
 +};
 +
 +static void bcm2835_powermgt_register_types(void)
 +{
 +    type_register_static(&bcm2835_powermgt_info);
 +}
 +
 +type_init(bcm2835_powermgt_register_types)
 diff --git a/hw/misc/meson.build b/hw/misc/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/meson.build
 +++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
    'bcm2835_rng.c',
    'bcm2835_thermal.c',
    'bcm2835_cprman.c',
 +  'bcm2835_powermgt.c',
  ))
  softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
  softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 19/21] sdhci: fix a NULL pointer dereference due to uninitialized AddresSpace object
+[PULL 04/24] tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
 From: Philippe Mathieu-Daudé <f4bug@amsat.org>
-missed in 60765b6ceeb4.
+Add a test booting and quickly shutdown a raspi2 machine,
 to test the power management model:
-  Thread 1 "qemu-system-aarch64" received signal SIGSEGV, Segmentation fault.
+   (1/1) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_raspi2_initrd:
-  address_space_init (as=0x0, root=0x55555726e410, name=name@entry=0x555555e3f0a7 "sdhci-dma") at memory.c:3050
+  console: [    0.000000] Booting Linux on physical CPU 0xf00
-        as->root = root;
+  console: [    0.000000] Linux version 4.14.98-v7+ (dom@dom-XPS-13-9370) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1200 SMP Tue Feb 12 20:27:48 GMT 2019
-  (gdb) bt
+  console: [    0.000000] CPU: ARMv7 Processor [410fc075] revision 5 (ARMv7), cr=10c5387d
-  #0  address_space_init (as=0x0, root=0x55555726e410, name=name@entry=0x555555e3f0a7 "sdhci-dma") at memory.c:3050
+  console: [    0.000000] CPU: div instructions available: patching division code
-  #1  0x0000555555af62c3 in sdhci_sysbus_realize (dev=<optimized out>, errp=0x7fff7f931150) at hw/sd/sdhci.c:1564
+  console: [    0.000000] CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache
-  #2  0x00005555558b25e5 in zynqmp_sdhci_realize (dev=0x555557051520, errp=0x7fff7f931150) at hw/sd/zynqmp-sdhci.c:151
+  console: [    0.000000] OF: fdt: Machine model: Raspberry Pi 2 Model B
-  #3  0x0000555555a2e7f3 in device_set_realized (obj=0x555557051520, value=<optimized out>, errp=0x7fff7f931270) at hw/core/qdev.c:966
+  ...
-  #4  0x0000555555ba3f74 in property_set_bool (obj=0x555557051520, v=<optimized out>, name=<optimized out>, opaque=0x555556e04a20,
+  console: Boot successful.
-      errp=0x7fff7f931270) at qom/object.c:1906
+  console: cat /proc/cpuinfo
-  #5  0x0000555555ba51f4 in object_property_set (obj=obj@entry=0x555557051520, v=v@entry=0x5555576dbd60,
+  console: / # cat /proc/cpuinfo
-      name=name@entry=0x555555dd6306 "realized", errp=errp@entry=0x7fff7f931270) at qom/object.c:1102
+  ...
   console: processor      : 3
   console: model name     : ARMv7 Processor rev 5 (v7l)
   console: BogoMIPS       : 125.00
   console: Features       : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt vfpd32 lpae evtstrm
   console: CPU implementer        : 0x41
   console: CPU architecture: 7
   console: CPU variant    : 0x0
   console: CPU part       : 0xc07
   console: CPU revision   : 5
   console: Hardware       : BCM2835
   console: Revision       : 0000
   console: Serial         : 0000000000000000
   console: cat /proc/iomem
   console: / # cat /proc/iomem
   console: 00000000-3bffffff : System RAM
   console: 00008000-00afffff : Kernel code
   console: 00c00000-00d468ef : Kernel data
   console: 3f006000-3f006fff : dwc_otg
   console: 3f007000-3f007eff : /soc/dma@7e007000
   console: 3f00b880-3f00b8bf : /soc/mailbox@7e00b880
   console: 3f100000-3f100027 : /soc/watchdog@7e100000
   console: 3f101000-3f102fff : /soc/cprman@7e101000
   console: 3f200000-3f2000b3 : /soc/gpio@7e200000
   PASS (24.59 s)
   RESULTS    : PASS 1 | ERROR 0 | FAIL 0 | SKIP 0 | WARN 0 | INTERRUPT 0 | CANCEL 0
   JOB TIME   : 25.02 s
-Suggested-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20180123132051.24448-1-f4bug@amsat.org
+Reviewed-by: Wainer dos Santos Moschetta <wainersm@redhat.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20210531113837.1689775-1-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/sd/sdhci.h | 1 +
+ tests/acceptance/boot_linux_console.py | 43 ++++++++++++++++++++++++++
- hw/sd/sdhci.c         | 1 +
+file changed, 43 insertions(+)
 files changed, 2 insertions(+)
-diff --git a/include/hw/sd/sdhci.h b/include/hw/sd/sdhci.h
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/sd/sdhci.h
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/include/hw/sd/sdhci.h
++++ b/tests/acceptance/boot_linux_console.py
-@@ -XXX,XX +XXX,XX @@ typedef struct SDHCIState {
+@@ -XXX,XX +XXX,XX @@
-     /*< public >*/
+ from avocado import skip
-     SDBus sdbus;
+ from avocado import skipUnless
-     MemoryRegion iomem;
+ from avocado_qemu import Test
-+    AddressSpace sysbus_dma_as;
++from avocado_qemu import exec_command
-     AddressSpace *dma_as;
+ from avocado_qemu import exec_command_and_wait_for_pattern
-     MemoryRegion *dma_mr;
+ from avocado_qemu import interrupt_interactive_console_until_pattern
+ from avocado_qemu import wait_for_console_pattern
-diff --git a/hw/sd/sdhci.c b/hw/sd/sdhci.c
+@@ -XXX,XX +XXX,XX @@ def test_arm_raspi2_uart0(self):
-index XXXXXXX..XXXXXXX 100644
+         """
---- a/hw/sd/sdhci.c
+         self.do_test_arm_raspi2(0)
-+++ b/hw/sd/sdhci.c
-@@ -XXX,XX +XXX,XX @@ static void sdhci_sysbus_realize(DeviceState *dev, Error ** errp)
++    def test_arm_raspi2_initrd(self):
-     }
++        """
++        :avocado: tags=arch:arm
-     if (s->dma_mr) {
++        :avocado: tags=machine:raspi2
-+        s->dma_as = &s->sysbus_dma_as;
++        """
-         address_space_init(s->dma_as, s->dma_mr, "sdhci-dma");
++        deb_url = ('http://archive.raspberrypi.org/debian/'
-     } else {
++                   'pool/main/r/raspberrypi-firmware/'
-         /* use system_memory() if property "dma" not set */
++                   'raspberrypi-kernel_1.20190215-1_armhf.deb')
 +        deb_hash = 'cd284220b32128c5084037553db3c482426f3972'
 +        deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
 +        kernel_path = self.extract_from_deb(deb_path, '/boot/kernel7.img')
 +        dtb_path = self.extract_from_deb(deb_path, '/boot/bcm2709-rpi-2-b.dtb')
 +
 +        initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
 +                      '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
 +                      'arm/rootfs-armv7a.cpio.gz')
 +        initrd_hash = '604b2e45cdf35045846b8bbfbf2129b1891bdc9c'
 +        initrd_path_gz = self.fetch_asset(initrd_url, asset_hash=initrd_hash)
 +        initrd_path = os.path.join(self.workdir, 'rootfs.cpio')
 +        archive.gzip_uncompress(initrd_path_gz, initrd_path)
 +
 +        self.vm.set_console()
 +        kernel_command_line = (self.KERNEL_COMMON_COMMAND_LINE +
 +                               'earlycon=pl011,0x3f201000 console=ttyAMA0 '
 +                               'panic=-1 noreboot ' +
 +                               'dwc_otg.fiq_fsm_enable=0')
 +        self.vm.add_args('-kernel', kernel_path,
 +                         '-dtb', dtb_path,
 +                         '-initrd', initrd_path,
 +                         '-append', kernel_command_line,
 +                         '-no-reboot')
 +        self.vm.launch()
 +        self.wait_for_console_pattern('Boot successful.')
 +
 +        exec_command_and_wait_for_pattern(self, 'cat /proc/cpuinfo',
 +                                                'BCM2835')
 +        exec_command_and_wait_for_pattern(self, 'cat /proc/iomem',
 +                                                '/soc/cprman@7e101000')
 +        exec_command(self, 'halt')
 +        # Wait for VM to shut down gracefully
 +        self.vm.wait()
 +
      def test_arm_exynos4210_initrd(self):
          """
          :avocado: tags=arch:arm
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 01/21] target/arm: Fix 32-bit address truncation
+[PULL 05/24] target/arm: Check NaN mode before silencing NaN
-From: Ard Biesheuvel <ard.biesheuvel@linaro.org>
+From: Joe Komlodi <joe.komlodi@xilinx.com>
-Commit ("3b39d734141a target/arm: Handle page table walk load failures
+If the CPU is running in default NaN mode (FPCR.DN == 1) and we execute
-correctly") modified both versions of the page table walking code (i.e.,
+FRSQRTE, FRECPE, or FRECPX with a signaling NaN, parts_silence_nan_frac() will
-arm_ldl_ptw and arm_ldq_ptw) to record the result of the translation in
+assert due to fpst->default_nan_mode being set.
 a temporary 'data' variable so that it can be inspected before being
 returned. However, arm_ldq_ptw() returns an uint64_t, and using a
 temporary uint32_t variable truncates the upper bits, corrupting the
 result. This causes problems when using more than 4 GB of memory in
 a TCG guest. So use a uint64_t instead.
-Signed-off-by: Ard Biesheuvel <ard.biesheuvel@linaro.org>
+To avoid this, we check to see what NaN mode we're running in before we call
-Message-id: 20180119194648.25501-1-ard.biesheuvel@linaro.org
+floatxx_silence_nan().
 Signed-off-by: Joe Komlodi <joe.komlodi@xilinx.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 1624662174-175828-2-git-send-email-joe.komlodi@xilinx.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 2 +-
+ target/arm/helper-a64.c | 12 +++++++++---
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/vfp_helper.c | 24 ++++++++++++++++++------
 files changed, 27 insertions(+), 9 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/helper-a64.c
-+++ b/target/arm/helper.c
++++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t arm_ldq_ptw(CPUState *cs, hwaddr addr, bool is_secure,
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
-     MemTxAttrs attrs = {};
+         float16 nan = a;
-     MemTxResult result = MEMTX_OK;
+         if (float16_is_signaling_nan(a, fpst)) {
-     AddressSpace *as;
+             float_raise(float_flag_invalid, fpst);
--    uint32_t data;
+-            nan = float16_silence_nan(a, fpst);
-+    uint64_t data;
++            if (!fpst->default_nan_mode) {
++                nan = float16_silence_nan(a, fpst);
-     attrs.secure = is_secure;
++            }
-     as = arm_addressspace(cs, attrs);
+         }
          if (fpst->default_nan_mode) {
              nan = float16_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
          float32 nan = a;
          if (float32_is_signaling_nan(a, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float32_silence_nan(a, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float32_silence_nan(a, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan = float32_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
          float64 nan = a;
          if (float64_is_signaling_nan(a, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float64_silence_nan(a, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float64_silence_nan(a, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan = float64_default_nan(fpst);
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
          float16 nan = f16;
          if (float16_is_signaling_nan(f16, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float16_silence_nan(f16, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float16_silence_nan(f16, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan =  float16_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpe_f32)(float32 input, void *fpstp)
          float32 nan = f32;
          if (float32_is_signaling_nan(f32, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float32_silence_nan(f32, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float32_silence_nan(f32, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan =  float32_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpe_f64)(float64 input, void *fpstp)
          float64 nan = f64;
          if (float64_is_signaling_nan(f64, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float64_silence_nan(f64, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float64_silence_nan(f64, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan =  float64_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
          float16 nan = f16;
          if (float16_is_signaling_nan(f16, s)) {
              float_raise(float_flag_invalid, s);
 -            nan = float16_silence_nan(f16, s);
 +            if (!s->default_nan_mode) {
 +                nan = float16_silence_nan(f16, fpstp);
 +            }
          }
          if (s->default_nan_mode) {
              nan =  float16_default_nan(s);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
          float32 nan = f32;
          if (float32_is_signaling_nan(f32, s)) {
              float_raise(float_flag_invalid, s);
 -            nan = float32_silence_nan(f32, s);
 +            if (!s->default_nan_mode) {
 +                nan = float32_silence_nan(f32, fpstp);
 +            }
          }
          if (s->default_nan_mode) {
              nan =  float32_default_nan(s);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
          float64 nan = f64;
          if (float64_is_signaling_nan(f64, s)) {
              float_raise(float_flag_invalid, s);
 -            nan = float64_silence_nan(f64, s);
 +            if (!s->default_nan_mode) {
 +                nan = float64_silence_nan(f64, fpstp);
 +            }
          }
          if (s->default_nan_mode) {
              nan =  float64_default_nan(s);
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 13/21] target/arm: Simplify fp_exception_el for user-only
+[PULL 06/24] hw/gpio/gpio_pwr: use shutdown function for reboot
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Maxim Uvarov <maxim.uvarov@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+qemu has 2 type of functions: shutdown and reboot. Shutdown
-Message-id: 20180119045438.28582-16-richard.henderson@linaro.org
+function has to be used for machine shutdown. Otherwise we cause
 a reset with a bogus "cause" value, when we intended a shutdown.
 Signed-off-by: Maxim Uvarov <maxim.uvarov@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Message-id: 20210625111842.3790-3-maxim.uvarov@linaro.org
 [PMM: tweaked commit message]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 3 ++-
+ hw/gpio/gpio_pwr.c | 2 +-
-file changed, 2 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/gpio/gpio_pwr.c b/hw/gpio/gpio_pwr.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/gpio/gpio_pwr.c
-+++ b/target/arm/helper.c
++++ b/hw/gpio/gpio_pwr.c
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
+@@ -XXX,XX +XXX,XX @@ static void gpio_pwr_reset(void *opaque, int n, int level)
-  */
+ static void gpio_pwr_shutdown(void *opaque, int n, int level)
  static inline int fp_exception_el(CPUARMState *env)
  {
-+#ifndef CONFIG_USER_ONLY
+     if (level) {
-     int fpen;
+-        qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
-     int cur_el = arm_current_el(env);
++        qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
@@ -XXX,XX +XXX,XX @@ static inline int fp_exception_el(CPUARMState *env)
          /* Trap all FP ops to EL3 */
          return 3;
      }
--
-+#endif
-     return 0;
  }
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 02/21] i.MX: Fix FEC/ENET receive funtions
+[PULL 07/24] target/arm: Fix MVE widening/narrowing VLDR/VSTR offset calculation
-From: Jean-Christophe Dubois <jcd@tribudubois.net>
+In do_ldst(), the calculation of the offset needs to be based on the
 size of the memory access, not the size of the elements in the
 vector.  This meant we were getting it wrong for the widening and
 narrowing variants of the various VLDR and VSTR insns.
-The actual imx_eth_enable_rx() function is buggy.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-2-peter.maydell@linaro.org
 ---
  target/arm/translate-mve.c | 17 +++++++++--------
 file changed, 9 insertions(+), 8 deletions(-)
-It updates s->regs[ENET_RDAR] after calling qemu_flush_queued_packets().
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 qemu_flush_queued_packets() is going to call imx_XXX_receive() which itself
 is going to call imx_eth_enable_rx().
 By updating s->regs[ENET_RDAR] after calling qemu_flush_queued_packets()
 we end up updating the register with an outdated value which might
 lead to disabling the receive function in the i.MX FEC/ENET device.
 This patch change the place where the register update is done so that the
 register value stays up to date and the receive function can keep
 running.
 Reported-by: Fyleo <fyleo45@gmail.com>
 Tested-by: Fyleo  <fyleo45@gmail.com>
 Signed-off-by: Jean-Christophe Dubois <jcd@tribudubois.net>
 Message-id: 20180113113445.2705-1-jcd@tribudubois.net
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Andrey Smirnov <andrew.smirnov@gmail.com>
 Tested-by: Andrey Smirnov <andrew.smirnov@gmail.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/net/imx_fec.c | 8 ++------
 file changed, 2 insertions(+), 6 deletions(-)
 diff --git a/hw/net/imx_fec.c b/hw/net/imx_fec.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/net/imx_fec.c
+--- a/target/arm/translate-mve.c
-+++ b/hw/net/imx_fec.c
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ static void imx_eth_do_tx(IMXFECState *s, uint32_t index)
+@@ -XXX,XX +XXX,XX @@ static bool mve_skip_first_beat(DisasContext *s)
- static void imx_eth_enable_rx(IMXFECState *s, bool flush)
+     }
  }
 -static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
 +static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn,
 +                    unsigned msize)
  {
-     IMXFECBufDesc bd;
+     TCGv_i32 addr;
--    bool rx_ring_full;
+     uint32_t offset;
+@@ -XXX,XX +XXX,XX @@ static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
-     imx_fec_read_bd(&bd, s->rx_descriptor);
+         return true;
 -    rx_ring_full = !(bd.flags & ENET_BD_E);
 +    s->regs[ENET_RDAR] = (bd.flags & ENET_BD_E) ? ENET_RDAR_RDAR : 0;
 -    if (rx_ring_full) {
 +    if (!s->regs[ENET_RDAR]) {
          FEC_PRINTF("RX buffer full\n");
      } else if (flush) {
          qemu_flush_queued_packets(qemu_get_queue(s->nic));
      }
--
--    s->regs[ENET_RDAR] = rx_ring_full ? 0 : ENET_RDAR_RDAR;
+-    offset = a->imm << a->size;
 +    offset = a->imm << msize;
      if (!a->a) {
          offset = -offset;
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
          { gen_helper_mve_vstrw, gen_helper_mve_vldrw },
          { NULL, NULL }
      };
 -    return do_ldst(s, a, ldstfns[a->size][a->l]);
 +    return do_ldst(s, a, ldstfns[a->size][a->l], a->size);
  }
- static void imx_eth_reset(DeviceState *d)
+-#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST)                  \
-@@ -XXX,XX +XXX,XX @@ static void imx_eth_write(void *opaque, hwaddr offset, uint64_t value,
++#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST, MSIZE)           \
-     case ENET_RDAR:
+     static bool trans_##OP(DisasContext *s, arg_VLDR_VSTR *a)   \
-         if (s->regs[ENET_ECR] & ENET_ECR_ETHEREN) {
+     {                                                           \
-             if (!s->regs[index]) {
+         static MVEGenLdStFn * const ldstfns[2][2] = {           \
--                s->regs[index] = ENET_RDAR_RDAR;
+             { gen_helper_mve_##ST, gen_helper_mve_##SLD },      \
-                 imx_eth_enable_rx(s, true);
+             { NULL, gen_helper_mve_##ULD },                     \
-             }
+         };                                                      \
-         } else {
+-        return do_ldst(s, a, ldstfns[a->u][a->l]);              \
 +        return do_ldst(s, a, ldstfns[a->u][a->l], MSIZE);       \
      }
 -DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
 -DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
 -DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
 +DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h, MO_8)
 +DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w, MO_8)
 +DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w, MO_16)
  static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
  {
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 17/21] hw/intc/arm_gic: Fix the NS view of C_BPR when C_CTRL.CBPR is 1
+[PULL 08/24] target/arm: Fix bugs in MVE VRMLALDAVH, VRMLSLDAVH
-From: Luc MICHEL <luc.michel@git.antfield.fr>
+The initial implementation of the MVE VRMLALDAVH and VRMLSLDAVH
 insns had some bugs:
  * the 32x32 multiply of elements was being done as 32x32->32,
    not 32x32->64
  * we were incorrectly maintaining the accumulator in its full
 -bit form across all 4 beats of the insn; in the pseudocode
    it is squashed back into the 64 bits of the RdaHi:RdaLo
    registers after each beat
-When C_CTRL.CBPR is 1, the Non-Secure view of C_BPR is altered:
+In particular, fixing the second of these allows us to recast
-  - A Non-Secure read of C_BPR should return the BPR value plus 1,
+the implementation to avoid 128-bit arithmetic entirely.
   saturated to 7,
   - A Non-Secure write should be ignored.
-Signed-off-by: Luc MICHEL <luc.michel@git.antfield.fr>
+Since the element size here is always 4, we can also drop the
-Message-id: 20180119145756.7629-6-luc.michel@greensocs.com
+parameterization of ESIZE to make the code a little more readable.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-[PMM: fixed comment typo]
+Suggested-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-3-peter.maydell@linaro.org
 ---
- hw/intc/arm_gic.c | 16 +++++++++++++---
+ target/arm/mve_helper.c | 38 +++++++++++++++++++++-----------------
-file changed, 13 insertions(+), 3 deletions(-)
+file changed, 21 insertions(+), 17 deletions(-)
-diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gic.c
+--- a/target/arm/mve_helper.c
-+++ b/hw/intc/arm_gic.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
+@@ -XXX,XX +XXX,XX @@
-         break;
+  */
-     case 0x08: /* Binary Point */
-         if (s->security_extn && !attrs.secure) {
+ #include "qemu/osdep.h"
--            /* BPR is banked. Non-secure copy stored in ABPR. */
+-#include "qemu/int128.h"
--            *data = s->abpr[cpu];
+ #include "cpu.h"
-+            if (s->cpu_ctlr[cpu] & GICC_CTLR_CBPR) {
+ #include "internals.h"
-+                /* NS view of BPR when CBPR is 1 */
+ #include "vec_internal.h"
-+                *data = MIN(s->bpr[cpu] + 1, 7);
+@@ -XXX,XX +XXX,XX @@ DO_LDAV(vmlsldavsw, 4, int32_t, false, +=, -=)
-+            } else {
+ DO_LDAV(vmlsldavxsw, 4, int32_t, true, +=, -=)
-+                /* BPR is banked. Non-secure copy stored in ABPR. */
-+                *data = s->abpr[cpu];
+ /*
-+            }
+- * Rounding multiply add long dual accumulate high: we must keep
-         } else {
+- * a 72-bit internal accumulator value and return the top 64 bits.
-             *data = s->bpr[cpu];
++ * Rounding multiply add long dual accumulate high. In the pseudocode
-         }
++ * this is implemented with a 72-bit internal accumulator value of which
-@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
++ * the top 64 bits are returned. We optimize this to avoid having to
-         break;
++ * use 128-bit arithmetic -- we can do this because the 74-bit accumulator
-     case 0x08: /* Binary Point */
++ * is squashed back into 64-bits after each beat.
-         if (s->security_extn && !attrs.secure) {
+  */
--            s->abpr[cpu] = MAX(value & 0x7, GIC_MIN_ABPR);
+-#define DO_LDAVH(OP, ESIZE, TYPE, XCHG, EVENACC, ODDACC, TO128)         \
-+            if (s->cpu_ctlr[cpu] & GICC_CTLR_CBPR) {
++#define DO_LDAVH(OP, TYPE, LTYPE, XCHG, SUB)                            \
-+                /* WI when CBPR is 1 */
+     uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vn,         \
-+                return MEMTX_OK;
+                                     void *vm, uint64_t a)               \
-+            } else {
+     {                                                                   \
-+                s->abpr[cpu] = MAX(value & 0x7, GIC_MIN_ABPR);
+         uint16_t mask = mve_element_mask(env);                          \
-+            }
+         unsigned e;                                                     \
-         } else {
+         TYPE *n = vn, *m = vm;                                          \
-             s->bpr[cpu] = MAX(value & 0x7, GIC_MIN_BPR);
+-        Int128 acc = int128_lshift(TO128(a), 8);                        \
-         }
+-        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {                      \
              if (mask & 1) {                                             \
 +                LTYPE mul;                                              \
                  if (e & 1) {                                            \
 -                    acc = ODDACC(acc, TO128(n[H##ESIZE(e - 1 * XCHG)] * \
 -                                            m[H##ESIZE(e)]));           \
 +                    mul = (LTYPE)n[H4(e - 1 * XCHG)] * m[H4(e)];        \
 +                    if (SUB) {                                          \
 +                        mul = -mul;                                     \
 +                    }                                                   \
                  } else {                                                \
 -                    acc = EVENACC(acc, TO128(n[H##ESIZE(e + 1 * XCHG)] * \
 -                                             m[H##ESIZE(e)]));          \
 +                    mul = (LTYPE)n[H4(e + 1 * XCHG)] * m[H4(e)];        \
                  }                                                       \
 -                acc = int128_add(acc, int128_make64(1 << 7));           \
 +                mul = (mul >> 8) + ((mul >> 7) & 1);                    \
 +                a += mul;                                               \
              }                                                           \
          }                                                               \
          mve_advance_vpt(env);                                           \
 -        return int128_getlo(int128_rshift(acc, 8));                     \
 +        return a;                                                       \
      }
 -DO_LDAVH(vrmlaldavhsw, 4, int32_t, false, int128_add, int128_add, int128_makes64)
 -DO_LDAVH(vrmlaldavhxsw, 4, int32_t, true, int128_add, int128_add, int128_makes64)
 +DO_LDAVH(vrmlaldavhsw, int32_t, int64_t, false, false)
 +DO_LDAVH(vrmlaldavhxsw, int32_t, int64_t, true, false)
 -DO_LDAVH(vrmlaldavhuw, 4, uint32_t, false, int128_add, int128_add, int128_make64)
 +DO_LDAVH(vrmlaldavhuw, uint32_t, uint64_t, false, false)
 -DO_LDAVH(vrmlsldavhsw, 4, int32_t, false, int128_add, int128_sub, int128_makes64)
 -DO_LDAVH(vrmlsldavhxsw, 4, int32_t, true, int128_add, int128_sub, int128_makes64)
 +DO_LDAVH(vrmlsldavhsw, int32_t, int64_t, false, true)
 +DO_LDAVH(vrmlsldavhxsw, int32_t, int64_t, true, true)
  /* Vector add across vector */
  #define DO_VADDV(OP, ESIZE, TYPE)                               \
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 08/21] target/arm: Add aa{32, 64}_vfp_{dreg, qreg} helpers
+[PULL 09/24] target/arm: Make asimd_imm_const() public
-From: Richard Henderson <richard.henderson@linaro.org>
+The function asimd_imm_const() in translate-neon.c is an
 implementation of the pseudocode AdvSIMDExpandImm(), which we will
 also want for MVE.  Move the implementation to translate.c, with a
 prototype in translate.h.
-Helpers that return a pointer into env->vfp.regs so that we isolate
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-the logic of how to index the regs array for different cpu modes.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-4-peter.maydell@linaro.org
 ---
  target/arm/translate.h      | 16 ++++++++++
  target/arm/translate-neon.c | 63 -------------------------------------
  target/arm/translate.c      | 57 +++++++++++++++++++++++++++++++++
 files changed, 73 insertions(+), 63 deletions(-)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 Message-id: 20180119045438.28582-7-richard.henderson@linaro.org
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/cpu.h           | 27 +++++++++++++++++++++++++++
  linux-user/signal.c        | 22 ++++++++++++----------
  target/arm/arch_dump.c     |  8 +++++---
  target/arm/helper-a64.c    |  5 +++--
  target/arm/helper.c        | 32 ++++++++++++++++++++------------
  target/arm/kvm32.c         |  4 ++--
  target/arm/kvm64.c         | 31 ++++++++++---------------------
  target/arm/translate-a64.c | 25 ++++++++-----------------
  target/arm/translate.c     | 16 +++++++++-------
 files changed, 96 insertions(+), 74 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/translate.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ static inline void *arm_get_el_change_hook_opaque(ARMCPU *cpu)
+@@ -XXX,XX +XXX,XX @@ static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
-     return cpu->el_change_hook_opaque;
+     return opc | s->be_data;
  }
 +/**
-+ * aa32_vfp_dreg:
++ * asimd_imm_const: Expand an encoded SIMD constant value
-+ * Return a pointer to the Dn register within env in 32-bit mode.
++ *
 + * Expand a SIMD constant value. This is essentially the pseudocode
 + * AdvSIMDExpandImm, except that we also perform the boolean NOT needed for
 + * VMVN and VBIC (when cmode < 14 && op == 1).
 + *
 + * The combination cmode == 15 op == 1 is a reserved encoding for AArch32;
 + * callers must catch this.
 + *
 + * cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 was UNPREDICTABLE in v7A but
 + * is either not unpredictable or merely CONSTRAINED UNPREDICTABLE in v8A;
 + * we produce an immediate constant value of 0 in these cases.
 + */
-+static inline uint64_t *aa32_vfp_dreg(CPUARMState *env, unsigned regno)
++uint64_t asimd_imm_const(uint32_t imm, int cmode, int op);
 +{
 +    return &env->vfp.regs[regno];
 +}
 +
-+/**
+ #endif /* TARGET_ARM_TRANSLATE_H */
-+ * aa32_vfp_qreg:
+diff --git a/target/arm/translate-neon.c b/target/arm/translate-neon.c
 + * Return a pointer to the Qn register within env in 32-bit mode.
 + */
 +static inline uint64_t *aa32_vfp_qreg(CPUARMState *env, unsigned regno)
 +{
 +    return &env->vfp.regs[2 * regno];
 +}
 +
 +/**
 + * aa64_vfp_qreg:
 + * Return a pointer to the Qn register within env in 64-bit mode.
 + */
 +static inline uint64_t *aa64_vfp_qreg(CPUARMState *env, unsigned regno)
 +{
 +    return &env->vfp.regs[2 * regno];
 +}
 +
  #endif
 diff --git a/linux-user/signal.c b/linux-user/signal.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/signal.c
+--- a/target/arm/translate-neon.c
-+++ b/linux-user/signal.c
++++ b/target/arm/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ static int target_setup_sigframe(struct target_rt_sigframe *sf,
+@@ -XXX,XX +XXX,XX @@ DO_FP_2SH(VCVT_UH, gen_helper_gvec_vcvt_uh)
-     }
+ DO_FP_2SH(VCVT_HS, gen_helper_gvec_vcvt_hs)
+ DO_FP_2SH(VCVT_HU, gen_helper_gvec_vcvt_hu)
-     for (i = 0; i < 32; i++) {
-+        uint64_t *q = aa64_vfp_qreg(env, i);
+-static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
- #ifdef TARGET_WORDS_BIGENDIAN
+-{
--        __put_user(env->vfp.regs[i * 2], &aux->fpsimd.vregs[i * 2 + 1]);
+-    /*
--        __put_user(env->vfp.regs[i * 2 + 1], &aux->fpsimd.vregs[i * 2]);
+-     * Expand the encoded constant.
-+        __put_user(q[0], &aux->fpsimd.vregs[i * 2 + 1]);
+-     * Note that cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 is UNPREDICTABLE.
-+        __put_user(q[1], &aux->fpsimd.vregs[i * 2]);
+-     * We choose to not special-case this and will behave as if a
- #else
+-     * valid constant encoding of 0 had been given.
--        __put_user(env->vfp.regs[i * 2], &aux->fpsimd.vregs[i * 2]);
+-     * cmode = 15 op = 1 must UNDEF; we assume decode has handled that.
 -        __put_user(env->vfp.regs[i * 2 + 1], &aux->fpsimd.vregs[i * 2 + 1]);
 +        __put_user(q[0], &aux->fpsimd.vregs[i * 2]);
 +        __put_user(q[1], &aux->fpsimd.vregs[i * 2 + 1]);
  #endif
      }
      __put_user(vfp_get_fpsr(env), &aux->fpsimd.fpsr);
@@ -XXX,XX +XXX,XX @@ static int target_restore_sigframe(CPUARMState *env,
      }
      for (i = 0; i < 32; i++) {
 +        uint64_t *q = aa64_vfp_qreg(env, i);
  #ifdef TARGET_WORDS_BIGENDIAN
 -        __get_user(env->vfp.regs[i * 2], &aux->fpsimd.vregs[i * 2 + 1]);
 -        __get_user(env->vfp.regs[i * 2 + 1], &aux->fpsimd.vregs[i * 2]);
 +        __get_user(q[0], &aux->fpsimd.vregs[i * 2 + 1]);
 +        __get_user(q[1], &aux->fpsimd.vregs[i * 2]);
  #else
 -        __get_user(env->vfp.regs[i * 2], &aux->fpsimd.vregs[i * 2]);
 -        __get_user(env->vfp.regs[i * 2 + 1], &aux->fpsimd.vregs[i * 2 + 1]);
 +        __get_user(q[0], &aux->fpsimd.vregs[i * 2]);
 +        __get_user(q[1], &aux->fpsimd.vregs[i * 2 + 1]);
  #endif
      }
      __get_user(fpsr, &aux->fpsimd.fpsr);
@@ -XXX,XX +XXX,XX @@ static abi_ulong *setup_sigframe_v2_vfp(abi_ulong *regspace, CPUARMState *env)
      __put_user(TARGET_VFP_MAGIC, &vfpframe->magic);
      __put_user(sizeof(*vfpframe), &vfpframe->size);
      for (i = 0; i < 32; i++) {
 -        __put_user(float64_val(env->vfp.regs[i]), &vfpframe->ufp.fpregs[i]);
 +        __put_user(*aa32_vfp_dreg(env, i), &vfpframe->ufp.fpregs[i]);
      }
      __put_user(vfp_get_fpscr(env), &vfpframe->ufp.fpscr);
      __put_user(env->vfp.xregs[ARM_VFP_FPEXC], &vfpframe->ufp_exc.fpexc);
@@ -XXX,XX +XXX,XX @@ static abi_ulong *restore_sigframe_v2_vfp(CPUARMState *env, abi_ulong *regspace)
          return 0;
      }
      for (i = 0; i < 32; i++) {
 -        __get_user(float64_val(env->vfp.regs[i]), &vfpframe->ufp.fpregs[i]);
 +        __get_user(*aa32_vfp_dreg(env, i), &vfpframe->ufp.fpregs[i]);
      }
      __get_user(fpscr, &vfpframe->ufp.fpscr);
      vfp_set_fpscr(env, fpscr);
 diff --git a/target/arm/arch_dump.c b/target/arm/arch_dump.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/arch_dump.c
 +++ b/target/arm/arch_dump.c
@@ -XXX,XX +XXX,XX @@ static int aarch64_write_elf64_prfpreg(WriteCoreDumpFunction f,
      aarch64_note_init(&note, s, "CORE", 5, NT_PRFPREG, sizeof(note.vfp));
 -    for (i = 0; i < 64; ++i) {
 -        note.vfp.vregs[i] = cpu_to_dump64(s, env->vfp.regs[i]);
 +    for (i = 0; i < 32; ++i) {
 +        uint64_t *q = aa64_vfp_qreg(env, i);
 +        note.vfp.vregs[2*i + 0] = cpu_to_dump64(s, q[0]);
 +        note.vfp.vregs[2*i + 1] = cpu_to_dump64(s, q[1]);
      }
      if (s->dump_info.d_endian == ELFDATA2MSB) {
@@ -XXX,XX +XXX,XX @@ static int arm_write_elf32_vfp(WriteCoreDumpFunction f, CPUARMState *env,
      arm_note_init(&note, s, "LINUX", 6, NT_ARM_VFP, sizeof(note.vfp));
      for (i = 0; i < 32; ++i) {
 -        note.vfp.vregs[i] = cpu_to_dump64(s, env->vfp.regs[i]);
 +        note.vfp.vregs[i] = cpu_to_dump64(s, *aa32_vfp_dreg(env, i));
      }
      note.vfp.fpscr = cpu_to_dump32(s, vfp_get_fpscr(env));
 diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-a64.c
 +++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(simd_tbl)(CPUARMState *env, uint64_t result, uint64_t indices,
          if (index < 16 * numregs) {
              /* Convert index (a byte offset into the virtual table
               * which is a series of 128-bit vectors concatenated)
 -             * into the correct vfp.regs[] element plus a bit offset
 +             * into the correct register element plus a bit offset
               * into that element, bearing in mind that the table
               * can wrap around from V31 to V0.
               */
              int elt = (rn * 2 + (index >> 3)) % 64;
              int bitidx = (index & 7) * 8;
 -            uint64_t val = extract64(env->vfp.regs[elt], bitidx, 8);
 +            uint64_t *q = aa64_vfp_qreg(env, elt >> 1);
 +            uint64_t val = extract64(q[elt & 1], bitidx, 8);
              result = deposit64(result, shift, 8, val);
          }
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static int vfp_gdb_get_reg(CPUARMState *env, uint8_t *buf, int reg)
      /* VFP data registers are always little-endian.  */
      nregs = arm_feature(env, ARM_FEATURE_VFP3) ? 32 : 16;
      if (reg < nregs) {
 -        stq_le_p(buf, env->vfp.regs[reg]);
 +        stq_le_p(buf, *aa32_vfp_dreg(env, reg));
          return 8;
      }
      if (arm_feature(env, ARM_FEATURE_NEON)) {
          /* Aliases for Q regs.  */
          nregs += 16;
          if (reg < nregs) {
 -            stq_le_p(buf, env->vfp.regs[(reg - 32) * 2]);
 -            stq_le_p(buf + 8, env->vfp.regs[(reg - 32) * 2 + 1]);
 +            uint64_t *q = aa32_vfp_qreg(env, reg - 32);
 +            stq_le_p(buf, q[0]);
 +            stq_le_p(buf + 8, q[1]);
              return 16;
          }
      }
@@ -XXX,XX +XXX,XX @@ static int vfp_gdb_set_reg(CPUARMState *env, uint8_t *buf, int reg)
      nregs = arm_feature(env, ARM_FEATURE_VFP3) ? 32 : 16;
      if (reg < nregs) {
 -        env->vfp.regs[reg] = ldq_le_p(buf);
 +        *aa32_vfp_dreg(env, reg) = ldq_le_p(buf);
          return 8;
      }
      if (arm_feature(env, ARM_FEATURE_NEON)) {
          nregs += 16;
          if (reg < nregs) {
 -            env->vfp.regs[(reg - 32) * 2] = ldq_le_p(buf);
 -            env->vfp.regs[(reg - 32) * 2 + 1] = ldq_le_p(buf + 8);
 +            uint64_t *q = aa32_vfp_qreg(env, reg - 32);
 +            q[0] = ldq_le_p(buf);
 +            q[1] = ldq_le_p(buf + 8);
              return 16;
          }
      }
@@ -XXX,XX +XXX,XX @@ static int aarch64_fpu_gdb_get_reg(CPUARMState *env, uint8_t *buf, int reg)
      switch (reg) {
      case 0 ... 31:
          /* 128 bit FP register */
 -        stq_le_p(buf, env->vfp.regs[reg * 2]);
 -        stq_le_p(buf + 8, env->vfp.regs[reg * 2 + 1]);
 -        return 16;
 +        {
 +            uint64_t *q = aa64_vfp_qreg(env, reg);
 +            stq_le_p(buf, q[0]);
 +            stq_le_p(buf + 8, q[1]);
 +            return 16;
 +        }
      case 32:
          /* FPSR */
          stl_p(buf, vfp_get_fpsr(env));
@@ -XXX,XX +XXX,XX @@ static int aarch64_fpu_gdb_set_reg(CPUARMState *env, uint8_t *buf, int reg)
      switch (reg) {
      case 0 ... 31:
          /* 128 bit FP register */
 -        env->vfp.regs[reg * 2] = ldq_le_p(buf);
 -        env->vfp.regs[reg * 2 + 1] = ldq_le_p(buf + 8);
 -        return 16;
 +        {
 +            uint64_t *q = aa64_vfp_qreg(env, reg);
 +            q[0] = ldq_le_p(buf);
 +            q[1] = ldq_le_p(buf + 8);
 +            return 16;
 +        }
      case 32:
          /* FPSR */
          vfp_set_fpsr(env, ldl_p(buf));
 diff --git a/target/arm/kvm32.c b/target/arm/kvm32.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm32.c
 +++ b/target/arm/kvm32.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_put_registers(CPUState *cs, int level)
      /* VFP registers */
      r.id = KVM_REG_ARM | KVM_REG_SIZE_U64 | KVM_REG_ARM_VFP;
      for (i = 0; i < 32; i++) {
 -        r.addr = (uintptr_t)(&env->vfp.regs[i]);
 +        r.addr = (uintptr_t)aa32_vfp_dreg(env, i);
          ret = kvm_vcpu_ioctl(cs, KVM_SET_ONE_REG, &r);
          if (ret) {
              return ret;
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
      /* VFP registers */
      r.id = KVM_REG_ARM | KVM_REG_SIZE_U64 | KVM_REG_ARM_VFP;
      for (i = 0; i < 32; i++) {
 -        r.addr = (uintptr_t)(&env->vfp.regs[i]);
 +        r.addr = (uintptr_t)aa32_vfp_dreg(env, i);
          ret = kvm_vcpu_ioctl(cs, KVM_GET_ONE_REG, &r);
          if (ret) {
              return ret;
 diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm64.c
 +++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_put_registers(CPUState *cs, int level)
          }
      }
 -    /* Advanced SIMD and FP registers
 -     * We map Qn = regs[2n+1]:regs[2n]
 -     */
-+    /* Advanced SIMD and FP registers. */
+-    switch (cmode) {
-     for (i = 0; i < 32; i++) {
+-    case 0: case 1:
--        int rd = i << 1;
+-        /* no-op */
--        uint64_t fp_val[2];
+-        break;
-+        uint64_t *q = aa64_vfp_qreg(env, i);
+-    case 2: case 3:
- #ifdef HOST_WORDS_BIGENDIAN
+-        imm <<= 8;
--        fp_val[0] = env->vfp.regs[rd + 1];
+-        break;
--        fp_val[1] = env->vfp.regs[rd];
+-    case 4: case 5:
-+        uint64_t fp_val[2] = { q[1], q[0] };
+-        imm <<= 16;
-+        reg.addr = (uintptr_t)fp_val;
+-        break;
- #else
+-    case 6: case 7:
--        fp_val[1] = env->vfp.regs[rd + 1];
+-        imm <<= 24;
--        fp_val[0] = env->vfp.regs[rd];
+-        break;
-+        reg.addr = (uintptr_t)q;
+-    case 8: case 9:
- #endif
+-        imm |= imm << 16;
-         reg.id = AARCH64_SIMD_CORE_REG(fp_regs.vregs[i]);
+-        break;
--        reg.addr = (uintptr_t)(&fp_val);
+-    case 10: case 11:
-         ret = kvm_vcpu_ioctl(cs, KVM_SET_ONE_REG, &reg);
+-        imm = (imm << 8) | (imm << 24);
-         if (ret) {
+-        break;
-             return ret;
+-    case 12:
-@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
+-        imm = (imm << 8) | 0xff;
-         env->spsr = env->banked_spsr[i];
+-        break;
-     }
+-    case 13:
+-        imm = (imm << 16) | 0xffff;
--    /* Advanced SIMD and FP registers
+-        break;
--     * We map Qn = regs[2n+1]:regs[2n]
+-    case 14:
--     */
+-        if (op) {
-+    /* Advanced SIMD and FP registers */
+-            /*
-     for (i = 0; i < 32; i++) {
+-             * This is the only case where the top and bottom 32 bits
--        uint64_t fp_val[2];
+-             * of the encoded constant differ.
-+        uint64_t *q = aa64_vfp_qreg(env, i);
+-             */
-         reg.id = AARCH64_SIMD_CORE_REG(fp_regs.vregs[i]);
+-            uint64_t imm64 = 0;
--        reg.addr = (uintptr_t)(&fp_val);
+-            int n;
-+        reg.addr = (uintptr_t)q;
+-
-         ret = kvm_vcpu_ioctl(cs, KVM_GET_ONE_REG, &reg);
+-            for (n = 0; n < 8; n++) {
-         if (ret) {
+-                if (imm & (1 << n)) {
-             return ret;
+-                    imm64 |= (0xffULL << (n * 8));
-         } else {
+-                }
--            int rd = i << 1;
+-            }
- #ifdef HOST_WORDS_BIGENDIAN
+-            return imm64;
--            env->vfp.regs[rd + 1] = fp_val[0];
+-        }
--            env->vfp.regs[rd] = fp_val[1];
+-        imm |= (imm << 8) | (imm << 16) | (imm << 24);
--#else
+-        break;
--            env->vfp.regs[rd + 1] = fp_val[1];
+-    case 15:
--            env->vfp.regs[rd] = fp_val[0];
+-        imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
-+            uint64_t t;
+-            | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
-+            t = q[0], q[0] = q[1], q[1] = t;
+-        break;
- #endif
+-    }
-         }
+-    if (op) {
-     }
+-        imm = ~imm;
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+-    }
-index XXXXXXX..XXXXXXX 100644
+-    return dup_const(MO_32, imm);
---- a/target/arm/translate-a64.c
+-}
-+++ b/target/arm/translate-a64.c
+-
-@@ -XXX,XX +XXX,XX @@ void aarch64_cpu_dump_state(CPUState *cs, FILE *f,
+ static bool do_1reg_imm(DisasContext *s, arg_1reg_imm *a,
+                         GVecGen2iFn *fn)
      if (flags & CPU_DUMP_FPU) {
          int numvfpregs = 32;
 -        for (i = 0; i < numvfpregs; i += 2) {
 -            uint64_t vlo = env->vfp.regs[i * 2];
 -            uint64_t vhi = env->vfp.regs[(i * 2) + 1];
 -            cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 " ",
 -                        i, vhi, vlo);
 -            vlo = env->vfp.regs[(i + 1) * 2];
 -            vhi = env->vfp.regs[((i + 1) * 2) + 1];
 -            cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 "\n",
 -                        i + 1, vhi, vlo);
 +        for (i = 0; i < numvfpregs; i++) {
 +            uint64_t *q = aa64_vfp_qreg(env, i);
 +            uint64_t vlo = q[0];
 +            uint64_t vhi = q[1];
 +            cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 "%c",
 +                        i, vhi, vlo, (i & 1 ? '\n' : ' '));
          }
          cpu_fprintf(f, "FPCR: %08x  FPSR: %08x\n",
                      vfp_get_fpcr(env), vfp_get_fpsr(env));
@@ -XXX,XX +XXX,XX @@ static TCGv_ptr vec_full_reg_ptr(DisasContext *s, int regno)
   */
  static inline int fp_reg_offset(DisasContext *s, int regno, TCGMemOp size)
  {
--    int offs = offsetof(CPUARMState, vfp.regs[regno * 2]);
--#ifdef HOST_WORDS_BIGENDIAN
--    offs += (8 - (1 << size));
--#endif
--    assert_fp_access_checked(s);
--    return offs;
-+    return vec_reg_offset(s, regno, 0, size);
- }
- /* Offset of the high half of the 128 bit vector Qn */
- static inline int fp_reg_hi_offset(DisasContext *s, int regno)
- {
--    assert_fp_access_checked(s);
--    return offsetof(CPUARMState, vfp.regs[regno * 2 + 1]);
-+    return vec_reg_offset(s, regno, 1, MO_64);
- }
- /* Convenience accessors for reading and writing single and double
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static inline void gen_vfp_st(DisasContext *s, int dp, TCGv_i32 addr)
+@@ -XXX,XX +XXX,XX @@ void arm_translate_init(void)
- static inline long
+     a64_translate_init();
- vfp_reg_offset (int dp, int reg)
+ }
 +uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
 +{
 +    /* Expand the encoded constant as per AdvSIMDExpandImm pseudocode */
 +    switch (cmode) {
 +    case 0: case 1:
 +        /* no-op */
 +        break;
 +    case 2: case 3:
 +        imm <<= 8;
 +        break;
 +    case 4: case 5:
 +        imm <<= 16;
 +        break;
 +    case 6: case 7:
 +        imm <<= 24;
 +        break;
 +    case 8: case 9:
 +        imm |= imm << 16;
 +        break;
 +    case 10: case 11:
 +        imm = (imm << 8) | (imm << 24);
 +        break;
 +    case 12:
 +        imm = (imm << 8) | 0xff;
 +        break;
 +    case 13:
 +        imm = (imm << 16) | 0xffff;
 +        break;
 +    case 14:
 +        if (op) {
 +            /*
 +             * This is the only case where the top and bottom 32 bits
 +             * of the encoded constant differ.
 +             */
 +            uint64_t imm64 = 0;
 +            int n;
 +
 +            for (n = 0; n < 8; n++) {
 +                if (imm & (1 << n)) {
 +                    imm64 |= (0xffULL << (n * 8));
 +                }
 +            }
 +            return imm64;
 +        }
 +        imm |= (imm << 8) | (imm << 16) | (imm << 24);
 +        break;
 +    case 15:
 +        imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
 +            | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
 +        break;
 +    }
 +    if (op) {
 +        imm = ~imm;
 +    }
 +    return dup_const(MO_32, imm);
 +}
 +
  /* Generate a label used for skipping this instruction */
  void arm_gen_condlabel(DisasContext *s)
  {
--    if (dp)
-+    if (dp) {
-         return offsetof(CPUARMState, vfp.regs[reg]);
--    else if (reg & 1) {
--        return offsetof(CPUARMState, vfp.regs[reg >> 1])
--          + offsetof(CPU_DoubleU, l.upper);
-     } else {
--        return offsetof(CPUARMState, vfp.regs[reg >> 1])
--          + offsetof(CPU_DoubleU, l.lower);
-+        long ofs = offsetof(CPUARMState, vfp.regs[reg >> 1]);
-+        if (reg & 1) {
-+            ofs += offsetof(CPU_DoubleU, l.upper);
-+        } else {
-+            ofs += offsetof(CPU_DoubleU, l.lower);
-+        }
-+        return ofs;
-     }
- }
-@@ -XXX,XX +XXX,XX @@ void arm_cpu_dump_state(CPUState *cs, FILE *f, fprintf_function cpu_fprintf,
-             numvfpregs += 16;
-         }
-         for (i = 0; i < numvfpregs; i++) {
--            uint64_t v = env->vfp.regs[i];
-+            uint64_t v = *aa32_vfp_dreg(env, i);
-             cpu_fprintf(f, "s%02d=%08x s%02d=%08x d%02d=%016" PRIx64 "\n",
-                         i * 2, (uint32_t)v,
-                         i * 2 + 1, (uint32_t)(v >> 32),
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 07/21] target/arm: Change the type of vfp.regs
+[PULL 10/24] target/arm: Use asimd_imm_const for A64 decode
-From: Richard Henderson <richard.henderson@linaro.org>
+The A64 AdvSIMD modified-immediate grouping uses almost the same
 constant encoding that A32 Neon does; reuse asimd_imm_const() (to
 which we add the AArch64-specific case for cmode 15 op 1) instead of
 reimplementing it all.
-All direct users of this field want an integral value.  Drop all
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-of the extra casting between uint64_t and float64.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-5-peter.maydell@linaro.org
 ---
  target/arm/translate.h     |  3 +-
  target/arm/translate-a64.c | 86 ++++----------------------------------
  target/arm/translate.c     | 17 +++++++-
 files changed, 24 insertions(+), 82 deletions(-)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 Message-id: 20180119045438.28582-6-richard.henderson@linaro.org
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/cpu.h           |  2 +-
  target/arm/arch_dump.c     |  4 ++--
  target/arm/helper.c        | 20 ++++++++++----------
  target/arm/machine.c       |  2 +-
  target/arm/translate-a64.c |  8 ++++----
  target/arm/translate.c     |  2 +-
 files changed, 19 insertions(+), 19 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/translate.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
+@@ -XXX,XX +XXX,XX @@ static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
-          * the two execution states, and means we do not need to explicitly
+  * VMVN and VBIC (when cmode < 14 && op == 1).
-          * map these registers when changing states.
+  *
-          */
+  * The combination cmode == 15 op == 1 is a reserved encoding for AArch32;
--        float64 regs[64];
+- * callers must catch this.
-+        uint64_t regs[64];
++ * callers must catch this; we return the 64-bit constant value defined
++ * for AArch64.
-         uint32_t xregs[16];
+  *
-         /* We store these fpcsr fields separately for convenience.  */
+  * cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 was UNPREDICTABLE in v7A but
-diff --git a/target/arm/arch_dump.c b/target/arm/arch_dump.c
+  * is either not unpredictable or merely CONSTRAINED UNPREDICTABLE in v8A;
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/arch_dump.c
 +++ b/target/arm/arch_dump.c
@@ -XXX,XX +XXX,XX @@ static int aarch64_write_elf64_prfpreg(WriteCoreDumpFunction f,
      aarch64_note_init(&note, s, "CORE", 5, NT_PRFPREG, sizeof(note.vfp));
      for (i = 0; i < 64; ++i) {
 -        note.vfp.vregs[i] = cpu_to_dump64(s, float64_val(env->vfp.regs[i]));
 +        note.vfp.vregs[i] = cpu_to_dump64(s, env->vfp.regs[i]);
      }
      if (s->dump_info.d_endian == ELFDATA2MSB) {
@@ -XXX,XX +XXX,XX @@ static int arm_write_elf32_vfp(WriteCoreDumpFunction f, CPUARMState *env,
      arm_note_init(&note, s, "LINUX", 6, NT_ARM_VFP, sizeof(note.vfp));
      for (i = 0; i < 32; ++i) {
 -        note.vfp.vregs[i] = cpu_to_dump64(s, float64_val(env->vfp.regs[i]));
 +        note.vfp.vregs[i] = cpu_to_dump64(s, env->vfp.regs[i]);
      }
      note.vfp.fpscr = cpu_to_dump32(s, vfp_get_fpscr(env));
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static int vfp_gdb_get_reg(CPUARMState *env, uint8_t *buf, int reg)
      /* VFP data registers are always little-endian.  */
      nregs = arm_feature(env, ARM_FEATURE_VFP3) ? 32 : 16;
      if (reg < nregs) {
 -        stfq_le_p(buf, env->vfp.regs[reg]);
 +        stq_le_p(buf, env->vfp.regs[reg]);
          return 8;
      }
      if (arm_feature(env, ARM_FEATURE_NEON)) {
          /* Aliases for Q regs.  */
          nregs += 16;
          if (reg < nregs) {
 -            stfq_le_p(buf, env->vfp.regs[(reg - 32) * 2]);
 -            stfq_le_p(buf + 8, env->vfp.regs[(reg - 32) * 2 + 1]);
 +            stq_le_p(buf, env->vfp.regs[(reg - 32) * 2]);
 +            stq_le_p(buf + 8, env->vfp.regs[(reg - 32) * 2 + 1]);
              return 16;
          }
      }
@@ -XXX,XX +XXX,XX @@ static int vfp_gdb_set_reg(CPUARMState *env, uint8_t *buf, int reg)
      nregs = arm_feature(env, ARM_FEATURE_VFP3) ? 32 : 16;
      if (reg < nregs) {
 -        env->vfp.regs[reg] = ldfq_le_p(buf);
 +        env->vfp.regs[reg] = ldq_le_p(buf);
          return 8;
      }
      if (arm_feature(env, ARM_FEATURE_NEON)) {
          nregs += 16;
          if (reg < nregs) {
 -            env->vfp.regs[(reg - 32) * 2] = ldfq_le_p(buf);
 -            env->vfp.regs[(reg - 32) * 2 + 1] = ldfq_le_p(buf + 8);
 +            env->vfp.regs[(reg - 32) * 2] = ldq_le_p(buf);
 +            env->vfp.regs[(reg - 32) * 2 + 1] = ldq_le_p(buf + 8);
              return 16;
          }
      }
@@ -XXX,XX +XXX,XX @@ static int aarch64_fpu_gdb_get_reg(CPUARMState *env, uint8_t *buf, int reg)
      switch (reg) {
      case 0 ... 31:
          /* 128 bit FP register */
 -        stfq_le_p(buf, env->vfp.regs[reg * 2]);
 -        stfq_le_p(buf + 8, env->vfp.regs[reg * 2 + 1]);
 +        stq_le_p(buf, env->vfp.regs[reg * 2]);
 +        stq_le_p(buf + 8, env->vfp.regs[reg * 2 + 1]);
          return 16;
      case 32:
          /* FPSR */
@@ -XXX,XX +XXX,XX @@ static int aarch64_fpu_gdb_set_reg(CPUARMState *env, uint8_t *buf, int reg)
      switch (reg) {
      case 0 ... 31:
          /* 128 bit FP register */
 -        env->vfp.regs[reg * 2] = ldfq_le_p(buf);
 -        env->vfp.regs[reg * 2 + 1] = ldfq_le_p(buf + 8);
 +        env->vfp.regs[reg * 2] = ldq_le_p(buf);
 +        env->vfp.regs[reg * 2 + 1] = ldq_le_p(buf + 8);
          return 16;
      case 32:
          /* FPSR */
 diff --git a/target/arm/machine.c b/target/arm/machine.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/machine.c
 +++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_vfp = {
      .minimum_version_id = 3,
      .needed = vfp_needed,
      .fields = (VMStateField[]) {
 -        VMSTATE_FLOAT64_ARRAY(env.vfp.regs, ARMCPU, 64),
 +        VMSTATE_UINT64_ARRAY(env.vfp.regs, ARMCPU, 64),
          /* The xregs array is a little awkward because element 1 (FPSCR)
           * requires a specific accessor, so we have to split it up in
           * the vmstate:
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ void aarch64_cpu_dump_state(CPUState *cs, FILE *f,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-     if (flags & CPU_DUMP_FPU) {
+ {
-         int numvfpregs = 32;
+     int rd = extract32(insn, 0, 5);
-         for (i = 0; i < numvfpregs; i += 2) {
+     int cmode = extract32(insn, 12, 4);
--            uint64_t vlo = float64_val(env->vfp.regs[i * 2]);
+-    int cmode_3_1 = extract32(cmode, 1, 3);
--            uint64_t vhi = float64_val(env->vfp.regs[(i * 2) + 1]);
+-    int cmode_0 = extract32(cmode, 0, 1);
-+            uint64_t vlo = env->vfp.regs[i * 2];
+     int o2 = extract32(insn, 11, 1);
-+            uint64_t vhi = env->vfp.regs[(i * 2) + 1];
+     uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
-             cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 " ",
+     bool is_neg = extract32(insn, 29, 1);
-                         i, vhi, vlo);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
--            vlo = float64_val(env->vfp.regs[(i + 1) * 2]);
+         return;
--            vhi = float64_val(env->vfp.regs[((i + 1) * 2) + 1]);
+     }
-+            vlo = env->vfp.regs[(i + 1) * 2];
-+            vhi = env->vfp.regs[((i + 1) * 2) + 1];
+-    /* See AdvSIMDExpandImm() in ARM ARM */
-             cpu_fprintf(f, "q%02d=%016" PRIx64 ":%016" PRIx64 "\n",
+-    switch (cmode_3_1) {
-                         i + 1, vhi, vlo);
+-    case 0: /* Replicate(Zeros(24):imm8, 2) */
-         }
+-    case 1: /* Replicate(Zeros(16):imm8:Zeros(8), 2) */
 -    case 2: /* Replicate(Zeros(8):imm8:Zeros(16), 2) */
 -    case 3: /* Replicate(imm8:Zeros(24), 2) */
 -    {
 -        int shift = cmode_3_1 * 8;
 -        imm = bitfield_replicate(abcdefgh << shift, 32);
 -        break;
 -    }
 -    case 4: /* Replicate(Zeros(8):imm8, 4) */
 -    case 5: /* Replicate(imm8:Zeros(8), 4) */
 -    {
 -        int shift = (cmode_3_1 & 0x1) * 8;
 -        imm = bitfield_replicate(abcdefgh << shift, 16);
 -        break;
 -    }
 -    case 6:
 -        if (cmode_0) {
 -            /* Replicate(Zeros(8):imm8:Ones(16), 2) */
 -            imm = (abcdefgh << 16) | 0xffff;
 -        } else {
 -            /* Replicate(Zeros(16):imm8:Ones(8), 2) */
 -            imm = (abcdefgh << 8) | 0xff;
 -        }
 -        imm = bitfield_replicate(imm, 32);
 -        break;
 -    case 7:
 -        if (!cmode_0 && !is_neg) {
 -            imm = bitfield_replicate(abcdefgh, 8);
 -        } else if (!cmode_0 && is_neg) {
 -            int i;
 -            imm = 0;
 -            for (i = 0; i < 8; i++) {
 -                if ((abcdefgh) & (1 << i)) {
 -                    imm |= 0xffULL << (i * 8);
 -                }
 -            }
 -        } else if (cmode_0) {
 -            if (is_neg) {
 -                imm = (abcdefgh & 0x3f) << 48;
 -                if (abcdefgh & 0x80) {
 -                    imm |= 0x8000000000000000ULL;
 -                }
 -                if (abcdefgh & 0x40) {
 -                    imm |= 0x3fc0000000000000ULL;
 -                } else {
 -                    imm |= 0x4000000000000000ULL;
 -                }
 -            } else {
 -                if (o2) {
 -                    /* FMOV (vector, immediate) - half-precision */
 -                    imm = vfp_expand_imm(MO_16, abcdefgh);
 -                    /* now duplicate across the lanes */
 -                    imm = bitfield_replicate(imm, 16);
 -                } else {
 -                    imm = (abcdefgh & 0x3f) << 19;
 -                    if (abcdefgh & 0x80) {
 -                        imm |= 0x80000000;
 -                    }
 -                    if (abcdefgh & 0x40) {
 -                        imm |= 0x3e000000;
 -                    } else {
 -                        imm |= 0x40000000;
 -                    }
 -                    imm |= (imm << 32);
 -                }
 -            }
 -        }
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -
 -    if (cmode_3_1 != 7 && is_neg) {
 -        imm = ~imm;
 +    if (cmode == 15 && o2 && !is_neg) {
 +        /* FMOV (vector, immediate) - half-precision */
 +        imm = vfp_expand_imm(MO_16, abcdefgh);
 +        /* now duplicate across the lanes */
 +        imm = bitfield_replicate(imm, 16);
 +    } else {
 +        imm = asimd_imm_const(abcdefgh, cmode, is_neg);
      }
      if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ void arm_cpu_dump_state(CPUState *cs, FILE *f, fprintf_function cpu_fprintf,
+@@ -XXX,XX +XXX,XX @@ uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
-             numvfpregs += 16;
+     case 14:
-         }
+         if (op) {
-         for (i = 0; i < numvfpregs; i++) {
+             /*
--            uint64_t v = float64_val(env->vfp.regs[i]);
+-             * This is the only case where the top and bottom 32 bits
-+            uint64_t v = env->vfp.regs[i];
+-             * of the encoded constant differ.
-             cpu_fprintf(f, "s%02d=%08x s%02d=%08x d%02d=%016" PRIx64 "\n",
++             * This and cmode == 15 op == 1 are the only cases where
-                         i * 2, (uint32_t)v,
++             * the top and bottom 32 bits of the encoded constant differ.
-                         i * 2 + 1, (uint32_t)(v >> 32),
+              */
              uint64_t imm64 = 0;
              int n;
@@ -XXX,XX +XXX,XX @@ uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
          imm |= (imm << 8) | (imm << 16) | (imm << 24);
          break;
      case 15:
 +        if (op) {
 +            /* Reserved encoding for AArch32; valid for AArch64 */
 +            uint64_t imm64 = (uint64_t)(imm & 0x3f) << 48;
 +            if (imm & 0x80) {
 +                imm64 |= 0x8000000000000000ULL;
 +            }
 +            if (imm & 0x40) {
 +                imm64 |= 0x3fc0000000000000ULL;
 +            } else {
 +                imm64 |= 0x4000000000000000ULL;
 +            }
 +            return imm64;
 +        }
          imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
              | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
          break;
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 16/21] hw/intc/arm_gic: Fix group priority computation for group 1 IRQs
+[PULL 11/24] target/arm: Use dup_const() instead of bitfield_replicate()
-From: Luc MICHEL <luc.michel@git.antfield.fr>
+Use dup_const() instead of bitfield_replicate() in
 disas_simd_mod_imm().
-When determining the group priority of a group 1 IRQ, if C_CTRL.CBPR is
+(We can't replace the other use of bitfield_replicate() in this file,
-, the non-secure BPR value is used. However, this value must be
+in logic_imm_decode_wmask(), because that location needs to handle 2
-incremented by one so that it matches the secure world number of
+and 4 bit elements, which dup_const() cannot.)
 implemented priority bits (NS world has one less priority bit compared
 to the Secure world).
-Signed-off-by: Luc MICHEL <luc.michel@git.antfield.fr>
-Message-id: 20180119145756.7629-5-luc.michel@greensocs.com
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-[PMM: add assert, as the gicv3 code has]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-6-peter.maydell@linaro.org
 ---
- hw/intc/arm_gic.c | 3 ++-
+ target/arm/translate-a64.c | 2 +-
-file changed, 2 insertions(+), 1 deletion(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gic.c
+--- a/target/arm/translate-a64.c
-+++ b/hw/intc/arm_gic.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static int gic_get_group_priority(GICState *s, int cpu, int irq)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-     if (gic_has_groups(s) &&
+         /* FMOV (vector, immediate) - half-precision */
-         !(s->cpu_ctlr[cpu] & GICC_CTLR_CBPR) &&
+         imm = vfp_expand_imm(MO_16, abcdefgh);
-         GIC_TEST_GROUP(irq, (1 << cpu))) {
+         /* now duplicate across the lanes */
--        bpr = s->abpr[cpu];
+-        imm = bitfield_replicate(imm, 16);
-+        bpr = s->abpr[cpu] - 1;
++        imm = dup_const(MO_16, imm);
 +        assert(bpr >= 0);
      } else {
-         bpr = s->bpr[cpu];
+         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
      }
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 11/21] target/arm: Move cpu_get_tb_cpu_state out of line
+[PULL 12/24] target/arm: Implement MVE logical immediate insns
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE logical-immediate insns (VMOV, VMVN,
 VORR and VBIC). These have essentially the same encoding
 as their Neon equivalents, and we implement the decode
 in the same way.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180119045438.28582-14-richard.henderson@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-7-peter.maydell@linaro.org
 ---
- target/arm/cpu.h    | 127 +---------------------------------------------------
+ target/arm/helper-mve.h    |  4 +++
- target/arm/helper.c | 126 +++++++++++++++++++++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      | 17 +++++++++++++
-files changed, 128 insertions(+), 125 deletions(-)
+ target/arm/mve_helper.c    | 24 ++++++++++++++++++
  target/arm/translate-mve.c | 50 ++++++++++++++++++++++++++++++++++++++
 files changed, 95 insertions(+)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static inline bool bswap_code(bool sctlr_b)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvsh, TCG_CALL_NO_WG, i32, env, ptr, i32)
- #endif
+ DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
- }
+ DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
--/* Return the exception level to which FP-disabled exceptions should
++
-- * be taken, or 0 if FP is enabled.
++DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
-- */
++DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
--static inline int fp_exception_el(CPUARMState *env)
++DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
--{
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 -    int fpen;
 -    int cur_el = arm_current_el(env);
 -
 -    /* CPACR and the CPTR registers don't exist before v6, so FP is
 -     * always accessible
 -     */
 -    if (!arm_feature(env, ARM_FEATURE_V6)) {
 -        return 0;
 -    }
 -
 -    /* The CPACR controls traps to EL1, or PL1 if we're 32 bit:
 -     * 0, 2 : trap EL0 and EL1/PL1 accesses
 -     * 1    : trap only EL0 accesses
 -     * 3    : trap no accesses
 -     */
 -    fpen = extract32(env->cp15.cpacr_el1, 20, 2);
 -    switch (fpen) {
 -    case 0:
 -    case 2:
 -        if (cur_el == 0 || cur_el == 1) {
 -            /* Trap to PL1, which might be EL1 or EL3 */
 -            if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
 -                return 3;
 -            }
 -            return 1;
 -        }
 -        if (cur_el == 3 && !is_a64(env)) {
 -            /* Secure PL1 running at EL3 */
 -            return 3;
 -        }
 -        break;
 -    case 1:
 -        if (cur_el == 0) {
 -            return 1;
 -        }
 -        break;
 -    case 3:
 -        break;
 -    }
 -
 -    /* For the CPTR registers we don't need to guard with an ARM_FEATURE
 -     * check because zero bits in the registers mean "don't trap".
 -     */
 -
 -    /* CPTR_EL2 : present in v7VE or v8 */
 -    if (cur_el <= 2 && extract32(env->cp15.cptr_el[2], 10, 1)
 -        && !arm_is_secure_below_el3(env)) {
 -        /* Trap FP ops at EL2, NS-EL1 or NS-EL0 to EL2 */
 -        return 2;
 -    }
 -
 -    /* CPTR_EL3 : present in v8 */
 -    if (extract32(env->cp15.cptr_el[3], 10, 1)) {
 -        /* Trap all FP ops to EL3 */
 -        return 3;
 -    }
 -
 -    return 0;
 -}
 -
  #ifdef CONFIG_USER_ONLY
  static inline bool arm_cpu_bswap_data(CPUARMState *env)
  {
@@ -XXX,XX +XXX,XX @@ static inline uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx)
  }
  #endif
 -static inline void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
 -                                        target_ulong *cs_base, uint32_t *flags)
 -{
 -    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
 -    if (is_a64(env)) {
 -        *pc = env->pc;
 -        *flags = ARM_TBFLAG_AARCH64_STATE_MASK;
 -        /* Get control bits for tagged addresses */
 -        *flags |= (arm_regime_tbi0(env, mmu_idx) << ARM_TBFLAG_TBI0_SHIFT);
 -        *flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
 -    } else {
 -        *pc = env->regs[15];
 -        *flags = (env->thumb << ARM_TBFLAG_THUMB_SHIFT)
 -            | (env->vfp.vec_len << ARM_TBFLAG_VECLEN_SHIFT)
 -            | (env->vfp.vec_stride << ARM_TBFLAG_VECSTRIDE_SHIFT)
 -            | (env->condexec_bits << ARM_TBFLAG_CONDEXEC_SHIFT)
 -            | (arm_sctlr_b(env) << ARM_TBFLAG_SCTLR_B_SHIFT);
 -        if (!(access_secure_reg(env))) {
 -            *flags |= ARM_TBFLAG_NS_MASK;
 -        }
 -        if (env->vfp.xregs[ARM_VFP_FPEXC] & (1 << 30)
 -            || arm_el_is_aa64(env, 1)) {
 -            *flags |= ARM_TBFLAG_VFPEN_MASK;
 -        }
 -        *flags |= (extract32(env->cp15.c15_cpar, 0, 2)
 -                   << ARM_TBFLAG_XSCALE_CPAR_SHIFT);
 -    }
 -
 -    *flags |= (arm_to_core_mmu_idx(mmu_idx) << ARM_TBFLAG_MMUIDX_SHIFT);
 -
 -    /* The SS_ACTIVE and PSTATE_SS bits correspond to the state machine
 -     * states defined in the ARM ARM for software singlestep:
 -     *  SS_ACTIVE   PSTATE.SS   State
 -     *     0            x       Inactive (the TB flag for SS is always 0)
 -     *     1            0       Active-pending
 -     *     1            1       Active-not-pending
 -     */
 -    if (arm_singlestep_active(env)) {
 -        *flags |= ARM_TBFLAG_SS_ACTIVE_MASK;
 -        if (is_a64(env)) {
 -            if (env->pstate & PSTATE_SS) {
 -                *flags |= ARM_TBFLAG_PSTATE_SS_MASK;
 -            }
 -        } else {
 -            if (env->uncached_cpsr & PSTATE_SS) {
 -                *flags |= ARM_TBFLAG_PSTATE_SS_MASK;
 -            }
 -        }
 -    }
 -    if (arm_cpu_data_is_big_endian(env)) {
 -        *flags |= ARM_TBFLAG_BE_DATA_MASK;
 -    }
 -    *flags |= fp_exception_el(env) << ARM_TBFLAG_FPEXC_EL_SHIFT;
 -
 -    if (arm_v7m_is_handler_mode(env)) {
 -        *flags |= ARM_TBFLAG_HANDLER_MASK;
 -    }
 -
 -    *cs_base = 0;
 -}
 +void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
 +                          target_ulong *cs_base, uint32_t *flags);
  enum {
      QEMU_PSCI_CONDUIT_DISABLED = 0,
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/mve.decode
-+++ b/target/arm/helper.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
+@@ -XXX,XX +XXX,XX @@
-     /* Linux crc32c converts the output to one's complement.  */
+ # VQDMULL has size in bit 28: 0 for 16 bit, 1 for 32 bit
-     return crc32c(acc, buf, bytes) ^ 0xffffffff;
+ %size_28 28:1 !function=plus_1
 +# 1imm format immediate
 +%imm_28_16_0 28:1 16:3 0:4
 +
  &vldr_vstr rn qd imm p a w size l u
  &1op qd qm size
  &2op qd qm qn size
  &2scalar qd qn rm size
 +&1imm qd imm cmode op
  @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
  # Note that both Rn and Qd are 3 bits only (no D bit)
@@ -XXX,XX +XXX,XX @@
  @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
  @2op_sz28 .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn \
       size=%size_28
 +@1imm .... .... .... .... .... cmode:4 .. op:1 . .... &1imm qd=%qd imm=%imm_28_16_0
  # The _rev suffix indicates that Vn and Vm are reversed. This is
  # the case for shifts. In the Arm ARM these insns are documented
@@ -XXX,XX +XXX,XX @@ VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rd
  # Predicate operations
  %mask_22_13      22:1 13:3
  VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
 +
 +# Logical immediate operations (1 reg and modified-immediate)
 +
 +# The cmode/op bits here decode VORR/VBIC/VMOV/VMVN, but
 +# not in a way we can conveniently represent in decodetree without
 +# a lot of repetition:
 +# VORR: op=0, (cmode & 1) && cmode < 12
 +# VBIC: op=1, (cmode & 1) && cmode < 12
 +# VMOV: everything else
 +# So we have a single decode line and check the cmode/op in the
 +# trans function.
 +Vimm_1r 111 . 1111 1 . 00 0 ... ... 0 .... 0 1 . 1 .... @1imm
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vnegw, 4, int32_t, DO_NEG)
  DO_1OP(vfnegh, 8, uint64_t, DO_FNEGH)
  DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
 +/*
 + * 1 operand immediates: Vda is destination and possibly also one source.
 + * All these insns work at 64-bit widths.
 + */
 +#define DO_1OP_IMM(OP, FN)                                              \
 +    void HELPER(mve_##OP)(CPUARMState *env, void *vda, uint64_t imm)    \
 +    {                                                                   \
 +        uint64_t *da = vda;                                             \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        for (e = 0; e < 16 / 8; e++, mask >>= 8) {                      \
 +            mergemask(&da[H8(e)], FN(da[H8(e)], imm), mask);            \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
 +#define DO_MOVI(N, I) (I)
 +#define DO_ANDI(N, I) ((N) & (I))
 +#define DO_ORRI(N, I) ((N) | (I))
 +
 +DO_1OP_IMM(vmovi, DO_MOVI)
 +DO_1OP_IMM(vandi, DO_ANDI)
 +DO_1OP_IMM(vorri, DO_ORRI)
 +
  #define DO_2OP(OP, ESIZE, TYPE, FN)                                     \
      void HELPER(glue(mve_, OP))(CPUARMState *env,                       \
                                  void *vd, void *vn, void *vm)           \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenOneOpImmFn(TCGv_ptr, TCGv_ptr, TCGv_i64);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
      mve_update_eci(s);
      return true;
  }
 +
-+/* Return the exception level to which FP-disabled exceptions should
++static bool do_1imm(DisasContext *s, arg_1imm *a, MVEGenOneOpImmFn *fn)
 + * be taken, or 0 if FP is enabled.
 + */
 +static inline int fp_exception_el(CPUARMState *env)
 +{
-+    int fpen;
++    TCGv_ptr qd;
-+    int cur_el = arm_current_el(env);
++    uint64_t imm;
 +
-+    /* CPACR and the CPTR registers don't exist before v6, so FP is
++    if (!dc_isar_feature(aa32_mve, s) ||
-+     * always accessible
++        !mve_check_qreg_bank(s, a->qd) ||
-+     */
++        !fn) {
-+    if (!arm_feature(env, ARM_FEATURE_V6)) {
++        return false;
-+        return 0;
++    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    /* The CPACR controls traps to EL1, or PL1 if we're 32 bit:
++    imm = asimd_imm_const(a->imm, a->cmode, a->op);
 +     * 0, 2 : trap EL0 and EL1/PL1 accesses
 +     * 1    : trap only EL0 accesses
 +     * 3    : trap no accesses
 +     */
 +    fpen = extract32(env->cp15.cpacr_el1, 20, 2);
 +    switch (fpen) {
 +    case 0:
 +    case 2:
 +        if (cur_el == 0 || cur_el == 1) {
 +            /* Trap to PL1, which might be EL1 or EL3 */
 +            if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
 +                return 3;
 +            }
 +            return 1;
 +        }
 +        if (cur_el == 3 && !is_a64(env)) {
 +            /* Secure PL1 running at EL3 */
 +            return 3;
 +        }
 +        break;
 +    case 1:
 +        if (cur_el == 0) {
 +            return 1;
 +        }
 +        break;
 +    case 3:
 +        break;
 +    }
 +
-+    /* For the CPTR registers we don't need to guard with an ARM_FEATURE
++    qd = mve_qreg_ptr(a->qd);
-+     * check because zero bits in the registers mean "don't trap".
++    fn(cpu_env, qd, tcg_constant_i64(imm));
-+     */
++    tcg_temp_free_ptr(qd);
-+
++    mve_update_eci(s);
-+    /* CPTR_EL2 : present in v7VE or v8 */
++    return true;
 +    if (cur_el <= 2 && extract32(env->cp15.cptr_el[2], 10, 1)
 +        && !arm_is_secure_below_el3(env)) {
 +        /* Trap FP ops at EL2, NS-EL1 or NS-EL0 to EL2 */
 +        return 2;
 +    }
 +
 +    /* CPTR_EL3 : present in v8 */
 +    if (extract32(env->cp15.cptr_el[3], 10, 1)) {
 +        /* Trap all FP ops to EL3 */
 +        return 3;
 +    }
 +
 +    return 0;
 +}
 +
-+void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
++static bool trans_Vimm_1r(DisasContext *s, arg_1imm *a)
 +                          target_ulong *cs_base, uint32_t *flags)
 +{
-+    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
++    /* Handle decode of cmode/op here between VORR/VBIC/VMOV */
-+    if (is_a64(env)) {
++    MVEGenOneOpImmFn *fn;
-+        *pc = env->pc;
++
-+        *flags = ARM_TBFLAG_AARCH64_STATE_MASK;
++    if ((a->cmode & 1) && a->cmode < 12) {
-+        /* Get control bits for tagged addresses */
++        if (a->op) {
-+        *flags |= (arm_regime_tbi0(env, mmu_idx) << ARM_TBFLAG_TBI0_SHIFT);
++            /*
-+        *flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
++             * For op=1, the immediate will be inverted by asimd_imm_const(),
 +             * so the VBIC becomes a logical AND operation.
 +             */
 +            fn = gen_helper_mve_vandi;
 +        } else {
 +            fn = gen_helper_mve_vorri;
 +        }
 +    } else {
-+        *pc = env->regs[15];
++        /* There is one unallocated cmode/op combination in this space */
-+        *flags = (env->thumb << ARM_TBFLAG_THUMB_SHIFT)
++        if (a->cmode == 15 && a->op == 1) {
-+            | (env->vfp.vec_len << ARM_TBFLAG_VECLEN_SHIFT)
++            return false;
 +            | (env->vfp.vec_stride << ARM_TBFLAG_VECSTRIDE_SHIFT)
 +            | (env->condexec_bits << ARM_TBFLAG_CONDEXEC_SHIFT)
 +            | (arm_sctlr_b(env) << ARM_TBFLAG_SCTLR_B_SHIFT);
 +        if (!(access_secure_reg(env))) {
 +            *flags |= ARM_TBFLAG_NS_MASK;
 +        }
-+        if (env->vfp.xregs[ARM_VFP_FPEXC] & (1 << 30)
++        /* asimd_imm_const() sorts out VMVNI vs VMOVI for us */
-+            || arm_el_is_aa64(env, 1)) {
++        fn = gen_helper_mve_vmovi;
 +            *flags |= ARM_TBFLAG_VFPEN_MASK;
 +        }
 +        *flags |= (extract32(env->cp15.c15_cpar, 0, 2)
 +                   << ARM_TBFLAG_XSCALE_CPAR_SHIFT);
 +    }
-+
++    return do_1imm(s, a, fn);
 +    *flags |= (arm_to_core_mmu_idx(mmu_idx) << ARM_TBFLAG_MMUIDX_SHIFT);
 +
 +    /* The SS_ACTIVE and PSTATE_SS bits correspond to the state machine
 +     * states defined in the ARM ARM for software singlestep:
 +     *  SS_ACTIVE   PSTATE.SS   State
 +     *     0            x       Inactive (the TB flag for SS is always 0)
 +     *     1            0       Active-pending
 +     *     1            1       Active-not-pending
 +     */
 +    if (arm_singlestep_active(env)) {
 +        *flags |= ARM_TBFLAG_SS_ACTIVE_MASK;
 +        if (is_a64(env)) {
 +            if (env->pstate & PSTATE_SS) {
 +                *flags |= ARM_TBFLAG_PSTATE_SS_MASK;
 +            }
 +        } else {
 +            if (env->uncached_cpsr & PSTATE_SS) {
 +                *flags |= ARM_TBFLAG_PSTATE_SS_MASK;
 +            }
 +        }
 +    }
 +    if (arm_cpu_data_is_big_endian(env)) {
 +        *flags |= ARM_TBFLAG_BE_DATA_MASK;
 +    }
 +    *flags |= fp_exception_el(env) << ARM_TBFLAG_FPEXC_EL_SHIFT;
 +
 +    if (arm_v7m_is_handler_mode(env)) {
 +        *flags |= ARM_TBFLAG_HANDLER_MASK;
 +    }
 +
 +    *cs_base = 0;
 +}
 --
-.7.4
+.20.1

-New patch
+[PULL 13/24] target/arm: Implement MVE vector shift left by immediate insns
+Implement the MVE shift-vector-left-by-immediate insns VSHL, VQSHL
 and VQSHLU.
 The size-and-immediate encoding here is the same as Neon, and we
 handle it the same way neon-dp.decode does.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-8-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 16 +++++++++++
  target/arm/mve.decode      | 23 +++++++++++++++
  target/arm/mve_helper.c    | 57 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 51 ++++++++++++++++++++++++++++++++++
 files changed, 147 insertions(+)
 diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 +
 +DEF_HELPER_FLAGS_4(mve_vshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  &2op qd qm qn size
  &2scalar qd qn rm size
  &1imm qd imm cmode op
 +&2shift qd qm shift size
  @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
  # Note that both Rn and Qd are 3 bits only (no D bit)
@@ -XXX,XX +XXX,XX @@
  @2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
  @2scalar_nosz .... .... .... .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
 +@2_shl_b .... .... .. 001 shift:3 .... .... .... .... &2shift qd=%qd qm=%qm size=0
 +@2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
 +@2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
 +
  # Vector loads and stores
  # Widening loads and narrowing stores:
@@ -XXX,XX +XXX,XX @@ VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
  # So we have a single decode line and check the cmode/op in the
  # trans function.
  Vimm_1r 111 . 1111 1 . 00 0 ... ... 0 .... 0 1 . 1 .... @1imm
 +
 +# Shifts by immediate
 +
 +VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
 +VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
 +VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_b
 +VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_h
 +VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_b
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_h
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_b
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_h
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT(vqsubsw, 4, int32_t, DO_SQSUB_W)
      WRAP_QRSHL_HELPER(do_sqrshl_bhs, N, M, true, satp)
  #define DO_UQRSHL_OP(N, M, satp) \
      WRAP_QRSHL_HELPER(do_uqrshl_bhs, N, M, true, satp)
 +#define DO_SUQSHL_OP(N, M, satp) \
 +    WRAP_QRSHL_HELPER(do_suqrshl_bhs, N, M, false, satp)
  DO_2OP_SAT_S(vqshls, DO_SQSHL_OP)
  DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvsw, 4, uint32_t)
  DO_VADDV(vaddvub, 1, uint8_t)
  DO_VADDV(vaddvuh, 2, uint16_t)
  DO_VADDV(vaddvuw, 4, uint32_t)
 +
 +/* Shifts by immediate */
 +#define DO_2SHIFT(OP, ESIZE, TYPE, FN)                          \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        TYPE *d = vd, *m = vm;                                  \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            mergemask(&d[H##ESIZE(e)],                          \
 +                      FN(m[H##ESIZE(e)], shift), mask);         \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +#define DO_2SHIFT_SAT(OP, ESIZE, TYPE, FN)                      \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        TYPE *d = vd, *m = vm;                                  \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        bool qc = false;                                        \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            bool sat = false;                                   \
 +            mergemask(&d[H##ESIZE(e)],                          \
 +                      FN(m[H##ESIZE(e)], shift, &sat), mask);   \
 +            qc |= sat & mask & 1;                               \
 +        }                                                       \
 +        if (qc) {                                               \
 +            env->vfp.qc[0] = qc;                                \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +/* provide unsigned 2-op shift helpers for all sizes */
 +#define DO_2SHIFT_U(OP, FN)                     \
 +    DO_2SHIFT(OP##b, 1, uint8_t, FN)            \
 +    DO_2SHIFT(OP##h, 2, uint16_t, FN)           \
 +    DO_2SHIFT(OP##w, 4, uint32_t, FN)
 +
 +#define DO_2SHIFT_SAT_U(OP, FN)                 \
 +    DO_2SHIFT_SAT(OP##b, 1, uint8_t, FN)        \
 +    DO_2SHIFT_SAT(OP##h, 2, uint16_t, FN)       \
 +    DO_2SHIFT_SAT(OP##w, 4, uint32_t, FN)
 +#define DO_2SHIFT_SAT_S(OP, FN)                 \
 +    DO_2SHIFT_SAT(OP##b, 1, int8_t, FN)         \
 +    DO_2SHIFT_SAT(OP##h, 2, int16_t, FN)        \
 +    DO_2SHIFT_SAT(OP##w, 4, int32_t, FN)
 +
 +DO_2SHIFT_U(vshli_u, DO_VSHLU)
 +DO_2SHIFT_SAT_U(vqshli_u, DO_UQSHL_OP)
 +DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
 +DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenTwoOpShiftFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpImmFn(TCGv_ptr, TCGv_ptr, TCGv_i64);
@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm_1r(DisasContext *s, arg_1imm *a)
      }
      return do_1imm(s, a, fn);
  }
 +
 +static bool do_2shift(DisasContext *s, arg_2shift *a, MVEGenTwoOpShiftFn fn,
 +                      bool negateshift)
 +{
 +    TCGv_ptr qd, qm;
 +    int shift = a->shift;
 +
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd | a->qm) ||
 +        !fn) {
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    /*
 +     * When we handle a right shift insn using a left-shift helper
 +     * which permits a negative shift count to indicate a right-shift,
 +     * we must negate the shift count.
 +     */
 +    if (negateshift) {
 +        shift = -shift;
 +    }
 +
 +    qd = mve_qreg_ptr(a->qd);
 +    qm = mve_qreg_ptr(a->qm);
 +    fn(cpu_env, qd, qm, tcg_constant_i32(shift));
 +    tcg_temp_free_ptr(qd);
 +    tcg_temp_free_ptr(qm);
 +    mve_update_eci(s);
 +    return true;
 +}
 +
 +#define DO_2SHIFT(INSN, FN, NEGATESHIFT)                         \
 +    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
 +    {                                                           \
 +        static MVEGenTwoOpShiftFn * const fns[] = {             \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +            gen_helper_mve_##FN##w,                             \
 +            NULL,                                               \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], NEGATESHIFT);      \
 +    }
 +
 +DO_2SHIFT(VSHLI, vshli_u, false)
 +DO_2SHIFT(VQSHLI_S, vqshli_s, false)
 +DO_2SHIFT(VQSHLI_U, vqshli_u, false)
 +DO_2SHIFT(VQSHLUI, vqshlui_s, false)
 --
 .20.1

-[Qemu-devel] [PULL 03/21] target/arm: Mark disas_set_insn_syndrome inline
+[PULL 14/24] target/arm: Implement MVE vector shift right by immediate insns
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE vector shift right by immediate insns VSHRI and
 VRSHRI.  As with Neon, we implement these by using helper functions
 which perform left shifts but allow negative shift counts to indicate
 right shifts.
-If it isn't used when translate.h is included,
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-we'll get a compiler Werror.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-9-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h     | 12 ++++++++++++
  target/arm/translate.h      | 20 ++++++++++++++++++++
  target/arm/mve.decode       | 28 ++++++++++++++++++++++++++++
  target/arm/mve_helper.c     |  7 +++++++
  target/arm/translate-mve.c  |  5 +++++
  target/arm/translate-neon.c | 18 ------------------
 files changed, 72 insertions(+), 18 deletions(-)
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+index XXXXXXX..XXXXXXX 100644
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+--- a/target/arm/helper-mve.h
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
++++ b/target/arm/helper-mve.h
-Message-id: 20180119045438.28582-2-richard.henderson@linaro.org
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+ DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
----
+ DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
- target/arm/translate.h | 2 +-
-file changed, 1 insertion(+), 1 deletion(-)
++DEF_HELPER_FLAGS_4(mve_vshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_4(mve_vshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ static inline int default_exception_el(DisasContext *s)
+@@ -XXX,XX +XXX,XX @@ static inline int times_2_plus_1(DisasContext *s, int x)
-             ? 3 : MAX(1, s->current_el);
+     return x * 2 + 1;
  }
--static void disas_set_insn_syndrome(DisasContext *s, uint32_t syn)
++static inline int rsub_64(DisasContext *s, int x)
-+static inline void disas_set_insn_syndrome(DisasContext *s, uint32_t syn)
++{
 +    return 64 - x;
 +}
 +
 +static inline int rsub_32(DisasContext *s, int x)
 +{
 +    return 32 - x;
 +}
 +
 +static inline int rsub_16(DisasContext *s, int x)
 +{
 +    return 16 - x;
 +}
 +
 +static inline int rsub_8(DisasContext *s, int x)
 +{
 +    return 8 - x;
 +}
 +
  static inline int arm_dc_feature(DisasContext *dc, int feature)
  {
-     /* We don't need to save all of the syndrome so we mask and shift
+     return (dc->features & (1ULL << feature)) != 0;
-      * out unneeded bits to help the sleb128 encoder do a better job.
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  @2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
  @2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
 +# Right shifts are encoded as N - shift, where N is the element size in bits.
 +%rshift_i5  16:5 !function=rsub_32
 +%rshift_i4  16:4 !function=rsub_16
 +%rshift_i3  16:3 !function=rsub_8
 +
 +@2_shr_b .... .... .. 001 ... .... .... .... .... &2shift qd=%qd qm=%qm \
 +         size=0 shift=%rshift_i3
 +@2_shr_h .... .... .. 01 .... .... .... .... .... &2shift qd=%qd qm=%qm \
 +         size=1 shift=%rshift_i4
 +@2_shr_w .... .... .. 1 ..... .... .... .... .... &2shift qd=%qd qm=%qm \
 +         size=2 shift=%rshift_i5
 +
  # Vector loads and stores
  # Widening loads and narrowing stores:
@@ -XXX,XX +XXX,XX @@ VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
  VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_b
  VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_h
  VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_w
 +
 +VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_b
 +VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_h
 +VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_w
 +
 +VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_b
 +VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_h
 +VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_w
 +
 +VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
 +VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
 +VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 +
 +VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
 +VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
 +VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvuw, 4, uint32_t)
      DO_2SHIFT(OP##b, 1, uint8_t, FN)            \
      DO_2SHIFT(OP##h, 2, uint16_t, FN)           \
      DO_2SHIFT(OP##w, 4, uint32_t, FN)
 +#define DO_2SHIFT_S(OP, FN)                     \
 +    DO_2SHIFT(OP##b, 1, int8_t, FN)             \
 +    DO_2SHIFT(OP##h, 2, int16_t, FN)            \
 +    DO_2SHIFT(OP##w, 4, int32_t, FN)
  #define DO_2SHIFT_SAT_U(OP, FN)                 \
      DO_2SHIFT_SAT(OP##b, 1, uint8_t, FN)        \
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvuw, 4, uint32_t)
      DO_2SHIFT_SAT(OP##w, 4, int32_t, FN)
  DO_2SHIFT_U(vshli_u, DO_VSHLU)
 +DO_2SHIFT_S(vshli_s, DO_VSHLS)
  DO_2SHIFT_SAT_U(vqshli_u, DO_UQSHL_OP)
  DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
  DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
 +DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
 +DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHLI, vshli_u, false)
  DO_2SHIFT(VQSHLI_S, vqshli_s, false)
  DO_2SHIFT(VQSHLI_U, vqshli_u, false)
  DO_2SHIFT(VQSHLUI, vqshlui_s, false)
 +/* These right shifts use a left-shift helper with negated shift count */
 +DO_2SHIFT(VSHRI_S, vshli_s, true)
 +DO_2SHIFT(VSHRI_U, vshli_u, true)
 +DO_2SHIFT(VRSHRI_S, vrshli_s, true)
 +DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 diff --git a/target/arm/translate-neon.c b/target/arm/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c
 +++ b/target/arm/translate-neon.c
@@ -XXX,XX +XXX,XX @@ static inline int plus1(DisasContext *s, int x)
      return x + 1;
  }
 -static inline int rsub_64(DisasContext *s, int x)
 -{
 -    return 64 - x;
 -}
 -
 -static inline int rsub_32(DisasContext *s, int x)
 -{
 -    return 32 - x;
 -}
 -static inline int rsub_16(DisasContext *s, int x)
 -{
 -    return 16 - x;
 -}
 -static inline int rsub_8(DisasContext *s, int x)
 -{
 -    return 8 - x;
 -}
 -
  static inline int neon_3same_fp_size(DisasContext *s, int x)
  {
      /* Convert 0==fp32, 1==fp16 into a MO_* value */
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 09/21] vmstate: Add VMSTATE_UINT64_SUB_ARRAY
+[PULL 15/24] target/arm: Implement MVE VSHLL
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VHLL (vector shift left long) insn.  This has two
 encodings: the T1 encoding is the usual shift-by-immediate format,
 and the T2 encoding is a special case where the shift count is always
 equal to the element size.
-At the same time, move VMSTATE_UINT32_SUB_ARRAY
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-beside the other UINT32 definitions.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-10-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  9 +++++++
  target/arm/mve.decode      | 53 +++++++++++++++++++++++++++++++++++---
  target/arm/mve_helper.c    | 32 +++++++++++++++++++++++
  target/arm/translate-mve.c | 15 +++++++++++
 files changed, 105 insertions(+), 4 deletions(-)
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20180119045438.28582-8-richard.henderson@linaro.org
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/migration/vmstate.h | 9 ++++++---
 file changed, 6 insertions(+), 3 deletions(-)
 diff --git a/include/migration/vmstate.h b/include/migration/vmstate.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/migration/vmstate.h
+--- a/target/arm/helper-mve.h
-+++ b/include/migration/vmstate.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ extern const VMStateInfo vmstate_info_qtailq;
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define VMSTATE_UINT32_ARRAY(_f, _s, _n)                              \
+ DEF_HELPER_FLAGS_4(mve_vrshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     VMSTATE_UINT32_ARRAY_V(_f, _s, _n, 0)
+ DEF_HELPER_FLAGS_4(mve_vrshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vrshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +#define VMSTATE_UINT32_SUB_ARRAY(_f, _s, _start, _num)                \
 +    VMSTATE_SUB_ARRAY(_f, _s, _start, _num, 0, vmstate_info_uint32, uint32_t)
 +
- #define VMSTATE_UINT32_2DARRAY(_f, _s, _n1, _n2)                      \
++DEF_HELPER_FLAGS_4(mve_vshllbsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     VMSTATE_UINT32_2DARRAY_V(_f, _s, _n1, _n2, 0)
++DEF_HELPER_FLAGS_4(mve_vshllbsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshllbub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@ extern const VMStateInfo vmstate_info_qtailq;
++DEF_HELPER_FLAGS_4(mve_vshllbuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define VMSTATE_UINT64_ARRAY(_f, _s, _n)                              \
++DEF_HELPER_FLAGS_4(mve_vshlltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     VMSTATE_UINT64_ARRAY_V(_f, _s, _n, 0)
++DEF_HELPER_FLAGS_4(mve_vshlltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshlltub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#define VMSTATE_UINT64_SUB_ARRAY(_f, _s, _start, _num)                \
++DEF_HELPER_FLAGS_4(mve_vshlltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    VMSTATE_SUB_ARRAY(_f, _s, _start, _num, 0, vmstate_info_uint64, uint64_t)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  @2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
  @2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
 +@2_shll_b .... .... ... 01 shift:3 .... .... .... .... &2shift qd=%qd qm=%qm size=0
 +@2_shll_h .... .... ... 1  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
 +# VSHLL encoding T2 where shift == esize
 +@2_shll_esize_b .... .... .... 00 .. .... .... .... .... &2shift \
 +                qd=%qd qm=%qm size=0 shift=8
 +@2_shll_esize_h .... .... .... 01 .. .... .... .... .... &2shift \
 +                qd=%qd qm=%qm size=1 shift=16
 +
- #define VMSTATE_UINT64_2DARRAY(_f, _s, _n1, _n2)                      \
+ # Right shifts are encoded as N - shift, where N is the element size in bits.
-     VMSTATE_UINT64_2DARRAY_V(_f, _s, _n1, _n2, 0)
+ %rshift_i5  16:5 !function=rsub_32
+ %rshift_i4  16:4 !function=rsub_16
-@@ -XXX,XX +XXX,XX @@ extern const VMStateInfo vmstate_info_qtailq;
+@@ -XXX,XX +XXX,XX @@ VADD             1110 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
- #define VMSTATE_INT32_ARRAY(_f, _s, _n)                               \
+ VSUB             1111 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
-     VMSTATE_INT32_ARRAY_V(_f, _s, _n, 0)
+ VMUL             1110 1111 0 . .. ... 0 ... 0 1001 . 1 . 1 ... 0 @2op
--#define VMSTATE_UINT32_SUB_ARRAY(_f, _s, _start, _num)                \
+-VMULH_S          111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
--    VMSTATE_SUB_ARRAY(_f, _s, _start, _num, 0, vmstate_info_uint32, uint32_t)
+-VMULH_U          111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
--
++# The VSHLL T2 encoding is not a @2op pattern, but is here because it
- #define VMSTATE_INT64_ARRAY_V(_f, _s, _n, _v)                         \
++# overlaps what would be size=0b11 VMULH/VRMULH
-     VMSTATE_ARRAY(_f, _s, _n, _v, vmstate_info_int64, int64_t)
++{
++  VSHLL_BS       111 0 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_BS       111 0 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_h
 -VRMULH_S         111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 -VRMULH_U         111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +  VMULH_S        111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +}
 +
 +{
 +  VSHLL_BU       111 1 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_BU       111 1 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VMULH_U        111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +}
 +
 +{
 +  VSHLL_TS       111 0 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_TS       111 0 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VRMULH_S       111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +}
 +
 +{
 +  VSHLL_TU       111 1 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_TU       111 1 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VRMULH_U       111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +}
  VMAX_S           111 0 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
  VMAX_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
@@ -XXX,XX +XXX,XX @@ VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 +
 +# VSHLL T1 encoding; the T2 VSHLL encoding is elsewhere in this file
 +VSHLL_BS          111 0 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_BS          111 0 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_BU          111 1 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_BU          111 1 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
  DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
  DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
  DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 +
 +/*
 + * Long shifts taking half-sized inputs from top or bottom of the input
 + * vector and producing a double-width result. ESIZE, TYPE are for
 + * the input, and LESIZE, LTYPE for the output.
 + * Unlike the normal shift helpers, we do not handle negative shift counts,
 + * because the long shift is strictly left-only.
 + */
 +#define DO_VSHLL(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE)                   \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,             \
 +                                void *vm, uint32_t shift)               \
 +    {                                                                   \
 +        LTYPE *d = vd;                                                  \
 +        TYPE *m = vm;                                                   \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned le;                                                    \
 +        assert(shift <= 16);                                            \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
 +            LTYPE r = (LTYPE)m[H##ESIZE(le * 2 + TOP)] << shift;        \
 +            mergemask(&d[H##LESIZE(le)], r, mask);                      \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
 +#define DO_VSHLL_ALL(OP, TOP)                                \
 +    DO_VSHLL(OP##sb, TOP, 1, int8_t, 2, int16_t)             \
 +    DO_VSHLL(OP##ub, TOP, 1, uint8_t, 2, uint16_t)           \
 +    DO_VSHLL(OP##sh, TOP, 2, int16_t, 4, int32_t)            \
 +    DO_VSHLL(OP##uh, TOP, 2, uint16_t, 4, uint32_t)          \
 +
 +DO_VSHLL_ALL(vshllb, false)
 +DO_VSHLL_ALL(vshllt, true)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHRI_S, vshli_s, true)
  DO_2SHIFT(VSHRI_U, vshli_u, true)
  DO_2SHIFT(VRSHRI_S, vrshli_s, true)
  DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 +
 +#define DO_VSHLL(INSN, FN)                                      \
 +    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
 +    {                                                           \
 +        static MVEGenTwoOpShiftFn * const fns[] = {             \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], false);            \
 +    }
 +
 +DO_VSHLL(VSHLL_BS, vshllbs)
 +DO_VSHLL(VSHLL_BU, vshllbu)
 +DO_VSHLL(VSHLL_TS, vshllts)
 +DO_VSHLL(VSHLL_TU, vshlltu)
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 18/21] hw/arm/virt: Check that the CPU realize method succeeded
+[PULL 16/24] target/arm: Implement MVE VSRI, VSLI
-We were passing a NULL error pointer to the object_property_set_bool()
+Implement the MVE VSRI and VSLI insns, which perform a
-call that realizes the CPU object. This meant that we wouldn't detect
+shift-and-insert operation.
 failure, and would plough blindly on to crash later trying to use a
 NULL CPU object pointer. Detect errors and fail instead.
 In particular, this will be necessary to detect the user error
 of using "-cpu host" without "-enable-kvm" once we make the host
 CPU type be registered unconditionally rather than only in
 kvm_arch_init().
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-11-peter.maydell@linaro.org
 ---
- hw/arm/virt.c | 2 +-
+ target/arm/helper-mve.h    |  8 ++++++++
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/mve.decode      |  9 ++++++++
  target/arm/mve_helper.c    | 42 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  3 +++
 files changed, 62 insertions(+)
-diff --git a/hw/arm/virt.c b/hw/arm/virt.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/virt.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vshlltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                                      "secure-memory", &error_abort);
+ DEF_HELPER_FLAGS_4(mve_vshlltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-         }
+ DEF_HELPER_FLAGS_4(mve_vshlltub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vshlltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
--        object_property_set_bool(cpuobj, true, "realized", NULL);
++
-+        object_property_set_bool(cpuobj, true, "realized", &error_fatal);
++DEF_HELPER_FLAGS_4(mve_vsrib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-         object_unref(cpuobj);
++DEF_HELPER_FLAGS_4(mve_vsrih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     }
++DEF_HELPER_FLAGS_4(mve_vsriw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     fdt_add_timer_nodes(vms);
++
 +DEF_HELPER_FLAGS_4(mve_vslib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vslih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vsliw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
  VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
  VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +# Shift-and-insert
 +VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_b
 +VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_h
 +VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_w
 +
 +VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
 +VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
 +VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
  DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
  DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 +/* Shift-and-insert; we always work with 64 bits at a time */
 +#define DO_2SHIFT_INSERT(OP, ESIZE, SHIFTFN, MASKFN)                    \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,             \
 +                                void *vm, uint32_t shift)               \
 +    {                                                                   \
 +        uint64_t *d = vd, *m = vm;                                      \
 +        uint16_t mask;                                                  \
 +        uint64_t shiftmask;                                             \
 +        unsigned e;                                                     \
 +        if (shift == 0 || shift == ESIZE * 8) {                         \
 +            /*                                                          \
 +             * Only VSLI can shift by 0; only VSRI can shift by <dt>.   \
 +             * The generic logic would give the right answer for 0 but  \
 +             * fails for <dt>.                                          \
 +             */                                                         \
 +            goto done;                                                  \
 +        }                                                               \
 +        assert(shift < ESIZE * 8);                                      \
 +        mask = mve_element_mask(env);                                   \
 +        /* ESIZE / 2 gives the MO_* value if ESIZE is in [1,2,4] */     \
 +        shiftmask = dup_const(ESIZE / 2, MASKFN(ESIZE * 8, shift));     \
 +        for (e = 0; e < 16 / 8; e++, mask >>= 8) {                      \
 +            uint64_t r = (SHIFTFN(m[H8(e)], shift) & shiftmask) |       \
 +                (d[H8(e)] & ~shiftmask);                                \
 +            mergemask(&d[H8(e)], r, mask);                              \
 +        }                                                               \
 +done:                                                                   \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
 +#define DO_SHL(N, SHIFT) ((N) << (SHIFT))
 +#define DO_SHR(N, SHIFT) ((N) >> (SHIFT))
 +#define SHL_MASK(EBITS, SHIFT) MAKE_64BIT_MASK((SHIFT), (EBITS) - (SHIFT))
 +#define SHR_MASK(EBITS, SHIFT) MAKE_64BIT_MASK(0, (EBITS) - (SHIFT))
 +
 +DO_2SHIFT_INSERT(vsrib, 1, DO_SHR, SHR_MASK)
 +DO_2SHIFT_INSERT(vsrih, 2, DO_SHR, SHR_MASK)
 +DO_2SHIFT_INSERT(vsriw, 4, DO_SHR, SHR_MASK)
 +DO_2SHIFT_INSERT(vslib, 1, DO_SHL, SHL_MASK)
 +DO_2SHIFT_INSERT(vslih, 2, DO_SHL, SHL_MASK)
 +DO_2SHIFT_INSERT(vsliw, 4, DO_SHL, SHL_MASK)
 +
  /*
   * Long shifts taking half-sized inputs from top or bottom of the input
   * vector and producing a double-width result. ESIZE, TYPE are for
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHRI_U, vshli_u, true)
  DO_2SHIFT(VRSHRI_S, vrshli_s, true)
  DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 +DO_2SHIFT(VSRI, vsri, false)
 +DO_2SHIFT(VSLI, vsli, false)
 +
  #define DO_VSHLL(INSN, FN)                                      \
      static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
      {                                                           \
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 21/21] pl110: Implement vertical compare/next base interrupts
+[PULL 17/24] target/arm: Implement MVE VSHRN, VRSHRN
-From: Linus Walleij <linus.walleij@linaro.org>
+Implement the MVE shift-right-and-narrow insn VSHRN and VRSHRN.
-This implements rudimentary support for interrupt generation on the
+do_urshr() is borrowed from sve_helper.c.
 PL110. I am working on a new DRI/KMS driver for Linux and since that
 uses the blanking interrupt, we need something to fire here. Without
 any interrupt support Linux waits for a while and then gives ugly
 messages about the vblank not working in the console (it does not
 hang perpetually or anything though, DRI is pretty forgiving).
-I solved it for now by setting up a timer to fire at 60Hz and pull
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-the interrupts for "vertical compare" and "next memory base"
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-at this interval. This works fine and fires roughly the same number
+Message-id: 20210628135835.6690-12-peter.maydell@linaro.org
-of IRQs on QEMU as on the hardware and leaves the console clean
+---
-and nice.
+ target/arm/helper-mve.h    | 10 ++++++++++
  target/arm/mve.decode      | 11 +++++++++++
  target/arm/mve_helper.c    | 40 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 15 ++++++++++++++
 files changed, 76 insertions(+)
-People who want to create more accurate emulation can probably work
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 on top of this if need be. It is certainly closer to the hardware
 behaviour than what we have today anyway.
 Cc: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Linus Walleij <linus.walleij@linaro.org>
 Message-id: 20180123225654.5764-1-linus.walleij@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 [PMM: folded long lines]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/display/pl110.c | 30 +++++++++++++++++++++++++++++-
 file changed, 29 insertions(+), 1 deletion(-)
 diff --git a/hw/display/pl110.c b/hw/display/pl110.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/display/pl110.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/display/pl110.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vsriw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "ui/console.h"
+ DEF_HELPER_FLAGS_4(mve_vslib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "framebuffer.h"
+ DEF_HELPER_FLAGS_4(mve_vslih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "ui/pixel_ops.h"
+ DEF_HELPER_FLAGS_4(mve_vsliw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#include "qemu/timer.h"
++
- #include "qemu/log.h"
++DEF_HELPER_FLAGS_4(mve_vshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PL110_CR_EN   0x001
++DEF_HELPER_FLAGS_4(mve_vshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@
++DEF_HELPER_FLAGS_4(mve_vshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PL110_CR_BEBO 0x200
++
- #define PL110_CR_BEPO 0x400
++DEF_HELPER_FLAGS_4(mve_vrshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PL110_CR_PWR  0x800
++DEF_HELPER_FLAGS_4(mve_vrshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#define PL110_IE_NB   0x004
++DEF_HELPER_FLAGS_4(mve_vrshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#define PL110_IE_VC   0x008
++DEF_HELPER_FLAGS_4(mve_vrshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
- enum pl110_bppmode
+index XXXXXXX..XXXXXXX 100644
- {
+--- a/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct PL110State {
++++ b/target/arm/mve.decode
-     MemoryRegion iomem;
+@@ -XXX,XX +XXX,XX @@ VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_w
-     MemoryRegionSection fbsection;
+ VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
-     QemuConsole *con;
+ VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
-+    QEMUTimer *vblank_timer;
+ VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
++
-     int version;
++# Narrowing shifts (which only support b and h sizes)
-     uint32_t timing[4];
++VSHRNB            111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
-@@ -XXX,XX +XXX,XX @@ static void pl110_resize(PL110State *s, int width, int height)
++VSHRNB            111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
- /* Update interrupts.  */
++VSHRNT            111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
- static void pl110_update(PL110State *s)
++VSHRNT            111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
- {
++
--  /* TODO: Implement interrupts.  */
++VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
-+    /* Raise IRQ if enabled and any status bit is 1 */
++VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
-+    if (s->int_status & s->int_mask) {
++VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
-+        qemu_irq_raise(s->irq);
++VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_INSERT(vsliw, 4, DO_SHL, SHL_MASK)
  DO_VSHLL_ALL(vshllb, false)
  DO_VSHLL_ALL(vshllt, true)
 +
 +/*
 + * Narrowing right shifts, taking a double sized input, shifting it
 + * and putting the result in either the top or bottom half of the output.
 + * ESIZE, TYPE are the output, and LESIZE, LTYPE the input.
 + */
 +#define DO_VSHRN(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)       \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        LTYPE *m = vm;                                          \
 +        TYPE *d = vd;                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned le;                                            \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) { \
 +            TYPE r = FN(m[H##LESIZE(le)], shift);               \
 +            mergemask(&d[H##ESIZE(le * 2 + TOP)], r, mask);     \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +#define DO_VSHRN_ALL(OP, FN)                                    \
 +    DO_VSHRN(OP##bb, false, 1, uint8_t, 2, uint16_t, FN)        \
 +    DO_VSHRN(OP##bh, false, 2, uint16_t, 4, uint32_t, FN)       \
 +    DO_VSHRN(OP##tb, true, 1, uint8_t, 2, uint16_t, FN)         \
 +    DO_VSHRN(OP##th, true, 2, uint16_t, 4, uint32_t, FN)
 +
 +static inline uint64_t do_urshr(uint64_t x, unsigned sh)
 +{
 +    if (likely(sh < 64)) {
 +        return (x >> sh) + ((x >> (sh - 1)) & 1);
 +    } else if (sh == 64) {
 +        return x >> 63;
 +    } else {
-+        qemu_irq_lower(s->irq);
++        return 0;
 +    }
 +}
 +
-+static void pl110_vblank_interrupt(void *opaque)
++DO_VSHRN_ALL(vshrn, DO_SHR)
-+{
++DO_VSHRN_ALL(vrshrn, do_urshr)
-+    PL110State *s = opaque;
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_VSHLL(VSHLL_BS, vshllbs)
  DO_VSHLL(VSHLL_BU, vshllbu)
  DO_VSHLL(VSHLL_TS, vshllts)
  DO_VSHLL(VSHLL_TU, vshlltu)
 +
-+    /* Fire the vertical compare and next base IRQs and re-arm */
++#define DO_2SHIFT_N(INSN, FN)                                   \
-+    s->int_status |= (PL110_IE_NB | PL110_IE_VC);
++    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
-+    timer_mod(s->vblank_timer,
++    {                                                           \
-+              qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
++        static MVEGenTwoOpShiftFn * const fns[] = {             \
-+                                NANOSECONDS_PER_SECOND / 60);
++            gen_helper_mve_##FN##b,                             \
-+    pl110_update(s);
++            gen_helper_mve_##FN##h,                             \
- }
++        };                                                      \
++        return do_2shift(s, a, fns[a->size], false);            \
- static uint64_t pl110_read(void *opaque, hwaddr offset,
++    }
-@@ -XXX,XX +XXX,XX @@ static void pl110_write(void *opaque, hwaddr offset,
++
-         s->bpp = (val >> 1) & 7;
++DO_2SHIFT_N(VSHRNB, vshrnb)
-         if (pl110_enabled(s)) {
++DO_2SHIFT_N(VSHRNT, vshrnt)
-             qemu_console_resize(s->con, s->cols, s->rows);
++DO_2SHIFT_N(VRSHRNB, vrshrnb)
-+            timer_mod(s->vblank_timer,
++DO_2SHIFT_N(VRSHRNT, vrshrnt)
 +                      qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
 +                                        NANOSECONDS_PER_SECOND / 60);
 +        } else {
 +            timer_del(s->vblank_timer);
          }
          break;
      case 10: /* LCDICR */
@@ -XXX,XX +XXX,XX @@ static void pl110_realize(DeviceState *dev, Error **errp)
      memory_region_init_io(&s->iomem, OBJECT(s), &pl110_ops, s, "pl110", 0x1000);
      sysbus_init_mmio(sbd, &s->iomem);
      sysbus_init_irq(sbd, &s->irq);
 +    s->vblank_timer = timer_new_ns(QEMU_CLOCK_VIRTUAL,
 +                                   pl110_vblank_interrupt, s);
      qdev_init_gpio_in(dev, pl110_mux_ctrl_set, 1);
      s->con = graphic_console_init(dev, 0, &pl110_gfx_ops, s);
  }
 --
-.7.4
+.20.1

-New patch
+[PULL 18/24] target/arm: Implement MVE saturating narrowing shifts
+Implement the MVE saturating shift-right-and-narrow insns
 VQSHRN, VQSHRUN, VQRSHRN and VQRSHRUN.
 do_srshr() is borrowed from sve_helper.c.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-13-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  30 +++++++++++
  target/arm/mve.decode      |  28 ++++++++++
  target/arm/mve_helper.c    | 104 +++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  12 +++++
 files changed, 174 insertions(+)
 diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vrshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vrshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vrshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqrshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
  VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
  VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
  VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
 +
 +VQSHRNB_S         111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNB_S         111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_h
 +VQSHRNT_S         111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNT_S         111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_h
 +VQSHRNB_U         111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNB_U         111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_h
 +VQSHRNT_U         111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNT_U         111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_h
 +
 +VQSHRUNB          111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
 +VQSHRUNB          111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
 +VQSHRUNT          111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
 +VQSHRUNT          111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 +
 +VQRSHRNB_S        111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNB_S        111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNT_S        111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNT_S        111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNB_U        111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNB_U        111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNT_U        111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNT_U        111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_h
 +
 +VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
 +VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
 +VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
 +VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t do_urshr(uint64_t x, unsigned sh)
      }
  }
 +static inline int64_t do_srshr(int64_t x, unsigned sh)
 +{
 +    if (likely(sh < 64)) {
 +        return (x >> sh) + ((x >> (sh - 1)) & 1);
 +    } else {
 +        /* Rounding the sign bit always produces 0. */
 +        return 0;
 +    }
 +}
 +
  DO_VSHRN_ALL(vshrn, DO_SHR)
  DO_VSHRN_ALL(vrshrn, do_urshr)
 +
 +static inline int32_t do_sat_bhs(int64_t val, int64_t min, int64_t max,
 +                                 bool *satp)
 +{
 +    if (val > max) {
 +        *satp = true;
 +        return max;
 +    } else if (val < min) {
 +        *satp = true;
 +        return min;
 +    } else {
 +        return val;
 +    }
 +}
 +
 +/* Saturating narrowing right shifts */
 +#define DO_VSHRN_SAT(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)   \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        LTYPE *m = vm;                                          \
 +        TYPE *d = vd;                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        bool qc = false;                                        \
 +        unsigned le;                                            \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) { \
 +            bool sat = false;                                   \
 +            TYPE r = FN(m[H##LESIZE(le)], shift, &sat);         \
 +            mergemask(&d[H##ESIZE(le * 2 + TOP)], r, mask);     \
 +            qc |= sat && (mask & 1 << (TOP * ESIZE));           \
 +        }                                                       \
 +        if (qc) {                                               \
 +            env->vfp.qc[0] = qc;                                \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +#define DO_VSHRN_SAT_UB(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 1, uint8_t, 2, uint16_t, FN)       \
 +    DO_VSHRN_SAT(TOP, true, 1, uint8_t, 2, uint16_t, FN)
 +
 +#define DO_VSHRN_SAT_UH(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 2, uint16_t, 4, uint32_t, FN)      \
 +    DO_VSHRN_SAT(TOP, true, 2, uint16_t, 4, uint32_t, FN)
 +
 +#define DO_VSHRN_SAT_SB(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 1, int8_t, 2, int16_t, FN)         \
 +    DO_VSHRN_SAT(TOP, true, 1, int8_t, 2, int16_t, FN)
 +
 +#define DO_VSHRN_SAT_SH(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 2, int16_t, 4, int32_t, FN)        \
 +    DO_VSHRN_SAT(TOP, true, 2, int16_t, 4, int32_t, FN)
 +
 +#define DO_SHRN_SB(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), INT8_MIN, INT8_MAX, SATP)
 +#define DO_SHRN_UB(N, M, SATP)                                  \
 +    do_sat_bhs((uint64_t)(N) >> (M), 0, UINT8_MAX, SATP)
 +#define DO_SHRUN_B(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), 0, UINT8_MAX, SATP)
 +
 +#define DO_SHRN_SH(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), INT16_MIN, INT16_MAX, SATP)
 +#define DO_SHRN_UH(N, M, SATP)                                  \
 +    do_sat_bhs((uint64_t)(N) >> (M), 0, UINT16_MAX, SATP)
 +#define DO_SHRUN_H(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), 0, UINT16_MAX, SATP)
 +
 +#define DO_RSHRN_SB(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), INT8_MIN, INT8_MAX, SATP)
 +#define DO_RSHRN_UB(N, M, SATP)                                 \
 +    do_sat_bhs(do_urshr(N, M), 0, UINT8_MAX, SATP)
 +#define DO_RSHRUN_B(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), 0, UINT8_MAX, SATP)
 +
 +#define DO_RSHRN_SH(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), INT16_MIN, INT16_MAX, SATP)
 +#define DO_RSHRN_UH(N, M, SATP)                                 \
 +    do_sat_bhs(do_urshr(N, M), 0, UINT16_MAX, SATP)
 +#define DO_RSHRUN_H(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), 0, UINT16_MAX, SATP)
 +
 +DO_VSHRN_SAT_SB(vqshrnb_sb, vqshrnt_sb, DO_SHRN_SB)
 +DO_VSHRN_SAT_SH(vqshrnb_sh, vqshrnt_sh, DO_SHRN_SH)
 +DO_VSHRN_SAT_UB(vqshrnb_ub, vqshrnt_ub, DO_SHRN_UB)
 +DO_VSHRN_SAT_UH(vqshrnb_uh, vqshrnt_uh, DO_SHRN_UH)
 +DO_VSHRN_SAT_SB(vqshrunbb, vqshruntb, DO_SHRUN_B)
 +DO_VSHRN_SAT_SH(vqshrunbh, vqshrunth, DO_SHRUN_H)
 +
 +DO_VSHRN_SAT_SB(vqrshrnb_sb, vqrshrnt_sb, DO_RSHRN_SB)
 +DO_VSHRN_SAT_SH(vqrshrnb_sh, vqrshrnt_sh, DO_RSHRN_SH)
 +DO_VSHRN_SAT_UB(vqrshrnb_ub, vqrshrnt_ub, DO_RSHRN_UB)
 +DO_VSHRN_SAT_UH(vqrshrnb_uh, vqrshrnt_uh, DO_RSHRN_UH)
 +DO_VSHRN_SAT_SB(vqrshrunbb, vqrshruntb, DO_RSHRUN_B)
 +DO_VSHRN_SAT_SH(vqrshrunbh, vqrshrunth, DO_RSHRUN_H)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_N(VSHRNB, vshrnb)
  DO_2SHIFT_N(VSHRNT, vshrnt)
  DO_2SHIFT_N(VRSHRNB, vrshrnb)
  DO_2SHIFT_N(VRSHRNT, vrshrnt)
 +DO_2SHIFT_N(VQSHRNB_S, vqshrnb_s)
 +DO_2SHIFT_N(VQSHRNT_S, vqshrnt_s)
 +DO_2SHIFT_N(VQSHRNB_U, vqshrnb_u)
 +DO_2SHIFT_N(VQSHRNT_U, vqshrnt_u)
 +DO_2SHIFT_N(VQSHRUNB, vqshrunb)
 +DO_2SHIFT_N(VQSHRUNT, vqshrunt)
 +DO_2SHIFT_N(VQRSHRNB_S, vqrshrnb_s)
 +DO_2SHIFT_N(VQRSHRNT_S, vqrshrnt_s)
 +DO_2SHIFT_N(VQRSHRNB_U, vqrshrnb_u)
 +DO_2SHIFT_N(VQRSHRNT_U, vqrshrnt_u)
 +DO_2SHIFT_N(VQRSHRUNB, vqrshrunb)
 +DO_2SHIFT_N(VQRSHRUNT, vqrshrunt)
 --
 .20.1

-[Qemu-devel] [PULL 15/21] hw/intc/arm_gic: Fix C_RPR value on idle priority
+[PULL 19/24] target/arm: Implement MVE VSHLC
-From: Luc MICHEL <luc.michel@git.antfield.fr>
+Implement the MVE VSHLC insn, which performs a shift left of the
 entire vector with carry in bits provided from a general purpose
 register and carry out bits written back to that register.
-When there is no active interrupts in the GIC, a read to the C_RPR
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-register should return the value of the "Idle priority", which is either
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-the maximum value an IRQ priority field can be set to, or 0xff.
+Message-id: 20210628135835.6690-14-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  2 ++
  target/arm/mve.decode      |  2 ++
  target/arm/mve_helper.c    | 38 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 30 ++++++++++++++++++++++++++++++
 files changed, 72 insertions(+)
-Since the QEMU GIC model implements all the 8 priority bits, the Idle
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 priority is 0xff.
 Internally, when there is no active interrupt, the running priority
 value is 0x100. The gic_get_running_priority function returns an uint8_t
 and thus, truncate this value to 0x00 when returning it. This is wrong since
 a value of 0x00 correspond to the maximum possible priority.
 This commit fixes the returned value when the internal value is 0x100.
 Note that it is correct for the Non-Secure view to return 0xff even
 though from the NS world point of view, only 7 priority bits are
 implemented. The specification states that the Idle priority can be 0xff
 even when not all the 8 priority bits are implemented. This has been
 verified against a real GICv2 hardware on a Xilinx ZynqMP based board.
 Regarding the ARM11MPCore version of the GIC, the specification is not
 clear on that point, so this commit does not alter its behavior.
 Signed-off-by: Luc MICHEL <luc.michel@git.antfield.fr>
 Message-id: 20180119145756.7629-4-luc.michel@greensocs.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/intc/arm_gic.c | 5 +++++
 file changed, 5 insertions(+)
 diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gic.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/intc/arm_gic.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void gic_set_cpu_control(GICState *s, int cpu, uint32_t value,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vqrshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- static uint8_t gic_get_running_priority(GICState *s, int cpu, MemTxAttrs attrs)
+ DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- {
+ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    if ((s->revision != REV_11MPCORE) && (s->running_priority[cpu] > 0xff)) {
++
-+        /* Idle priority */
++DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
-+        return 0xff;
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
  VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
  VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
  VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 +
 +VSHLC             111 0 1110 1 . 1 imm:5 ... 0 1111 1100 rdm:4 qd=%qd
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VSHRN_SAT_UB(vqrshrnb_ub, vqrshrnt_ub, DO_RSHRN_UB)
  DO_VSHRN_SAT_UH(vqrshrnb_uh, vqrshrnt_uh, DO_RSHRN_UH)
  DO_VSHRN_SAT_SB(vqrshrunbb, vqrshruntb, DO_RSHRUN_B)
  DO_VSHRN_SAT_SH(vqrshrunbh, vqrshrunth, DO_RSHRUN_H)
 +
 +uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
 +                           uint32_t shift)
 +{
 +    uint32_t *d = vd;
 +    uint16_t mask = mve_element_mask(env);
 +    unsigned e;
 +    uint32_t r;
 +
 +    /*
 +     * For each 32-bit element, we shift it left, bringing in the
 +     * low 'shift' bits of rdm at the bottom. Bits shifted out at
 +     * the top become the new rdm, if the predicate mask permits.
 +     * The final rdm value is returned to update the register.
 +     * shift == 0 here means "shift by 32 bits".
 +     */
 +    if (shift == 0) {
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {
 +            r = rdm;
 +            if (mask & 1) {
 +                rdm = d[H4(e)];
 +            }
 +            mergemask(&d[H4(e)], r, mask);
 +        }
 +    } else {
 +        uint32_t shiftmask = MAKE_64BIT_MASK(0, shift);
 +
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {
 +            r = (d[H4(e)] << shift) | (rdm & shiftmask);
 +            if (mask & 1) {
 +                rdm = d[H4(e)] >> (32 - shift);
 +            }
 +            mergemask(&d[H4(e)], r, mask);
 +        }
 +    }
 +    mve_advance_vpt(env);
 +    return rdm;
 +}
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_N(VQRSHRNB_U, vqrshrnb_u)
  DO_2SHIFT_N(VQRSHRNT_U, vqrshrnt_u)
  DO_2SHIFT_N(VQRSHRUNB, vqrshrunb)
  DO_2SHIFT_N(VQRSHRUNT, vqrshrunt)
 +
 +static bool trans_VSHLC(DisasContext *s, arg_VSHLC *a)
 +{
 +    /*
 +     * Whole Vector Left Shift with Carry. The carry is taken
 +     * from a general purpose register and written back there.
 +     * An imm of 0 means "shift by 32".
 +     */
 +    TCGv_ptr qd;
 +    TCGv_i32 rdm;
 +
 +    if (!dc_isar_feature(aa32_mve, s) || !mve_check_qreg_bank(s, a->qd)) {
 +        return false;
 +    }
 +    if (a->rdm == 13 || a->rdm == 15) {
 +        /* CONSTRAINED UNPREDICTABLE: we UNDEF */
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
-     if (s->security_extn && !attrs.secure) {
++    qd = mve_qreg_ptr(a->qd);
-         if (s->running_priority[cpu] & 0x80) {
++    rdm = load_reg(s, a->rdm);
-             /* Running priority in upper half of range: return the Non-secure
++    gen_helper_mve_vshlc(rdm, cpu_env, qd, rdm, tcg_constant_i32(a->imm));
 +    store_reg(s, a->rdm, rdm);
 +    tcg_temp_free_ptr(qd);
 +    mve_update_eci(s);
 +    return true;
 +}
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 12/21] target/arm: Hoist store to flags output in cpu_get_tb_cpu_state
+[PULL 20/24] target/arm: Implement MVE VADDLV
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VADDLV insn; this is similar to VADDV, except
 that it accumulates 32-bit elements into a 64-bit accumulator
 stored in a pair of general-purpose registers.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180119045438.28582-15-richard.henderson@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-15-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 35 +++++++++++++++++++----------------
+ target/arm/helper-mve.h    |  3 ++
-file changed, 19 insertions(+), 16 deletions(-)
+ target/arm/mve.decode      |  6 +++-
  target/arm/mve_helper.c    | 19 ++++++++++++
  target/arm/translate-mve.c | 63 ++++++++++++++++++++++++++++++++++++++
 files changed, 90 insertions(+), 1 deletion(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static inline int fp_exception_el(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddlv_s, TCG_CALL_NO_WG, i64, env, ptr, i64)
 +DEF_HELPER_FLAGS_3(mve_vaddlv_u, TCG_CALL_NO_WG, i64, env, ptr, i64)
 +
  DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  # Vector add across vector
 -VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
 +{
 +  VADDV          111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
 +  VADDLV         111 u:1 1110 1 ... 1001 ... 0 1111 00 a:1 0 qm:3 0 \
 +                 rdahi=%rdahi rdalo=%rdalo
 +}
  # Predicate operations
  %mask_22_13      22:1 13:3
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvub, 1, uint8_t)
  DO_VADDV(vaddvuh, 2, uint16_t)
  DO_VADDV(vaddvuw, 4, uint32_t)
 +#define DO_VADDLV(OP, TYPE, LTYPE)                              \
 +    uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vm, \
 +                                    uint64_t ra)                \
 +    {                                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        TYPE *m = vm;                                           \
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {              \
 +            if (mask & 1) {                                     \
 +                ra += (LTYPE)m[H4(e)];                          \
 +            }                                                   \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +        return ra;                                              \
 +    }                                                           \
 +
 +DO_VADDLV(vaddlv_s, int32_t, int64_t)
 +DO_VADDLV(vaddlv_u, uint32_t, uint64_t)
 +
  /* Shifts by immediate */
  #define DO_2SHIFT(OP, ESIZE, TYPE, FN)                          \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
      return true;
  }
- void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
++static bool trans_VADDLV(DisasContext *s, arg_VADDLV *a)
--                          target_ulong *cs_base, uint32_t *flags)
++{
-+                          target_ulong *cs_base, uint32_t *pflags)
++    /*
 +     * Vector Add Long Across Vector: accumulate the 32-bit
 +     * elements of the vector into a 64-bit result stored in
 +     * a pair of general-purpose registers.
 +     * No need to check Qm's bank: it is only 3 bits in decode.
 +     */
 +    TCGv_ptr qm;
 +    TCGv_i64 rda;
 +    TCGv_i32 rdalo, rdahi;
 +
 +    if (!dc_isar_feature(aa32_mve, s)) {
 +        return false;
 +    }
 +    /*
 +     * rdahi == 13 is UNPREDICTABLE; rdahi == 15 is a related
 +     * encoding; rdalo always has bit 0 clear so cannot be 13 or 15.
 +     */
 +    if (a->rdahi == 13 || a->rdahi == 15) {
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    /*
 +     * This insn is subject to beat-wise execution. Partial execution
 +     * of an A=0 (no-accumulate) insn which does not execute the first
 +     * beat must start with the current value of RdaHi:RdaLo, not zero.
 +     */
 +    if (a->a || mve_skip_first_beat(s)) {
 +        /* Accumulate input from RdaHi:RdaLo */
 +        rda = tcg_temp_new_i64();
 +        rdalo = load_reg(s, a->rdalo);
 +        rdahi = load_reg(s, a->rdahi);
 +        tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +        tcg_temp_free_i32(rdalo);
 +        tcg_temp_free_i32(rdahi);
 +    } else {
 +        /* Accumulate starting at zero */
 +        rda = tcg_const_i64(0);
 +    }
 +
 +    qm = mve_qreg_ptr(a->qm);
 +    if (a->u) {
 +        gen_helper_mve_vaddlv_u(rda, cpu_env, qm, rda);
 +    } else {
 +        gen_helper_mve_vaddlv_s(rda, cpu_env, qm, rda);
 +    }
 +    tcg_temp_free_ptr(qm);
 +
 +    rdalo = tcg_temp_new_i32();
 +    rdahi = tcg_temp_new_i32();
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +    mve_update_eci(s);
 +    return true;
 +}
 +
  static bool do_1imm(DisasContext *s, arg_1imm *a, MVEGenOneOpImmFn *fn)
  {
-     ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
+     TCGv_ptr qd;
 +    uint32_t flags;
 +
      if (is_a64(env)) {
          *pc = env->pc;
 -        *flags = ARM_TBFLAG_AARCH64_STATE_MASK;
 +        flags = ARM_TBFLAG_AARCH64_STATE_MASK;
          /* Get control bits for tagged addresses */
 -        *flags |= (arm_regime_tbi0(env, mmu_idx) << ARM_TBFLAG_TBI0_SHIFT);
 -        *flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
 +        flags |= (arm_regime_tbi0(env, mmu_idx) << ARM_TBFLAG_TBI0_SHIFT);
 +        flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
      } else {
          *pc = env->regs[15];
 -        *flags = (env->thumb << ARM_TBFLAG_THUMB_SHIFT)
 +        flags = (env->thumb << ARM_TBFLAG_THUMB_SHIFT)
              | (env->vfp.vec_len << ARM_TBFLAG_VECLEN_SHIFT)
              | (env->vfp.vec_stride << ARM_TBFLAG_VECSTRIDE_SHIFT)
              | (env->condexec_bits << ARM_TBFLAG_CONDEXEC_SHIFT)
              | (arm_sctlr_b(env) << ARM_TBFLAG_SCTLR_B_SHIFT);
          if (!(access_secure_reg(env))) {
 -            *flags |= ARM_TBFLAG_NS_MASK;
 +            flags |= ARM_TBFLAG_NS_MASK;
          }
          if (env->vfp.xregs[ARM_VFP_FPEXC] & (1 << 30)
              || arm_el_is_aa64(env, 1)) {
 -            *flags |= ARM_TBFLAG_VFPEN_MASK;
 +            flags |= ARM_TBFLAG_VFPEN_MASK;
          }
 -        *flags |= (extract32(env->cp15.c15_cpar, 0, 2)
 -                   << ARM_TBFLAG_XSCALE_CPAR_SHIFT);
 +        flags |= (extract32(env->cp15.c15_cpar, 0, 2)
 +                  << ARM_TBFLAG_XSCALE_CPAR_SHIFT);
      }
 -    *flags |= (arm_to_core_mmu_idx(mmu_idx) << ARM_TBFLAG_MMUIDX_SHIFT);
 +    flags |= (arm_to_core_mmu_idx(mmu_idx) << ARM_TBFLAG_MMUIDX_SHIFT);
      /* The SS_ACTIVE and PSTATE_SS bits correspond to the state machine
       * states defined in the ARM ARM for software singlestep:
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
       *     1            1       Active-not-pending
       */
      if (arm_singlestep_active(env)) {
 -        *flags |= ARM_TBFLAG_SS_ACTIVE_MASK;
 +        flags |= ARM_TBFLAG_SS_ACTIVE_MASK;
          if (is_a64(env)) {
              if (env->pstate & PSTATE_SS) {
 -                *flags |= ARM_TBFLAG_PSTATE_SS_MASK;
 +                flags |= ARM_TBFLAG_PSTATE_SS_MASK;
              }
          } else {
              if (env->uncached_cpsr & PSTATE_SS) {
 -                *flags |= ARM_TBFLAG_PSTATE_SS_MASK;
 +                flags |= ARM_TBFLAG_PSTATE_SS_MASK;
              }
          }
      }
      if (arm_cpu_data_is_big_endian(env)) {
 -        *flags |= ARM_TBFLAG_BE_DATA_MASK;
 +        flags |= ARM_TBFLAG_BE_DATA_MASK;
      }
 -    *flags |= fp_exception_el(env) << ARM_TBFLAG_FPEXC_EL_SHIFT;
 +    flags |= fp_exception_el(env) << ARM_TBFLAG_FPEXC_EL_SHIFT;
      if (arm_v7m_is_handler_mode(env)) {
 -        *flags |= ARM_TBFLAG_HANDLER_MASK;
 +        flags |= ARM_TBFLAG_HANDLER_MASK;
      }
 +    *pflags = flags;
      *cs_base = 0;
  }
 --
-.7.4
+.20.1

-New patch
+[PULL 21/24] target/arm: Implement MVE long shifts by immediate
+The MVE extension to v8.1M includes some new shift instructions which
 sit entirely within the non-coprocessor part of the encoding space
 and which operate only on general-purpose registers.  They take up
 the space which was previously UNPREDICTABLE MOVS and ORRS encodings
 with Rm == 13 or 15.
 Implement the long shifts by immediate, which perform shifts on a
 pair of general-purpose registers treated as a 64-bit quantity, with
 an immediate shift count between 1 and 32.
 Awkwardly, because the MOVS and ORRS trans functions do not UNDEF for
 the Rm==13,15 case, we need to explicitly emit code to UNDEF for the
 cases where v8.1M now requires that.  (Trying to change MOVS and ORRS
 is too difficult, because the functions that generate the code are
 shared between a dozen different kinds of arithmetic or logical
 instruction for all A32, T16 and T32 encodings, and for some insns
 and some encodings Rm==13,15 are valid.)
 We make the helper functions we need for UQSHLL and SQSHLL take
 a 32-bit value which the helper casts to int8_t because we'll need
 these helpers also for the shift-by-register insns, where the shift
 count might be < 0 or > 32.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-16-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h |  3 ++
  target/arm/translate.h  |  1 +
  target/arm/t32.decode   | 28 +++++++++++++
  target/arm/mve_helper.c | 10 +++++
  target/arm/translate.c  | 90 +++++++++++++++++++++++++++++++++++++++++
 files changed, 132 insertions(+)
 diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
 +
 +DEF_HELPER_FLAGS_3(mve_sqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
 +DEF_HELPER_FLAGS_3(mve_uqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
  typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
 +typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
  /**
   * arm_tbflags_from_tb:
 diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/t32.decode
 +++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@
  &mcr             !extern cp opc1 crn crm opc2 rt
  &mcrr            !extern cp opc1 crm rt rt2
 +&mve_shl_ri      rdalo rdahi shim
 +
 +# rdahi: bits [3:1] from insn, bit 0 is 1
 +# rdalo: bits [3:1] from insn, bit 0 is 0
 +%rdahi_9 9:3 !function=times_2_plus_1
 +%rdalo_17 17:3 !function=times_2
 +
  # Data-processing (register)
  %imm5_12_6       12:3 6:2
@@ -XXX,XX +XXX,XX @@
  @S_xrr_shi       ....... .... .   rn:4 .... .... .. shty:2 rm:4 \
                   &s_rrr_shi shim=%imm5_12_6 s=1 rd=0
 +@mve_shl_ri      ....... .... . ... . . ... ... . .. .. .... \
 +                 &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
 +
  {
    TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
    AND_rrri       1110101 0000 . .... 0 ... .... .... ....     @s_rrr_shi
  }
  BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
  {
 +  # The v8.1M MVE shift insns overlap in encoding with MOVS/ORRS
 +  # and are distinguished by having Rm==13 or 15. Those are UNPREDICTABLE
 +  # cases for MOVS/ORRS. We decode the MVE cases first, ensuring that
 +  # they explicitly call unallocated_encoding() for cases that must UNDEF
 +  # (eg "using a new shift insn on a v8.1M CPU without MVE"), and letting
 +  # the rest fall through (where ORR_rrri and MOV_rxri will end up
 +  # handling them as r13 and r15 accesses with the same semantics as A32).
 +  [
 +    LSLL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    LSRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    ASRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +
 +    UQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +  ]
 +
    MOV_rxri       1110101 0010 . 1111 0 ... .... .... ....     @s_rxr_shi
    ORR_rrri       1110101 0010 . .... 0 ... .... .... ....     @s_rrr_shi
  }
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
      mve_advance_vpt(env);
      return rdm;
  }
 +
 +uint64_t HELPER(mve_sqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl_d(n, (int8_t)shift, false, &env->QF);
 +}
 +
 +uint64_t HELPER(mve_uqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl_d(n, (int8_t)shift, false, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_MOVT(DisasContext *s, arg_MOVW *a)
      return true;
  }
 +/*
 + * v8.1M MVE wide-shifts
 + */
 +static bool do_mve_shl_ri(DisasContext *s, arg_mve_shl_ri *a,
 +                          WideShiftImmFn *fn)
 +{
 +    TCGv_i64 rda;
 +    TCGv_i32 rdalo, rdahi;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
 +        return false;
 +    }
 +    if (a->rdahi == 15) {
 +        /* These are a different encoding (SQSHL/SRSHR/UQSHL/URSHR) */
 +        return false;
 +    }
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
 +        a->rdahi == 13) {
 +        /* RdaHi == 13 is UNPREDICTABLE; we choose to UNDEF */
 +        unallocated_encoding(s);
 +        return true;
 +    }
 +
 +    if (a->shim == 0) {
 +        a->shim = 32;
 +    }
 +
 +    rda = tcg_temp_new_i64();
 +    rdalo = load_reg(s, a->rdalo);
 +    rdahi = load_reg(s, a->rdahi);
 +    tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +
 +    fn(rda, rda, a->shim);
 +
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +
 +    return true;
 +}
 +
 +static bool trans_ASRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, tcg_gen_sari_i64);
 +}
 +
 +static bool trans_LSLL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, tcg_gen_shli_i64);
 +}
 +
 +static bool trans_LSRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, tcg_gen_shri_i64);
 +}
 +
 +static void gen_mve_sqshll(TCGv_i64 r, TCGv_i64 n, int64_t shift)
 +{
 +    gen_helper_mve_sqshll(r, cpu_env, n, tcg_constant_i32(shift));
 +}
 +
 +static bool trans_SQSHLL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_mve_sqshll);
 +}
 +
 +static void gen_mve_uqshll(TCGv_i64 r, TCGv_i64 n, int64_t shift)
 +{
 +    gen_helper_mve_uqshll(r, cpu_env, n, tcg_constant_i32(shift));
 +}
 +
 +static bool trans_UQSHLL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_mve_uqshll);
 +}
 +
 +static bool trans_SRSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_srshr64_i64);
 +}
 +
 +static bool trans_URSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_urshr64_i64);
 +}
 +
  /*
   * Multiply and multiply accumulate
   */
 --
 .20.1

-[Qemu-devel] [PULL 06/21] target/arm: Use pointers in neon tbl helper
+[PULL 22/24] target/arm: Implement MVE long shifts by register
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE long shifts by register, which perform shifts on a
+pair of general-purpose registers treated as a 64-bit quantity, with
-Rather than passing a regno to the helper, pass pointers to the
+the shift count in another general-purpose register, which might be
-vector register directly.  This eliminates the need to pass in
+either positive or negative.
-the environment pointer and reduces the number of places that
-directly access env->vfp.regs[].
+Like the long-shifts-by-immediate, these encodings sit in the space
+that was previously the UNPREDICTABLE MOVS/ORRS with Rm==13,15.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Because LSLL_rr and ASRL_rr overlap with both MOV_rxri/ORR_rrri and
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+also with CSEL (as one of the previously-UNPREDICTABLE Rm==13 cases),
-Message-id: 20180119045438.28582-5-richard.henderson@linaro.org
+we have to move the CSEL pattern into the same decodetree group.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-17-peter.maydell@linaro.org
 ---
- target/arm/helper.h    |  2 +-
+ target/arm/helper-mve.h |  6 +++
- target/arm/op_helper.c | 17 +++++++----------
+ target/arm/translate.h  |  1 +
- target/arm/translate.c |  8 ++++----
+ target/arm/t32.decode   | 16 +++++--
-files changed, 12 insertions(+), 15 deletions(-)
+ target/arm/mve_helper.c | 93 +++++++++++++++++++++++++++++++++++++++++
+ target/arm/translate.c  | 69 ++++++++++++++++++++++++++++++
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+files changed, 182 insertions(+), 3 deletions(-)
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
+--- a/target/arm/helper-mve.h
- DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
++++ b/target/arm/helper-mve.h
- DEF_HELPER_2(recpe_u32, i32, i32, ptr)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_2(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32, ptr)
--DEF_HELPER_5(neon_tbl, i32, env, i32, i32, i32, i32)
+ DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
-+DEF_HELPER_FLAGS_4(neon_tbl, TCG_CALL_NO_RWG, i32, i32, i32, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_sshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
- DEF_HELPER_3(shl_cc, i32, env, i32, i32)
++DEF_HELPER_FLAGS_3(mve_ushll, TCG_CALL_NO_RWG, i64, env, i64, i32)
- DEF_HELPER_3(shr_cc, i32, env, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_sqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
+ DEF_HELPER_FLAGS_3(mve_uqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-index XXXXXXX..XXXXXXX 100644
++DEF_HELPER_FLAGS_3(mve_sqrshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
---- a/target/arm/op_helper.c
++DEF_HELPER_FLAGS_3(mve_uqrshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+++ b/target/arm/op_helper.c
++DEF_HELPER_FLAGS_3(mve_sqrshrl48, TCG_CALL_NO_RWG, i64, env, i64, i32)
-@@ -XXX,XX +XXX,XX @@ static int exception_target_el(CPUARMState *env)
++DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
-     return target_el;
+diff --git a/target/arm/translate.h b/target/arm/translate.h
- }
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.h
--uint32_t HELPER(neon_tbl)(CPUARMState *env, uint32_t ireg, uint32_t def,
++++ b/target/arm/translate.h
--                          uint32_t rn, uint32_t maxindex)
+@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
-+uint32_t HELPER(neon_tbl)(uint32_t ireg, uint32_t def, void *vn,
+ typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
-+                          uint32_t maxindex)
+ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
- {
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
--    uint32_t val;
++typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
--    uint32_t tmp;
--    int index;
+ /**
--    int shift;
+  * arm_tbflags_from_tb:
--    uint64_t *table;
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
--    table = (uint64_t *)&env->vfp.regs[rn];
+index XXXXXXX..XXXXXXX 100644
-+    uint32_t val, shift;
+--- a/target/arm/t32.decode
-+    uint64_t *table = vn;
++++ b/target/arm/t32.decode
-+
+@@ -XXX,XX +XXX,XX @@
-     val = 0;
+ &mcrr            !extern cp opc1 crm rt rt2
-     for (shift = 0; shift < 32; shift += 8) {
--        index = (ireg >> shift) & 0xff;
+ &mve_shl_ri      rdalo rdahi shim
-+        uint32_t index = (ireg >> shift) & 0xff;
++&mve_shl_rr      rdalo rdahi rm
-         if (index < maxindex) {
--            tmp = (table[index >> 3] >> ((index & 7) << 3)) & 0xff;
+ # rdahi: bits [3:1] from insn, bit 0 is 1
-+            uint32_t tmp = (table[index >> 3] >> ((index & 7) << 3)) & 0xff;
+ # rdalo: bits [3:1] from insn, bit 0 is 0
-             val |= tmp << shift;
+@@ -XXX,XX +XXX,XX @@
-         } else {
-             val |= def & (0xff << shift);
+ @mve_shl_ri      ....... .... . ... . . ... ... . .. .. .... \
                   &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
 +@mve_shl_rr      ....... .... . ... . rm:4  ... . .. .. .... \
 +                 &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
  {
    TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
      URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
      SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
      SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +
 +    LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
 +    ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
 +    UQRSHLL64_rr 1110101 0010 1 ... 1 ....  ... 1  0000 1101  @mve_shl_rr
 +    SQRSHRL64_rr 1110101 0010 1 ... 1 ....  ... 1  0010 1101  @mve_shl_rr
 +    UQRSHLL48_rr 1110101 0010 1 ... 1 ....  ... 1  1000 1101  @mve_shl_rr
 +    SQRSHRL48_rr 1110101 0010 1 ... 1 ....  ... 1  1010 1101  @mve_shl_rr
    ]
    MOV_rxri       1110101 0010 . 1111 0 ... .... .... ....     @s_rxr_shi
    ORR_rrri       1110101 0010 . .... 0 ... .... .... ....     @s_rrr_shi
 +
 +  # v8.1M CSEL and friends
 +  CSEL           1110101 0010 1 rn:4 10 op:2 rd:4 fcond:4 rm:4
  }
  {
    MVN_rxri       1110101 0011 . 1111 0 ... .... .... ....     @s_rxr_shi
@@ -XXX,XX +XXX,XX @@ SBC_rrri         1110101 1011 . .... 0 ... .... .... ....     @s_rrr_shi
  }
  RSB_rrri         1110101 1110 . .... 0 ... .... .... ....     @s_rrr_shi
 -# v8.1M CSEL and friends
 -CSEL             1110101 0010 1 rn:4 10 op:2 rd:4 fcond:4 rm:4
 -
  # Data-processing (register-shifted register)
  MOV_rxrr         1111 1010 0 shty:2 s:1 rm:4 1111 rd:4 0000 rs:4 \
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
      return rdm;
  }
 +uint64_t HELPER(mve_sshrl)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl_d(n, -(int8_t)shift, false, NULL);
 +}
 +
 +uint64_t HELPER(mve_ushll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl_d(n, (int8_t)shift, false, NULL);
 +}
 +
  uint64_t HELPER(mve_sqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
  {
      return do_sqrshl_d(n, (int8_t)shift, false, &env->QF);
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mve_uqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
  {
      return do_uqrshl_d(n, (int8_t)shift, false, &env->QF);
  }
 +
 +uint64_t HELPER(mve_sqrshrl)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl_d(n, -(int8_t)shift, true, &env->QF);
 +}
 +
 +uint64_t HELPER(mve_uqrshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl_d(n, (int8_t)shift, true, &env->QF);
 +}
 +
 +/* Operate on 64-bit values, but saturate at 48 bits */
 +static inline int64_t do_sqrshl48_d(int64_t src, int64_t shift,
 +                                    bool round, uint32_t *sat)
 +{
 +    if (shift <= -48) {
 +        /* Rounding the sign bit always produces 0. */
 +        if (round) {
 +            return 0;
 +        }
 +        return src >> 63;
 +    } else if (shift < 0) {
 +        if (round) {
 +            src >>= -shift - 1;
 +            return (src >> 1) + (src & 1);
 +        }
 +        return src >> -shift;
 +    } else if (shift < 48) {
 +        int64_t val = src << shift;
 +        int64_t extval = sextract64(val, 0, 48);
 +        if (!sat || val == extval) {
 +            return extval;
 +        }
 +    } else if (!sat || src == 0) {
 +        return 0;
 +    }
 +
 +    *sat = 1;
 +    return (1ULL << 47) - (src >= 0);
 +}
 +
 +/* Operate on 64-bit values, but saturate at 48 bits */
 +static inline uint64_t do_uqrshl48_d(uint64_t src, int64_t shift,
 +                                     bool round, uint32_t *sat)
 +{
 +    uint64_t val, extval;
 +
 +    if (shift <= -(48 + round)) {
 +        return 0;
 +    } else if (shift < 0) {
 +        if (round) {
 +            val = src >> (-shift - 1);
 +            val = (val >> 1) + (val & 1);
 +        } else {
 +            val = src >> -shift;
 +        }
 +        extval = extract64(val, 0, 48);
 +        if (!sat || val == extval) {
 +            return extval;
 +        }
 +    } else if (shift < 48) {
 +        uint64_t val = src << shift;
 +        uint64_t extval = extract64(val, 0, 48);
 +        if (!sat || val == extval) {
 +            return extval;
 +        }
 +    } else if (!sat || src == 0) {
 +        return 0;
 +    }
 +
 +    *sat = 1;
 +    return MAKE_64BIT_MASK(0, 48);
 +}
 +
 +uint64_t HELPER(mve_sqrshrl48)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl48_d(n, -(int8_t)shift, true, &env->QF);
 +}
 +
 +uint64_t HELPER(mve_uqrshll48)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl48_d(n, (int8_t)shift, true, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static bool trans_URSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
-                     tcg_gen_movi_i32(tmp, 0);
+     return do_mve_shl_ri(s, a, gen_urshr64_i64);
-                 }
+ }
-                 tmp2 = neon_load_reg(rm, 0);
--                tmp4 = tcg_const_i32(rn);
++static bool do_mve_shl_rr(DisasContext *s, arg_mve_shl_rr *a, WideShiftFn *fn)
-+                ptr1 = vfp_reg_ptr(true, rn);
++{
-                 tmp5 = tcg_const_i32(n);
++    TCGv_i64 rda;
--                gen_helper_neon_tbl(tmp2, cpu_env, tmp2, tmp, tmp4, tmp5);
++    TCGv_i32 rdalo, rdahi;
-+                gen_helper_neon_tbl(tmp2, tmp2, tmp, ptr1, tmp5);
++
-                 tcg_temp_free_i32(tmp);
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-                 if (insn & (1 << 6)) {
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-                     tmp = neon_load_reg(rd, 1);
++        return false;
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
++    }
-                     tcg_gen_movi_i32(tmp, 0);
++    if (a->rdahi == 15) {
-                 }
++        /* These are a different encoding (SQSHL/SRSHR/UQSHL/URSHR) */
-                 tmp3 = neon_load_reg(rm, 1);
++        return false;
--                gen_helper_neon_tbl(tmp3, cpu_env, tmp3, tmp, tmp4, tmp5);
++    }
-+                gen_helper_neon_tbl(tmp3, tmp3, tmp, ptr1, tmp5);
++    if (!dc_isar_feature(aa32_mve, s) ||
-                 tcg_temp_free_i32(tmp5);
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
--                tcg_temp_free_i32(tmp4);
++        a->rdahi == 13 || a->rm == 13 || a->rm == 15 ||
-+                tcg_temp_free_ptr(ptr1);
++        a->rm == a->rdahi || a->rm == a->rdalo) {
-                 neon_store_reg(rd, 0, tmp2);
++        /* These rdahi/rdalo/rm cases are UNPREDICTABLE; we choose to UNDEF */
-                 neon_store_reg(rd, 1, tmp3);
++        unallocated_encoding(s);
-                 tcg_temp_free_i32(tmp);
++        return true;
 +    }
 +
 +    rda = tcg_temp_new_i64();
 +    rdalo = load_reg(s, a->rdalo);
 +    rdahi = load_reg(s, a->rdahi);
 +    tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +
 +    /* The helper takes care of the sign-extension of the low 8 bits of Rm */
 +    fn(rda, cpu_env, rda, cpu_R[a->rm]);
 +
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +
 +    return true;
 +}
 +
 +static bool trans_LSLL_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_ushll);
 +}
 +
 +static bool trans_ASRL_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_sshrl);
 +}
 +
 +static bool trans_UQRSHLL64_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_uqrshll);
 +}
 +
 +static bool trans_SQRSHRL64_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl);
 +}
 +
 +static bool trans_UQRSHLL48_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_uqrshll48);
 +}
 +
 +static bool trans_SQRSHRL48_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl48);
 +}
 +
  /*
   * Multiply and multiply accumulate
   */
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 05/21] target/arm: Use pointers in neon zip/uzp helpers
+[PULL 23/24] target/arm: Implement MVE shifts by immediate
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shifts by immediate, which perform shifts
+on a single general-purpose register.
-Rather than passing regnos to the helpers, pass pointers to the
-vector registers directly.  This eliminates the need to pass in
+These patterns overlap with the long-shift-by-immediates,
-the environment pointer and reduces the number of places that
+so we have to rearrange the grouping a little here.
-directly access env->vfp.regs[].
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Message-id: 20180119045438.28582-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-18-peter.maydell@linaro.org
 ---
- target/arm/helper.h      |  20 +++---
+ target/arm/helper-mve.h |  3 ++
- target/arm/neon_helper.c | 162 +++++++++++++++++++++++++----------------------
+ target/arm/translate.h  |  1 +
- target/arm/translate.c   |  42 ++++++------
+ target/arm/t32.decode   | 31 ++++++++++++++-----
-files changed, 120 insertions(+), 104 deletions(-)
+ target/arm/mve_helper.c | 10 ++++++
+ target/arm/translate.c  | 68 +++++++++++++++++++++++++++++++++++++++--
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+files changed, 104 insertions(+), 9 deletions(-)
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(iwmmxt_muladdsl, i64, i64, i32, i32)
+--- a/target/arm/helper-mve.h
- DEF_HELPER_3(iwmmxt_muladdsw, i64, i64, i32, i32)
++++ b/target/arm/helper-mve.h
- DEF_HELPER_3(iwmmxt_muladdswl, i64, i64, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_sqrshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
+ DEF_HELPER_FLAGS_3(mve_uqrshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
--DEF_HELPER_3(neon_unzip8, void, env, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_sqrshrl48, TCG_CALL_NO_RWG, i64, env, i64, i32)
--DEF_HELPER_3(neon_unzip16, void, env, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
--DEF_HELPER_3(neon_qunzip8, void, env, i32, i32)
++
--DEF_HELPER_3(neon_qunzip16, void, env, i32, i32)
++DEF_HELPER_FLAGS_3(mve_uqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
--DEF_HELPER_3(neon_qunzip32, void, env, i32, i32)
++DEF_HELPER_FLAGS_3(mve_sqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
--DEF_HELPER_3(neon_zip8, void, env, i32, i32)
+diff --git a/target/arm/translate.h b/target/arm/translate.h
--DEF_HELPER_3(neon_zip16, void, env, i32, i32)
+index XXXXXXX..XXXXXXX 100644
--DEF_HELPER_3(neon_qzip8, void, env, i32, i32)
+--- a/target/arm/translate.h
--DEF_HELPER_3(neon_qzip16, void, env, i32, i32)
++++ b/target/arm/translate.h
--DEF_HELPER_3(neon_qzip32, void, env, i32, i32)
+@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
-+DEF_HELPER_FLAGS_2(neon_unzip8, TCG_CALL_NO_RWG, void, ptr, ptr)
+ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
-+DEF_HELPER_FLAGS_2(neon_unzip16, TCG_CALL_NO_RWG, void, ptr, ptr)
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
-+DEF_HELPER_FLAGS_2(neon_qunzip8, TCG_CALL_NO_RWG, void, ptr, ptr)
+ typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
-+DEF_HELPER_FLAGS_2(neon_qunzip16, TCG_CALL_NO_RWG, void, ptr, ptr)
++typedef void ShiftImmFn(TCGv_i32, TCGv_i32, int32_t shift);
-+DEF_HELPER_FLAGS_2(neon_qunzip32, TCG_CALL_NO_RWG, void, ptr, ptr)
-+DEF_HELPER_FLAGS_2(neon_zip8, TCG_CALL_NO_RWG, void, ptr, ptr)
+ /**
-+DEF_HELPER_FLAGS_2(neon_zip16, TCG_CALL_NO_RWG, void, ptr, ptr)
+  * arm_tbflags_from_tb:
-+DEF_HELPER_FLAGS_2(neon_qzip8, TCG_CALL_NO_RWG, void, ptr, ptr)
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
-+DEF_HELPER_FLAGS_2(neon_qzip16, TCG_CALL_NO_RWG, void, ptr, ptr)
+index XXXXXXX..XXXXXXX 100644
-+DEF_HELPER_FLAGS_2(neon_qzip32, TCG_CALL_NO_RWG, void, ptr, ptr)
+--- a/target/arm/t32.decode
++++ b/target/arm/t32.decode
- DEF_HELPER_FLAGS_3(crypto_aese, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@
- DEF_HELPER_FLAGS_3(crypto_aesmc, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-diff --git a/target/arm/neon_helper.c b/target/arm/neon_helper.c
+ &mve_shl_ri      rdalo rdahi shim
-index XXXXXXX..XXXXXXX 100644
+ &mve_shl_rr      rdalo rdahi rm
---- a/target/arm/neon_helper.c
++&mve_sh_ri       rda shim
-+++ b/target/arm/neon_helper.c
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_acgt_f64)(uint64_t a, uint64_t b, void *fpstp)
+ # rdahi: bits [3:1] from insn, bit 0 is 1
+ # rdalo: bits [3:1] from insn, bit 0 is 0
- #define ELEM(V, N, SIZE) (((V) >> ((N) * (SIZE))) & ((1ull << (SIZE)) - 1))
+@@ -XXX,XX +XXX,XX @@
+                  &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
--void HELPER(neon_qunzip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
+ @mve_shl_rr      ....... .... . ... . rm:4  ... . .. .. .... \
-+void HELPER(neon_qunzip8)(void *vd, void *vm)
+                  &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
- {
++@mve_sh_ri       ....... .... . rda:4 . ... ... . .. .. .... \
--    uint64_t zm0 = float64_val(env->vfp.regs[rm]);
++                 &mve_sh_ri shim=%imm5_12_6
--    uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
--    uint64_t zd0 = float64_val(env->vfp.regs[rd]);
+ {
--    uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
-+    uint64_t *rd = vd, *rm = vm;
+@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
-+    uint64_t zd0 = rd[0], zd1 = rd[1];
+   # the rest fall through (where ORR_rrri and MOV_rxri will end up
-+    uint64_t zm0 = rm[0], zm1 = rm[1];
+   # handling them as r13 and r15 accesses with the same semantics as A32).
-+
+   [
-     uint64_t d0 = ELEM(zd0, 0, 8) | (ELEM(zd0, 2, 8) << 8)
+-    LSLL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
-         | (ELEM(zd0, 4, 8) << 16) | (ELEM(zd0, 6, 8) << 24)
+-    LSRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
-         | (ELEM(zd1, 0, 8) << 32) | (ELEM(zd1, 2, 8) << 40)
+-    ASRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
-@@ -XXX,XX +XXX,XX @@ void HELPER(neon_qunzip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
++    {
-         | (ELEM(zm0, 5, 8) << 16) | (ELEM(zm0, 7, 8) << 24)
++      UQSHL_ri   1110101 0010 1 ....  0 ...  1111 .. 00 1111  @mve_sh_ri
-         | (ELEM(zm1, 1, 8) << 32) | (ELEM(zm1, 3, 8) << 40)
++      LSLL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
-         | (ELEM(zm1, 5, 8) << 48) | (ELEM(zm1, 7, 8) << 56);
++      UQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
--    env->vfp.regs[rm] = make_float64(m0);
++    }
--    env->vfp.regs[rm + 1] = make_float64(m1);
--    env->vfp.regs[rd] = make_float64(d0);
+-    UQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
--    env->vfp.regs[rd + 1] = make_float64(d1);
+-    URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
-+
+-    SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
-+    rm[0] = m0;
+-    SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
-+    rm[1] = m1;
++    {
-+    rd[0] = d0;
++      URSHR_ri   1110101 0010 1 ....  0 ...  1111 .. 01 1111  @mve_sh_ri
-+    rd[1] = d1;
++      LSRL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +      URSHRL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    }
 +
 +    {
 +      SRSHR_ri   1110101 0010 1 ....  0 ...  1111 .. 10 1111  @mve_sh_ri
 +      ASRL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +      SRSHRL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    }
 +
 +    {
 +      SQSHL_ri   1110101 0010 1 ....  0 ...  1111 .. 11 1111  @mve_sh_ri
 +      SQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +    }
      LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
      ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mve_uqrshll48)(CPUARMState *env, uint64_t n, uint32_t shift)
  {
      return do_uqrshl48_d(n, (int8_t)shift, true, &env->QF);
  }
++
--void HELPER(neon_qunzip16)(CPUARMState *env, uint32_t rd, uint32_t rm)
++uint32_t HELPER(mve_uqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
-+void HELPER(neon_qunzip16)(void *vd, void *vm)
++{
- {
++    return do_uqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
--    uint64_t zm0 = float64_val(env->vfp.regs[rm]);
++}
--    uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
++
--    uint64_t zd0 = float64_val(env->vfp.regs[rd]);
++uint32_t HELPER(mve_sqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
--    uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
++{
-+    uint64_t *rd = vd, *rm = vm;
++    return do_sqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
-+    uint64_t zd0 = rd[0], zd1 = rd[1];
++}
 +    uint64_t zm0 = rm[0], zm1 = rm[1];
 +
      uint64_t d0 = ELEM(zd0, 0, 16) | (ELEM(zd0, 2, 16) << 16)
          | (ELEM(zd1, 0, 16) << 32) | (ELEM(zd1, 2, 16) << 48);
      uint64_t d1 = ELEM(zm0, 0, 16) | (ELEM(zm0, 2, 16) << 16)
@@ -XXX,XX +XXX,XX @@ void HELPER(neon_qunzip16)(CPUARMState *env, uint32_t rd, uint32_t rm)
          | (ELEM(zd1, 1, 16) << 32) | (ELEM(zd1, 3, 16) << 48);
      uint64_t m1 = ELEM(zm0, 1, 16) | (ELEM(zm0, 3, 16) << 16)
          | (ELEM(zm1, 1, 16) << 32) | (ELEM(zm1, 3, 16) << 48);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rm + 1] = make_float64(m1);
 -    env->vfp.regs[rd] = make_float64(d0);
 -    env->vfp.regs[rd + 1] = make_float64(d1);
 +
 +    rm[0] = m0;
 +    rm[1] = m1;
 +    rd[0] = d0;
 +    rd[1] = d1;
  }
 -void HELPER(neon_qunzip32)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_qunzip32)(void *vd, void *vm)
  {
 -    uint64_t zm0 = float64_val(env->vfp.regs[rm]);
 -    uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
 -    uint64_t zd0 = float64_val(env->vfp.regs[rd]);
 -    uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd0 = rd[0], zd1 = rd[1];
 +    uint64_t zm0 = rm[0], zm1 = rm[1];
 +
      uint64_t d0 = ELEM(zd0, 0, 32) | (ELEM(zd1, 0, 32) << 32);
      uint64_t d1 = ELEM(zm0, 0, 32) | (ELEM(zm1, 0, 32) << 32);
      uint64_t m0 = ELEM(zd0, 1, 32) | (ELEM(zd1, 1, 32) << 32);
      uint64_t m1 = ELEM(zm0, 1, 32) | (ELEM(zm1, 1, 32) << 32);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rm + 1] = make_float64(m1);
 -    env->vfp.regs[rd] = make_float64(d0);
 -    env->vfp.regs[rd + 1] = make_float64(d1);
 +
 +    rm[0] = m0;
 +    rm[1] = m1;
 +    rd[0] = d0;
 +    rd[1] = d1;
  }
 -void HELPER(neon_unzip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_unzip8)(void *vd, void *vm)
  {
 -    uint64_t zm = float64_val(env->vfp.regs[rm]);
 -    uint64_t zd = float64_val(env->vfp.regs[rd]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd = rd[0], zm = rm[0];
 +
      uint64_t d0 = ELEM(zd, 0, 8) | (ELEM(zd, 2, 8) << 8)
          | (ELEM(zd, 4, 8) << 16) | (ELEM(zd, 6, 8) << 24)
          | (ELEM(zm, 0, 8) << 32) | (ELEM(zm, 2, 8) << 40)
@@ -XXX,XX +XXX,XX @@ void HELPER(neon_unzip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
          | (ELEM(zd, 5, 8) << 16) | (ELEM(zd, 7, 8) << 24)
          | (ELEM(zm, 1, 8) << 32) | (ELEM(zm, 3, 8) << 40)
          | (ELEM(zm, 5, 8) << 48) | (ELEM(zm, 7, 8) << 56);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rd] = make_float64(d0);
 +
 +    rm[0] = m0;
 +    rd[0] = d0;
  }
 -void HELPER(neon_unzip16)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_unzip16)(void *vd, void *vm)
  {
 -    uint64_t zm = float64_val(env->vfp.regs[rm]);
 -    uint64_t zd = float64_val(env->vfp.regs[rd]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd = rd[0], zm = rm[0];
 +
      uint64_t d0 = ELEM(zd, 0, 16) | (ELEM(zd, 2, 16) << 16)
          | (ELEM(zm, 0, 16) << 32) | (ELEM(zm, 2, 16) << 48);
      uint64_t m0 = ELEM(zd, 1, 16) | (ELEM(zd, 3, 16) << 16)
          | (ELEM(zm, 1, 16) << 32) | (ELEM(zm, 3, 16) << 48);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rd] = make_float64(d0);
 +
 +    rm[0] = m0;
 +    rd[0] = d0;
  }
 -void HELPER(neon_qzip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_qzip8)(void *vd, void *vm)
  {
 -    uint64_t zm0 = float64_val(env->vfp.regs[rm]);
 -    uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
 -    uint64_t zd0 = float64_val(env->vfp.regs[rd]);
 -    uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd0 = rd[0], zd1 = rd[1];
 +    uint64_t zm0 = rm[0], zm1 = rm[1];
 +
      uint64_t d0 = ELEM(zd0, 0, 8) | (ELEM(zm0, 0, 8) << 8)
          | (ELEM(zd0, 1, 8) << 16) | (ELEM(zm0, 1, 8) << 24)
          | (ELEM(zd0, 2, 8) << 32) | (ELEM(zm0, 2, 8) << 40)
@@ -XXX,XX +XXX,XX @@ void HELPER(neon_qzip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
          | (ELEM(zd1, 5, 8) << 16) | (ELEM(zm1, 5, 8) << 24)
          | (ELEM(zd1, 6, 8) << 32) | (ELEM(zm1, 6, 8) << 40)
          | (ELEM(zd1, 7, 8) << 48) | (ELEM(zm1, 7, 8) << 56);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rm + 1] = make_float64(m1);
 -    env->vfp.regs[rd] = make_float64(d0);
 -    env->vfp.regs[rd + 1] = make_float64(d1);
 +
 +    rm[0] = m0;
 +    rm[1] = m1;
 +    rd[0] = d0;
 +    rd[1] = d1;
  }
 -void HELPER(neon_qzip16)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_qzip16)(void *vd, void *vm)
  {
 -    uint64_t zm0 = float64_val(env->vfp.regs[rm]);
 -    uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
 -    uint64_t zd0 = float64_val(env->vfp.regs[rd]);
 -    uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd0 = rd[0], zd1 = rd[1];
 +    uint64_t zm0 = rm[0], zm1 = rm[1];
 +
      uint64_t d0 = ELEM(zd0, 0, 16) | (ELEM(zm0, 0, 16) << 16)
          | (ELEM(zd0, 1, 16) << 32) | (ELEM(zm0, 1, 16) << 48);
      uint64_t d1 = ELEM(zd0, 2, 16) | (ELEM(zm0, 2, 16) << 16)
@@ -XXX,XX +XXX,XX @@ void HELPER(neon_qzip16)(CPUARMState *env, uint32_t rd, uint32_t rm)
          | (ELEM(zd1, 1, 16) << 32) | (ELEM(zm1, 1, 16) << 48);
      uint64_t m1 = ELEM(zd1, 2, 16) | (ELEM(zm1, 2, 16) << 16)
          | (ELEM(zd1, 3, 16) << 32) | (ELEM(zm1, 3, 16) << 48);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rm + 1] = make_float64(m1);
 -    env->vfp.regs[rd] = make_float64(d0);
 -    env->vfp.regs[rd + 1] = make_float64(d1);
 +
 +    rm[0] = m0;
 +    rm[1] = m1;
 +    rd[0] = d0;
 +    rd[1] = d1;
  }
 -void HELPER(neon_qzip32)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_qzip32)(void *vd, void *vm)
  {
 -    uint64_t zm0 = float64_val(env->vfp.regs[rm]);
 -    uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
 -    uint64_t zd0 = float64_val(env->vfp.regs[rd]);
 -    uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd0 = rd[0], zd1 = rd[1];
 +    uint64_t zm0 = rm[0], zm1 = rm[1];
 +
      uint64_t d0 = ELEM(zd0, 0, 32) | (ELEM(zm0, 0, 32) << 32);
      uint64_t d1 = ELEM(zd0, 1, 32) | (ELEM(zm0, 1, 32) << 32);
      uint64_t m0 = ELEM(zd1, 0, 32) | (ELEM(zm1, 0, 32) << 32);
      uint64_t m1 = ELEM(zd1, 1, 32) | (ELEM(zm1, 1, 32) << 32);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rm + 1] = make_float64(m1);
 -    env->vfp.regs[rd] = make_float64(d0);
 -    env->vfp.regs[rd + 1] = make_float64(d1);
 +
 +    rm[0] = m0;
 +    rm[1] = m1;
 +    rd[0] = d0;
 +    rd[1] = d1;
  }
 -void HELPER(neon_zip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_zip8)(void *vd, void *vm)
  {
 -    uint64_t zm = float64_val(env->vfp.regs[rm]);
 -    uint64_t zd = float64_val(env->vfp.regs[rd]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd = rd[0], zm = rm[0];
 +
      uint64_t d0 = ELEM(zd, 0, 8) | (ELEM(zm, 0, 8) << 8)
          | (ELEM(zd, 1, 8) << 16) | (ELEM(zm, 1, 8) << 24)
          | (ELEM(zd, 2, 8) << 32) | (ELEM(zm, 2, 8) << 40)
@@ -XXX,XX +XXX,XX @@ void HELPER(neon_zip8)(CPUARMState *env, uint32_t rd, uint32_t rm)
          | (ELEM(zd, 5, 8) << 16) | (ELEM(zm, 5, 8) << 24)
          | (ELEM(zd, 6, 8) << 32) | (ELEM(zm, 6, 8) << 40)
          | (ELEM(zd, 7, 8) << 48) | (ELEM(zm, 7, 8) << 56);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rd] = make_float64(d0);
 +
 +    rm[0] = m0;
 +    rd[0] = d0;
  }
 -void HELPER(neon_zip16)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(neon_zip16)(void *vd, void *vm)
  {
 -    uint64_t zm = float64_val(env->vfp.regs[rm]);
 -    uint64_t zd = float64_val(env->vfp.regs[rd]);
 +    uint64_t *rd = vd, *rm = vm;
 +    uint64_t zd = rd[0], zm = rm[0];
 +
      uint64_t d0 = ELEM(zd, 0, 16) | (ELEM(zm, 0, 16) << 16)
          | (ELEM(zd, 1, 16) << 32) | (ELEM(zm, 1, 16) << 48);
      uint64_t m0 = ELEM(zd, 2, 16) | (ELEM(zm, 2, 16) << 16)
          | (ELEM(zd, 3, 16) << 32) | (ELEM(zm, 3, 16) << 48);
 -    env->vfp.regs[rm] = make_float64(m0);
 -    env->vfp.regs[rd] = make_float64(d0);
 +
 +    rm[0] = m0;
 +    rd[0] = d0;
  }
  /* Helper function for 64 bit polynomial multiply case:
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 neon_get_scalar(int size, int reg)
+@@ -XXX,XX +XXX,XX @@ static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
- static int gen_neon_unzip(int rd, int rm, int size, int q)
+ static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
  {
--    TCGv_i32 tmp, tmp2;
+-    TCGv_i32 t = tcg_temp_new_i32();
-+    TCGv_ptr pd, pm;
++    TCGv_i32 t;
-+
-     if (!q && size == 2) {
++    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
-         return 1;
++    if (sh == 32) {
-     }
++        tcg_gen_movi_i32(d, 0);
--    tmp = tcg_const_i32(rd);
++        return;
--    tmp2 = tcg_const_i32(rm);
++    }
-+    pd = vfp_reg_ptr(true, rd);
++    t = tcg_temp_new_i32();
-+    pm = vfp_reg_ptr(true, rm);
+     tcg_gen_extract_i32(t, a, sh - 1, 1);
-     if (q) {
+     tcg_gen_sari_i32(d, a, sh);
-         switch (size) {
+     tcg_gen_add_i32(d, d, t);
-         case 0:
+@@ -XXX,XX +XXX,XX @@ static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
--            gen_helper_neon_qunzip8(cpu_env, tmp, tmp2);
-+            gen_helper_neon_qunzip8(pd, pm);
+ static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-             break;
+ {
-         case 1:
+-    TCGv_i32 t = tcg_temp_new_i32();
--            gen_helper_neon_qunzip16(cpu_env, tmp, tmp2);
++    TCGv_i32 t;
-+            gen_helper_neon_qunzip16(pd, pm);
-             break;
++    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
-         case 2:
++    if (sh == 32) {
--            gen_helper_neon_qunzip32(cpu_env, tmp, tmp2);
++        tcg_gen_extract_i32(d, a, sh - 1, 1);
-+            gen_helper_neon_qunzip32(pd, pm);
++        return;
-             break;
++    }
-         default:
++    t = tcg_temp_new_i32();
-             abort();
+     tcg_gen_extract_i32(t, a, sh - 1, 1);
-@@ -XXX,XX +XXX,XX @@ static int gen_neon_unzip(int rd, int rm, int size, int q)
+     tcg_gen_shri_i32(d, a, sh);
-     } else {
+     tcg_gen_add_i32(d, d, t);
-         switch (size) {
+@@ -XXX,XX +XXX,XX @@ static bool trans_SQRSHRL48_rr(DisasContext *s, arg_mve_shl_rr *a)
-         case 0:
+     return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl48);
 -            gen_helper_neon_unzip8(cpu_env, tmp, tmp2);
 +            gen_helper_neon_unzip8(pd, pm);
              break;
          case 1:
 -            gen_helper_neon_unzip16(cpu_env, tmp, tmp2);
 +            gen_helper_neon_unzip16(pd, pm);
              break;
          default:
              abort();
          }
      }
 -    tcg_temp_free_i32(tmp);
 -    tcg_temp_free_i32(tmp2);
 +    tcg_temp_free_ptr(pd);
 +    tcg_temp_free_ptr(pm);
      return 0;
  }
- static int gen_neon_zip(int rd, int rm, int size, int q)
++static bool do_mve_sh_ri(DisasContext *s, arg_mve_sh_ri *a, ShiftImmFn *fn)
- {
++{
--    TCGv_i32 tmp, tmp2;
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+    TCGv_ptr pd, pm;
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-+
++        return false;
-     if (!q && size == 2) {
++    }
-         return 1;
++    if (!dc_isar_feature(aa32_mve, s) ||
-     }
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
--    tmp = tcg_const_i32(rd);
++        a->rda == 13 || a->rda == 15) {
--    tmp2 = tcg_const_i32(rm);
++        /* These rda cases are UNPREDICTABLE; we choose to UNDEF */
-+    pd = vfp_reg_ptr(true, rd);
++        unallocated_encoding(s);
-+    pm = vfp_reg_ptr(true, rm);
++        return true;
-     if (q) {
++    }
-         switch (size) {
++
-         case 0:
++    if (a->shim == 0) {
--            gen_helper_neon_qzip8(cpu_env, tmp, tmp2);
++        a->shim = 32;
-+            gen_helper_neon_qzip8(pd, pm);
++    }
-             break;
++    fn(cpu_R[a->rda], cpu_R[a->rda], a->shim);
-         case 1:
++
--            gen_helper_neon_qzip16(cpu_env, tmp, tmp2);
++    return true;
-+            gen_helper_neon_qzip16(pd, pm);
++}
-             break;
++
-         case 2:
++static bool trans_URSHR_ri(DisasContext *s, arg_mve_sh_ri *a)
--            gen_helper_neon_qzip32(cpu_env, tmp, tmp2);
++{
-+            gen_helper_neon_qzip32(pd, pm);
++    return do_mve_sh_ri(s, a, gen_urshr32_i32);
-             break;
++}
-         default:
++
-             abort();
++static bool trans_SRSHR_ri(DisasContext *s, arg_mve_sh_ri *a)
-@@ -XXX,XX +XXX,XX @@ static int gen_neon_zip(int rd, int rm, int size, int q)
++{
-     } else {
++    return do_mve_sh_ri(s, a, gen_srshr32_i32);
-         switch (size) {
++}
-         case 0:
++
--            gen_helper_neon_zip8(cpu_env, tmp, tmp2);
++static void gen_mve_sqshl(TCGv_i32 r, TCGv_i32 n, int32_t shift)
-+            gen_helper_neon_zip8(pd, pm);
++{
-             break;
++    gen_helper_mve_sqshl(r, cpu_env, n, tcg_constant_i32(shift));
-         case 1:
++}
--            gen_helper_neon_zip16(cpu_env, tmp, tmp2);
++
-+            gen_helper_neon_zip16(pd, pm);
++static bool trans_SQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
-             break;
++{
-         default:
++    return do_mve_sh_ri(s, a, gen_mve_sqshl);
-             abort();
++}
-         }
++
-     }
++static void gen_mve_uqshl(TCGv_i32 r, TCGv_i32 n, int32_t shift)
--    tcg_temp_free_i32(tmp);
++{
--    tcg_temp_free_i32(tmp2);
++    gen_helper_mve_uqshl(r, cpu_env, n, tcg_constant_i32(shift));
-+    tcg_temp_free_ptr(pd);
++}
-+    tcg_temp_free_ptr(pm);
++
-     return 0;
++static bool trans_UQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
- }
++{
++    return do_mve_sh_ri(s, a, gen_mve_uqshl);
 +}
 +
  /*
   * Multiply and multiply accumulate
   */
 --
-.7.4
+.20.1

-[Qemu-devel] [PULL 04/21] target/arm: Use pointers in crypto helpers
+[PULL 24/24] target/arm: Implement MVE shifts by register
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shifts by register, which perform
 shifts on a single general-purpose register.
-Rather than passing regnos to the helpers, pass pointers to the
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-vector registers directly.  This eliminates the need to pass in
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-the environment pointer and reduces the number of places that
+Message-id: 20210628135835.6690-19-peter.maydell@linaro.org
-directly access env->vfp.regs[].
+---
  target/arm/helper-mve.h |  2 ++
  target/arm/translate.h  |  1 +
  target/arm/t32.decode   | 18 ++++++++++++++----
  target/arm/mve_helper.c | 10 ++++++++++
  target/arm/translate.c  | 30 ++++++++++++++++++++++++++++++
 files changed, 57 insertions(+), 4 deletions(-)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Message-id: 20180119045438.28582-3-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h        |  18 ++---
  target/arm/crypto_helper.c | 184 +++++++++++++++++----------------------------
  target/arm/translate-a64.c |  75 ++++++++++--------
  target/arm/translate.c     |  68 +++++++++--------
 files changed, 161 insertions(+), 184 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qzip8, void, env, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
- DEF_HELPER_3(neon_qzip16, void, env, i32, i32)
- DEF_HELPER_3(neon_qzip32, void, env, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_uqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_sqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
--DEF_HELPER_4(crypto_aese, void, env, i32, i32, i32)
++DEF_HELPER_FLAGS_3(mve_uqrshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
--DEF_HELPER_4(crypto_aesmc, void, env, i32, i32, i32)
++DEF_HELPER_FLAGS_3(mve_sqrshr, TCG_CALL_NO_RWG, i32, env, i32, i32)
-+DEF_HELPER_FLAGS_3(crypto_aese, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 +DEF_HELPER_FLAGS_3(crypto_aesmc, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 -DEF_HELPER_5(crypto_sha1_3reg, void, env, i32, i32, i32, i32)
 -DEF_HELPER_3(crypto_sha1h, void, env, i32, i32)
 -DEF_HELPER_3(crypto_sha1su1, void, env, i32, i32)
 +DEF_HELPER_FLAGS_4(crypto_sha1_3reg, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_2(crypto_sha1h, TCG_CALL_NO_RWG, void, ptr, ptr)
 +DEF_HELPER_FLAGS_2(crypto_sha1su1, TCG_CALL_NO_RWG, void, ptr, ptr)
 -DEF_HELPER_4(crypto_sha256h, void, env, i32, i32, i32)
 -DEF_HELPER_4(crypto_sha256h2, void, env, i32, i32, i32)
 -DEF_HELPER_3(crypto_sha256su0, void, env, i32, i32)
 -DEF_HELPER_4(crypto_sha256su1, void, env, i32, i32, i32)
 +DEF_HELPER_FLAGS_3(crypto_sha256h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_3(crypto_sha256h2, TCG_CALL_NO_RWG, void, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_2(crypto_sha256su0, TCG_CALL_NO_RWG, void, ptr, ptr)
 +DEF_HELPER_FLAGS_3(crypto_sha256su1, TCG_CALL_NO_RWG, void, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_3(crc32, TCG_CALL_NO_RWG_SE, i32, i32, i32, i32)
  DEF_HELPER_FLAGS_3(crc32c, TCG_CALL_NO_RWG_SE, i32, i32, i32, i32)
 diff --git a/target/arm/crypto_helper.c b/target/arm/crypto_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/crypto_helper.c
+--- a/target/arm/translate.h
-+++ b/target/arm/crypto_helper.c
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ union CRYPTO_STATE {
+@@ -XXX,XX +XXX,XX @@ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
- #define CR_ST_WORD(state, i)   (state.words[i])
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
- #endif
+ typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
+ typedef void ShiftImmFn(TCGv_i32, TCGv_i32, int32_t shift);
--void HELPER(crypto_aese)(CPUARMState *env, uint32_t rd, uint32_t rm,
++typedef void ShiftFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
--                         uint32_t decrypt)
-+void HELPER(crypto_aese)(void *vd, void *vm, uint32_t decrypt)
+ /**
   * arm_tbflags_from_tb:
 diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/t32.decode
 +++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@
  &mve_shl_ri      rdalo rdahi shim
  &mve_shl_rr      rdalo rdahi rm
  &mve_sh_ri       rda shim
 +&mve_sh_rr       rda rm
  # rdahi: bits [3:1] from insn, bit 0 is 1
  # rdalo: bits [3:1] from insn, bit 0 is 0
@@ -XXX,XX +XXX,XX @@
                   &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
  @mve_sh_ri       ....... .... . rda:4 . ... ... . .. .. .... \
                   &mve_sh_ri shim=%imm5_12_6
 +@mve_sh_rr       ....... .... . rda:4 rm:4 .... .... .... &mve_sh_rr
  {
-     static uint8_t const * const sbox[2] = { AES_sbox, AES_isbox };
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
-     static uint8_t const * const shift[2] = { AES_shifts, AES_ishifts };
+@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
--
+       SQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 -    union CRYPTO_STATE rk = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 -    union CRYPTO_STATE st = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE rk = { .l = { rm[0], rm[1] } };
 +    union CRYPTO_STATE st = { .l = { rd[0], rd[1] } };
      int i;
      assert(decrypt < 2);
@@ -XXX,XX +XXX,XX @@ void HELPER(crypto_aese)(CPUARMState *env, uint32_t rd, uint32_t rm,
          CR_ST_BYTE(st, i) = sbox[decrypt][CR_ST_BYTE(rk, shift[decrypt][i])];
      }
--    env->vfp.regs[rd] = make_float64(st.l[0]);
+-    LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
--    env->vfp.regs[rd + 1] = make_float64(st.l[1]);
+-    ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
-+    rd[0] = st.l[0];
+-    UQRSHLL64_rr 1110101 0010 1 ... 1 ....  ... 1  0000 1101  @mve_shl_rr
-+    rd[1] = st.l[1];
+-    SQRSHRL64_rr 1110101 0010 1 ... 1 ....  ... 1  0010 1101  @mve_shl_rr
 +    {
 +      UQRSHL_rr    1110101 0010 1 ....  ....  1111 0000 1101  @mve_sh_rr
 +      LSLL_rr      1110101 0010 1 ... 0 .... ... 1 0000 1101  @mve_shl_rr
 +      UQRSHLL64_rr 1110101 0010 1 ... 1 .... ... 1 0000 1101  @mve_shl_rr
 +    }
 +
 +    {
 +      SQRSHR_rr    1110101 0010 1 ....  ....  1111 0010 1101  @mve_sh_rr
 +      ASRL_rr      1110101 0010 1 ... 0 .... ... 1 0010 1101  @mve_shl_rr
 +      SQRSHRL64_rr 1110101 0010 1 ... 1 .... ... 1 0010 1101  @mve_shl_rr
 +    }
 +
      UQRSHLL48_rr 1110101 0010 1 ... 1 ....  ... 1  1000 1101  @mve_shl_rr
      SQRSHRL48_rr 1110101 0010 1 ... 1 ....  ... 1  1010 1101  @mve_shl_rr
    ]
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_sqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
  {
      return do_sqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
  }
--void HELPER(crypto_aesmc)(CPUARMState *env, uint32_t rd, uint32_t rm,
--                          uint32_t decrypt)
-+void HELPER(crypto_aesmc)(void *vd, void *vm, uint32_t decrypt)
- {
-     static uint32_t const mc[][256] = { {
-         /* MixColumns lookup table */
-@@ -XXX,XX +XXX,XX @@ void HELPER(crypto_aesmc)(CPUARMState *env, uint32_t rd, uint32_t rm,
-x92b479a7, 0x99b970a9, 0x84ae6bbb, 0x8fa362b5,
-xbe805d9f, 0xb58d5491, 0xa89a4f83, 0xa397468d,
-     } };
--    union CRYPTO_STATE st = { .l = {
--        float64_val(env->vfp.regs[rm]),
--        float64_val(env->vfp.regs[rm + 1])
--    } };
 +
-+    uint64_t *rd = vd;
++uint32_t HELPER(mve_uqrshl)(CPUARMState *env, uint32_t n, uint32_t shift)
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE st = { .l = { rm[0], rm[1] } };
      int i;
      assert(decrypt < 2);
@@ -XXX,XX +XXX,XX @@ void HELPER(crypto_aesmc)(CPUARMState *env, uint32_t rd, uint32_t rm,
              rol32(mc[decrypt][CR_ST_BYTE(st, i + 3)], 24);
      }
 -    env->vfp.regs[rd] = make_float64(st.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(st.l[1]);
 +    rd[0] = st.l[0];
 +    rd[1] = st.l[1];
  }
  /*
@@ -XXX,XX +XXX,XX @@ static uint32_t maj(uint32_t x, uint32_t y, uint32_t z)
      return (x & y) | ((x | y) & z);
  }
 -void HELPER(crypto_sha1_3reg)(CPUARMState *env, uint32_t rd, uint32_t rn,
 -                              uint32_t rm, uint32_t op)
 +void HELPER(crypto_sha1_3reg)(void *vd, void *vn, void *vm, uint32_t op)
  {
 -    union CRYPTO_STATE d = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 -    union CRYPTO_STATE n = { .l = {
 -        float64_val(env->vfp.regs[rn]),
 -        float64_val(env->vfp.regs[rn + 1])
 -    } };
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rn = vn;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE d = { .l = { rd[0], rd[1] } };
 +    union CRYPTO_STATE n = { .l = { rn[0], rn[1] } };
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      if (op == 3) { /* sha1su0 */
          d.l[0] ^= d.l[1] ^ m.l[0];
@@ -XXX,XX +XXX,XX @@ void HELPER(crypto_sha1_3reg)(CPUARMState *env, uint32_t rd, uint32_t rn,
              CR_ST_WORD(d, 0) = t;
          }
      }
 -    env->vfp.regs[rd] = make_float64(d.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(d.l[1]);
 +    rd[0] = d.l[0];
 +    rd[1] = d.l[1];
  }
 -void HELPER(crypto_sha1h)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(crypto_sha1h)(void *vd, void *vm)
  {
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      CR_ST_WORD(m, 0) = ror32(CR_ST_WORD(m, 0), 2);
      CR_ST_WORD(m, 1) = CR_ST_WORD(m, 2) = CR_ST_WORD(m, 3) = 0;
 -    env->vfp.regs[rd] = make_float64(m.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(m.l[1]);
 +    rd[0] = m.l[0];
 +    rd[1] = m.l[1];
  }
 -void HELPER(crypto_sha1su1)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(crypto_sha1su1)(void *vd, void *vm)
  {
 -    union CRYPTO_STATE d = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE d = { .l = { rd[0], rd[1] } };
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      CR_ST_WORD(d, 0) = rol32(CR_ST_WORD(d, 0) ^ CR_ST_WORD(m, 1), 1);
      CR_ST_WORD(d, 1) = rol32(CR_ST_WORD(d, 1) ^ CR_ST_WORD(m, 2), 1);
      CR_ST_WORD(d, 2) = rol32(CR_ST_WORD(d, 2) ^ CR_ST_WORD(m, 3), 1);
      CR_ST_WORD(d, 3) = rol32(CR_ST_WORD(d, 3) ^ CR_ST_WORD(d, 0), 1);
 -    env->vfp.regs[rd] = make_float64(d.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(d.l[1]);
 +    rd[0] = d.l[0];
 +    rd[1] = d.l[1];
  }
  /*
@@ -XXX,XX +XXX,XX @@ static uint32_t s1(uint32_t x)
      return ror32(x, 17) ^ ror32(x, 19) ^ (x >> 10);
  }
 -void HELPER(crypto_sha256h)(CPUARMState *env, uint32_t rd, uint32_t rn,
 -                            uint32_t rm)
 +void HELPER(crypto_sha256h)(void *vd, void *vn, void *vm)
  {
 -    union CRYPTO_STATE d = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 -    union CRYPTO_STATE n = { .l = {
 -        float64_val(env->vfp.regs[rn]),
 -        float64_val(env->vfp.regs[rn + 1])
 -    } };
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rn = vn;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE d = { .l = { rd[0], rd[1] } };
 +    union CRYPTO_STATE n = { .l = { rn[0], rn[1] } };
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      int i;
      for (i = 0; i < 4; i++) {
@@ -XXX,XX +XXX,XX @@ void HELPER(crypto_sha256h)(CPUARMState *env, uint32_t rd, uint32_t rn,
          CR_ST_WORD(d, 0) = t;
      }
 -    env->vfp.regs[rd] = make_float64(d.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(d.l[1]);
 +    rd[0] = d.l[0];
 +    rd[1] = d.l[1];
  }
 -void HELPER(crypto_sha256h2)(CPUARMState *env, uint32_t rd, uint32_t rn,
 -                             uint32_t rm)
 +void HELPER(crypto_sha256h2)(void *vd, void *vn, void *vm)
  {
 -    union CRYPTO_STATE d = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 -    union CRYPTO_STATE n = { .l = {
 -        float64_val(env->vfp.regs[rn]),
 -        float64_val(env->vfp.regs[rn + 1])
 -    } };
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rn = vn;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE d = { .l = { rd[0], rd[1] } };
 +    union CRYPTO_STATE n = { .l = { rn[0], rn[1] } };
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      int i;
      for (i = 0; i < 4; i++) {
@@ -XXX,XX +XXX,XX @@ void HELPER(crypto_sha256h2)(CPUARMState *env, uint32_t rd, uint32_t rn,
          CR_ST_WORD(d, 0) = CR_ST_WORD(n, 3 - i) + t;
      }
 -    env->vfp.regs[rd] = make_float64(d.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(d.l[1]);
 +    rd[0] = d.l[0];
 +    rd[1] = d.l[1];
  }
 -void HELPER(crypto_sha256su0)(CPUARMState *env, uint32_t rd, uint32_t rm)
 +void HELPER(crypto_sha256su0)(void *vd, void *vm)
  {
 -    union CRYPTO_STATE d = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE d = { .l = { rd[0], rd[1] } };
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      CR_ST_WORD(d, 0) += s0(CR_ST_WORD(d, 1));
      CR_ST_WORD(d, 1) += s0(CR_ST_WORD(d, 2));
      CR_ST_WORD(d, 2) += s0(CR_ST_WORD(d, 3));
      CR_ST_WORD(d, 3) += s0(CR_ST_WORD(m, 0));
 -    env->vfp.regs[rd] = make_float64(d.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(d.l[1]);
 +    rd[0] = d.l[0];
 +    rd[1] = d.l[1];
  }
 -void HELPER(crypto_sha256su1)(CPUARMState *env, uint32_t rd, uint32_t rn,
 -                              uint32_t rm)
 +void HELPER(crypto_sha256su1)(void *vd, void *vn, void *vm)
  {
 -    union CRYPTO_STATE d = { .l = {
 -        float64_val(env->vfp.regs[rd]),
 -        float64_val(env->vfp.regs[rd + 1])
 -    } };
 -    union CRYPTO_STATE n = { .l = {
 -        float64_val(env->vfp.regs[rn]),
 -        float64_val(env->vfp.regs[rn + 1])
 -    } };
 -    union CRYPTO_STATE m = { .l = {
 -        float64_val(env->vfp.regs[rm]),
 -        float64_val(env->vfp.regs[rm + 1])
 -    } };
 +    uint64_t *rd = vd;
 +    uint64_t *rn = vn;
 +    uint64_t *rm = vm;
 +    union CRYPTO_STATE d = { .l = { rd[0], rd[1] } };
 +    union CRYPTO_STATE n = { .l = { rn[0], rn[1] } };
 +    union CRYPTO_STATE m = { .l = { rm[0], rm[1] } };
      CR_ST_WORD(d, 0) += s1(CR_ST_WORD(m, 2)) + CR_ST_WORD(n, 1);
      CR_ST_WORD(d, 1) += s1(CR_ST_WORD(m, 3)) + CR_ST_WORD(n, 2);
      CR_ST_WORD(d, 2) += s1(CR_ST_WORD(d, 0)) + CR_ST_WORD(n, 3);
      CR_ST_WORD(d, 3) += s1(CR_ST_WORD(d, 1)) + CR_ST_WORD(m, 0);
 -    env->vfp.regs[rd] = make_float64(d.l[0]);
 -    env->vfp.regs[rd + 1] = make_float64(d.l[1]);
 +    rd[0] = d.l[0];
 +    rd[1] = d.l[1];
  }
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
  typedef void NeonGenTwoSingleOPFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
  typedef void NeonGenTwoDoubleOPFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
  typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
 -typedef void CryptoTwoOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i32);
 -typedef void CryptoThreeOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i32, TCGv_i32);
 +typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
 +typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  /* initialize TCG globals.  */
  void a64_translate_init(void)
@@ -XXX,XX +XXX,XX @@ static inline int vec_reg_offset(DisasContext *s, int regno,
      return offs;
  }
 +/* Return the offset info CPUARMState of the "whole" vector register Qn.  */
 +static inline int vec_full_reg_offset(DisasContext *s, int regno)
 +{
-+    assert_fp_access_checked(s);
++    return do_uqrshl_bhs(n, (int8_t)shift, 32, true, &env->QF);
 +    return offsetof(CPUARMState, vfp.regs[regno * 2]);
 +}
 +
-+/* Return a newly allocated pointer to the vector register.  */
++uint32_t HELPER(mve_sqrshr)(CPUARMState *env, uint32_t n, uint32_t shift)
 +static TCGv_ptr vec_full_reg_ptr(DisasContext *s, int regno)
 +{
-+    TCGv_ptr ret = tcg_temp_new_ptr();
++    return do_sqrshl_bhs(n, -(int8_t)shift, 32, true, &env->QF);
 +    tcg_gen_addi_ptr(ret, cpu_env, vec_full_reg_offset(s, regno));
 +    return ret;
 +}
-+
- /* Return the offset into CPUARMState of a slice (from
-  * the least significant end) of FP register Qn (ie
-  * Dn, Sn, Hn or Bn).
-@@ -XXX,XX +XXX,XX @@ static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-     int rn = extract32(insn, 5, 5);
-     int rd = extract32(insn, 0, 5);
-     int decrypt;
--    TCGv_i32 tcg_rd_regno, tcg_rn_regno, tcg_decrypt;
--    CryptoThreeOpEnvFn *genfn;
-+    TCGv_ptr tcg_rd_ptr, tcg_rn_ptr;
-+    TCGv_i32 tcg_decrypt;
-+    CryptoThreeOpIntFn *genfn;
-     if (!arm_dc_feature(s, ARM_FEATURE_V8_AES)
-         || size != 0) {
-@@ -XXX,XX +XXX,XX @@ static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-         return;
-     }
--    /* Note that we convert the Vx register indexes into the
--     * index within the vfp.regs[] array, so we can share the
--     * helper with the AArch32 instructions.
--     */
--    tcg_rd_regno = tcg_const_i32(rd << 1);
--    tcg_rn_regno = tcg_const_i32(rn << 1);
-+    tcg_rd_ptr = vec_full_reg_ptr(s, rd);
-+    tcg_rn_ptr = vec_full_reg_ptr(s, rn);
-     tcg_decrypt = tcg_const_i32(decrypt);
--    genfn(cpu_env, tcg_rd_regno, tcg_rn_regno, tcg_decrypt);
-+    genfn(tcg_rd_ptr, tcg_rn_ptr, tcg_decrypt);
--    tcg_temp_free_i32(tcg_rd_regno);
--    tcg_temp_free_i32(tcg_rn_regno);
-+    tcg_temp_free_ptr(tcg_rd_ptr);
-+    tcg_temp_free_ptr(tcg_rn_ptr);
-     tcg_temp_free_i32(tcg_decrypt);
- }
-@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-     int rm = extract32(insn, 16, 5);
-     int rn = extract32(insn, 5, 5);
-     int rd = extract32(insn, 0, 5);
--    CryptoThreeOpEnvFn *genfn;
--    TCGv_i32 tcg_rd_regno, tcg_rn_regno, tcg_rm_regno;
-+    CryptoThreeOpFn *genfn;
-+    TCGv_ptr tcg_rd_ptr, tcg_rn_ptr, tcg_rm_ptr;
-     int feature = ARM_FEATURE_V8_SHA256;
-     if (size != 0) {
-@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-         return;
-     }
--    tcg_rd_regno = tcg_const_i32(rd << 1);
--    tcg_rn_regno = tcg_const_i32(rn << 1);
--    tcg_rm_regno = tcg_const_i32(rm << 1);
-+    tcg_rd_ptr = vec_full_reg_ptr(s, rd);
-+    tcg_rn_ptr = vec_full_reg_ptr(s, rn);
-+    tcg_rm_ptr = vec_full_reg_ptr(s, rm);
-     if (genfn) {
--        genfn(cpu_env, tcg_rd_regno, tcg_rn_regno, tcg_rm_regno);
-+        genfn(tcg_rd_ptr, tcg_rn_ptr, tcg_rm_ptr);
-     } else {
-         TCGv_i32 tcg_opcode = tcg_const_i32(opcode);
--        gen_helper_crypto_sha1_3reg(cpu_env, tcg_rd_regno,
--                                    tcg_rn_regno, tcg_rm_regno, tcg_opcode);
-+        gen_helper_crypto_sha1_3reg(tcg_rd_ptr, tcg_rn_ptr,
-+                                    tcg_rm_ptr, tcg_opcode);
-         tcg_temp_free_i32(tcg_opcode);
-     }
--    tcg_temp_free_i32(tcg_rd_regno);
--    tcg_temp_free_i32(tcg_rn_regno);
--    tcg_temp_free_i32(tcg_rm_regno);
-+    tcg_temp_free_ptr(tcg_rd_ptr);
-+    tcg_temp_free_ptr(tcg_rn_ptr);
-+    tcg_temp_free_ptr(tcg_rm_ptr);
- }
- /* Crypto two-reg SHA
-@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
-     int opcode = extract32(insn, 12, 5);
-     int rn = extract32(insn, 5, 5);
-     int rd = extract32(insn, 0, 5);
--    CryptoTwoOpEnvFn *genfn;
-+    CryptoTwoOpFn *genfn;
-     int feature;
--    TCGv_i32 tcg_rd_regno, tcg_rn_regno;
-+    TCGv_ptr tcg_rd_ptr, tcg_rn_ptr;
-     if (size != 0) {
-         unallocated_encoding(s);
-@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
-         return;
-     }
--    tcg_rd_regno = tcg_const_i32(rd << 1);
--    tcg_rn_regno = tcg_const_i32(rn << 1);
-+    tcg_rd_ptr = vec_full_reg_ptr(s, rd);
-+    tcg_rn_ptr = vec_full_reg_ptr(s, rn);
--    genfn(cpu_env, tcg_rd_regno, tcg_rn_regno);
-+    genfn(tcg_rd_ptr, tcg_rn_ptr);
--    tcg_temp_free_i32(tcg_rd_regno);
--    tcg_temp_free_i32(tcg_rn_regno);
-+    tcg_temp_free_ptr(tcg_rd_ptr);
-+    tcg_temp_free_ptr(tcg_rn_ptr);
- }
- /* C3.6 Data processing - SIMD, inc Crypto
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static inline void neon_store_reg64(TCGv_i64 var, int reg)
+@@ -XXX,XX +XXX,XX @@ static bool trans_UQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
-     tcg_gen_st_i64(var, cpu_env, vfp_reg_offset(1, reg));
+     return do_mve_sh_ri(s, a, gen_mve_uqshl);
  }
-+static TCGv_ptr vfp_reg_ptr(bool dp, int reg)
++static bool do_mve_sh_rr(DisasContext *s, arg_mve_sh_rr *a, ShiftFn *fn)
 +{
-+    TCGv_ptr ret = tcg_temp_new_ptr();
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+    tcg_gen_addi_ptr(ret, cpu_env, vfp_reg_offset(dp, reg));
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-+    return ret;
++        return false;
 +    }
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
 +        a->rda == 13 || a->rda == 15 || a->rm == 13 || a->rm == 15 ||
 +        a->rm == a->rda) {
 +        /* These rda/rm cases are UNPREDICTABLE; we choose to UNDEF */
 +        unallocated_encoding(s);
 +        return true;
 +    }
 +
 +    /* The helper takes care of the sign-extension of the low 8 bits of Rm */
 +    fn(cpu_R[a->rda], cpu_env, cpu_R[a->rda], cpu_R[a->rm]);
 +    return true;
 +}
 +
- #define tcg_gen_ld_f32 tcg_gen_ld_i32
++static bool trans_SQRSHR_rr(DisasContext *s, arg_mve_sh_rr *a)
- #define tcg_gen_ld_f64 tcg_gen_ld_i64
++{
- #define tcg_gen_st_f32 tcg_gen_st_i32
++    return do_mve_sh_rr(s, a, gen_helper_mve_sqrshr);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
++}
-     int u;
++
-     uint32_t imm, mask;
++static bool trans_UQRSHL_rr(DisasContext *s, arg_mve_sh_rr *a)
-     TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
++{
-+    TCGv_ptr ptr1, ptr2, ptr3;
++    return do_mve_sh_rr(s, a, gen_helper_mve_uqrshl);
-     TCGv_i64 tmp64;
++}
++
-     /* FIXME: this access check should not take precedence over UNDEF
+ /*
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+  * Multiply and multiply accumulate
-                 if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)) {
+  */
                      return 1;
                  }
 -                tmp = tcg_const_i32(rd);
 -                tmp2 = tcg_const_i32(rn);
 -                tmp3 = tcg_const_i32(rm);
 +                ptr1 = vfp_reg_ptr(true, rd);
 +                ptr2 = vfp_reg_ptr(true, rn);
 +                ptr3 = vfp_reg_ptr(true, rm);
                  tmp4 = tcg_const_i32(size);
 -                gen_helper_crypto_sha1_3reg(cpu_env, tmp, tmp2, tmp3, tmp4);
 +                gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp4);
                  tcg_temp_free_i32(tmp4);
              } else { /* SHA-256 */
                  if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA256) || size == 3) {
                      return 1;
                  }
 -                tmp = tcg_const_i32(rd);
 -                tmp2 = tcg_const_i32(rn);
 -                tmp3 = tcg_const_i32(rm);
 +                ptr1 = vfp_reg_ptr(true, rd);
 +                ptr2 = vfp_reg_ptr(true, rn);
 +                ptr3 = vfp_reg_ptr(true, rm);
                  switch (size) {
                  case 0:
 -                    gen_helper_crypto_sha256h(cpu_env, tmp, tmp2, tmp3);
 +                    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
                      break;
                  case 1:
 -                    gen_helper_crypto_sha256h2(cpu_env, tmp, tmp2, tmp3);
 +                    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
                      break;
                  case 2:
 -                    gen_helper_crypto_sha256su1(cpu_env, tmp, tmp2, tmp3);
 +                    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
                      break;
                  }
              }
 -            tcg_temp_free_i32(tmp);
 -            tcg_temp_free_i32(tmp2);
 -            tcg_temp_free_i32(tmp3);
 +            tcg_temp_free_ptr(ptr1);
 +            tcg_temp_free_ptr(ptr2);
 +            tcg_temp_free_ptr(ptr3);
              return 0;
          }
          if (size == 3 && op != NEON_3R_LOGIC) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          || ((rm | rd) & 1)) {
                          return 1;
                      }
 -                    tmp = tcg_const_i32(rd);
 -                    tmp2 = tcg_const_i32(rm);
 +                    ptr1 = vfp_reg_ptr(true, rd);
 +                    ptr2 = vfp_reg_ptr(true, rm);
                       /* Bit 6 is the lowest opcode bit; it distinguishes between
                        * encryption (AESE/AESMC) and decryption (AESD/AESIMC)
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      tmp3 = tcg_const_i32(extract32(insn, 6, 1));
                      if (op == NEON_2RM_AESE) {
 -                        gen_helper_crypto_aese(cpu_env, tmp, tmp2, tmp3);
 +                        gen_helper_crypto_aese(ptr1, ptr2, tmp3);
                      } else {
 -                        gen_helper_crypto_aesmc(cpu_env, tmp, tmp2, tmp3);
 +                        gen_helper_crypto_aesmc(ptr1, ptr2, tmp3);
                      }
 -                    tcg_temp_free_i32(tmp);
 -                    tcg_temp_free_i32(tmp2);
 +                    tcg_temp_free_ptr(ptr1);
 +                    tcg_temp_free_ptr(ptr2);
                      tcg_temp_free_i32(tmp3);
                      break;
                  case NEON_2RM_SHA1H:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          || ((rm | rd) & 1)) {
                          return 1;
                      }
 -                    tmp = tcg_const_i32(rd);
 -                    tmp2 = tcg_const_i32(rm);
 +                    ptr1 = vfp_reg_ptr(true, rd);
 +                    ptr2 = vfp_reg_ptr(true, rm);
 -                    gen_helper_crypto_sha1h(cpu_env, tmp, tmp2);
 +                    gen_helper_crypto_sha1h(ptr1, ptr2);
 -                    tcg_temp_free_i32(tmp);
 -                    tcg_temp_free_i32(tmp2);
 +                    tcg_temp_free_ptr(ptr1);
 +                    tcg_temp_free_ptr(ptr2);
                      break;
                  case NEON_2RM_SHA1SU1:
                      if ((rm | rd) & 1) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      } else if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)) {
                          return 1;
                      }
 -                    tmp = tcg_const_i32(rd);
 -                    tmp2 = tcg_const_i32(rm);
 +                    ptr1 = vfp_reg_ptr(true, rd);
 +                    ptr2 = vfp_reg_ptr(true, rm);
                      if (q) {
 -                        gen_helper_crypto_sha256su0(cpu_env, tmp, tmp2);
 +                        gen_helper_crypto_sha256su0(ptr1, ptr2);
                      } else {
 -                        gen_helper_crypto_sha1su1(cpu_env, tmp, tmp2);
 +                        gen_helper_crypto_sha1su1(ptr1, ptr2);
                      }
 -                    tcg_temp_free_i32(tmp);
 -                    tcg_temp_free_i32(tmp2);
 +                    tcg_temp_free_ptr(ptr1);
 +                    tcg_temp_free_ptr(ptr2);
                      break;
                  default:
                  elementwise:
 --
-.7.4
+.20.1

Arm queue built up to a point where it seems worth sending:
various bug fixes, plus RTH's refactoring in preparation for SVE.

thanks
-- PMM
 
 
The following changes since commit 0f79bfe38a2cf0f43c7ea4959da7f8ebd7858f3d:

Merge remote-tracking branch 'remotes/vivier2/tags/linux-user-for-2.12-pull-request' into staging (2018-01-25 09:53:53 +0000)

are available in the git repository at:

git://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20180125

for you to fetch changes up to 24da047af0e99a83fcc0d50b86c0f2627f7418b3:

pl110: Implement vertical compare/next base interrupts (2018-01-25 11:45:30 +0000)

----------------------------------------------------------------
target-arm queue:
 * target/arm: Fix address truncation in 64-bit pagetable walks
 * i.MX: Fix FEC/ENET receive functions
 * target/arm: preparatory refactoring for SVE emulation
 * hw/intc/arm_gic: Prevent the GIC from signaling an IRQ when it's "active and pending"
 * hw/intc/arm_gic: Fix C_RPR value on idle priority
 * hw/intc/arm_gic: Fix group priority computation for group 1 IRQs
 * hw/intc/arm_gic: Fix the NS view of C_BPR when C_CTRL.CBPR is 1
 * hw/arm/virt: Check that the CPU realize method succeeded
 * sdhci: fix a NULL pointer dereference due to uninitialized AddressSpace object
 * xilinx_spips: Correct usage of an uninitialized local variable
 * pl110: Implement vertical compare/next base interrupts

----------------------------------------------------------------
Ard Biesheuvel (1):
      target/arm: Fix 32-bit address truncation

Francisco Iglesias (1):
      xilinx_spips: Correct usage of an uninitialized local variable

Jean-Christophe Dubois (1):
      i.MX: Fix FEC/ENET receive funtions

Linus Walleij (1):
      pl110: Implement vertical compare/next base interrupts

Luc MICHEL (4):
      hw/intc/arm_gic: Prevent the GIC from signaling an IRQ when it's "active and pending"
      hw/intc/arm_gic: Fix C_RPR value on idle priority
      hw/intc/arm_gic: Fix group priority computation for group 1 IRQs
      hw/intc/arm_gic: Fix the NS view of C_BPR when C_CTRL.CBPR is 1

Peter Maydell (1):
      hw/arm/virt: Check that the CPU realize method succeeded

Philippe Mathieu-Daudé (1):
      sdhci: fix a NULL pointer dereference due to uninitialized AddresSpace object

Richard Henderson (11):
      target/arm: Mark disas_set_insn_syndrome inline
      target/arm: Use pointers in crypto helpers
      target/arm: Use pointers in neon zip/uzp helpers
      target/arm: Use pointers in neon tbl helper
      target/arm: Change the type of vfp.regs
      target/arm: Add aa{32, 64}_vfp_{dreg, qreg} helpers
      vmstate: Add VMSTATE_UINT64_SUB_ARRAY
      target/arm: Add ARM_FEATURE_SVE
      target/arm: Move cpu_get_tb_cpu_state out of line
      target/arm: Hoist store to flags output in cpu_get_tb_cpu_state
      target/arm: Simplify fp_exception_el for user-only

From: Ard Biesheuvel <ard.biesheuvel@linaro.org>

Commit ("3b39d734141a target/arm: Handle page table walk load failures
correctly") modified both versions of the page table walking code (i.e.,
arm_ldl_ptw and arm_ldq_ptw) to record the result of the translation in
a temporary 'data' variable so that it can be inspected before being
returned. However, arm_ldq_ptw() returns an uint64_t, and using a
temporary uint32_t variable truncates the upper bits, corrupting the
result. This causes problems when using more than 4 GB of memory in
a TCG guest. So use a uint64_t instead.

Signed-off-by: Ard Biesheuvel <ard.biesheuvel@linaro.org>
Message-id: 20180119194648.25501-1-ard.biesheuvel@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t arm_ldq_ptw(CPUState *cs, hwaddr addr, bool is_secure,
     MemTxAttrs attrs = {};
     MemTxResult result = MEMTX_OK;
     AddressSpace *as;
-    uint32_t data;
+    uint64_t data;
 
     attrs.secure = is_secure;
     as = arm_addressspace(cs, attrs);
-- 
2.7.4

From: Jean-Christophe Dubois <jcd@tribudubois.net>

The actual imx_eth_enable_rx() function is buggy.

It updates s->regs[ENET_RDAR] after calling qemu_flush_queued_packets().

qemu_flush_queued_packets() is going to call imx_XXX_receive() which itself
is going to call imx_eth_enable_rx().

By updating s->regs[ENET_RDAR] after calling qemu_flush_queued_packets()
we end up updating the register with an outdated value which might
lead to disabling the receive function in the i.MX FEC/ENET device.

This patch change the place where the register update is done so that the
register value stays up to date and the receive function can keep
running.

Reported-by: Fyleo <fyleo45@gmail.com>
Tested-by: Fyleo  <fyleo45@gmail.com>
Signed-off-by: Jean-Christophe Dubois <jcd@tribudubois.net>
Message-id: 20180113113445.2705-1-jcd@tribudubois.net
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Andrey Smirnov <andrew.smirnov@gmail.com>
Tested-by: Andrey Smirnov <andrew.smirnov@gmail.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/net/imx_fec.c | 8 ++------
 1 file changed, 2 insertions(+), 6 deletions(-)

diff --git a/hw/net/imx_fec.c b/hw/net/imx_fec.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/imx_fec.c
+++ b/hw/net/imx_fec.c
@@ -XXX,XX +XXX,XX @@ static void imx_eth_do_tx(IMXFECState *s, uint32_t index)
 static void imx_eth_enable_rx(IMXFECState *s, bool flush)
 {
     IMXFECBufDesc bd;
-    bool rx_ring_full;
 
     imx_fec_read_bd(&bd, s->rx_descriptor);
 
-    rx_ring_full = !(bd.flags & ENET_BD_E);
+    s->regs[ENET_RDAR] = (bd.flags & ENET_BD_E) ? ENET_RDAR_RDAR : 0;
 
-    if (rx_ring_full) {
+    if (!s->regs[ENET_RDAR]) {
         FEC_PRINTF("RX buffer full\n");
     } else if (flush) {
         qemu_flush_queued_packets(qemu_get_queue(s->nic));
     }
-
-    s->regs[ENET_RDAR] = rx_ring_full ? 0 : ENET_RDAR_RDAR;
 }
 
 static void imx_eth_reset(DeviceState *d)
@@ -XXX,XX +XXX,XX @@ static void imx_eth_write(void *opaque, hwaddr offset, uint64_t value,
     case ENET_RDAR:
         if (s->regs[ENET_ECR] & ENET_ECR_ETHEREN) {
             if (!s->regs[index]) {
-                s->regs[index] = ENET_RDAR_RDAR;
                 imx_eth_enable_rx(s, true);
             }
         } else {
-- 
2.7.4