Series comparison

-[PULL 00/48] target-arm queue
+[PULL 00/57] target-arm queue
-Last minute pullreq for arm related patches; quite large because
+The following changes since commit 53f306f316549d20c76886903181413d20842423:
 there were several series that only just made it through code review
 in time.
-thanks
+  Merge remote-tracking branch 'remotes/ehabkost-gl/tags/x86-next-pull-request' into staging (2021-06-21 11:26:04 +0100)
 -- PMM
 The following changes since commit 091e3e3dbc499d84c004e1c50bc9870af37f6e99:
   Merge remote-tracking branch 'remotes/ericb/tags/pull-bitmaps-2020-10-26' into staging (2020-10-26 22:36:35 +0000)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20201027-1
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210621
-for you to fetch changes up to 32bd322a0134ed89db00f2b9b3894982db3dedcb:
+for you to fetch changes up to a83f1d9263d281f938a3984cda7104d55affd43a:
-  hw/timer/armv7m_systick: Rewrite to use ptimers (2020-10-27 11:15:31 +0000)
+  docs/system: arm: Add nRF boards description (2021-06-21 17:24:33 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * raspi: add model of cprman clock manager
+ * Don't require 'virt' board to be compiled in for ACPI GHES code
- * sbsa-ref: add an SBSA generic watchdog device
+ * docs: Document which architecture extensions we emulate
- * arm/trace: Fix hex printing
+ * Fix bugs in M-profile FPCXT_NS accesses
- * raspi: Add models of Pi 3 model A+, Pi Zero and Pi A+
+ * First slice of MVE patches
- * hw/arm/smmuv3: Set the restoration priority of the vSMMUv3 explicitly
+ * Implement MTE3
- * Nuvoton NPCM7xx: Add USB, RNG, GPIO and watchdog support
+ * docs/system: arm: Add nRF boards description
  * hw/arm: fix min_cpus for xlnx-versal-virt platform
  * hw/arm/highbank: Silence warnings about missing fallthrough statements
  * linux-user: Support Aarch64 BTI
  * Armv7M systick: fix corner case bugs by rewriting to use ptimer
 ----------------------------------------------------------------
-Dr. David Alan Gilbert (1):
+Alexandre Iooss (1):
-      arm/trace: Fix hex printing
+      docs/system: arm: Add nRF boards description
-Hao Wu (1):
+Peter Collingbourne (1):
-      hw/timer: Adding watchdog for NPCM7XX Timer.
+      target/arm: Implement MTE3
-Havard Skinnemoen (4):
+Peter Maydell (55):
-      Move npcm7xx_timer_reached_zero call out of npcm7xx_timer_pause
+      hw/acpi: Provide stub version of acpi_ghes_record_errors()
-      hw/misc: Add npcm7xx random number generator
+      hw/acpi: Provide function acpi_ghes_present()
-      hw/arm/npcm7xx: Add EHCI and OHCI controllers
+      target/arm: Use acpi_ghes_present() to see if we report ACPI memory errors
-      hw/gpio: Add GPIO model for Nuvoton NPCM7xx
+      docs/system/arm: Document which architecture extensions we emulate
       target/arm/translate-vfp.c: Whitespace fixes
       target/arm: Handle FPU being disabled in FPCXT_NS accesses
       target/arm: Don't NOCP fault for FPCXT_NS accesses
       target/arm: Handle writeback in VLDR/VSTR sysreg with no memory access
       target/arm: Factor FP context update code out into helper function
       target/arm: Split vfp_access_check() into A and M versions
       target/arm: Handle FPU check for FPCXT_NS insns via vfp_access_check_m()
       target/arm: Implement MVE VLDR/VSTR (non-widening forms)
       target/arm: Implement widening/narrowing MVE VLDR/VSTR insns
       target/arm: Implement MVE VCLZ
       target/arm: Implement MVE VCLS
       target/arm: Implement MVE VREV16, VREV32, VREV64
       target/arm: Implement MVE VMVN (register)
       target/arm: Implement MVE VABS
       target/arm: Implement MVE VNEG
       tcg: Make gen_dup_i32/i64() public as tcg_gen_dup_i32/i64
       target/arm: Implement MVE VDUP
       target/arm: Implement MVE VAND, VBIC, VORR, VORN, VEOR
       target/arm: Implement MVE VADD, VSUB, VMUL
       target/arm: Implement MVE VMULH
       target/arm: Implement MVE VRMULH
       target/arm: Implement MVE VMAX, VMIN
       target/arm: Implement MVE VABD
       target/arm: Implement MVE VHADD, VHSUB
       target/arm: Implement MVE VMULL
       target/arm: Implement MVE VMLALDAV
       target/arm: Implement MVE VMLSLDAV
       target/arm: Implement MVE VRMLALDAVH, VRMLSLDAVH
       target/arm: Implement MVE VADD (scalar)
       target/arm: Implement MVE VSUB, VMUL (scalar)
       target/arm: Implement MVE VHADD, VHSUB (scalar)
       target/arm: Implement MVE VBRSR
       target/arm: Implement MVE VPST
       target/arm: Implement MVE VQADD and VQSUB
       target/arm: Implement MVE VQDMULH and VQRDMULH (scalar)
       target/arm: Implement MVE VQDMULL scalar
       target/arm: Implement MVE VQDMULH, VQRDMULH (vector)
       target/arm: Implement MVE VQADD, VQSUB (vector)
       target/arm: Implement MVE VQSHL (vector)
       target/arm: Implement MVE VQRSHL
       target/arm: Implement MVE VSHL insn
       target/arm: Implement MVE VRSHL
       target/arm: Implement MVE VQDMLADH and VQRDMLADH
       target/arm: Implement MVE VQDMLSDH and VQRDMLSDH
       target/arm: Implement MVE VQDMULL (vector)
       target/arm: Implement MVE VRHADD
       target/arm: Implement MVE VADC, VSBC
       target/arm: Implement MVE VCADD
       target/arm: Implement MVE VHCADD
       target/arm: Implement MVE VADDV
       target/arm: Make VMOV scalar <-> gpreg beatwise for MVE
-Luc Michel (14):
+ docs/system/arm/emulation.rst |  103 ++++
-      hw/core/clock: provide the VMSTATE_ARRAY_CLOCK macro
+ docs/system/arm/nrf.rst       |   51 ++
-      hw/core/clock: trace clock values in Hz instead of ns
+ docs/system/target-arm.rst    |    7 +
-      hw/arm/raspi: fix CPRMAN base address
+ include/hw/acpi/ghes.h        |    9 +
-      hw/arm/raspi: add a skeleton implementation of the CPRMAN
+ include/tcg/tcg-op.h          |    8 +
-      hw/misc/bcm2835_cprman: add a PLL skeleton implementation
+ include/tcg/tcg.h             |    1 -
-      hw/misc/bcm2835_cprman: implement PLLs behaviour
+ target/arm/helper-mve.h       |  357 +++++++++++++
-      hw/misc/bcm2835_cprman: add a PLL channel skeleton implementation
+ target/arm/helper.h           |    2 +
-      hw/misc/bcm2835_cprman: implement PLL channels behaviour
+ target/arm/internals.h        |   11 +
-      hw/misc/bcm2835_cprman: add a clock mux skeleton implementation
+ target/arm/translate-a32.h    |    3 +
-      hw/misc/bcm2835_cprman: implement clock mux behaviour
+ target/arm/translate.h        |   10 +
-      hw/misc/bcm2835_cprman: add the DSI0HSCK multiplexer
+ target/arm/m-nocp.decode      |   24 +
-      hw/misc/bcm2835_cprman: add sane reset values to the registers
+ target/arm/mve.decode         |  240 +++++++++
-      hw/char/pl011: add a clock input
+ target/arm/vfp.decode         |   14 -
-      hw/arm/bcm2835_peripherals: connect the UART clock
+ hw/acpi/ghes-stub.c           |   22 +
  hw/acpi/ghes.c                |   17 +
  target/arm/cpu64.c            |    2 +-
  target/arm/kvm64.c            |    6 +-
  target/arm/mte_helper.c       |   82 +--
  target/arm/mve_helper.c       | 1160 +++++++++++++++++++++++++++++++++++++++++
  target/arm/translate-m-nocp.c |  550 +++++++++++++++++++
  target/arm/translate-mve.c    |  759 +++++++++++++++++++++++++++
  target/arm/translate-vfp.c    |  741 +++++++-------------------
  tcg/tcg-op-gvec.c             |   20 +-
  MAINTAINERS                   |    1 +
  hw/acpi/meson.build           |    6 +-
  target/arm/meson.build        |    1 +
 files changed, 3578 insertions(+), 629 deletions(-)
  create mode 100644 docs/system/arm/emulation.rst
  create mode 100644 docs/system/arm/nrf.rst
  create mode 100644 target/arm/helper-mve.h
  create mode 100644 hw/acpi/ghes-stub.c
  create mode 100644 target/arm/mve_helper.c
-Pavel Dovgalyuk (1):
-      hw/arm: fix min_cpus for xlnx-versal-virt platform
-Peter Maydell (2):
-      hw/core/ptimer: Support ptimer being disabled by timer callback
-      hw/timer/armv7m_systick: Rewrite to use ptimers
-Philippe Mathieu-Daudé (10):
-      linux-user/elfload: Avoid leaking interp_name using GLib memory API
-      hw/arm/bcm2836: Restrict BCM283XInfo declaration to C source
-      hw/arm/bcm2836: QOM'ify more by adding class_init() to each SoC type
-      hw/arm/bcm2836: Introduce BCM283XClass::core_count
-      hw/arm/bcm2836: Only provide "enabled-cpus" property to multicore SoCs
-      hw/arm/bcm2836: Split out common realize() code
-      hw/arm/bcm2836: Introduce the BCM2835 SoC
-      hw/arm/raspi: Add the Raspberry Pi A+ machine
-      hw/arm/raspi: Add the Raspberry Pi Zero machine
-      hw/arm/raspi: Add the Raspberry Pi 3 model A+
-Richard Henderson (11):
-      linux-user/aarch64: Reset btype for signals
-      linux-user: Set PAGE_TARGET_1 for TARGET_PROT_BTI
-      include/elf: Add defines related to GNU property notes for AArch64
-      linux-user/elfload: Fix coding style in load_elf_image
-      linux-user/elfload: Adjust iteration over phdr
-      linux-user/elfload: Move PT_INTERP detection to first loop
-      linux-user/elfload: Use Error for load_elf_image
-      linux-user/elfload: Use Error for load_elf_interp
-      linux-user/elfload: Parse NT_GNU_PROPERTY_TYPE_0 notes
-      linux-user/elfload: Parse GNU_PROPERTY_AARCH64_FEATURE_1_AND
-      tests/tcg/aarch64: Add bti smoke tests
-Shashi Mallela (2):
-      hw/watchdog: Implement SBSA watchdog device
-      hw/arm/sbsa-ref: add SBSA watchdog device
-Thomas Huth (1):
-      hw/arm/highbank: Silence warnings about missing fallthrough statements
-Zenghui Yu (1):
-      hw/arm/smmuv3: Set the restoration priority of the vSMMUv3 explicitly
- docs/system/arm/nuvoton.rst                |    6 +-
- hw/usb/hcd-ehci.h                          |    1 +
- include/elf.h                              |   22 +
- include/exec/cpu-all.h                     |    2 +
- include/hw/arm/bcm2835_peripherals.h       |    5 +-
- include/hw/arm/bcm2836.h                   |    9 +-
- include/hw/arm/npcm7xx.h                   |    8 +
- include/hw/arm/raspi_platform.h            |    5 +-
- include/hw/char/pl011.h                    |    1 +
- include/hw/clock.h                         |    5 +
- include/hw/gpio/npcm7xx_gpio.h             |   55 ++
- include/hw/misc/bcm2835_cprman.h           |  210 ++++++
- include/hw/misc/bcm2835_cprman_internals.h | 1019 ++++++++++++++++++++++++++++
- include/hw/misc/npcm7xx_clk.h              |    2 +
- include/hw/misc/npcm7xx_rng.h              |   34 +
- include/hw/timer/armv7m_systick.h          |    3 +-
- include/hw/timer/npcm7xx_timer.h           |   48 +-
- include/hw/watchdog/sbsa_gwdt.h            |   79 +++
- linux-user/qemu.h                          |    4 +
- linux-user/syscall_defs.h                  |    4 +
- target/arm/cpu.h                           |    5 +
- hw/arm/bcm2835_peripherals.c               |   15 +-
- hw/arm/bcm2836.c                           |  182 +++--
- hw/arm/highbank.c                          |    2 +
- hw/arm/npcm7xx.c                           |  126 +++-
- hw/arm/raspi.c                             |   41 ++
- hw/arm/sbsa-ref.c                          |   23 +
- hw/arm/smmuv3.c                            |    1 +
- hw/arm/xlnx-versal-virt.c                  |    1 +
- hw/char/pl011.c                            |   45 ++
- hw/core/clock.c                            |    6 +-
- hw/core/ptimer.c                           |    4 +
- hw/gpio/npcm7xx_gpio.c                     |  424 ++++++++++++
- hw/misc/bcm2835_cprman.c                   |  808 ++++++++++++++++++++++
- hw/misc/npcm7xx_clk.c                      |   28 +
- hw/misc/npcm7xx_rng.c                      |  180 +++++
- hw/timer/armv7m_systick.c                  |  124 ++--
- hw/timer/npcm7xx_timer.c                   |  270 ++++++--
- hw/usb/hcd-ehci-sysbus.c                   |   19 +
- hw/watchdog/sbsa_gwdt.c                    |  293 ++++++++
- linux-user/aarch64/signal.c                |   10 +-
- linux-user/elfload.c                       |  326 +++++++--
- linux-user/mmap.c                          |   16 +
- target/arm/translate-a64.c                 |    6 +-
- tests/qtest/npcm7xx_gpio-test.c            |  385 +++++++++++
- tests/qtest/npcm7xx_rng-test.c             |  278 ++++++++
- tests/qtest/npcm7xx_watchdog_timer-test.c  |  319 +++++++++
- tests/tcg/aarch64/bti-1.c                  |   62 ++
- tests/tcg/aarch64/bti-2.c                  |  116 ++++
- tests/tcg/aarch64/bti-crt.inc.c            |   51 ++
- MAINTAINERS                                |    1 +
- hw/arm/Kconfig                             |    1 +
- hw/arm/trace-events                        |    2 +-
- hw/char/trace-events                       |    1 +
- hw/core/trace-events                       |    4 +-
- hw/gpio/meson.build                        |    1 +
- hw/gpio/trace-events                       |    7 +
- hw/misc/meson.build                        |    2 +
- hw/misc/trace-events                       |    9 +
- hw/watchdog/Kconfig                        |    3 +
- hw/watchdog/meson.build                    |    1 +
- tests/qtest/meson.build                    |    6 +-
- tests/tcg/aarch64/Makefile.target          |   10 +
- tests/tcg/configure.sh                     |    4 +
-files changed, 5461 insertions(+), 279 deletions(-)
- create mode 100644 include/hw/gpio/npcm7xx_gpio.h
- create mode 100644 include/hw/misc/bcm2835_cprman.h
- create mode 100644 include/hw/misc/bcm2835_cprman_internals.h
- create mode 100644 include/hw/misc/npcm7xx_rng.h
- create mode 100644 include/hw/watchdog/sbsa_gwdt.h
- create mode 100644 hw/gpio/npcm7xx_gpio.c
- create mode 100644 hw/misc/bcm2835_cprman.c
- create mode 100644 hw/misc/npcm7xx_rng.c
- create mode 100644 hw/watchdog/sbsa_gwdt.c
- create mode 100644 tests/qtest/npcm7xx_gpio-test.c
- create mode 100644 tests/qtest/npcm7xx_rng-test.c
- create mode 100644 tests/qtest/npcm7xx_watchdog_timer-test.c
- create mode 100644 tests/tcg/aarch64/bti-1.c
- create mode 100644 tests/tcg/aarch64/bti-2.c
- create mode 100644 tests/tcg/aarch64/bti-crt.inc.c

-[PULL 17/48] hw/misc: Add npcm7xx random number generator
+[PULL 01/57] hw/acpi: Provide stub version of acpi_ghes_record_errors()
-From: Havard Skinnemoen <hskinnemoen@google.com>
+Generic code in target/arm wants to call acpi_ghes_record_errors();
 provide a stub version so that we don't fail to link when
 CONFIG_ACPI_APEI is not set. This requires us to add a new
 ghes-stub.c file to contain it and the meson.build mechanics
 to use it when appropriate.
-The RNG module returns a byte of randomness when the Data Valid bit is
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-set.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Dongjiu Geng <gengdongjiu1@gmail.com>
 Message-id: 20210603171259.27962-2-peter.maydell@linaro.org
 ---
  hw/acpi/ghes-stub.c | 17 +++++++++++++++++
  hw/acpi/meson.build |  6 +++---
 files changed, 20 insertions(+), 3 deletions(-)
  create mode 100644 hw/acpi/ghes-stub.c
-This implementation ignores the prescaler setting, and loads a new value
+diff --git a/hw/acpi/ghes-stub.c b/hw/acpi/ghes-stub.c
 into RNGD every time RNGCS is read while the RNG is enabled and random
 data is available.
 A qtest featuring some simple randomness tests is included.
 Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  docs/system/arm/nuvoton.rst    |   2 +-
  include/hw/arm/npcm7xx.h       |   2 +
  include/hw/misc/npcm7xx_rng.h  |  34 ++++
  hw/arm/npcm7xx.c               |   7 +-
  hw/misc/npcm7xx_rng.c          | 180 +++++++++++++++++++++
  tests/qtest/npcm7xx_rng-test.c | 278 +++++++++++++++++++++++++++++++++
  hw/misc/meson.build            |   1 +
  hw/misc/trace-events           |   4 +
  tests/qtest/meson.build        |   5 +-
 files changed, 510 insertions(+), 3 deletions(-)
  create mode 100644 include/hw/misc/npcm7xx_rng.h
  create mode 100644 hw/misc/npcm7xx_rng.c
  create mode 100644 tests/qtest/npcm7xx_rng-test.c
 diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
 --- a/docs/system/arm/nuvoton.rst
 +++ b/docs/system/arm/nuvoton.rst
@@ -XXX,XX +XXX,XX @@ Supported devices
   * DDR4 memory controller (dummy interface indicating memory training is done)
   * OTP controllers (no protection features)
   * Flash Interface Unit (FIU; no protection features)
 + * Random Number Generator (RNG)
  Missing devices
  ---------------
@@ -XXX,XX +XXX,XX @@ Missing devices
   * Peripheral SPI controller (PSPI)
   * Analog to Digital Converter (ADC)
   * SD/MMC host
 - * Random Number Generator (RNG)
   * PECI interface
   * Pulse Width Modulation (PWM)
   * Tachometer
 diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/npcm7xx.h
 +++ b/include/hw/arm/npcm7xx.h
@@ -XXX,XX +XXX,XX @@
  #include "hw/mem/npcm7xx_mc.h"
  #include "hw/misc/npcm7xx_clk.h"
  #include "hw/misc/npcm7xx_gcr.h"
 +#include "hw/misc/npcm7xx_rng.h"
  #include "hw/nvram/npcm7xx_otp.h"
  #include "hw/timer/npcm7xx_timer.h"
  #include "hw/ssi/npcm7xx_fiu.h"
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
      NPCM7xxOTPState     key_storage;
      NPCM7xxOTPState     fuse_array;
      NPCM7xxMCState      mc;
 +    NPCM7xxRNGState     rng;
      NPCM7xxFIUState     fiu[2];
  } NPCM7xxState;
 diff --git a/include/hw/misc/npcm7xx_rng.h b/include/hw/misc/npcm7xx_rng.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/include/hw/misc/npcm7xx_rng.h
++++ b/hw/acpi/ghes-stub.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Nuvoton NPCM7xx Random Number Generator.
++ * Support for generating APEI tables and recording CPER for Guests:
 + * stub functions.
 + *
-+ * Copyright 2020 Google LLC
++ * Copyright (c) 2021 Linaro, Ltd
 + *
-+ * This program is free software; you can redistribute it and/or modify it
++ * This work is licensed under the terms of the GNU GPL, version 2 or later.
-+ * under the terms of the GNU General Public License as published by the
++ * See the COPYING file in the top-level directory.
 + * Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 + *
 + * This program is distributed in the hope that it will be useful, but WITHOUT
 + * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 + * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
 + * for more details.
 + */
 +#ifndef NPCM7XX_RNG_H
 +#define NPCM7XX_RNG_H
 +
 +#include "hw/sysbus.h"
 +
 +typedef struct NPCM7xxRNGState {
 +    SysBusDevice parent;
 +
 +    MemoryRegion iomem;
 +
 +    uint8_t rngcs;
 +    uint8_t rngd;
 +    uint8_t rngmode;
 +} NPCM7xxRNGState;
 +
 +#define TYPE_NPCM7XX_RNG "npcm7xx-rng"
 +#define NPCM7XX_RNG(obj) OBJECT_CHECK(NPCM7xxRNGState, (obj), TYPE_NPCM7XX_RNG)
 +
 +#endif /* NPCM7XX_RNG_H */
 diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/npcm7xx.c
 +++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@
  #define NPCM7XX_GCR_BA          (0xf0800000)
  #define NPCM7XX_CLK_BA          (0xf0801000)
  #define NPCM7XX_MC_BA           (0xf0824000)
 +#define NPCM7XX_RNG_BA          (0xf000b000)
  /* Internal AHB SRAM */
  #define NPCM7XX_RAM3_BA         (0xc0008000)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
      object_initialize_child(obj, "otp2", &s->fuse_array,
                              TYPE_NPCM7XX_FUSE_ARRAY);
      object_initialize_child(obj, "mc", &s->mc, TYPE_NPCM7XX_MC);
 +    object_initialize_child(obj, "rng", &s->rng, TYPE_NPCM7XX_RNG);
      for (i = 0; i < ARRAY_SIZE(s->tim); i++) {
          object_initialize_child(obj, "tim[*]", &s->tim[i], TYPE_NPCM7XX_TIMER);
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
                         serial_hd(i), DEVICE_LITTLE_ENDIAN);
      }
 +    /* Random Number Generator. Cannot fail. */
 +    sysbus_realize(SYS_BUS_DEVICE(&s->rng), &error_abort);
 +    sysbus_mmio_map(SYS_BUS_DEVICE(&s->rng), 0, NPCM7XX_RNG_BA);
 +
      /*
       * Flash Interface Unit (FIU). Can fail if incorrect number of chip selects
       * specified, but this is a programming error.
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
      create_unimplemented_device("npcm7xx.vdmx",         0xe0800000,   4 * KiB);
      create_unimplemented_device("npcm7xx.pcierc",       0xe1000000,  64 * KiB);
      create_unimplemented_device("npcm7xx.kcs",          0xf0007000,   4 * KiB);
 -    create_unimplemented_device("npcm7xx.rng",          0xf000b000,   4 * KiB);
      create_unimplemented_device("npcm7xx.adc",          0xf000c000,   4 * KiB);
      create_unimplemented_device("npcm7xx.gfxi",         0xf000e000,   4 * KiB);
      create_unimplemented_device("npcm7xx.gpio[0]",      0xf0010000,   4 * KiB);
 diff --git a/hw/misc/npcm7xx_rng.c b/hw/misc/npcm7xx_rng.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/misc/npcm7xx_rng.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Nuvoton NPCM7xx Random Number Generator.
 + *
 + * Copyright 2020 Google LLC
 + *
 + * This program is free software; you can redistribute it and/or modify it
 + * under the terms of the GNU General Public License as published by the
 + * Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 + *
 + * This program is distributed in the hope that it will be useful, but WITHOUT
 + * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 + * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
 + * for more details.
 + */
 +
 +#include "qemu/osdep.h"
++#include "hw/acpi/ghes.h"
 +
-+#include "hw/misc/npcm7xx_rng.h"
++int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
 +#include "migration/vmstate.h"
 +#include "qemu/bitops.h"
 +#include "qemu/guest-random.h"
 +#include "qemu/log.h"
 +#include "qemu/module.h"
 +#include "qemu/units.h"
 +
 +#include "trace.h"
 +
 +#define NPCM7XX_RNG_REGS_SIZE   (4 * KiB)
 +
 +#define NPCM7XX_RNGCS           (0x00)
 +#define NPCM7XX_RNGCS_CLKP(rv)      extract32(rv, 2, 4)
 +#define NPCM7XX_RNGCS_DVALID        BIT(1)
 +#define NPCM7XX_RNGCS_RNGE          BIT(0)
 +
 +#define NPCM7XX_RNGD            (0x04)
 +#define NPCM7XX_RNGMODE         (0x08)
 +#define NPCM7XX_RNGMODE_NORMAL      (0x02)
 +
 +static bool npcm7xx_rng_is_enabled(NPCM7xxRNGState *s)
 +{
-+    return (s->rngcs & NPCM7XX_RNGCS_RNGE) &&
++    return -1;
 +        (s->rngmode == NPCM7XX_RNGMODE_NORMAL);
 +}
-+
+diff --git a/hw/acpi/meson.build b/hw/acpi/meson.build
 +static uint64_t npcm7xx_rng_read(void *opaque, hwaddr offset, unsigned size)
 +{
 +    NPCM7xxRNGState *s = opaque;
 +    uint64_t value = 0;
 +
 +    switch (offset) {
 +    case NPCM7XX_RNGCS:
 +        /*
 +         * If the RNG is enabled, but we don't have any valid random data, try
 +         * obtaining some and update the DVALID bit accordingly.
 +         */
 +        if (!npcm7xx_rng_is_enabled(s)) {
 +            s->rngcs &= ~NPCM7XX_RNGCS_DVALID;
 +        } else if (!(s->rngcs & NPCM7XX_RNGCS_DVALID)) {
 +            uint8_t byte = 0;
 +
 +            if (qemu_guest_getrandom(&byte, sizeof(byte), NULL) == 0) {
 +                s->rngd = byte;
 +                s->rngcs |= NPCM7XX_RNGCS_DVALID;
 +            }
 +        }
 +        value = s->rngcs;
 +        break;
 +    case NPCM7XX_RNGD:
 +        if (npcm7xx_rng_is_enabled(s) && s->rngcs & NPCM7XX_RNGCS_DVALID) {
 +            s->rngcs &= ~NPCM7XX_RNGCS_DVALID;
 +            value = s->rngd;
 +            s->rngd = 0;
 +        }
 +        break;
 +    case NPCM7XX_RNGMODE:
 +        value = s->rngmode;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: read from invalid offset 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, offset);
 +        break;
 +    }
 +
 +    trace_npcm7xx_rng_read(offset, value, size);
 +
 +    return value;
 +}
 +
 +static void npcm7xx_rng_write(void *opaque, hwaddr offset, uint64_t value,
 +                              unsigned size)
 +{
 +    NPCM7xxRNGState *s = opaque;
 +
 +    trace_npcm7xx_rng_write(offset, value, size);
 +
 +    switch (offset) {
 +    case NPCM7XX_RNGCS:
 +        s->rngcs &= NPCM7XX_RNGCS_DVALID;
 +        s->rngcs |= value & ~NPCM7XX_RNGCS_DVALID;
 +        break;
 +    case NPCM7XX_RNGD:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: write to read-only register @ 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, offset);
 +        break;
 +    case NPCM7XX_RNGMODE:
 +        s->rngmode = value;
 +        break;
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: write to invalid offset 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, offset);
 +        break;
 +    }
 +}
 +
 +static const MemoryRegionOps npcm7xx_rng_ops = {
 +    .read = npcm7xx_rng_read,
 +    .write = npcm7xx_rng_write,
 +    .endianness = DEVICE_LITTLE_ENDIAN,
 +    .valid = {
 +        .min_access_size = 1,
 +        .max_access_size = 4,
 +        .unaligned = false,
 +    },
 +};
 +
 +static void npcm7xx_rng_enter_reset(Object *obj, ResetType type)
 +{
 +    NPCM7xxRNGState *s = NPCM7XX_RNG(obj);
 +
 +    s->rngcs = 0;
 +    s->rngd = 0;
 +    s->rngmode = 0;
 +}
 +
 +static void npcm7xx_rng_init(Object *obj)
 +{
 +    NPCM7xxRNGState *s = NPCM7XX_RNG(obj);
 +
 +    memory_region_init_io(&s->iomem, obj, &npcm7xx_rng_ops, s, "regs",
 +                          NPCM7XX_RNG_REGS_SIZE);
 +    sysbus_init_mmio(&s->parent, &s->iomem);
 +}
 +
 +static const VMStateDescription vmstate_npcm7xx_rng = {
 +    .name = "npcm7xx-rng",
 +    .version_id = 0,
 +    .minimum_version_id = 0,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT8(rngcs, NPCM7xxRNGState),
 +        VMSTATE_UINT8(rngd, NPCM7xxRNGState),
 +        VMSTATE_UINT8(rngmode, NPCM7xxRNGState),
 +        VMSTATE_END_OF_LIST(),
 +    },
 +};
 +
 +static void npcm7xx_rng_class_init(ObjectClass *klass, void *data)
 +{
 +    ResettableClass *rc = RESETTABLE_CLASS(klass);
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->desc = "NPCM7xx Random Number Generator";
 +    dc->vmsd = &vmstate_npcm7xx_rng;
 +    rc->phases.enter = npcm7xx_rng_enter_reset;
 +}
 +
 +static const TypeInfo npcm7xx_rng_types[] = {
 +    {
 +        .name = TYPE_NPCM7XX_RNG,
 +        .parent = TYPE_SYS_BUS_DEVICE,
 +        .instance_size = sizeof(NPCM7xxRNGState),
 +        .class_init = npcm7xx_rng_class_init,
 +        .instance_init = npcm7xx_rng_init,
 +    },
 +};
 +DEFINE_TYPES(npcm7xx_rng_types);
 diff --git a/tests/qtest/npcm7xx_rng-test.c b/tests/qtest/npcm7xx_rng-test.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/qtest/npcm7xx_rng-test.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QTest testcase for the Nuvoton NPCM7xx Random Number Generator
 + *
 + * Copyright 2020 Google LLC
 + *
 + * This program is free software; you can redistribute it and/or modify it
 + * under the terms of the GNU General Public License as published by the
 + * Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 + *
 + * This program is distributed in the hope that it will be useful, but WITHOUT
 + * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 + * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
 + * for more details.
 + */
 +
 +#include "qemu/osdep.h"
 +
 +#include <math.h>
 +
 +#include "libqtest-single.h"
 +#include "qemu/bitops.h"
 +
 +#define RNG_BASE_ADDR   0xf000b000
 +
 +/* Control and Status Register */
 +#define RNGCS   0x00
 +# define DVALID     BIT(1)  /* Data Valid */
 +# define RNGE       BIT(0)  /* RNG Enable */
 +/* Data Register */
 +#define RNGD    0x04
 +/* Mode Register */
 +#define RNGMODE 0x08
 +# define ROSEL_NORMAL   (2) /* RNG only works in this mode */
 +
 +/* Number of bits to collect for randomness tests. */
 +#define TEST_INPUT_BITS  (128)
 +
 +static void rng_writeb(unsigned int offset, uint8_t value)
 +{
 +    writeb(RNG_BASE_ADDR + offset, value);
 +}
 +
 +static uint8_t rng_readb(unsigned int offset)
 +{
 +    return readb(RNG_BASE_ADDR + offset);
 +}
 +
 +/* Disable RNG and set normal ring oscillator mode. */
 +static void rng_reset(void)
 +{
 +    rng_writeb(RNGCS, 0);
 +    rng_writeb(RNGMODE, ROSEL_NORMAL);
 +}
 +
 +/* Reset RNG and then enable it. */
 +static void rng_reset_enable(void)
 +{
 +    rng_reset();
 +    rng_writeb(RNGCS, RNGE);
 +}
 +
 +/* Wait until Data Valid bit is set. */
 +static bool rng_wait_ready(void)
 +{
 +    /* qemu_guest_getrandom may fail. Assume it won't fail 10 times in a row. */
 +    int retries = 10;
 +
 +    while (retries-- > 0) {
 +        if (rng_readb(RNGCS) & DVALID) {
 +            return true;
 +        }
 +    }
 +
 +    return false;
 +}
 +
 +/*
 + * Perform a frequency (monobit) test, as defined by NIST SP 800-22, on the
 + * sequence in buf and return the P-value. This represents the probability of a
 + * truly random sequence having the same proportion of zeros and ones as the
 + * sequence in buf.
 + *
 + * An RNG which always returns 0x00 or 0xff, or has some bits stuck at 0 or 1,
 + * will fail this test. However, an RNG which always returns 0x55, 0xf0 or some
 + * other value with an equal number of zeroes and ones will pass.
 + */
 +static double calc_monobit_p(const uint8_t *buf, unsigned int len)
 +{
 +    unsigned int i;
 +    double s_obs;
 +    int sn = 0;
 +
 +    for (i = 0; i < len; i++) {
 +        /*
 +         * Each 1 counts as 1, each 0 counts as -1.
 +         * s = cp - (8 - cp) = 2 * cp - 8
 +         */
 +        sn += 2 * ctpop8(buf[i]) - 8;
 +    }
 +
 +    s_obs = abs(sn) / sqrt(len * BITS_PER_BYTE);
 +
 +    return erfc(s_obs / sqrt(2));
 +}
 +
 +/*
 + * Perform a runs test, as defined by NIST SP 800-22, and return the P-value.
 + * This represents the probability of a truly random sequence having the same
 + * number of runs (i.e. uninterrupted sequences of identical bits) as the
 + * sequence in buf.
 + */
 +static double calc_runs_p(const unsigned long *buf, unsigned int nr_bits)
 +{
 +    unsigned int j;
 +    unsigned int k;
 +    int nr_ones = 0;
 +    int vn_obs = 0;
 +    double pi;
 +
 +    g_assert(nr_bits % BITS_PER_LONG == 0);
 +
 +    for (j = 0; j < nr_bits / BITS_PER_LONG; j++) {
 +        nr_ones += __builtin_popcountl(buf[j]);
 +    }
 +    pi = (double)nr_ones / nr_bits;
 +
 +    for (k = 0; k < nr_bits - 1; k++) {
 +        vn_obs += !(test_bit(k, buf) ^ test_bit(k + 1, buf));
 +    }
 +    vn_obs += 1;
 +
 +    return erfc(fabs(vn_obs - 2 * nr_bits * pi * (1.0 - pi))
 +                / (2 * sqrt(2 * nr_bits) * pi * (1.0 - pi)));
 +}
 +
 +/*
 + * Verifies that DVALID is clear, and RNGD reads zero, when RNGE is cleared,
 + * and DVALID eventually becomes set when RNGE is set.
 + */
 +static void test_enable_disable(void)
 +{
 +    /* Disable: DVALID should not be set, and RNGD should read zero */
 +    rng_reset();
 +    g_assert_cmphex(rng_readb(RNGCS), ==, 0);
 +    g_assert_cmphex(rng_readb(RNGD), ==, 0);
 +
 +    /* Enable: DVALID should be set, but we can't make assumptions about RNGD */
 +    rng_writeb(RNGCS, RNGE);
 +    g_assert_true(rng_wait_ready());
 +    g_assert_cmphex(rng_readb(RNGCS), ==, DVALID | RNGE);
 +
 +    /* Disable: DVALID should not be set, and RNGD should read zero */
 +    rng_writeb(RNGCS, 0);
 +    g_assert_cmphex(rng_readb(RNGCS), ==, 0);
 +    g_assert_cmphex(rng_readb(RNGD), ==, 0);
 +}
 +
 +/*
 + * Verifies that the RNG only produces data when RNGMODE is set to 'normal'
 + * ring oscillator mode.
 + */
 +static void test_rosel(void)
 +{
 +    rng_reset_enable();
 +    g_assert_true(rng_wait_ready());
 +    rng_writeb(RNGMODE, 0);
 +    g_assert_false(rng_wait_ready());
 +    rng_writeb(RNGMODE, ROSEL_NORMAL);
 +    g_assert_true(rng_wait_ready());
 +    rng_writeb(RNGMODE, 0);
 +    g_assert_false(rng_wait_ready());
 +}
 +
 +/*
 + * Verifies that a continuous sequence of bits collected after enabling the RNG
 + * satisfies a monobit test.
 + */
 +static void test_continuous_monobit(void)
 +{
 +    uint8_t buf[TEST_INPUT_BITS / BITS_PER_BYTE];
 +    unsigned int i;
 +
 +    rng_reset_enable();
 +    for (i = 0; i < sizeof(buf); i++) {
 +        g_assert_true(rng_wait_ready());
 +        buf[i] = rng_readb(RNGD);
 +    }
 +
 +    g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
 +}
 +
 +/*
 + * Verifies that a continuous sequence of bits collected after enabling the RNG
 + * satisfies a runs test.
 + */
 +static void test_continuous_runs(void)
 +{
 +    union {
 +        unsigned long l[TEST_INPUT_BITS / BITS_PER_LONG];
 +        uint8_t c[TEST_INPUT_BITS / BITS_PER_BYTE];
 +    } buf;
 +    unsigned int i;
 +
 +    rng_reset_enable();
 +    for (i = 0; i < sizeof(buf); i++) {
 +        g_assert_true(rng_wait_ready());
 +        buf.c[i] = rng_readb(RNGD);
 +    }
 +
 +    g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
 +}
 +
 +/*
 + * Verifies that the first data byte collected after enabling the RNG satisfies
 + * a monobit test.
 + */
 +static void test_first_byte_monobit(void)
 +{
 +    /* Enable, collect one byte, disable. Repeat until we have 100 bits. */
 +    uint8_t buf[TEST_INPUT_BITS / BITS_PER_BYTE];
 +    unsigned int i;
 +
 +    rng_reset();
 +    for (i = 0; i < sizeof(buf); i++) {
 +        rng_writeb(RNGCS, RNGE);
 +        g_assert_true(rng_wait_ready());
 +        buf[i] = rng_readb(RNGD);
 +        rng_writeb(RNGCS, 0);
 +    }
 +
 +    g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
 +}
 +
 +/*
 + * Verifies that the first data byte collected after enabling the RNG satisfies
 + * a runs test.
 + */
 +static void test_first_byte_runs(void)
 +{
 +    /* Enable, collect one byte, disable. Repeat until we have 100 bits. */
 +    union {
 +        unsigned long l[TEST_INPUT_BITS / BITS_PER_LONG];
 +        uint8_t c[TEST_INPUT_BITS / BITS_PER_BYTE];
 +    } buf;
 +    unsigned int i;
 +
 +    rng_reset();
 +    for (i = 0; i < sizeof(buf); i++) {
 +        rng_writeb(RNGCS, RNGE);
 +        g_assert_true(rng_wait_ready());
 +        buf.c[i] = rng_readb(RNGD);
 +        rng_writeb(RNGCS, 0);
 +    }
 +
 +    g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
 +}
 +
 +int main(int argc, char **argv)
 +{
 +    int ret;
 +
 +    g_test_init(&argc, &argv, NULL);
 +    g_test_set_nonfatal_assertions();
 +
 +    qtest_add_func("npcm7xx_rng/enable_disable", test_enable_disable);
 +    qtest_add_func("npcm7xx_rng/rosel", test_rosel);
 +    qtest_add_func("npcm7xx_rng/continuous/monobit", test_continuous_monobit);
 +    qtest_add_func("npcm7xx_rng/continuous/runs", test_continuous_runs);
 +    qtest_add_func("npcm7xx_rng/first_byte/monobit", test_first_byte_monobit);
 +    qtest_add_func("npcm7xx_rng/first_byte/runs", test_first_byte_runs);
 +
 +    qtest_start("-machine npcm750-evb");
 +    ret = g_test_run();
 +    qtest_end();
 +
 +    return ret;
 +}
 diff --git a/hw/misc/meson.build b/hw/misc/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/meson.build
+--- a/hw/acpi/meson.build
-+++ b/hw/misc/meson.build
++++ b/hw/acpi/meson.build
-@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_MAINSTONE', if_true: files('mst_fpga.c'))
+@@ -XXX,XX +XXX,XX @@ acpi_ss.add(when: 'CONFIG_ACPI_PCI', if_true: files('pci.c'))
- softmmu_ss.add(when: 'CONFIG_NPCM7XX', if_true: files(
+ acpi_ss.add(when: 'CONFIG_ACPI_VMGENID', if_true: files('vmgenid.c'))
-   'npcm7xx_clk.c',
+ acpi_ss.add(when: 'CONFIG_ACPI_HW_REDUCED', if_true: files('generic_event_device.c'))
-   'npcm7xx_gcr.c',
+ acpi_ss.add(when: 'CONFIG_ACPI_HMAT', if_true: files('hmat.c'))
-+  'npcm7xx_rng.c',
+-acpi_ss.add(when: 'CONFIG_ACPI_APEI', if_true: files('ghes.c'))
- ))
++acpi_ss.add(when: 'CONFIG_ACPI_APEI', if_true: files('ghes.c'), if_false: files('ghes-stub.c'))
- softmmu_ss.add(when: 'CONFIG_OMAP', if_true: files(
+ acpi_ss.add(when: 'CONFIG_ACPI_X86', if_true: files('core.c', 'piix4.c', 'pcihp.c'), if_false: files('acpi-stub.c'))
-   'omap_clk.c',
+ acpi_ss.add(when: 'CONFIG_ACPI_X86_ICH', if_true: files('ich9.c', 'tco.c'))
-diff --git a/hw/misc/trace-events b/hw/misc/trace-events
+ acpi_ss.add(when: 'CONFIG_IPMI', if_true: files('ipmi.c'), if_false: files('ipmi-stub.c'))
-index XXXXXXX..XXXXXXX 100644
+ acpi_ss.add(when: 'CONFIG_PC', if_false: files('acpi-x86-stub.c'))
---- a/hw/misc/trace-events
+ acpi_ss.add(when: 'CONFIG_TPM', if_true: files('tpm.c'))
-+++ b/hw/misc/trace-events
+-softmmu_ss.add(when: 'CONFIG_ACPI', if_false: files('acpi-stub.c', 'aml-build-stub.c'))
-@@ -XXX,XX +XXX,XX @@ npcm7xx_clk_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " valu
++softmmu_ss.add(when: 'CONFIG_ACPI', if_false: files('acpi-stub.c', 'aml-build-stub.c', 'ghes-stub.c'))
- npcm7xx_gcr_read(uint64_t offset, uint32_t value) " offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
+ softmmu_ss.add_all(when: 'CONFIG_ACPI', if_true: acpi_ss)
- npcm7xx_gcr_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
+ softmmu_ss.add(when: 'CONFIG_ALL', if_true: files('acpi-stub.c', 'aml-build-stub.c',
+-                                                  'acpi-x86-stub.c', 'ipmi-stub.c'))
-+# npcm7xx_rng.c
++                                                  'acpi-x86-stub.c', 'ipmi-stub.c', 'ghes-stub.c'))
 +npcm7xx_rng_read(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
 +npcm7xx_rng_write(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
 +
  # stm32f4xx_syscfg.c
  stm32f4xx_syscfg_set_irq(int gpio, int line, int level) "Interupt: GPIO: %d, Line: %d; Level: %d"
  stm32f4xx_pulse_exti(int irq) "Pulse EXTI: %d"
 diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/qtest/meson.build
 +++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qtests_sparc64 = \
    (config_all_devices.has_key('CONFIG_ISA_TESTDEV') ? ['endianness-test'] : []) +            \
    ['prom-env-test', 'boot-serial-test']
 -qtests_npcm7xx = ['npcm7xx_timer-test', 'npcm7xx_watchdog_timer-test']
 +qtests_npcm7xx = \
 +  ['npcm7xx_rng-test',
 +   'npcm7xx_timer-test',
 +   'npcm7xx_watchdog_timer-test']
  qtests_arm = \
    (config_all_devices.has_key('CONFIG_PFLASH_CFI02') ? ['pflash-cfi02-test'] : []) +         \
    (config_all_devices.has_key('CONFIG_NPCM7XX') ? qtests_npcm7xx : []) + \
 --
 .20.1

-New patch
+[PULL 02/57] hw/acpi: Provide function acpi_ghes_present()
+Allow code elsewhere in the system to check whether the ACPI GHES
+table is present, so it can determine whether it is OK to try to
+record an error by calling acpi_ghes_record_errors().
+(We don't need to migrate the new 'present' field in AcpiGhesState,
+because it is set once at system initialization and doesn't change.)
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Dongjiu Geng <gengdongjiu1@gmail.com>
+Message-id: 20210603171259.27962-3-peter.maydell@linaro.org
+---
+ include/hw/acpi/ghes.h |  9 +++++++++
+ hw/acpi/ghes-stub.c    |  5 +++++
+ hw/acpi/ghes.c         | 17 +++++++++++++++++
+files changed, 31 insertions(+)
+diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
+index XXXXXXX..XXXXXXX 100644
+--- a/include/hw/acpi/ghes.h
++++ b/include/hw/acpi/ghes.h
+@@ -XXX,XX +XXX,XX @@ enum {
+ typedef struct AcpiGhesState {
+     uint64_t ghes_addr_le;
++    bool present; /* True if GHES is present at all on this board */
+ } AcpiGhesState;
+ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
+@@ -XXX,XX +XXX,XX @@ void acpi_build_hest(GArray *table_data, BIOSLinker *linker,
+ void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
+                           GArray *hardware_errors);
+ int acpi_ghes_record_errors(uint8_t notify, uint64_t error_physical_addr);
++
++/**
++ * acpi_ghes_present: Report whether ACPI GHES table is present
++ *
++ * Returns: true if the system has an ACPI GHES table and it is
++ * safe to call acpi_ghes_record_errors() to record a memory error.
++ */
++bool acpi_ghes_present(void);
+ #endif
+diff --git a/hw/acpi/ghes-stub.c b/hw/acpi/ghes-stub.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/acpi/ghes-stub.c
++++ b/hw/acpi/ghes-stub.c
+@@ -XXX,XX +XXX,XX @@ int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
+ {
+     return -1;
+ }
++
++bool acpi_ghes_present(void)
++{
++    return false;
++}
+diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/acpi/ghes.c
++++ b/hw/acpi/ghes.c
+@@ -XXX,XX +XXX,XX @@ void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
+     /* Create a read-write fw_cfg file for Address */
+     fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
+         NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
++
++    ags->present = true;
+ }
+ int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
+@@ -XXX,XX +XXX,XX @@ int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
+     return ret;
+ }
++
++bool acpi_ghes_present(void)
++{
++    AcpiGedState *acpi_ged_state;
++    AcpiGhesState *ags;
++
++    acpi_ged_state = ACPI_GED(object_resolve_path_type("", TYPE_ACPI_GED,
++                                                       NULL));
++
++    if (!acpi_ged_state) {
++        return false;
++    }
++    ags = &acpi_ged_state->ghes_state;
++    return ags->present;
++}
+--
+.20.1

-New patch
+[PULL 03/57] target/arm: Use acpi_ghes_present() to see if we report ACPI memory errors
+The virt_is_acpi_enabled() function is specific to the virt board, as
+is the check for its 'ras' property.  Use the new acpi_ghes_present()
+function to check whether we should report memory errors via
+acpi_ghes_record_errors().
+This avoids a link error if QEMU was built without support for the
+virt board, and provides a mechanism that can be used by any future
+board models that want to add ACPI memory error reporting support
+(they only need to call acpi_ghes_add_fw_cfg()).
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Dongjiu Geng <gengdongjiu1@gmail.com>
+Message-id: 20210603171259.27962-4-peter.maydell@linaro.org
+---
+ target/arm/kvm64.c | 6 +-----
+file changed, 1 insertion(+), 5 deletions(-)
+diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/kvm64.c
++++ b/target/arm/kvm64.c
+@@ -XXX,XX +XXX,XX @@ void kvm_arch_on_sigbus_vcpu(CPUState *c, int code, void *addr)
+ {
+     ram_addr_t ram_addr;
+     hwaddr paddr;
+-    Object *obj = qdev_get_machine();
+-    VirtMachineState *vms = VIRT_MACHINE(obj);
+-    bool acpi_enabled = virt_is_acpi_enabled(vms);
+     assert(code == BUS_MCEERR_AR || code == BUS_MCEERR_AO);
+-    if (acpi_enabled && addr &&
+-            object_property_get_bool(obj, "ras", NULL)) {
++    if (acpi_ghes_present() && addr) {
+         ram_addr = qemu_ram_addr_from_host(addr);
+         if (ram_addr != RAM_ADDR_INVALID &&
+             kvm_physical_memory_addr_from_host(c->kvm_state, addr, &paddr)) {
+--
+.20.1

-[PULL 12/48] tests/tcg/aarch64: Add bti smoke tests
+[PULL 04/57] docs/system/arm: Document which architecture extensions we emulate
-From: Richard Henderson <richard.henderson@linaro.org>
+These days the Arm architecture has a wide range of fine-grained
 optional extra architectural features. We implement quite a lot
 of these but by no means all of them. Document what we do implement,
 so that users can find out without having to dig through back-issues
 of our Changelog on the wiki.
-The note test requires gcc 10 for -mbranch-protection=standard.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-The mmap test uses PROT_BTI and does not require special compiler support.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Message-id: 20210617140328.28622-1-peter.maydell@linaro.org
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  docs/system/arm/emulation.rst | 102 ++++++++++++++++++++++++++++++++++
  docs/system/target-arm.rst    |   6 ++
 files changed, 108 insertions(+)
  create mode 100644 docs/system/arm/emulation.rst
-Acked-by: Alex Bennée <alex.bennee@linaro.org>
+diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201021173749.111103-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  tests/tcg/aarch64/bti-1.c         |  62 ++++++++++++++++
  tests/tcg/aarch64/bti-2.c         | 116 ++++++++++++++++++++++++++++++
  tests/tcg/aarch64/bti-crt.inc.c   |  51 +++++++++++++
  tests/tcg/aarch64/Makefile.target |  10 +++
  tests/tcg/configure.sh            |   4 ++
 files changed, 243 insertions(+)
  create mode 100644 tests/tcg/aarch64/bti-1.c
  create mode 100644 tests/tcg/aarch64/bti-2.c
  create mode 100644 tests/tcg/aarch64/bti-crt.inc.c
 diff --git a/tests/tcg/aarch64/bti-1.c b/tests/tcg/aarch64/bti-1.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/tests/tcg/aarch64/bti-1.c
++++ b/docs/system/arm/emulation.rst
 @@ -XXX,XX +XXX,XX @@
-+/*
++A-profile CPU architecture support
-+ * Branch target identification, basic notskip cases.
++==================================
 + */
 +
-+#include "bti-crt.inc.c"
++QEMU's TCG emulation includes support for the Armv5, Armv6, Armv7 and
 +Armv8 versions of the A-profile architecture. It also has support for
 +the following architecture extensions:
 +
-+static void skip2_sigill(int sig, siginfo_t *info, ucontext_t *uc)
++- FEAT_AA32BF16 (AArch32 BFloat16 instructions)
-+{
++- FEAT_AA32HPD (AArch32 hierarchical permission disables)
-+    uc->uc_mcontext.pc += 8;
++- FEAT_AA32I8MM (AArch32 Int8 matrix multiplication instructions)
-+    uc->uc_mcontext.pstate = 1;
++- FEAT_AES (AESD and AESE instructions)
-+}
++- FEAT_BF16 (AArch64 BFloat16 instructions)
 +- FEAT_BTI (Branch Target Identification)
 +- FEAT_DIT (Data Independent Timing instructions)
 +- FEAT_DPB (DC CVAP instruction)
 +- FEAT_DotProd (Advanced SIMD dot product instructions)
 +- FEAT_FCMA (Floating-point complex number instructions)
 +- FEAT_FHM (Floating-point half-precision multiplication instructions)
 +- FEAT_FP16 (Half-precision floating-point data processing)
 +- FEAT_FRINTTS (Floating-point to integer instructions)
 +- FEAT_FlagM (Flag manipulation instructions v2)
 +- FEAT_FlagM2 (Enhancements to flag manipulation instructions)
 +- FEAT_HPDS (Hierarchical permission disables)
 +- FEAT_I8MM (AArch64 Int8 matrix multiplication instructions)
 +- FEAT_JSCVT (JavaScript conversion instructions)
 +- FEAT_LOR (Limited ordering regions)
 +- FEAT_LRCPC (Load-acquire RCpc instructions)
 +- FEAT_LRCPC2 (Load-acquire RCpc instructions v2)
 +- FEAT_LSE (Large System Extensions)
 +- FEAT_MTE (Memory Tagging Extension)
 +- FEAT_MTE2 (Memory Tagging Extension)
 +- FEAT_PAN (Privileged access never)
 +- FEAT_PAN2 (AT S1E1R and AT S1E1W instruction variants affected by PSTATE.PAN)
 +- FEAT_PAuth (Pointer authentication)
 +- FEAT_PMULL (PMULL, PMULL2 instructions)
 +- FEAT_PMUv3p1 (PMU Extensions v3.1)
 +- FEAT_PMUv3p4 (PMU Extensions v3.4)
 +- FEAT_RDM (Advanced SIMD rounding double multiply accumulate instructions)
 +- FEAT_RNG (Random number generator)
 +- FEAT_SB (Speculation Barrier)
 +- FEAT_SEL2 (Secure EL2)
 +- FEAT_SHA1 (SHA1 instructions)
 +- FEAT_SHA256 (SHA256 instructions)
 +- FEAT_SHA3 (Advanced SIMD SHA3 instructions)
 +- FEAT_SHA512 (Advanced SIMD SHA512 instructions)
 +- FEAT_SM3 (Advanced SIMD SM3 instructions)
 +- FEAT_SM4 (Advanced SIMD SM4 instructions)
 +- FEAT_SPECRES (Speculation restriction instructions)
 +- FEAT_SSBS (Speculative Store Bypass Safe)
 +- FEAT_TLBIOS (TLB invalidate instructions in Outer Shareable domain)
 +- FEAT_TLBIRANGE (TLB invalidate range instructions)
 +- FEAT_TTCNP (Translation table Common not private translations)
 +- FEAT_TTST (Small translation tables)
 +- FEAT_UAO (Unprivileged Access Override control)
 +- FEAT_VHE (Virtualization Host Extensions)
 +- FEAT_VMID16 (16-bit VMID)
 +- FEAT_XNX (Translation table stage 2 Unprivileged Execute-never)
 +- SVE (The Scalable Vector Extension)
 +- SVE2 (The Scalable Vector Extension v2)
 +
-+#define NOP       "nop"
++For information on the specifics of these extensions, please refer
-+#define BTI_N     "hint #32"
++to the `Armv8-A Arm Architecture Reference Manual
-+#define BTI_C     "hint #34"
++<https://developer.arm.com/documentation/ddi0487/latest>`_.
 +#define BTI_J     "hint #36"
 +#define BTI_JC    "hint #38"
 +
-+#define BTYPE_1(DEST) \
++When a specific named CPU is being emulated, only those features which
-+    asm("mov %0,#1; adr x16, 1f; br x16; 1: " DEST "; mov %0,#0" \
++are present in hardware for that CPU are emulated. (If a feature is
-+        : "=r"(skipped) : : "x16")
++not in the list above then it is not supported, even if the real
 +hardware should have it.) The ``max`` CPU enables all features.
 +
-+#define BTYPE_2(DEST) \
++R-profile CPU architecture support
-+    asm("mov %0,#1; adr x16, 1f; blr x16; 1: " DEST "; mov %0,#0" \
++==================================
 +        : "=r"(skipped) : : "x16", "x30")
 +
-+#define BTYPE_3(DEST) \
++QEMU's TCG emulation support for R-profile CPUs is currently limited.
-+    asm("mov %0,#1; adr x15, 1f; br x15; 1: " DEST "; mov %0,#0" \
++We emulate only the Cortex-R5 and Cortex-R5F CPUs.
 +        : "=r"(skipped) : : "x15")
 +
-+#define TEST(WHICH, DEST, EXPECT) \
++M-profile CPU architecture support
-+    do { WHICH(DEST); fail += skipped ^ EXPECT; } while (0)
++==================================
 +
++QEMU's TCG emulation includes support for Armv6-M, Armv7-M, Armv8-M, and
++Armv8.1-M versions of the M-profile architucture.  It also has support
++for the following architecture extensions:
 +
-+int main()
++- FP (Floating-point Extension)
-+{
++- FPCXT (FPCXT access instructions)
-+    int fail = 0;
++- HP (Half-precision floating-point instructions)
-+    int skipped;
++- LOB (Low Overhead loops and Branch future)
 +- M (Main Extension)
 +- MPU (Memory Protection Unit Extension)
 +- PXN (Privileged Execute Never)
 +- RAS (Reliability, Serviceability and Availability): "minimum RAS Extension" only
 +- S (Security Extension)
 +- ST (System Timer Extension)
 +
-+    /* Signal-like with SA_SIGINFO.  */
++For information on the specifics of these extensions, please refer
-+    signal_info(SIGILL, skip2_sigill);
++to the `Armv8-M Arm Architecture Reference Manual
 +<https://developer.arm.com/documentation/ddi0553/latest>`_.
 +
-+    TEST(BTYPE_1, NOP, 1);
++When a specific named CPU is being emulated, only those features which
-+    TEST(BTYPE_1, BTI_N, 1);
++are present in hardware for that CPU are emulated. (If a feature is
-+    TEST(BTYPE_1, BTI_C, 0);
++not in the list above then it is not supported, even if the real
-+    TEST(BTYPE_1, BTI_J, 0);
++hardware should have it.) There is no equivalent of the ``max`` CPU for
-+    TEST(BTYPE_1, BTI_JC, 0);
++M-profile.
 diff --git a/docs/system/target-arm.rst b/docs/system/target-arm.rst
 index XXXXXXX..XXXXXXX 100644
 --- a/docs/system/target-arm.rst
 +++ b/docs/system/target-arm.rst
@@ -XXX,XX +XXX,XX @@ undocumented; you can get a complete list by running
     arm/virt
     arm/xlnx-versal-virt
 +Emulated CPU architecture support
 +=================================
 +
-+    TEST(BTYPE_2, NOP, 1);
++.. toctree::
-+    TEST(BTYPE_2, BTI_N, 1);
++   arm/emulation
 +    TEST(BTYPE_2, BTI_C, 0);
 +    TEST(BTYPE_2, BTI_J, 1);
 +    TEST(BTYPE_2, BTI_JC, 0);
 +
-+    TEST(BTYPE_3, NOP, 1);
+ Arm CPU features
-+    TEST(BTYPE_3, BTI_N, 1);
+ ================
 +    TEST(BTYPE_3, BTI_C, 1);
 +    TEST(BTYPE_3, BTI_J, 0);
 +    TEST(BTYPE_3, BTI_JC, 0);
 +
 +    return fail;
 +}
 diff --git a/tests/tcg/aarch64/bti-2.c b/tests/tcg/aarch64/bti-2.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/tcg/aarch64/bti-2.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Branch target identification, basic notskip cases.
 + */
 +
 +#include <stdio.h>
 +#include <signal.h>
 +#include <string.h>
 +#include <unistd.h>
 +#include <sys/mman.h>
 +
 +#ifndef PROT_BTI
 +#define PROT_BTI  0x10
 +#endif
 +
 +static void skip2_sigill(int sig, siginfo_t *info, void *vuc)
 +{
 +    ucontext_t *uc = vuc;
 +    uc->uc_mcontext.pc += 8;
 +    uc->uc_mcontext.pstate = 1;
 +}
 +
 +#define NOP       "nop"
 +#define BTI_N     "hint #32"
 +#define BTI_C     "hint #34"
 +#define BTI_J     "hint #36"
 +#define BTI_JC    "hint #38"
 +
 +#define BTYPE_1(DEST)    \
 +    "mov x1, #1\n\t"     \
 +    "adr x16, 1f\n\t"    \
 +    "br x16\n"           \
 +"1: " DEST "\n\t"        \
 +    "mov x1, #0"
 +
 +#define BTYPE_2(DEST)    \
 +    "mov x1, #1\n\t"     \
 +    "adr x16, 1f\n\t"    \
 +    "blr x16\n"          \
 +"1: " DEST "\n\t"        \
 +    "mov x1, #0"
 +
 +#define BTYPE_3(DEST)    \
 +    "mov x1, #1\n\t"     \
 +    "adr x15, 1f\n\t"    \
 +    "br x15\n"           \
 +"1: " DEST "\n\t"        \
 +    "mov x1, #0"
 +
 +#define TEST(WHICH, DEST, EXPECT) \
 +    WHICH(DEST) "\n"              \
 +    ".if " #EXPECT "\n\t"         \
 +    "eor x1, x1," #EXPECT "\n"    \
 +    ".endif\n\t"                  \
 +    "add x0, x0, x1\n\t"
 +
 +asm("\n"
 +"test_begin:\n\t"
 +    BTI_C "\n\t"
 +    "mov x2, x30\n\t"
 +    "mov x0, #0\n\t"
 +
 +    TEST(BTYPE_1, NOP, 1)
 +    TEST(BTYPE_1, BTI_N, 1)
 +    TEST(BTYPE_1, BTI_C, 0)
 +    TEST(BTYPE_1, BTI_J, 0)
 +    TEST(BTYPE_1, BTI_JC, 0)
 +
 +    TEST(BTYPE_2, NOP, 1)
 +    TEST(BTYPE_2, BTI_N, 1)
 +    TEST(BTYPE_2, BTI_C, 0)
 +    TEST(BTYPE_2, BTI_J, 1)
 +    TEST(BTYPE_2, BTI_JC, 0)
 +
 +    TEST(BTYPE_3, NOP, 1)
 +    TEST(BTYPE_3, BTI_N, 1)
 +    TEST(BTYPE_3, BTI_C, 1)
 +    TEST(BTYPE_3, BTI_J, 0)
 +    TEST(BTYPE_3, BTI_JC, 0)
 +
 +    "ret x2\n"
 +"test_end:"
 +);
 +
 +int main()
 +{
 +    struct sigaction sa;
 +    void *tb, *te;
 +
 +    void *p = mmap(0, getpagesize(),
 +                   PROT_EXEC | PROT_READ | PROT_WRITE | PROT_BTI,
 +                   MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
 +    if (p == MAP_FAILED) {
 +        perror("mmap");
 +        return 1;
 +    }
 +
 +    memset(&sa, 0, sizeof(sa));
 +    sa.sa_sigaction = skip2_sigill;
 +    sa.sa_flags = SA_SIGINFO;
 +    if (sigaction(SIGILL, &sa, NULL) < 0) {
 +        perror("sigaction");
 +        return 1;
 +    }
 +
 +    /*
 +     * ??? With "extern char test_begin[]", some compiler versions
 +     * will use :got references, and some linker versions will
 +     * resolve this reference to a static symbol incorrectly.
 +     * Bypass this error by using a pc-relative reference directly.
 +     */
 +    asm("adr %0, test_begin; adr %1, test_end" : "=r"(tb), "=r"(te));
 +
 +    memcpy(p, tb, te - tb);
 +
 +    return ((int (*)(void))p)();
 +}
 diff --git a/tests/tcg/aarch64/bti-crt.inc.c b/tests/tcg/aarch64/bti-crt.inc.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/tcg/aarch64/bti-crt.inc.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Minimal user-environment for testing BTI.
 + *
 + * Normal libc is not (yet) built with BTI support enabled,
 + * and so could generate a BTI TRAP before ever reaching main.
 + */
 +
 +#include <stdlib.h>
 +#include <signal.h>
 +#include <ucontext.h>
 +#include <asm/unistd.h>
 +
 +int main(void);
 +
 +void _start(void)
 +{
 +    exit(main());
 +}
 +
 +void exit(int ret)
 +{
 +    register int x0 __asm__("x0") = ret;
 +    register int x8 __asm__("x8") = __NR_exit;
 +
 +    asm volatile("svc #0" : : "r"(x0), "r"(x8));
 +    __builtin_unreachable();
 +}
 +
 +/*
 + * Irritatingly, the user API struct sigaction does not match the
 + * kernel API struct sigaction.  So for simplicity, isolate the
 + * kernel ABI here, and make this act like signal.
 + */
 +void signal_info(int sig, void (*fn)(int, siginfo_t *, ucontext_t *))
 +{
 +    struct kernel_sigaction {
 +        void (*handler)(int, siginfo_t *, ucontext_t *);
 +        unsigned long flags;
 +        unsigned long restorer;
 +        unsigned long mask;
 +    } sa = { fn, SA_SIGINFO, 0, 0 };
 +
 +    register int x0 __asm__("x0") = sig;
 +    register void *x1 __asm__("x1") = &sa;
 +    register void *x2 __asm__("x2") = 0;
 +    register int x3 __asm__("x3") = sizeof(unsigned long);
 +    register int x8 __asm__("x8") = __NR_rt_sigaction;
 +
 +    asm volatile("svc #0"
 +                 : : "r"(x0), "r"(x1), "r"(x2), "r"(x3), "r"(x8) : "memory");
 +}
 diff --git a/tests/tcg/aarch64/Makefile.target b/tests/tcg/aarch64/Makefile.target
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/tcg/aarch64/Makefile.target
 +++ b/tests/tcg/aarch64/Makefile.target
@@ -XXX,XX +XXX,XX @@ run-pauth-%: QEMU_OPTS += -cpu max
  run-plugin-pauth-%: QEMU_OPTS += -cpu max
  endif
 +# BTI Tests
 +# bti-1 tests the elf notes, so we require special compiler support.
 +ifneq ($(DOCKER_IMAGE)$(CROSS_CC_HAS_ARMV8_BTI),)
 +AARCH64_TESTS += bti-1
 +bti-1: CFLAGS += -mbranch-protection=standard
 +bti-1: LDFLAGS += -nostdlib
 +endif
 +# bti-2 tests PROT_BTI, so no special compiler support required.
 +AARCH64_TESTS += bti-2
 +
  # Semihosting smoke test for linux-user
  AARCH64_TESTS += semihosting
  run-semihosting: semihosting
 diff --git a/tests/tcg/configure.sh b/tests/tcg/configure.sh
 index XXXXXXX..XXXXXXX 100755
 --- a/tests/tcg/configure.sh
 +++ b/tests/tcg/configure.sh
@@ -XXX,XX +XXX,XX @@ for target in $target_list; do
                 -march=armv8.3-a -o $TMPE $TMPC; then
                  echo "CROSS_CC_HAS_ARMV8_3=y" >> $config_target_mak
              fi
 +            if do_compiler "$target_compiler" $target_compiler_cflags \
 +               -mbranch-protection=standard -o $TMPE $TMPC; then
 +                echo "CROSS_CC_HAS_ARMV8_BTI=y" >> $config_target_mak
 +            fi
          ;;
      esac
 --
 .20.1

-New patch
+[PULL 05/57] target/arm/translate-vfp.c: Whitespace fixes
+In the code for handling VFP system register accesses there is some
+stray whitespace after a unary '-' operator, and also some incorrect
+indent in a couple of function prototypes.  We're about to move this
+code to another file, so fix the code style issues first so
+checkpatch doesn't complain about the code-movement patch.
+Cc: qemu-stable@nongnu.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210618141019.10671-2-peter.maydell@linaro.org
+---
+ target/arm/translate-vfp.c | 11 +++++------
+file changed, 5 insertions(+), 6 deletions(-)
+diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-vfp.c
++++ b/target/arm/translate-vfp.c
+@@ -XXX,XX +XXX,XX @@ static void gen_branch_fpInactive(DisasContext *s, TCGCond cond,
+ }
+ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
+-
+                                   fp_sysreg_loadfn *loadfn,
+-                                 void *opaque)
++                                  void *opaque)
+ {
+     /* Do a write to an M-profile floating point system register */
+     TCGv_i32 tmp;
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
+ }
+ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
+-                                fp_sysreg_storefn *storefn,
+-                                void *opaque)
++                                 fp_sysreg_storefn *storefn,
++                                 void *opaque)
+ {
+     /* Do a read from an M-profile floating point system register */
+     TCGv_i32 tmp;
+@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
+     TCGv_i32 addr;
+     if (!a->a) {
+-        offset = - offset;
++        offset = -offset;
+     }
+     addr = load_reg(s, a->rn);
+@@ -XXX,XX +XXX,XX @@ static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
+     TCGv_i32 value = tcg_temp_new_i32();
+     if (!a->a) {
+-        offset = - offset;
++        offset = -offset;
+     }
+     addr = load_reg(s, a->rn);
+--
+.20.1

-New patch
+[PULL 06/57] target/arm: Handle FPU being disabled in FPCXT_NS accesses
+If the guest makes an FPCXT_NS access when the FPU is disabled,
+one of two things happens:
+ * if there is no active FP context, then the insn behaves the
+   same way as if the FPU was enabled: writes ignored, reads
+   same value as FPDSCR_NS
+ * if there is an active FP context, then we take a NOCP
+   exception
+Add code to the sysreg read/write functions which emits
+code to take the NOCP exception in the latter case.
+At the moment this will never be used, because the NOCP checks in
+m-nocp.decode happen first, and so the trans functions are never
+called when the FPU is disabled.  The code will be needed when we
+move the sysreg access insns to before the NOCP patterns in the
+following commit.
+Cc: qemu-stable@nongnu.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210618141019.10671-3-peter.maydell@linaro.org
+---
+ target/arm/translate-vfp.c | 32 ++++++++++++++++++++++++++++++--
+file changed, 30 insertions(+), 2 deletions(-)
+diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-vfp.c
++++ b/target/arm/translate-vfp.c
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
+         lab_end = gen_new_label();
+         /* fpInactive case: write is a NOP, so branch to end */
+         gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
+-        /* !fpInactive: PreserveFPState(), and reads same as FPCXT_S */
++        /*
++         * !fpInactive: if FPU disabled, take NOCP exception;
++         * otherwise PreserveFPState(), and then FPCXT_NS writes
++         * behave the same as FPCXT_S writes.
++         */
++        if (s->fp_excp_el) {
++            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
++                               syn_uncategorized(), s->fp_excp_el);
++            /*
++             * This was only a conditional exception, so override
++             * gen_exception_insn()'s default to DISAS_NORETURN
++             */
++            s->base.is_jmp = DISAS_NEXT;
++            break;
++        }
+         gen_preserve_fp_state(s);
+         /* fall through */
+     case ARM_VFP_FPCXT_S:
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
+         tcg_gen_br(lab_end);
+         gen_set_label(lab_active);
+-        /* !fpInactive: Reads the same as FPCXT_S, but side effects differ */
++        /*
++         * !fpInactive: if FPU disabled, take NOCP exception;
++         * otherwise PreserveFPState(), and then FPCXT_NS
++         * reads the same as FPCXT_S.
++         */
++        if (s->fp_excp_el) {
++            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
++                               syn_uncategorized(), s->fp_excp_el);
++            /*
++             * This was only a conditional exception, so override
++             * gen_exception_insn()'s default to DISAS_NORETURN
++             */
++            s->base.is_jmp = DISAS_NEXT;
++            break;
++        }
+         gen_preserve_fp_state(s);
+         tmp = tcg_temp_new_i32();
+         sfpa = tcg_temp_new_i32();
+--
+.20.1

-[PULL 16/48] hw/timer: Adding watchdog for NPCM7XX Timer.
+[PULL 07/57] target/arm: Don't NOCP fault for FPCXT_NS accesses
-From: Hao Wu <wuhaotsh@google.com>
+The M-profile architecture requires that accesses to FPCXT_NS when
 there is no active FP state must not take a NOCP fault even if the
 FPU is disabled. We were not implementing this correctly, because
 in our decode we catch the NOCP faults early in m-nocp.decode.
-The watchdog is part of NPCM7XX's timer module. Its behavior is
+Fix this bug by moving all the handling of M-profile FP system
-controlled by the WTCR register in the timer.
+register accesses from vfp.decode into m-nocp.decode and putting
 it above the NOCP blocks. This provides the correct behaviour:
  * for accesses other than FPCXT_NS the trans functions call
    vfp_access_check(), which will check for FPU disabled and
    raise a NOCP exception if necessary
  * for FPCXT_NS we have the special case code that doesn't
    call vfp_access_check()
  * when these trans functions want to raise an UNDEF they return
    false, so the decoder will fall through into the NOCP blocks.
    This means that NOCP correctly takes precedence over UNDEF
    for these insns. (This is a difference from the other insns
    handled by m-nocp.decode, where UNDEF takes precedence and
    which we implement by having those trans functions call
    unallocated_encoding() in the appropriate places.)
-When enabled, the watchdog issues an interrupt signal after a pre-set
+[Note for backport to stable: this commit has a semantic dependency
-amount of cycles, and issues a reset signal shortly after that.
+on commit 9a486856e9173af, which was not marked as cc-stable because
 we didn't know we'd need it for a for-stable bugfix.]
-Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
+Cc: qemu-stable@nongnu.org
 Signed-off-by: Hao Wu <wuhaotsh@google.com>
 Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 [PMM: deleted blank line at end of npcm_watchdog_timer-test.c]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210618141019.10671-4-peter.maydell@linaro.org
 ---
- include/hw/misc/npcm7xx_clk.h             |   2 +
+ target/arm/translate-a32.h    |   1 +
- include/hw/timer/npcm7xx_timer.h          |  48 +++-
+ target/arm/m-nocp.decode      |  24 ++
- hw/arm/npcm7xx.c                          |  12 +
+ target/arm/vfp.decode         |  14 -
- hw/misc/npcm7xx_clk.c                     |  28 ++
+ target/arm/translate-m-nocp.c | 514 +++++++++++++++++++++++++++++++++
- hw/timer/npcm7xx_timer.c                  | 266 ++++++++++++++----
+ target/arm/translate-vfp.c    | 517 +---------------------------------
- tests/qtest/npcm7xx_watchdog_timer-test.c | 319 ++++++++++++++++++++++
+files changed, 542 insertions(+), 528 deletions(-)
  MAINTAINERS                               |   1 +
  tests/qtest/meson.build                   |   2 +-
 files changed, 624 insertions(+), 54 deletions(-)
  create mode 100644 tests/qtest/npcm7xx_watchdog_timer-test.c
-diff --git a/include/hw/misc/npcm7xx_clk.h b/include/hw/misc/npcm7xx_clk.h
+diff --git a/target/arm/translate-a32.h b/target/arm/translate-a32.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/npcm7xx_clk.h
+--- a/target/arm/translate-a32.h
-+++ b/include/hw/misc/npcm7xx_clk.h
++++ b/target/arm/translate-a32.h
@@ -XXX,XX +XXX,XX @@ bool disas_neon_shared(DisasContext *s, uint32_t insn);
  void load_reg_var(DisasContext *s, TCGv_i32 var, int reg);
  void arm_gen_condlabel(DisasContext *s);
  bool vfp_access_check(DisasContext *s);
 +void gen_preserve_fp_state(DisasContext *s);
  void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp memop);
  void read_neon_element64(TCGv_i64 dest, int reg, int ele, MemOp memop);
  void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp memop);
 diff --git a/target/arm/m-nocp.decode b/target/arm/m-nocp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/m-nocp.decode
 +++ b/target/arm/m-nocp.decode
 @@ -XXX,XX +XXX,XX @@
-  */
- #define NPCM7XX_CLK_NR_REGS             (0x70 / sizeof(uint32_t))
+ &nocp cp
-+#define NPCM7XX_WATCHDOG_RESET_GPIO_IN "npcm7xx-clk-watchdog-reset-gpio-in"
++# M-profile VLDR/VSTR to sysreg
-+
++%vldr_sysreg 22:1 13:3
- typedef struct NPCM7xxCLKState {
++%imm7_0x4 0:7 !function=times_4
-     SysBusDevice parent;
++
++&vldr_sysreg rn reg imm a w p
-diff --git a/include/hw/timer/npcm7xx_timer.h b/include/hw/timer/npcm7xx_timer.h
++@vldr_sysreg .... ... . a:1 . . . rn:4 ... . ... .. ....... \
 +             reg=%vldr_sysreg imm=%imm7_0x4 &vldr_sysreg
 +
  {
    # Special cases which do not take an early NOCP: VLLDM and VLSTM
    VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 op:1 000 0000
@@ -XXX,XX +XXX,XX @@
    VSCCLRM      1110 1100 1.01 1111 .... 1011 imm:7 0   vd=%vd_dp size=3
    VSCCLRM      1110 1100 1.01 1111 .... 1010 imm:8     vd=%vd_sp size=2
 +  # FP system register accesses: these are a special case because accesses
 +  # to FPCXT_NS succeed even if the FPU is disabled. We therefore need
 +  # to handle them before the big NOCP blocks. Note that within these
 +  # insns NOCP still has higher priority than UNDEFs; this is implemented
 +  # by their returning 'false' for UNDEF so as to fall through into the
 +  # NOCP check (in contrast to VLLDM etc, which call unallocated_encoding()
 +  # for the UNDEFs there that must take precedence over NOCP.)
 +
 +  VMSR_VMRS    ---- 1110 111 l:1 reg:4 rt:4 1010 0001 0000
 +
 +  # P=0 W=0 is SEE "Related encodings", so split into two patterns
 +  VLDR_sysreg  ---- 110 1 . . w:1 1 .... ... 0 111 11 ....... @vldr_sysreg p=1
 +  VLDR_sysreg  ---- 110 0 . . 1   1 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
 +  VSTR_sysreg  ---- 110 1 . . w:1 0 .... ... 0 111 11 ....... @vldr_sysreg p=1
 +  VSTR_sysreg  ---- 110 0 . . 1   0 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
 +
    NOCP         111- 1110 ---- ---- ---- cp:4 ---- ---- &nocp
    NOCP         111- 110- ---- ---- ---- cp:4 ---- ---- &nocp
    # From v8.1M onwards this range will also NOCP:
 diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/timer/npcm7xx_timer.h
+--- a/target/arm/vfp.decode
-+++ b/include/hw/timer/npcm7xx_timer.h
++++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VLDR_VSTR_hp ---- 1101 u:1 .0 l:1 rn:4 .... 1001 imm:8      vd=%vd_sp
  VLDR_VSTR_sp ---- 1101 u:1 .0 l:1 rn:4 .... 1010 imm:8      vd=%vd_sp
  VLDR_VSTR_dp ---- 1101 u:1 .0 l:1 rn:4 .... 1011 imm:8      vd=%vd_dp
 -# M-profile VLDR/VSTR to sysreg
 -%vldr_sysreg 22:1 13:3
 -%imm7_0x4 0:7 !function=times_4
 -
 -&vldr_sysreg rn reg imm a w p
 -@vldr_sysreg .... ... . a:1 . . . rn:4 ... . ... .. ....... \
 -             reg=%vldr_sysreg imm=%imm7_0x4 &vldr_sysreg
 -
 -# P=0 W=0 is SEE "Related encodings", so split into two patterns
 -VLDR_sysreg  ---- 110 1 . . w:1 1 .... ... 0 111 11 ....... @vldr_sysreg p=1
 -VLDR_sysreg  ---- 110 0 . . 1   1 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
 -VSTR_sysreg  ---- 110 1 . . w:1 0 .... ... 0 111 11 ....... @vldr_sysreg p=1
 -VSTR_sysreg  ---- 110 0 . . 1   0 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
 -
  # We split the load/store multiple up into two patterns to avoid
  # overlap with other insns in the "Advanced SIMD load/store and 64-bit move"
  # grouping:
 diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-m-nocp.c
 +++ b/target/arm/translate-m-nocp.c
 @@ -XXX,XX +XXX,XX @@
-  */
- #define NPCM7XX_TIMER_NR_REGS (0x54 / sizeof(uint32_t))
+ #include "qemu/osdep.h"
+ #include "tcg/tcg-op.h"
-+/* The basic watchdog timer period is 2^14 clock cycles. */
++#include "tcg/tcg-op-gvec.h"
-+#define NPCM7XX_WATCHDOG_BASETIME_SHIFT 14
+ #include "translate.h"
-+
+ #include "translate-a32.h"
-+#define NPCM7XX_WATCHDOG_RESET_GPIO_OUT "npcm7xx-clk-watchdog-reset-gpio-out"
-+
+@@ -XXX,XX +XXX,XX @@ static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
- typedef struct NPCM7xxTimerCtrlState NPCM7xxTimerCtrlState;
+     return true;
+ }
- /**
-- * struct NPCM7xxTimer - Individual timer state.
++/*
-- * @irq: GIC interrupt line to fire on expiration (if enabled).
++ * M-profile provides two different sets of instructions that can
-+ * struct NPCM7xxBaseTimer - Basic functionality that both regular timer and
++ * access floating point system registers: VMSR/VMRS (which move
-+ * watchdog timer use.
++ * to/from a general purpose register) and VLDR/VSTR sysreg (which
-  * @qtimer: QEMU timer that notifies us on expiration.
++ * move directly to/from memory). In some cases there are also side
-  * @expires_ns: Absolute virtual expiration time.
++ * effects which must happen after any write to memory (which could
-  * @remaining_ns: Remaining time until expiration if timer is paused.
++ * cause an exception). So we implement the common logic for the
 + * sysreg access in gen_M_fp_sysreg_write() and gen_M_fp_sysreg_read(),
 + * which take pointers to callback functions which will perform the
 + * actual "read/write general purpose register" and "read/write
 + * memory" operations.
 + */
-+typedef struct NPCM7xxBaseTimer {
++
-+    QEMUTimer   qtimer;
++/*
-+    int64_t     expires_ns;
++ * Emit code to store the sysreg to its final destination; frees the
-+    int64_t     remaining_ns;
++ * TCG temp 'value' it is passed.
 +} NPCM7xxBaseTimer;
 +
 +/**
 + * struct NPCM7xxTimer - Individual timer state.
 + * @ctrl: The timer module that owns this timer.
 + * @irq: GIC interrupt line to fire on expiration (if enabled).
 + * @base_timer: The basic timer functionality for this timer.
   * @tcsr: The Timer Control and Status Register.
   * @ticr: The Timer Initial Count Register.
   */
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxTimer {
      NPCM7xxTimerCtrlState *ctrl;
      qemu_irq    irq;
 -    QEMUTimer   qtimer;
 -    int64_t     expires_ns;
 -    int64_t     remaining_ns;
 +    NPCM7xxBaseTimer base_timer;
      uint32_t    tcsr;
      uint32_t    ticr;
  } NPCM7xxTimer;
 +/**
 + * struct NPCM7xxWatchdogTimer - The watchdog timer state.
 + * @ctrl: The timer module that owns this timer.
 + * @irq: GIC interrupt line to fire on expiration (if enabled).
 + * @reset_signal: The GPIO used to send a reset signal.
 + * @base_timer: The basic timer functionality for this timer.
 + * @wtcr: The Watchdog Timer Control Register.
 + */
-+typedef struct NPCM7xxWatchdogTimer {
++typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
-+    NPCM7xxTimerCtrlState *ctrl;
++/*
-+
++ * Emit code to load the value to be copied to the sysreg; returns
-+    qemu_irq            irq;
++ * a new TCG temporary
-+    qemu_irq            reset_signal;
++ */
-+    NPCM7xxBaseTimer base_timer;
++typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
 +
-+    uint32_t            wtcr;
++/* Common decode/access checks for fp sysreg read/write */
-+} NPCM7xxWatchdogTimer;
++typedef enum FPSysRegCheckResult {
-+
++    FPSysRegCheckFailed, /* caller should return false */
- /**
++    FPSysRegCheckDone, /* caller should return true */
-  * struct NPCM7xxTimerCtrlState - Timer Module device state.
++    FPSysRegCheckContinue, /* caller should continue generating code */
-  * @parent: System bus device.
++} FPSysRegCheckResult;
-  * @iomem: Memory region through which registers are accessed.
++
-+ * @index: The index of this timer module.
++static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
   * @tisr: The Timer Interrupt Status Register.
 - * @wtcr: The Watchdog Timer Control Register.
   * @timer: The five individual timers managed by this module.
 + * @watchdog_timer: The watchdog timer managed by this module.
   */
  struct NPCM7xxTimerCtrlState {
      SysBusDevice parent;
@@ -XXX,XX +XXX,XX @@ struct NPCM7xxTimerCtrlState {
      MemoryRegion iomem;
      uint32_t    tisr;
 -    uint32_t    wtcr;
      NPCM7xxTimer timer[NPCM7XX_TIMERS_PER_CTRL];
 +    NPCM7xxWatchdogTimer watchdog_timer;
  };
  #define TYPE_NPCM7XX_TIMER "npcm7xx-timer"
 diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/npcm7xx.c
 +++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
      NPCM7XX_TIMER12_IRQ,
      NPCM7XX_TIMER13_IRQ,
      NPCM7XX_TIMER14_IRQ,
 +    NPCM7XX_WDG0_IRQ            = 47,   /* Timer Module 0 Watchdog */
 +    NPCM7XX_WDG1_IRQ,                   /* Timer Module 1 Watchdog */
 +    NPCM7XX_WDG2_IRQ,                   /* Timer Module 2 Watchdog */
  };
  /* Total number of GIC interrupts, including internal Cortex-A9 interrupts. */
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
              qemu_irq irq = npcm7xx_irq(s, first_irq + j);
              sysbus_connect_irq(sbd, j, irq);
          }
 +
 +        /* IRQ for watchdogs */
 +        sysbus_connect_irq(sbd, NPCM7XX_TIMERS_PER_CTRL,
 +                npcm7xx_irq(s, NPCM7XX_WDG0_IRQ + i));
 +        /* GPIO that connects clk module with watchdog */
 +        qdev_connect_gpio_out_named(DEVICE(&s->tim[i]),
 +                NPCM7XX_WATCHDOG_RESET_GPIO_OUT, 0,
 +                qdev_get_gpio_in_named(DEVICE(&s->clk),
 +                        NPCM7XX_WATCHDOG_RESET_GPIO_IN, i));
      }
      /* UART0..3 (16550 compatible) */
 diff --git a/hw/misc/npcm7xx_clk.c b/hw/misc/npcm7xx_clk.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/npcm7xx_clk.c
 +++ b/hw/misc/npcm7xx_clk.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/osdep.h"
  #include "hw/misc/npcm7xx_clk.h"
 +#include "hw/timer/npcm7xx_timer.h"
  #include "migration/vmstate.h"
  #include "qemu/error-report.h"
  #include "qemu/log.h"
@@ -XXX,XX +XXX,XX @@
  #include "qemu/timer.h"
  #include "qemu/units.h"
  #include "trace.h"
 +#include "sysemu/watchdog.h"
  #define PLLCON_LOKI     BIT(31)
  #define PLLCON_LOKS     BIT(30)
@@ -XXX,XX +XXX,XX @@ static const uint32_t cold_reset_values[NPCM7XX_CLK_NR_REGS] = {
      [NPCM7XX_CLK_AHBCKFI]       = 0x000000c8,
  };
 +/* Register Field Definitions */
 +#define NPCM7XX_CLK_WDRCR_CA9C  BIT(0) /* Cortex A9 Cores */
 +
 +/* The number of watchdogs that can trigger a reset. */
 +#define NPCM7XX_NR_WATCHDOGS    (3)
 +
  static uint64_t npcm7xx_clk_read(void *opaque, hwaddr offset, unsigned size)
  {
      uint32_t reg = offset / sizeof(uint32_t);
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_clk_write(void *opaque, hwaddr offset,
      s->regs[reg] = value;
  }
 +/* Perform reset action triggered by a watchdog */
 +static void npcm7xx_clk_perform_watchdog_reset(void *opaque, int n,
 +        int level)
 +{
-+    NPCM7xxCLKState *clk = NPCM7XX_CLK(opaque);
++    if (!dc_isar_feature(aa32_fpsp_v2, s) && !dc_isar_feature(aa32_mve, s)) {
-+    uint32_t rcr;
++        return FPSysRegCheckFailed;
-+
++    }
-+    g_assert(n >= 0 && n <= NPCM7XX_NR_WATCHDOGS);
++
-+    rcr = clk->regs[NPCM7XX_CLK_WD0RCR + n];
++    switch (regno) {
-+    if (rcr & NPCM7XX_CLK_WDRCR_CA9C) {
++    case ARM_VFP_FPSCR:
-+        watchdog_perform_action();
++    case QEMU_VFP_FPSCR_NZCV:
-+    } else {
++        break;
-+        qemu_log_mask(LOG_UNIMP,
++    case ARM_VFP_FPSCR_NZCVQC:
-+                "%s: only CPU reset is implemented. (requested 0x%" PRIx32")\n",
++        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+                __func__, rcr);
++            return FPSysRegCheckFailed;
-+    }
++        }
 +        break;
 +    case ARM_VFP_FPCXT_S:
 +    case ARM_VFP_FPCXT_NS:
 +        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +            return FPSysRegCheckFailed;
 +        }
 +        if (!s->v8m_secure) {
 +            return FPSysRegCheckFailed;
 +        }
 +        break;
 +    case ARM_VFP_VPR:
 +    case ARM_VFP_P0:
 +        if (!dc_isar_feature(aa32_mve, s)) {
 +            return FPSysRegCheckFailed;
 +        }
 +        break;
 +    default:
 +        return FPSysRegCheckFailed;
 +    }
 +
 +    /*
 +     * FPCXT_NS is a special case: it has specific handling for
 +     * "current FP state is inactive", and must do the PreserveFPState()
 +     * but not the usual full set of actions done by ExecuteFPCheck().
 +     * So we don't call vfp_access_check() and the callers must handle this.
 +     */
 +    if (regno != ARM_VFP_FPCXT_NS && !vfp_access_check(s)) {
 +        return FPSysRegCheckDone;
 +    }
 +    return FPSysRegCheckContinue;
 +}
 +
- static const struct MemoryRegionOps npcm7xx_clk_ops = {
++static void gen_branch_fpInactive(DisasContext *s, TCGCond cond,
-     .read       = npcm7xx_clk_read,
++                                  TCGLabel *label)
      .write      = npcm7xx_clk_write,
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_clk_init(Object *obj)
      memory_region_init_io(&s->iomem, obj, &npcm7xx_clk_ops, s,
                            TYPE_NPCM7XX_CLK, 4 * KiB);
      sysbus_init_mmio(&s->parent, &s->iomem);
 +    qdev_init_gpio_in_named(DEVICE(s), npcm7xx_clk_perform_watchdog_reset,
 +            NPCM7XX_WATCHDOG_RESET_GPIO_IN, NPCM7XX_NR_WATCHDOGS);
  }
  static const VMStateDescription vmstate_npcm7xx_clk = {
 diff --git a/hw/timer/npcm7xx_timer.c b/hw/timer/npcm7xx_timer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/npcm7xx_timer.c
 +++ b/hw/timer/npcm7xx_timer.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/osdep.h"
  #include "hw/irq.h"
 +#include "hw/qdev-properties.h"
  #include "hw/misc/npcm7xx_clk.h"
  #include "hw/timer/npcm7xx_timer.h"
  #include "migration/vmstate.h"
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxTimerRegisters {
  #define NPCM7XX_TCSR_PRESCALE_START     0
  #define NPCM7XX_TCSR_PRESCALE_LEN       8
 +#define NPCM7XX_WTCR_WTCLK(rv)          extract32(rv, 10, 2)
 +#define NPCM7XX_WTCR_FREEZE_EN          BIT(9)
 +#define NPCM7XX_WTCR_WTE                BIT(7)
 +#define NPCM7XX_WTCR_WTIE               BIT(6)
 +#define NPCM7XX_WTCR_WTIS(rv)           extract32(rv, 4, 2)
 +#define NPCM7XX_WTCR_WTIF               BIT(3)
 +#define NPCM7XX_WTCR_WTRF               BIT(2)
 +#define NPCM7XX_WTCR_WTRE               BIT(1)
 +#define NPCM7XX_WTCR_WTR                BIT(0)
 +
 +/*
 + * The number of clock cycles between interrupt and reset in watchdog, used
 + * by the software to handle the interrupt before system is reset.
 + */
 +#define NPCM7XX_WATCHDOG_INTERRUPT_TO_RESET_CYCLES 1024
 +
 +/* Start or resume the timer. */
 +static void npcm7xx_timer_start(NPCM7xxBaseTimer *t)
 +{
-+    int64_t now;
++    /*
-+
++     * FPCXT_NS is a special case: it has specific handling for
-+    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
++     * "current FP state is inactive", and must do the PreserveFPState()
-+    t->expires_ns = now + t->remaining_ns;
++     * but not the usual full set of actions done by ExecuteFPCheck().
-+    timer_mod(&t->qtimer, t->expires_ns);
++     * We don't have a TB flag that matches the fpInactive check, so we
 +     * do it at runtime as we don't expect FPCXT_NS accesses to be frequent.
 +     *
 +     * Emit code that checks fpInactive and does a conditional
 +     * branch to label based on it:
 +     *  if cond is TCG_COND_NE then branch if fpInactive != 0 (ie if inactive)
 +     *  if cond is TCG_COND_EQ then branch if fpInactive == 0 (ie if active)
 +     */
 +    assert(cond == TCG_COND_EQ || cond == TCG_COND_NE);
 +
 +    /* fpInactive = FPCCR_NS.ASPEN == 1 && CONTROL.FPCA == 0 */
 +    TCGv_i32 aspen, fpca;
 +    aspen = load_cpu_field(v7m.fpccr[M_REG_NS]);
 +    fpca = load_cpu_field(v7m.control[M_REG_S]);
 +    tcg_gen_andi_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
 +    tcg_gen_xori_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
 +    tcg_gen_andi_i32(fpca, fpca, R_V7M_CONTROL_FPCA_MASK);
 +    tcg_gen_or_i32(fpca, fpca, aspen);
 +    tcg_gen_brcondi_i32(tcg_invert_cond(cond), fpca, 0, label);
 +    tcg_temp_free_i32(aspen);
 +    tcg_temp_free_i32(fpca);
 +}
 +
-+/* Stop counting. Record the time remaining so we can continue later. */
++static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
-+static void npcm7xx_timer_pause(NPCM7xxBaseTimer *t)
++                                  fp_sysreg_loadfn *loadfn,
 +                                  void *opaque)
 +{
-+    int64_t now;
++    /* Do a write to an M-profile floating point system register */
-+
++    TCGv_i32 tmp;
-+    timer_del(&t->qtimer);
++    TCGLabel *lab_end = NULL;
-+    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
++
-+    t->remaining_ns = t->expires_ns - now;
++    switch (fp_sysreg_checks(s, regno)) {
-+}
++    case FPSysRegCheckFailed:
-+
++        return false;
-+/* Delete the timer and reset it to default state. */
++    case FPSysRegCheckDone:
-+static void npcm7xx_timer_clear(NPCM7xxBaseTimer *t)
++        return true;
-+{
++    case FPSysRegCheckContinue:
-+    timer_del(&t->qtimer);
++        break;
-+    t->expires_ns = 0;
++    }
-+    t->remaining_ns = 0;
++
-+}
++    switch (regno) {
-+
++    case ARM_VFP_FPSCR:
- /*
++        tmp = loadfn(s, opaque);
-  * Returns the index of timer in the tc->timer array. This can be used to
++        gen_helper_vfp_set_fpscr(cpu_env, tmp);
-  * locate the registers that belong to this timer.
++        tcg_temp_free_i32(tmp);
-@@ -XXX,XX +XXX,XX @@ static uint32_t npcm7xx_timer_ns_to_count(NPCM7xxTimer *t, int64_t ns)
++        gen_lookup_tb(s);
-     return count;
++        break;
- }
++    case ARM_VFP_FPSCR_NZCVQC:
++    {
-+static uint32_t npcm7xx_watchdog_timer_prescaler(const NPCM7xxWatchdogTimer *t)
++        TCGv_i32 fpscr;
-+{
++        tmp = loadfn(s, opaque);
-+    switch (NPCM7XX_WTCR_WTCLK(t->wtcr)) {
++        if (dc_isar_feature(aa32_mve, s)) {
-+    case 0:
++            /* QC is only present for MVE; otherwise RES0 */
-+        return 1;
++            TCGv_i32 qc = tcg_temp_new_i32();
-+    case 1:
++            tcg_gen_andi_i32(qc, tmp, FPCR_QC);
-+        return 256;
++            /*
-+    case 2:
++             * The 4 vfp.qc[] fields need only be "zero" vs "non-zero";
-+        return 2048;
++             * here writing the same value into all elements is simplest.
-+    case 3:
++             */
-+        return 65536;
++            tcg_gen_gvec_dup_i32(MO_32, offsetof(CPUARMState, vfp.qc),
 +                                 16, 16, qc);
 +        }
 +        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
 +        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
 +        tcg_gen_andi_i32(fpscr, fpscr, ~FPCR_NZCV_MASK);
 +        tcg_gen_or_i32(fpscr, fpscr, tmp);
 +        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
 +        tcg_temp_free_i32(tmp);
 +        break;
 +    }
 +    case ARM_VFP_FPCXT_NS:
 +        lab_end = gen_new_label();
 +        /* fpInactive case: write is a NOP, so branch to end */
 +        gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
 +        /*
 +         * !fpInactive: if FPU disabled, take NOCP exception;
 +         * otherwise PreserveFPState(), and then FPCXT_NS writes
 +         * behave the same as FPCXT_S writes.
 +         */
 +        if (s->fp_excp_el) {
 +            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 +                               syn_uncategorized(), s->fp_excp_el);
 +            /*
 +             * This was only a conditional exception, so override
 +             * gen_exception_insn()'s default to DISAS_NORETURN
 +             */
 +            s->base.is_jmp = DISAS_NEXT;
 +            break;
 +        }
 +        gen_preserve_fp_state(s);
 +        /* fall through */
 +    case ARM_VFP_FPCXT_S:
 +    {
 +        TCGv_i32 sfpa, control;
 +        /*
 +         * Set FPSCR and CONTROL.SFPA from value; the new FPSCR takes
 +         * bits [27:0] from value and zeroes bits [31:28].
 +         */
 +        tmp = loadfn(s, opaque);
 +        sfpa = tcg_temp_new_i32();
 +        tcg_gen_shri_i32(sfpa, tmp, 31);
 +        control = load_cpu_field(v7m.control[M_REG_S]);
 +        tcg_gen_deposit_i32(control, control, sfpa,
 +                            R_V7M_CONTROL_SFPA_SHIFT, 1);
 +        store_cpu_field(control, v7m.control[M_REG_S]);
 +        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
 +        gen_helper_vfp_set_fpscr(cpu_env, tmp);
 +        tcg_temp_free_i32(tmp);
 +        tcg_temp_free_i32(sfpa);
 +        break;
 +    }
 +    case ARM_VFP_VPR:
 +        /* Behaves as NOP if not privileged */
 +        if (IS_USER(s)) {
 +            break;
 +        }
 +        tmp = loadfn(s, opaque);
 +        store_cpu_field(tmp, v7m.vpr);
 +        break;
 +    case ARM_VFP_P0:
 +    {
 +        TCGv_i32 vpr;
 +        tmp = loadfn(s, opaque);
 +        vpr = load_cpu_field(v7m.vpr);
 +        tcg_gen_deposit_i32(vpr, vpr, tmp,
 +                            R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
 +        store_cpu_field(vpr, v7m.vpr);
 +        tcg_temp_free_i32(tmp);
 +        break;
 +    }
 +    default:
 +        g_assert_not_reached();
 +    }
++    if (lab_end) {
++        gen_set_label(lab_end);
++    }
++    return true;
 +}
 +
-+static void npcm7xx_watchdog_timer_reset_cycles(NPCM7xxWatchdogTimer *t,
++static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
-+        int64_t cycles)
++                                 fp_sysreg_storefn *storefn,
 +                                 void *opaque)
 +{
-+    uint32_t prescaler = npcm7xx_watchdog_timer_prescaler(t);
++    /* Do a read from an M-profile floating point system register */
-+    int64_t ns = (NANOSECONDS_PER_SECOND / NPCM7XX_TIMER_REF_HZ) * cycles;
++    TCGv_i32 tmp;
-+
++    TCGLabel *lab_end = NULL;
-+    /*
++    bool lookup_tb = false;
-+     * The reset function always clears the current timer. The caller of the
++
-+     * this needs to decide whether to start the watchdog timer based on
++    switch (fp_sysreg_checks(s, regno)) {
-+     * specific flag in WTCR.
++    case FPSysRegCheckFailed:
-+     */
++        return false;
-+    npcm7xx_timer_clear(&t->base_timer);
++    case FPSysRegCheckDone:
-+
++        return true;
-+    ns *= prescaler;
++    case FPSysRegCheckContinue:
-+    t->base_timer.remaining_ns = ns;
++        break;
-+}
++    }
 +
-+static void npcm7xx_watchdog_timer_reset(NPCM7xxWatchdogTimer *t)
++    if (regno == ARM_VFP_FPSCR_NZCVQC && !dc_isar_feature(aa32_mve, s)) {
-+{
++        /* QC is RES0 without MVE, so NZCVQC simplifies to NZCV */
-+    int64_t cycles = 1;
++        regno = QEMU_VFP_FPSCR_NZCV;
-+    uint32_t s = NPCM7XX_WTCR_WTIS(t->wtcr);
++    }
 +
-+    g_assert(s <= 3);
++    switch (regno) {
-+
++    case ARM_VFP_FPSCR:
-+    cycles <<= NPCM7XX_WATCHDOG_BASETIME_SHIFT;
++        tmp = tcg_temp_new_i32();
-+    cycles <<= 2 * s;
++        gen_helper_vfp_get_fpscr(tmp, cpu_env);
-+
++        storefn(s, opaque, tmp);
-+    npcm7xx_watchdog_timer_reset_cycles(t, cycles);
++        break;
-+}
++    case ARM_VFP_FPSCR_NZCVQC:
-+
++        tmp = tcg_temp_new_i32();
- /*
++        gen_helper_vfp_get_fpscr(tmp, cpu_env);
-  * Raise the interrupt line if there's a pending interrupt and interrupts are
++        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCVQC_MASK);
-  * enabled for this timer. If not, lower it.
++        storefn(s, opaque, tmp);
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_check_interrupt(NPCM7xxTimer *t)
++        break;
-     trace_npcm7xx_timer_irq(DEVICE(tc)->canonical_path, index, pending);
++    case QEMU_VFP_FPSCR_NZCV:
- }
++        /*
++         * Read just NZCV; this is a special case to avoid the
--/* Start or resume the timer. */
++         * helper call for the "VMRS to CPSR.NZCV" insn.
--static void npcm7xx_timer_start(NPCM7xxTimer *t)
++         */
--{
++        tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
--    int64_t now;
++        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
--
++        storefn(s, opaque, tmp);
--    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
++        break;
--    t->expires_ns = now + t->remaining_ns;
++    case ARM_VFP_FPCXT_S:
--    timer_mod(&t->qtimer, t->expires_ns);
++    {
--}
++        TCGv_i32 control, sfpa, fpscr;
--
++        /* Bits [27:0] from FPSCR, bit [31] from CONTROL.SFPA */
- /*
++        tmp = tcg_temp_new_i32();
-  * Called when the counter reaches zero. Sets the interrupt flag, and either
++        sfpa = tcg_temp_new_i32();
-  * restarts or disables the timer.
++        gen_helper_vfp_get_fpscr(tmp, cpu_env);
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_reached_zero(NPCM7xxTimer *t)
++        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
-     tc->tisr |= BIT(index);
++        control = load_cpu_field(v7m.control[M_REG_S]);
++        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
-     if (t->tcsr & NPCM7XX_TCSR_PERIODIC) {
++        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
--        t->remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
++        tcg_gen_or_i32(tmp, tmp, sfpa);
-+        t->base_timer.remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
++        tcg_temp_free_i32(sfpa);
-         if (t->tcsr & NPCM7XX_TCSR_CEN) {
++        /*
--            npcm7xx_timer_start(t);
++         * Store result before updating FPSCR etc, in case
-+            npcm7xx_timer_start(&t->base_timer);
++         * it is a memory write which causes an exception.
-         }
++         */
-     } else {
++        storefn(s, opaque, tmp);
-         t->tcsr &= ~(NPCM7XX_TCSR_CEN | NPCM7XX_TCSR_CACT);
++        /*
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_reached_zero(NPCM7xxTimer *t)
++         * Now we must reset FPSCR from FPDSCR_NS, and clear
-     npcm7xx_timer_check_interrupt(t);
++         * CONTROL.SFPA; so we'll end the TB here.
- }
++         */
++        tcg_gen_andi_i32(control, control, ~R_V7M_CONTROL_SFPA_MASK);
--/* Stop counting. Record the time remaining so we can continue later. */
++        store_cpu_field(control, v7m.control[M_REG_S]);
--static void npcm7xx_timer_pause(NPCM7xxTimer *t)
++        fpscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
--{
++        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
--    int64_t now;
++        tcg_temp_free_i32(fpscr);
--
++        lookup_tb = true;
--    timer_del(&t->qtimer);
++        break;
--    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
++    }
--    t->remaining_ns = t->expires_ns - now;
++    case ARM_VFP_FPCXT_NS:
--}
++    {
++        TCGv_i32 control, sfpa, fpscr, fpdscr, zero;
- /*
++        TCGLabel *lab_active = gen_new_label();
-  * Restart the timer from its initial value. If the timer was enabled and stays
++
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_pause(NPCM7xxTimer *t)
++        lookup_tb = true;
-  */
++
- static void npcm7xx_timer_restart(NPCM7xxTimer *t, uint32_t old_tcsr)
++        gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
- {
++        /* fpInactive case: reads as FPDSCR_NS */
--    t->remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
++        TCGv_i32 tmp = load_cpu_field(v7m.fpdscr[M_REG_NS]);
-+    t->base_timer.remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
++        storefn(s, opaque, tmp);
++        lab_end = gen_new_label();
-     if (old_tcsr & t->tcsr & NPCM7XX_TCSR_CEN) {
++        tcg_gen_br(lab_end);
--        npcm7xx_timer_start(t);
++
-+        npcm7xx_timer_start(&t->base_timer);
++        gen_set_label(lab_active);
-     }
++        /*
- }
++         * !fpInactive: if FPU disabled, take NOCP exception;
++         * otherwise PreserveFPState(), and then FPCXT_NS
-@@ -XXX,XX +XXX,XX @@ static uint32_t npcm7xx_timer_read_tdr(NPCM7xxTimer *t)
++         * reads the same as FPCXT_S.
-     if (t->tcsr & NPCM7XX_TCSR_CEN) {
++         */
-         int64_t now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
++        if (s->fp_excp_el) {
++            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
--        return npcm7xx_timer_ns_to_count(t, t->expires_ns - now);
++                               syn_uncategorized(), s->fp_excp_el);
-+        return npcm7xx_timer_ns_to_count(t, t->base_timer.expires_ns - now);
++            /*
-     }
++             * This was only a conditional exception, so override
++             * gen_exception_insn()'s default to DISAS_NORETURN
--    return npcm7xx_timer_ns_to_count(t, t->remaining_ns);
++             */
-+    return npcm7xx_timer_ns_to_count(t, t->base_timer.remaining_ns);
++            s->base.is_jmp = DISAS_NEXT;
- }
++            break;
  static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
      if (npcm7xx_tcsr_prescaler(old_tcsr) != npcm7xx_tcsr_prescaler(new_tcsr)) {
          /* Recalculate time remaining based on the current TDR value. */
 -        t->remaining_ns = npcm7xx_timer_count_to_ns(t, tdr);
 +        t->base_timer.remaining_ns = npcm7xx_timer_count_to_ns(t, tdr);
          if (old_tcsr & t->tcsr & NPCM7XX_TCSR_CEN) {
 -            npcm7xx_timer_start(t);
 +            npcm7xx_timer_start(&t->base_timer);
          }
      }
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
      if ((old_tcsr ^ new_tcsr) & NPCM7XX_TCSR_CEN) {
          if (new_tcsr & NPCM7XX_TCSR_CEN) {
              t->tcsr |= NPCM7XX_TCSR_CACT;
 -            npcm7xx_timer_start(t);
 +            npcm7xx_timer_start(&t->base_timer);
          } else {
              t->tcsr &= ~NPCM7XX_TCSR_CACT;
 -            npcm7xx_timer_pause(t);
 -            if (t->remaining_ns <= 0) {
 +            npcm7xx_timer_pause(&t->base_timer);
 +            if (t->base_timer.remaining_ns <= 0) {
                  npcm7xx_timer_reached_zero(t);
              }
          }
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tisr(NPCM7xxTimerCtrlState *s, uint32_t value)
          if (value & (1U << i)) {
              npcm7xx_timer_check_interrupt(&s->timer[i]);
          }
 +
      }
  }
 +static void npcm7xx_timer_write_wtcr(NPCM7xxWatchdogTimer *t, uint32_t new_wtcr)
 +{
 +    uint32_t old_wtcr = t->wtcr;
 +
 +    /*
 +     * WTIF and WTRF are cleared by writing 1. Writing 0 makes these bits
 +     * unchanged.
 +     */
 +    if (new_wtcr & NPCM7XX_WTCR_WTIF) {
 +        new_wtcr &= ~NPCM7XX_WTCR_WTIF;
 +    } else if (old_wtcr & NPCM7XX_WTCR_WTIF) {
 +        new_wtcr |= NPCM7XX_WTCR_WTIF;
 +    }
 +    if (new_wtcr & NPCM7XX_WTCR_WTRF) {
 +        new_wtcr &= ~NPCM7XX_WTCR_WTRF;
 +    } else if (old_wtcr & NPCM7XX_WTCR_WTRF) {
 +        new_wtcr |= NPCM7XX_WTCR_WTRF;
 +    }
 +
 +    t->wtcr = new_wtcr;
 +
 +    if (new_wtcr & NPCM7XX_WTCR_WTR) {
 +        t->wtcr &= ~NPCM7XX_WTCR_WTR;
 +        npcm7xx_watchdog_timer_reset(t);
 +        if (new_wtcr & NPCM7XX_WTCR_WTE) {
 +            npcm7xx_timer_start(&t->base_timer);
 +        }
-+    } else if ((old_wtcr ^ new_wtcr) & NPCM7XX_WTCR_WTE) {
++        gen_preserve_fp_state(s);
-+        if (new_wtcr & NPCM7XX_WTCR_WTE) {
++        tmp = tcg_temp_new_i32();
-+            npcm7xx_timer_start(&t->base_timer);
++        sfpa = tcg_temp_new_i32();
-+        } else {
++        fpscr = tcg_temp_new_i32();
-+            npcm7xx_timer_pause(&t->base_timer);
++        gen_helper_vfp_get_fpscr(fpscr, cpu_env);
 +        tcg_gen_andi_i32(tmp, fpscr, ~FPCR_NZCV_MASK);
 +        control = load_cpu_field(v7m.control[M_REG_S]);
 +        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
 +        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
 +        tcg_gen_or_i32(tmp, tmp, sfpa);
 +        tcg_temp_free_i32(control);
 +        /* Store result before updating FPSCR, in case it faults */
 +        storefn(s, opaque, tmp);
 +        /* If SFPA is zero then set FPSCR from FPDSCR_NS */
 +        fpdscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
 +        zero = tcg_const_i32(0);
 +        tcg_gen_movcond_i32(TCG_COND_EQ, fpscr, sfpa, zero, fpdscr, fpscr);
 +        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
 +        tcg_temp_free_i32(zero);
 +        tcg_temp_free_i32(sfpa);
 +        tcg_temp_free_i32(fpdscr);
 +        tcg_temp_free_i32(fpscr);
 +        break;
 +    }
 +    case ARM_VFP_VPR:
 +        /* Behaves as NOP if not privileged */
 +        if (IS_USER(s)) {
 +            break;
 +        }
-+    }
++        tmp = load_cpu_field(v7m.vpr);
-+
++        storefn(s, opaque, tmp);
-+}
++        break;
-+
++    case ARM_VFP_P0:
- static hwaddr npcm7xx_tcsr_index(hwaddr reg)
++        tmp = load_cpu_field(v7m.vpr);
- {
++        tcg_gen_extract_i32(tmp, tmp, R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
-     switch (reg) {
++        storefn(s, opaque, tmp);
-@@ -XXX,XX +XXX,XX @@ static uint64_t npcm7xx_timer_read(void *opaque, hwaddr offset, unsigned size)
++        break;
          break;
      case NPCM7XX_TIMER_WTCR:
 -        value = s->wtcr;
 +        value = s->watchdog_timer.wtcr;
          break;
      default:
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write(void *opaque, hwaddr offset,
          return;
      case NPCM7XX_TIMER_WTCR:
 -        qemu_log_mask(LOG_UNIMP, "%s: WTCR write not implemented: 0x%08x\n",
 -                      __func__, value);
 +        npcm7xx_timer_write_wtcr(&s->watchdog_timer, value);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_enter_reset(Object *obj, ResetType type)
      for (i = 0; i < NPCM7XX_TIMERS_PER_CTRL; i++) {
          NPCM7xxTimer *t = &s->timer[i];
 -        timer_del(&t->qtimer);
 -        t->expires_ns = 0;
 -        t->remaining_ns = 0;
 +        npcm7xx_timer_clear(&t->base_timer);
          t->tcsr = 0x00000005;
          t->ticr = 0x00000000;
      }
      s->tisr = 0x00000000;
 -    s->wtcr = 0x00000400;
 +    /*
 +     * Set WTCLK to 1(default) and reset all flags except WTRF.
 +     * WTRF is not reset during a core domain reset.
 +     */
 +    s->watchdog_timer.wtcr = 0x00000400 | (s->watchdog_timer.wtcr &
 +            NPCM7XX_WTCR_WTRF);
 +}
 +
 +static void npcm7xx_watchdog_timer_expired(void *opaque)
 +{
 +    NPCM7xxWatchdogTimer *t = opaque;
 +
 +    if (t->wtcr & NPCM7XX_WTCR_WTE) {
 +        if (t->wtcr & NPCM7XX_WTCR_WTIF) {
 +            if (t->wtcr & NPCM7XX_WTCR_WTRE) {
 +                t->wtcr |= NPCM7XX_WTCR_WTRF;
 +                /* send reset signal to CLK module*/
 +                qemu_irq_raise(t->reset_signal);
 +            }
 +        } else {
 +            t->wtcr |= NPCM7XX_WTCR_WTIF;
 +            if (t->wtcr & NPCM7XX_WTCR_WTIE) {
 +                /* send interrupt */
 +                qemu_irq_raise(t->irq);
 +            }
 +            npcm7xx_watchdog_timer_reset_cycles(t,
 +                    NPCM7XX_WATCHDOG_INTERRUPT_TO_RESET_CYCLES);
 +            npcm7xx_timer_start(&t->base_timer);
 +        }
 +    }
  }
  static void npcm7xx_timer_hold_reset(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_hold_reset(Object *obj)
      for (i = 0; i < NPCM7XX_TIMERS_PER_CTRL; i++) {
          qemu_irq_lower(s->timer[i].irq);
      }
 +    qemu_irq_lower(s->watchdog_timer.irq);
  }
  static void npcm7xx_timer_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_realize(DeviceState *dev, Error **errp)
      NPCM7xxTimerCtrlState *s = NPCM7XX_TIMER(dev);
      SysBusDevice *sbd = &s->parent;
      int i;
 +    NPCM7xxWatchdogTimer *w;
      for (i = 0; i < NPCM7XX_TIMERS_PER_CTRL; i++) {
          NPCM7xxTimer *t = &s->timer[i];
          t->ctrl = s;
 -        timer_init_ns(&t->qtimer, QEMU_CLOCK_VIRTUAL, npcm7xx_timer_expired, t);
 +        timer_init_ns(&t->base_timer.qtimer, QEMU_CLOCK_VIRTUAL,
 +                npcm7xx_timer_expired, t);
          sysbus_init_irq(sbd, &t->irq);
      }
 +    w = &s->watchdog_timer;
 +    w->ctrl = s;
 +    timer_init_ns(&w->base_timer.qtimer, QEMU_CLOCK_VIRTUAL,
 +            npcm7xx_watchdog_timer_expired, w);
 +    sysbus_init_irq(sbd, &w->irq);
 +
      memory_region_init_io(&s->iomem, OBJECT(s), &npcm7xx_timer_ops, s,
                            TYPE_NPCM7XX_TIMER, 4 * KiB);
      sysbus_init_mmio(sbd, &s->iomem);
 +    qdev_init_gpio_out_named(dev, &w->reset_signal,
 +            NPCM7XX_WATCHDOG_RESET_GPIO_OUT, 1);
  }
 -static const VMStateDescription vmstate_npcm7xx_timer = {
 -    .name = "npcm7xx-timer",
 +static const VMStateDescription vmstate_npcm7xx_base_timer = {
 +    .name = "npcm7xx-base-timer",
      .version_id = 0,
      .minimum_version_id = 0,
      .fields = (VMStateField[]) {
 -        VMSTATE_TIMER(qtimer, NPCM7xxTimer),
 -        VMSTATE_INT64(expires_ns, NPCM7xxTimer),
 -        VMSTATE_INT64(remaining_ns, NPCM7xxTimer),
 +        VMSTATE_TIMER(qtimer, NPCM7xxBaseTimer),
 +        VMSTATE_INT64(expires_ns, NPCM7xxBaseTimer),
 +        VMSTATE_INT64(remaining_ns, NPCM7xxBaseTimer),
 +        VMSTATE_END_OF_LIST(),
 +    },
 +};
 +
 +static const VMStateDescription vmstate_npcm7xx_timer = {
 +    .name = "npcm7xx-timer",
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_STRUCT(base_timer, NPCM7xxTimer,
 +                             0, vmstate_npcm7xx_base_timer,
 +                             NPCM7xxBaseTimer),
          VMSTATE_UINT32(tcsr, NPCM7xxTimer),
          VMSTATE_UINT32(ticr, NPCM7xxTimer),
          VMSTATE_END_OF_LIST(),
      },
  };
 -static const VMStateDescription vmstate_npcm7xx_timer_ctrl = {
 -    .name = "npcm7xx-timer-ctrl",
 +static const VMStateDescription vmstate_npcm7xx_watchdog_timer = {
 +    .name = "npcm7xx-watchdog-timer",
      .version_id = 0,
      .minimum_version_id = 0,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_STRUCT(base_timer, NPCM7xxWatchdogTimer,
 +                             0, vmstate_npcm7xx_base_timer,
 +                             NPCM7xxBaseTimer),
 +        VMSTATE_UINT32(wtcr, NPCM7xxWatchdogTimer),
 +        VMSTATE_END_OF_LIST(),
 +    },
 +};
 +
 +static const VMStateDescription vmstate_npcm7xx_timer_ctrl = {
 +    .name = "npcm7xx-timer-ctrl",
 +    .version_id = 1,
 +    .minimum_version_id = 1,
      .fields = (VMStateField[]) {
          VMSTATE_UINT32(tisr, NPCM7xxTimerCtrlState),
 -        VMSTATE_UINT32(wtcr, NPCM7xxTimerCtrlState),
          VMSTATE_STRUCT_ARRAY(timer, NPCM7xxTimerCtrlState,
                               NPCM7XX_TIMERS_PER_CTRL, 0, vmstate_npcm7xx_timer,
                               NPCM7xxTimer),
 +        VMSTATE_STRUCT(watchdog_timer, NPCM7xxTimerCtrlState,
 +                             0, vmstate_npcm7xx_watchdog_timer,
 +                             NPCM7xxWatchdogTimer),
          VMSTATE_END_OF_LIST(),
      },
  };
 diff --git a/tests/qtest/npcm7xx_watchdog_timer-test.c b/tests/qtest/npcm7xx_watchdog_timer-test.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/qtest/npcm7xx_watchdog_timer-test.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QTests for Nuvoton NPCM7xx Timer Watchdog Modules.
 + *
 + * Copyright 2020 Google LLC
 + *
 + * This program is free software; you can redistribute it and/or modify it
 + * under the terms of the GNU General Public License as published by the
 + * Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 + *
 + * This program is distributed in the hope that it will be useful, but WITHOUT
 + * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 + * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
 + * for more details.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/timer.h"
 +
 +#include "libqos/libqtest.h"
 +#include "qapi/qmp/qdict.h"
 +
 +#define WTCR_OFFSET     0x1c
 +#define REF_HZ          (25000000)
 +
 +/* WTCR bit fields */
 +#define WTCLK(rv)       ((rv) << 10)
 +#define WTE             BIT(7)
 +#define WTIE            BIT(6)
 +#define WTIS(rv)        ((rv) << 4)
 +#define WTIF            BIT(3)
 +#define WTRF            BIT(2)
 +#define WTRE            BIT(1)
 +#define WTR             BIT(0)
 +
 +typedef struct Watchdog {
 +    int irq;
 +    uint64_t base_addr;
 +} Watchdog;
 +
 +static const Watchdog watchdog_list[] = {
 +    {
 +        .irq        = 47,
 +        .base_addr  = 0xf0008000
 +    },
 +    {
 +        .irq        = 48,
 +        .base_addr  = 0xf0009000
 +    },
 +    {
 +        .irq        = 49,
 +        .base_addr  = 0xf000a000
 +    }
 +};
 +
 +static int watchdog_index(const Watchdog *wd)
 +{
 +    ptrdiff_t diff = wd - watchdog_list;
 +
 +    g_assert(diff >= 0 && diff < ARRAY_SIZE(watchdog_list));
 +
 +    return diff;
 +}
 +
 +static uint32_t watchdog_read_wtcr(QTestState *qts, const Watchdog *wd)
 +{
 +    return qtest_readl(qts, wd->base_addr + WTCR_OFFSET);
 +}
 +
 +static void watchdog_write_wtcr(QTestState *qts, const Watchdog *wd,
 +        uint32_t value)
 +{
 +    qtest_writel(qts, wd->base_addr + WTCR_OFFSET, value);
 +}
 +
 +static uint32_t watchdog_prescaler(QTestState *qts, const Watchdog *wd)
 +{
 +    switch (extract32(watchdog_read_wtcr(qts, wd), 10, 2)) {
 +    case 0:
 +        return 1;
 +    case 1:
 +        return 256;
 +    case 2:
 +        return 2048;
 +    case 3:
 +        return 65536;
 +    default:
 +        g_assert_not_reached();
 +    }
++
++    if (lab_end) {
++        gen_set_label(lab_end);
++    }
++    if (lookup_tb) {
++        gen_lookup_tb(s);
++    }
++    return true;
 +}
 +
-+static QDict *get_watchdog_action(QTestState *qts)
++static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
 +{
-+    QDict *ev = qtest_qmp_eventwait_ref(qts, "WATCHDOG");
++    arg_VMSR_VMRS *a = opaque;
-+    QDict *data;
++
-+
++    if (a->rt == 15) {
-+    data = qdict_get_qdict(ev, "data");
++        /* Set the 4 flag bits in the CPSR */
-+    qobject_ref(data);
++        gen_set_nzcv(value);
-+    qobject_unref(ev);
++        tcg_temp_free_i32(value);
-+    return data;
++    } else {
 +        store_reg(s, a->rt, value);
 +    }
 +}
 +
-+#define RESET_CYCLES 1024
++static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
 +static uint32_t watchdog_interrupt_cycles(QTestState *qts, const Watchdog *wd)
 +{
-+    uint32_t wtis = extract32(watchdog_read_wtcr(qts, wd), 4, 2);
++    arg_VMSR_VMRS *a = opaque;
-+    return 1 << (14 + 2 * wtis);
++
 +    return load_reg(s, a->rt);
 +}
 +
-+static int64_t watchdog_calculate_steps(uint32_t count, uint32_t prescale)
++static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
 +{
-+    return (NANOSECONDS_PER_SECOND / REF_HZ) * count * prescale;
++    /*
 +     * Accesses to R15 are UNPREDICTABLE; we choose to undef.
 +     * FPSCR -> r15 is a special case which writes to the PSR flags;
 +     * set a->reg to a special value to tell gen_M_fp_sysreg_read()
 +     * we only care about the top 4 bits of FPSCR there.
 +     */
 +    if (a->rt == 15) {
 +        if (a->l && a->reg == ARM_VFP_FPSCR) {
 +            a->reg = QEMU_VFP_FPSCR_NZCV;
 +        } else {
 +            return false;
 +        }
 +    }
 +
 +    if (a->l) {
 +        /* VMRS, move FP system register to gp register */
 +        return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_gpr, a);
 +    } else {
 +        /* VMSR, move gp register to FP system register */
 +        return gen_M_fp_sysreg_write(s, a->reg, gpr_to_fp_sysreg, a);
 +    }
 +}
 +
-+static int64_t watchdog_interrupt_steps(QTestState *qts, const Watchdog *wd)
++static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
 +{
-+    return watchdog_calculate_steps(watchdog_interrupt_cycles(qts, wd),
++    arg_vldr_sysreg *a = opaque;
-+            watchdog_prescaler(qts, wd));
++    uint32_t offset = a->imm;
 +    TCGv_i32 addr;
 +
 +    if (!a->a) {
 +        offset = -offset;
 +    }
 +
 +    addr = load_reg(s, a->rn);
 +    if (a->p) {
 +        tcg_gen_addi_i32(addr, addr, offset);
 +    }
 +
 +    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
 +        gen_helper_v8m_stackcheck(cpu_env, addr);
 +    }
 +
 +    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
 +                    MO_UL | MO_ALIGN | s->be_data);
 +    tcg_temp_free_i32(value);
 +
 +    if (a->w) {
 +        /* writeback */
 +        if (!a->p) {
 +            tcg_gen_addi_i32(addr, addr, offset);
 +        }
 +        store_reg(s, a->rn, addr);
 +    } else {
 +        tcg_temp_free_i32(addr);
 +    }
 +}
 +
-+/* Check wtcr can be reset to default value */
++static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
 +static void test_init(gconstpointer watchdog)
 +{
-+    const Watchdog *wd = watchdog;
++    arg_vldr_sysreg *a = opaque;
-+    QTestState *qts = qtest_init("-machine quanta-gsj");
++    uint32_t offset = a->imm;
-+
++    TCGv_i32 addr;
-+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
++    TCGv_i32 value = tcg_temp_new_i32();
 +
-+    watchdog_write_wtcr(qts, wd, WTCLK(1) | WTRF | WTIF | WTR);
++    if (!a->a) {
-+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(1));
++        offset = -offset;
-+
++    }
-+    qtest_quit(qts);
++
 +    addr = load_reg(s, a->rn);
 +    if (a->p) {
 +        tcg_gen_addi_i32(addr, addr, offset);
 +    }
 +
 +    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
 +        gen_helper_v8m_stackcheck(cpu_env, addr);
 +    }
 +
 +    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
 +                    MO_UL | MO_ALIGN | s->be_data);
 +
 +    if (a->w) {
 +        /* writeback */
 +        if (!a->p) {
 +            tcg_gen_addi_i32(addr, addr, offset);
 +        }
 +        store_reg(s, a->rn, addr);
 +    } else {
 +        tcg_temp_free_i32(addr);
 +    }
 +    return value;
 +}
 +
-+/* Check a watchdog can generate interrupt and reset actions */
++static bool trans_VLDR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
 +static void test_reset_action(gconstpointer watchdog)
 +{
-+    const Watchdog *wd = watchdog;
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+    QTestState *qts = qtest_init("-machine quanta-gsj");
++        return false;
-+    QDict *ad;
++    }
-+
++    if (a->rn == 15) {
-+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
++        return false;
-+
++    }
-+    watchdog_write_wtcr(qts, wd,
++    return gen_M_fp_sysreg_write(s, a->reg, memory_to_fp_sysreg, a);
 +            WTCLK(0) | WTE | WTRF | WTRE | WTIF | WTIE | WTR);
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==,
 +            WTCLK(0) | WTE | WTRE | WTIE);
 +
 +    /* Check a watchdog can generate an interrupt */
 +    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==,
 +            WTCLK(0) | WTE | WTIF | WTIE | WTRE);
 +    g_assert_true(qtest_get_irq(qts, wd->irq));
 +
 +    /* Check a watchdog can generate a reset signal */
 +    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
 +                watchdog_prescaler(qts, wd)));
 +    ad = get_watchdog_action(qts);
 +    /* The signal is a reset signal */
 +    g_assert_false(strcmp(qdict_get_str(ad, "action"), "reset"));
 +    qobject_unref(ad);
 +    qtest_qmp_eventwait(qts, "RESET");
 +    /*
 +     * Make sure WTCR is reset to default except for WTRF bit which shouldn't
 +     * be reset.
 +     */
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(1) | WTRF);
 +    qtest_quit(qts);
 +}
 +
-+/* Check a watchdog works with all possible WTCLK prescalers and WTIS cycles */
++static bool trans_VSTR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
 +static void test_prescaler(gconstpointer watchdog)
 +{
-+    const Watchdog *wd = watchdog;
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+
++        return false;
-+    for (int wtclk = 0; wtclk < 4; ++wtclk) {
++    }
-+        for (int wtis = 0; wtis < 4; ++wtis) {
++    if (a->rn == 15) {
-+            QTestState *qts = qtest_init("-machine quanta-gsj");
++        return false;
-+
++    }
-+            qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
++    return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_memory, a);
 +            watchdog_write_wtcr(qts, wd,
 +                    WTCLK(wtclk) | WTE | WTIF | WTIS(wtis) | WTIE | WTR);
 +            /*
 +             * The interrupt doesn't fire until watchdog_interrupt_steps()
 +             * cycles passed
 +             */
 +            qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd) - 1);
 +            g_assert_false(watchdog_read_wtcr(qts, wd) & WTIF);
 +            g_assert_false(qtest_get_irq(qts, wd->irq));
 +            qtest_clock_step(qts, 1);
 +            g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
 +            g_assert_true(qtest_get_irq(qts, wd->irq));
 +
 +            qtest_quit(qts);
 +        }
 +    }
 +}
 +
-+/*
+ static bool trans_NOCP(DisasContext *s, arg_nocp *a)
-+ * Check a watchdog doesn't fire if corresponding flags (WTIE and WTRE) are not
+ {
-+ * set.
+     /*
-+ */
+diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
 +static void test_enabling_flags(gconstpointer watchdog)
 +{
 +    const Watchdog *wd = watchdog;
 +    QTestState *qts;
 +
 +    /* Neither WTIE or WTRE is set, no interrupt or reset should happen */
 +    qts = qtest_init("-machine quanta-gsj");
 +    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
 +    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTRF | WTR);
 +    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
 +    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
 +    g_assert_false(qtest_get_irq(qts, wd->irq));
 +    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
 +                watchdog_prescaler(qts, wd)));
 +    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
 +    g_assert_false(watchdog_read_wtcr(qts, wd) & WTRF);
 +    qtest_quit(qts);
 +
 +    /* Only WTIE is set, interrupt is triggered but reset should not happen */
 +    qts = qtest_init("-machine quanta-gsj");
 +    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
 +    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTIE | WTRF | WTR);
 +    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
 +    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
 +    g_assert_true(qtest_get_irq(qts, wd->irq));
 +    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
 +                watchdog_prescaler(qts, wd)));
 +    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
 +    g_assert_false(watchdog_read_wtcr(qts, wd) & WTRF);
 +    qtest_quit(qts);
 +
 +    /* Only WTRE is set, interrupt is triggered but reset should not happen */
 +    qts = qtest_init("-machine quanta-gsj");
 +    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
 +    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTRE | WTRF | WTR);
 +    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
 +    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
 +    g_assert_false(qtest_get_irq(qts, wd->irq));
 +    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
 +                watchdog_prescaler(qts, wd)));
 +    g_assert_false(strcmp(qdict_get_str(get_watchdog_action(qts), "action"),
 +                "reset"));
 +    qtest_qmp_eventwait(qts, "RESET");
 +    qtest_quit(qts);
 +
 +    /*
 +     * The case when both flags are set is already tested in
 +     * test_reset_action().
 +     */
 +}
 +
 +/* Check a watchdog can pause and resume by setting WTE bits */
 +static void test_pause(gconstpointer watchdog)
 +{
 +    const Watchdog *wd = watchdog;
 +    QTestState *qts;
 +    int64_t remaining_steps, steps;
 +
 +    qts = qtest_init("-machine quanta-gsj");
 +    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
 +    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTIE | WTRF | WTR);
 +    remaining_steps = watchdog_interrupt_steps(qts, wd);
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTE | WTIE);
 +
 +    /* Run for half of the execution period. */
 +    steps = remaining_steps / 2;
 +    remaining_steps -= steps;
 +    qtest_clock_step(qts, steps);
 +
 +    /* Pause the watchdog */
 +    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTIE);
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTIE);
 +
 +    /* Run for a long period of time, the watchdog shouldn't fire */
 +    qtest_clock_step(qts, steps << 4);
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTIE);
 +    g_assert_false(qtest_get_irq(qts, wd->irq));
 +
 +    /* Resume the watchdog */
 +    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIE);
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTE | WTIE);
 +
 +    /* Run for the reset of the execution period, the watchdog should fire */
 +    qtest_clock_step(qts, remaining_steps);
 +    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==,
 +            WTCLK(0) | WTE | WTIF | WTIE);
 +    g_assert_true(qtest_get_irq(qts, wd->irq));
 +
 +    qtest_quit(qts);
 +}
 +
 +static void watchdog_add_test(const char *name, const Watchdog* wd,
 +        GTestDataFunc fn)
 +{
 +    g_autofree char *full_name = g_strdup_printf(
 +            "npcm7xx_watchdog_timer[%d]/%s", watchdog_index(wd), name);
 +    qtest_add_data_func(full_name, wd, fn);
 +}
 +#define add_test(name, td) watchdog_add_test(#name, td, test_##name)
 +
 +int main(int argc, char **argv)
 +{
 +    g_test_init(&argc, &argv, NULL);
 +    g_test_set_nonfatal_assertions();
 +
 +    for (int i = 0; i < ARRAY_SIZE(watchdog_list); ++i) {
 +        const Watchdog *wd = &watchdog_list[i];
 +
 +        add_test(init, wd);
 +        add_test(reset_action, wd);
 +        add_test(prescaler, wd);
 +        add_test(enabling_flags, wd);
 +        add_test(pause, wd);
 +    }
 +
 +    return g_test_run();
 +}
 diff --git a/MAINTAINERS b/MAINTAINERS
 index XXXXXXX..XXXXXXX 100644
---- a/MAINTAINERS
+--- a/target/arm/translate-vfp.c
-+++ b/MAINTAINERS
++++ b/target/arm/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@ L: qemu-arm@nongnu.org
+@@ -XXX,XX +XXX,XX @@ static inline long vfp_f16_offset(unsigned reg, bool top)
- S: Supported
+  * Generate code for M-profile lazy FP state preservation if needed;
- F: hw/*/npcm7xx*
+  * this corresponds to the pseudocode PreserveFPState() function.
- F: include/hw/*/npcm7xx*
+  */
-+F: tests/qtest/npcm7xx*
+-static void gen_preserve_fp_state(DisasContext *s)
- F: pc-bios/npcm7xx_bootrom.bin
++void gen_preserve_fp_state(DisasContext *s)
- F: roms/vbootrom
+ {
+     if (s->v7m_lspact) {
-diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
+         /*
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
---- a/tests/qtest/meson.build
+     return true;
-+++ b/tests/qtest/meson.build
+ }
-@@ -XXX,XX +XXX,XX @@ qtests_sparc64 = \
-   (config_all_devices.has_key('CONFIG_ISA_TESTDEV') ? ['endianness-test'] : []) +            \
+-/*
-   ['prom-env-test', 'boot-serial-test']
+- * M-profile provides two different sets of instructions that can
+- * access floating point system registers: VMSR/VMRS (which move
--qtests_npcm7xx = ['npcm7xx_timer-test']
+- * to/from a general purpose register) and VLDR/VSTR sysreg (which
-+qtests_npcm7xx = ['npcm7xx_timer-test', 'npcm7xx_watchdog_timer-test']
+- * move directly to/from memory). In some cases there are also side
- qtests_arm = \
+- * effects which must happen after any write to memory (which could
-   (config_all_devices.has_key('CONFIG_PFLASH_CFI02') ? ['pflash-cfi02-test'] : []) +         \
+- * cause an exception). So we implement the common logic for the
-   (config_all_devices.has_key('CONFIG_NPCM7XX') ? qtests_npcm7xx : []) + \
+- * sysreg access in gen_M_fp_sysreg_write() and gen_M_fp_sysreg_read(),
 - * which take pointers to callback functions which will perform the
 - * actual "read/write general purpose register" and "read/write
 - * memory" operations.
 - */
 -
 -/*
 - * Emit code to store the sysreg to its final destination; frees the
 - * TCG temp 'value' it is passed.
 - */
 -typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
 -/*
 - * Emit code to load the value to be copied to the sysreg; returns
 - * a new TCG temporary
 - */
 -typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
 -
 -/* Common decode/access checks for fp sysreg read/write */
 -typedef enum FPSysRegCheckResult {
 -    FPSysRegCheckFailed, /* caller should return false */
 -    FPSysRegCheckDone, /* caller should return true */
 -    FPSysRegCheckContinue, /* caller should continue generating code */
 -} FPSysRegCheckResult;
 -
 -static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
 -{
 -    if (!dc_isar_feature(aa32_fpsp_v2, s) && !dc_isar_feature(aa32_mve, s)) {
 -        return FPSysRegCheckFailed;
 -    }
 -
 -    switch (regno) {
 -    case ARM_VFP_FPSCR:
 -    case QEMU_VFP_FPSCR_NZCV:
 -        break;
 -    case ARM_VFP_FPSCR_NZCVQC:
 -        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 -            return FPSysRegCheckFailed;
 -        }
 -        break;
 -    case ARM_VFP_FPCXT_S:
 -    case ARM_VFP_FPCXT_NS:
 -        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 -            return FPSysRegCheckFailed;
 -        }
 -        if (!s->v8m_secure) {
 -            return FPSysRegCheckFailed;
 -        }
 -        break;
 -    case ARM_VFP_VPR:
 -    case ARM_VFP_P0:
 -        if (!dc_isar_feature(aa32_mve, s)) {
 -            return FPSysRegCheckFailed;
 -        }
 -        break;
 -    default:
 -        return FPSysRegCheckFailed;
 -    }
 -
 -    /*
 -     * FPCXT_NS is a special case: it has specific handling for
 -     * "current FP state is inactive", and must do the PreserveFPState()
 -     * but not the usual full set of actions done by ExecuteFPCheck().
 -     * So we don't call vfp_access_check() and the callers must handle this.
 -     */
 -    if (regno != ARM_VFP_FPCXT_NS && !vfp_access_check(s)) {
 -        return FPSysRegCheckDone;
 -    }
 -    return FPSysRegCheckContinue;
 -}
 -
 -static void gen_branch_fpInactive(DisasContext *s, TCGCond cond,
 -                                  TCGLabel *label)
 -{
 -    /*
 -     * FPCXT_NS is a special case: it has specific handling for
 -     * "current FP state is inactive", and must do the PreserveFPState()
 -     * but not the usual full set of actions done by ExecuteFPCheck().
 -     * We don't have a TB flag that matches the fpInactive check, so we
 -     * do it at runtime as we don't expect FPCXT_NS accesses to be frequent.
 -     *
 -     * Emit code that checks fpInactive and does a conditional
 -     * branch to label based on it:
 -     *  if cond is TCG_COND_NE then branch if fpInactive != 0 (ie if inactive)
 -     *  if cond is TCG_COND_EQ then branch if fpInactive == 0 (ie if active)
 -     */
 -    assert(cond == TCG_COND_EQ || cond == TCG_COND_NE);
 -
 -    /* fpInactive = FPCCR_NS.ASPEN == 1 && CONTROL.FPCA == 0 */
 -    TCGv_i32 aspen, fpca;
 -    aspen = load_cpu_field(v7m.fpccr[M_REG_NS]);
 -    fpca = load_cpu_field(v7m.control[M_REG_S]);
 -    tcg_gen_andi_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
 -    tcg_gen_xori_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
 -    tcg_gen_andi_i32(fpca, fpca, R_V7M_CONTROL_FPCA_MASK);
 -    tcg_gen_or_i32(fpca, fpca, aspen);
 -    tcg_gen_brcondi_i32(tcg_invert_cond(cond), fpca, 0, label);
 -    tcg_temp_free_i32(aspen);
 -    tcg_temp_free_i32(fpca);
 -}
 -
 -static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
 -                                  fp_sysreg_loadfn *loadfn,
 -                                  void *opaque)
 -{
 -    /* Do a write to an M-profile floating point system register */
 -    TCGv_i32 tmp;
 -    TCGLabel *lab_end = NULL;
 -
 -    switch (fp_sysreg_checks(s, regno)) {
 -    case FPSysRegCheckFailed:
 -        return false;
 -    case FPSysRegCheckDone:
 -        return true;
 -    case FPSysRegCheckContinue:
 -        break;
 -    }
 -
 -    switch (regno) {
 -    case ARM_VFP_FPSCR:
 -        tmp = loadfn(s, opaque);
 -        gen_helper_vfp_set_fpscr(cpu_env, tmp);
 -        tcg_temp_free_i32(tmp);
 -        gen_lookup_tb(s);
 -        break;
 -    case ARM_VFP_FPSCR_NZCVQC:
 -    {
 -        TCGv_i32 fpscr;
 -        tmp = loadfn(s, opaque);
 -        if (dc_isar_feature(aa32_mve, s)) {
 -            /* QC is only present for MVE; otherwise RES0 */
 -            TCGv_i32 qc = tcg_temp_new_i32();
 -            tcg_gen_andi_i32(qc, tmp, FPCR_QC);
 -            /*
 -             * The 4 vfp.qc[] fields need only be "zero" vs "non-zero";
 -             * here writing the same value into all elements is simplest.
 -             */
 -            tcg_gen_gvec_dup_i32(MO_32, offsetof(CPUARMState, vfp.qc),
 -                                 16, 16, qc);
 -        }
 -        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
 -        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
 -        tcg_gen_andi_i32(fpscr, fpscr, ~FPCR_NZCV_MASK);
 -        tcg_gen_or_i32(fpscr, fpscr, tmp);
 -        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
 -        tcg_temp_free_i32(tmp);
 -        break;
 -    }
 -    case ARM_VFP_FPCXT_NS:
 -        lab_end = gen_new_label();
 -        /* fpInactive case: write is a NOP, so branch to end */
 -        gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
 -        /*
 -         * !fpInactive: if FPU disabled, take NOCP exception;
 -         * otherwise PreserveFPState(), and then FPCXT_NS writes
 -         * behave the same as FPCXT_S writes.
 -         */
 -        if (s->fp_excp_el) {
 -            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                               syn_uncategorized(), s->fp_excp_el);
 -            /*
 -             * This was only a conditional exception, so override
 -             * gen_exception_insn()'s default to DISAS_NORETURN
 -             */
 -            s->base.is_jmp = DISAS_NEXT;
 -            break;
 -        }
 -        gen_preserve_fp_state(s);
 -        /* fall through */
 -    case ARM_VFP_FPCXT_S:
 -    {
 -        TCGv_i32 sfpa, control;
 -        /*
 -         * Set FPSCR and CONTROL.SFPA from value; the new FPSCR takes
 -         * bits [27:0] from value and zeroes bits [31:28].
 -         */
 -        tmp = loadfn(s, opaque);
 -        sfpa = tcg_temp_new_i32();
 -        tcg_gen_shri_i32(sfpa, tmp, 31);
 -        control = load_cpu_field(v7m.control[M_REG_S]);
 -        tcg_gen_deposit_i32(control, control, sfpa,
 -                            R_V7M_CONTROL_SFPA_SHIFT, 1);
 -        store_cpu_field(control, v7m.control[M_REG_S]);
 -        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
 -        gen_helper_vfp_set_fpscr(cpu_env, tmp);
 -        tcg_temp_free_i32(tmp);
 -        tcg_temp_free_i32(sfpa);
 -        break;
 -    }
 -    case ARM_VFP_VPR:
 -        /* Behaves as NOP if not privileged */
 -        if (IS_USER(s)) {
 -            break;
 -        }
 -        tmp = loadfn(s, opaque);
 -        store_cpu_field(tmp, v7m.vpr);
 -        break;
 -    case ARM_VFP_P0:
 -    {
 -        TCGv_i32 vpr;
 -        tmp = loadfn(s, opaque);
 -        vpr = load_cpu_field(v7m.vpr);
 -        tcg_gen_deposit_i32(vpr, vpr, tmp,
 -                            R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
 -        store_cpu_field(vpr, v7m.vpr);
 -        tcg_temp_free_i32(tmp);
 -        break;
 -    }
 -    default:
 -        g_assert_not_reached();
 -    }
 -    if (lab_end) {
 -        gen_set_label(lab_end);
 -    }
 -    return true;
 -}
 -
 -static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
 -                                 fp_sysreg_storefn *storefn,
 -                                 void *opaque)
 -{
 -    /* Do a read from an M-profile floating point system register */
 -    TCGv_i32 tmp;
 -    TCGLabel *lab_end = NULL;
 -    bool lookup_tb = false;
 -
 -    switch (fp_sysreg_checks(s, regno)) {
 -    case FPSysRegCheckFailed:
 -        return false;
 -    case FPSysRegCheckDone:
 -        return true;
 -    case FPSysRegCheckContinue:
 -        break;
 -    }
 -
 -    if (regno == ARM_VFP_FPSCR_NZCVQC && !dc_isar_feature(aa32_mve, s)) {
 -        /* QC is RES0 without MVE, so NZCVQC simplifies to NZCV */
 -        regno = QEMU_VFP_FPSCR_NZCV;
 -    }
 -
 -    switch (regno) {
 -    case ARM_VFP_FPSCR:
 -        tmp = tcg_temp_new_i32();
 -        gen_helper_vfp_get_fpscr(tmp, cpu_env);
 -        storefn(s, opaque, tmp);
 -        break;
 -    case ARM_VFP_FPSCR_NZCVQC:
 -        tmp = tcg_temp_new_i32();
 -        gen_helper_vfp_get_fpscr(tmp, cpu_env);
 -        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCVQC_MASK);
 -        storefn(s, opaque, tmp);
 -        break;
 -    case QEMU_VFP_FPSCR_NZCV:
 -        /*
 -         * Read just NZCV; this is a special case to avoid the
 -         * helper call for the "VMRS to CPSR.NZCV" insn.
 -         */
 -        tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
 -        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
 -        storefn(s, opaque, tmp);
 -        break;
 -    case ARM_VFP_FPCXT_S:
 -    {
 -        TCGv_i32 control, sfpa, fpscr;
 -        /* Bits [27:0] from FPSCR, bit [31] from CONTROL.SFPA */
 -        tmp = tcg_temp_new_i32();
 -        sfpa = tcg_temp_new_i32();
 -        gen_helper_vfp_get_fpscr(tmp, cpu_env);
 -        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
 -        control = load_cpu_field(v7m.control[M_REG_S]);
 -        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
 -        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
 -        tcg_gen_or_i32(tmp, tmp, sfpa);
 -        tcg_temp_free_i32(sfpa);
 -        /*
 -         * Store result before updating FPSCR etc, in case
 -         * it is a memory write which causes an exception.
 -         */
 -        storefn(s, opaque, tmp);
 -        /*
 -         * Now we must reset FPSCR from FPDSCR_NS, and clear
 -         * CONTROL.SFPA; so we'll end the TB here.
 -         */
 -        tcg_gen_andi_i32(control, control, ~R_V7M_CONTROL_SFPA_MASK);
 -        store_cpu_field(control, v7m.control[M_REG_S]);
 -        fpscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
 -        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
 -        tcg_temp_free_i32(fpscr);
 -        lookup_tb = true;
 -        break;
 -    }
 -    case ARM_VFP_FPCXT_NS:
 -    {
 -        TCGv_i32 control, sfpa, fpscr, fpdscr, zero;
 -        TCGLabel *lab_active = gen_new_label();
 -
 -        lookup_tb = true;
 -
 -        gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
 -        /* fpInactive case: reads as FPDSCR_NS */
 -        TCGv_i32 tmp = load_cpu_field(v7m.fpdscr[M_REG_NS]);
 -        storefn(s, opaque, tmp);
 -        lab_end = gen_new_label();
 -        tcg_gen_br(lab_end);
 -
 -        gen_set_label(lab_active);
 -        /*
 -         * !fpInactive: if FPU disabled, take NOCP exception;
 -         * otherwise PreserveFPState(), and then FPCXT_NS
 -         * reads the same as FPCXT_S.
 -         */
 -        if (s->fp_excp_el) {
 -            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                               syn_uncategorized(), s->fp_excp_el);
 -            /*
 -             * This was only a conditional exception, so override
 -             * gen_exception_insn()'s default to DISAS_NORETURN
 -             */
 -            s->base.is_jmp = DISAS_NEXT;
 -            break;
 -        }
 -        gen_preserve_fp_state(s);
 -        tmp = tcg_temp_new_i32();
 -        sfpa = tcg_temp_new_i32();
 -        fpscr = tcg_temp_new_i32();
 -        gen_helper_vfp_get_fpscr(fpscr, cpu_env);
 -        tcg_gen_andi_i32(tmp, fpscr, ~FPCR_NZCV_MASK);
 -        control = load_cpu_field(v7m.control[M_REG_S]);
 -        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
 -        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
 -        tcg_gen_or_i32(tmp, tmp, sfpa);
 -        tcg_temp_free_i32(control);
 -        /* Store result before updating FPSCR, in case it faults */
 -        storefn(s, opaque, tmp);
 -        /* If SFPA is zero then set FPSCR from FPDSCR_NS */
 -        fpdscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
 -        zero = tcg_const_i32(0);
 -        tcg_gen_movcond_i32(TCG_COND_EQ, fpscr, sfpa, zero, fpdscr, fpscr);
 -        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
 -        tcg_temp_free_i32(zero);
 -        tcg_temp_free_i32(sfpa);
 -        tcg_temp_free_i32(fpdscr);
 -        tcg_temp_free_i32(fpscr);
 -        break;
 -    }
 -    case ARM_VFP_VPR:
 -        /* Behaves as NOP if not privileged */
 -        if (IS_USER(s)) {
 -            break;
 -        }
 -        tmp = load_cpu_field(v7m.vpr);
 -        storefn(s, opaque, tmp);
 -        break;
 -    case ARM_VFP_P0:
 -        tmp = load_cpu_field(v7m.vpr);
 -        tcg_gen_extract_i32(tmp, tmp, R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
 -        storefn(s, opaque, tmp);
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -
 -    if (lab_end) {
 -        gen_set_label(lab_end);
 -    }
 -    if (lookup_tb) {
 -        gen_lookup_tb(s);
 -    }
 -    return true;
 -}
 -
 -static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
 -{
 -    arg_VMSR_VMRS *a = opaque;
 -
 -    if (a->rt == 15) {
 -        /* Set the 4 flag bits in the CPSR */
 -        gen_set_nzcv(value);
 -        tcg_temp_free_i32(value);
 -    } else {
 -        store_reg(s, a->rt, value);
 -    }
 -}
 -
 -static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
 -{
 -    arg_VMSR_VMRS *a = opaque;
 -
 -    return load_reg(s, a->rt);
 -}
 -
 -static bool gen_M_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
 -{
 -    /*
 -     * Accesses to R15 are UNPREDICTABLE; we choose to undef.
 -     * FPSCR -> r15 is a special case which writes to the PSR flags;
 -     * set a->reg to a special value to tell gen_M_fp_sysreg_read()
 -     * we only care about the top 4 bits of FPSCR there.
 -     */
 -    if (a->rt == 15) {
 -        if (a->l && a->reg == ARM_VFP_FPSCR) {
 -            a->reg = QEMU_VFP_FPSCR_NZCV;
 -        } else {
 -            return false;
 -        }
 -    }
 -
 -    if (a->l) {
 -        /* VMRS, move FP system register to gp register */
 -        return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_gpr, a);
 -    } else {
 -        /* VMSR, move gp register to FP system register */
 -        return gen_M_fp_sysreg_write(s, a->reg, gpr_to_fp_sysreg, a);
 -    }
 -}
 -
  static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
  {
      TCGv_i32 tmp;
      bool ignore_vfp_enabled = false;
      if (arm_dc_feature(s, ARM_FEATURE_M)) {
 -        return gen_M_VMSR_VMRS(s, a);
 +        /* M profile version was already handled in m-nocp.decode */
 +        return false;
      }
      if (!dc_isar_feature(aa32_fpsp_v2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
      return true;
  }
 -static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
 -{
 -    arg_vldr_sysreg *a = opaque;
 -    uint32_t offset = a->imm;
 -    TCGv_i32 addr;
 -
 -    if (!a->a) {
 -        offset = -offset;
 -    }
 -
 -    addr = load_reg(s, a->rn);
 -    if (a->p) {
 -        tcg_gen_addi_i32(addr, addr, offset);
 -    }
 -
 -    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
 -        gen_helper_v8m_stackcheck(cpu_env, addr);
 -    }
 -
 -    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
 -                    MO_UL | MO_ALIGN | s->be_data);
 -    tcg_temp_free_i32(value);
 -
 -    if (a->w) {
 -        /* writeback */
 -        if (!a->p) {
 -            tcg_gen_addi_i32(addr, addr, offset);
 -        }
 -        store_reg(s, a->rn, addr);
 -    } else {
 -        tcg_temp_free_i32(addr);
 -    }
 -}
 -
 -static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
 -{
 -    arg_vldr_sysreg *a = opaque;
 -    uint32_t offset = a->imm;
 -    TCGv_i32 addr;
 -    TCGv_i32 value = tcg_temp_new_i32();
 -
 -    if (!a->a) {
 -        offset = -offset;
 -    }
 -
 -    addr = load_reg(s, a->rn);
 -    if (a->p) {
 -        tcg_gen_addi_i32(addr, addr, offset);
 -    }
 -
 -    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
 -        gen_helper_v8m_stackcheck(cpu_env, addr);
 -    }
 -
 -    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
 -                    MO_UL | MO_ALIGN | s->be_data);
 -
 -    if (a->w) {
 -        /* writeback */
 -        if (!a->p) {
 -            tcg_gen_addi_i32(addr, addr, offset);
 -        }
 -        store_reg(s, a->rn, addr);
 -    } else {
 -        tcg_temp_free_i32(addr);
 -    }
 -    return value;
 -}
 -
 -static bool trans_VLDR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
 -{
 -    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 -        return false;
 -    }
 -    if (a->rn == 15) {
 -        return false;
 -    }
 -    return gen_M_fp_sysreg_write(s, a->reg, memory_to_fp_sysreg, a);
 -}
 -
 -static bool trans_VSTR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
 -{
 -    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 -        return false;
 -    }
 -    if (a->rn == 15) {
 -        return false;
 -    }
 -    return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_memory, a);
 -}
  static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
  {
 --
 .20.1

-[PULL 26/48] hw/arm/bcm2836: Introduce the BCM2835 SoC
+[PULL 08/57] target/arm: Handle writeback in VLDR/VSTR sysreg with no memory access
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+A few subcases of VLDR/VSTR sysreg succeed but do not perform a
+memory access:
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+ * VSTR of VPR when unprivileged
-Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+ * VLDR to VPR when unprivileged
-Message-id: 20201024170127.3592182-7-f4bug@amsat.org
+ * VLDR to FPCXT_NS when fpInactive
 In these cases, even though we don't do the memory access we should
 still update the base register and perform the stack limit check if
 the insn's addressing mode specifies writeback.  Our implementation
 failed to do this, because we handle these side-effects inside the
 memory_to_fp_sysreg() and fp_sysreg_to_memory() callback functions,
 which are only called if there's something to load or store.
 Fix this by adding an extra argument to the callbacks which is set to
 true to actually perform the access and false to only do side effects
 like writeback, and calling the callback with do_access = false
 for the three cases listed above.
 This produces slightly suboptimal code for the case of a write
 to FPCXT_NS when the FPU is inactive and the insn didn't have
 side effects (ie no writeback, or via VMSR), in which case we'll
 generate a conditional branch over an unconditional branch.
 But this doesn't seem to be important enough to merit requiring
 the callback to report back whether it generated any code or not.
 Cc: qemu-stable@nongnu.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210618141019.10671-5-peter.maydell@linaro.org
 ---
- include/hw/arm/bcm2836.h |  1 +
+ target/arm/translate-m-nocp.c | 102 ++++++++++++++++++++++++----------
- hw/arm/bcm2836.c         | 34 ++++++++++++++++++++++++++++++++++
+file changed, 72 insertions(+), 30 deletions(-)
- hw/arm/raspi.c           |  2 ++
-files changed, 37 insertions(+)
+diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
 diff --git a/include/hw/arm/bcm2836.h b/include/hw/arm/bcm2836.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/bcm2836.h
+--- a/target/arm/translate-m-nocp.c
-+++ b/include/hw/arm/bcm2836.h
++++ b/target/arm/translate-m-nocp.c
-@@ -XXX,XX +XXX,XX @@ OBJECT_DECLARE_TYPE(BCM283XState, BCM283XClass, BCM283X)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
-  * them, code using these devices should always handle them via the
-  * BCM283x base class, so they have no BCM2836(obj) etc macros.
+ /*
   * Emit code to store the sysreg to its final destination; frees the
 - * TCG temp 'value' it is passed.
 + * TCG temp 'value' it is passed. do_access is true to do the store,
 + * and false to skip it and only perform side-effects like base
 + * register writeback.
   */
-+#define TYPE_BCM2835 "bcm2835"
+-typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
- #define TYPE_BCM2836 "bcm2836"
++typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value,
- #define TYPE_BCM2837 "bcm2837"
++                               bool do_access);
+ /*
-diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
+  * Emit code to load the value to be copied to the sysreg; returns
-index XXXXXXX..XXXXXXX 100644
+- * a new TCG temporary
---- a/hw/arm/bcm2836.c
++ * a new TCG temporary. do_access is true to do the store,
-+++ b/hw/arm/bcm2836.c
++ * and false to skip it and only perform side-effects like base
-@@ -XXX,XX +XXX,XX @@ static bool bcm283x_common_realize(DeviceState *dev, Error **errp)
++ * register writeback.
   */
 -typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
 +typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque,
 +                                  bool do_access);
  /* Common decode/access checks for fp sysreg read/write */
  typedef enum FPSysRegCheckResult {
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
      switch (regno) {
      case ARM_VFP_FPSCR:
 -        tmp = loadfn(s, opaque);
 +        tmp = loadfn(s, opaque, true);
          gen_helper_vfp_set_fpscr(cpu_env, tmp);
          tcg_temp_free_i32(tmp);
          gen_lookup_tb(s);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
      case ARM_VFP_FPSCR_NZCVQC:
      {
          TCGv_i32 fpscr;
 -        tmp = loadfn(s, opaque);
 +        tmp = loadfn(s, opaque, true);
          if (dc_isar_feature(aa32_mve, s)) {
              /* QC is only present for MVE; otherwise RES0 */
              TCGv_i32 qc = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
          break;
      }
      case ARM_VFP_FPCXT_NS:
 +    {
 +        TCGLabel *lab_active = gen_new_label();
 +
          lab_end = gen_new_label();
 -        /* fpInactive case: write is a NOP, so branch to end */
 -        gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
 +        gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
 +        /*
 +         * fpInactive case: write is a NOP, so only do side effects
 +         * like register writeback before we branch to end
 +         */
 +        loadfn(s, opaque, false);
 +        tcg_gen_br(lab_end);
 +
 +        gen_set_label(lab_active);
          /*
           * !fpInactive: if FPU disabled, take NOCP exception;
           * otherwise PreserveFPState(), and then FPCXT_NS writes
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
              break;
          }
          gen_preserve_fp_state(s);
 -        /* fall through */
 +    }
 +    /* fall through */
      case ARM_VFP_FPCXT_S:
      {
          TCGv_i32 sfpa, control;
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
           * Set FPSCR and CONTROL.SFPA from value; the new FPSCR takes
           * bits [27:0] from value and zeroes bits [31:28].
           */
 -        tmp = loadfn(s, opaque);
 +        tmp = loadfn(s, opaque, true);
          sfpa = tcg_temp_new_i32();
          tcg_gen_shri_i32(sfpa, tmp, 31);
          control = load_cpu_field(v7m.control[M_REG_S]);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
      case ARM_VFP_VPR:
          /* Behaves as NOP if not privileged */
          if (IS_USER(s)) {
 +            loadfn(s, opaque, false);
              break;
          }
 -        tmp = loadfn(s, opaque);
 +        tmp = loadfn(s, opaque, true);
          store_cpu_field(tmp, v7m.vpr);
          break;
      case ARM_VFP_P0:
      {
          TCGv_i32 vpr;
 -        tmp = loadfn(s, opaque);
 +        tmp = loadfn(s, opaque, true);
          vpr = load_cpu_field(v7m.vpr);
          tcg_gen_deposit_i32(vpr, vpr, tmp,
                              R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
      case ARM_VFP_FPSCR:
          tmp = tcg_temp_new_i32();
          gen_helper_vfp_get_fpscr(tmp, cpu_env);
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          break;
      case ARM_VFP_FPSCR_NZCVQC:
          tmp = tcg_temp_new_i32();
          gen_helper_vfp_get_fpscr(tmp, cpu_env);
          tcg_gen_andi_i32(tmp, tmp, FPCR_NZCVQC_MASK);
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          break;
      case QEMU_VFP_FPSCR_NZCV:
          /*
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
           */
          tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
          tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          break;
      case ARM_VFP_FPCXT_S:
      {
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
           * Store result before updating FPSCR etc, in case
           * it is a memory write which causes an exception.
           */
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          /*
           * Now we must reset FPSCR from FPDSCR_NS, and clear
           * CONTROL.SFPA; so we'll end the TB here.
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
          gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
          /* fpInactive case: reads as FPDSCR_NS */
          TCGv_i32 tmp = load_cpu_field(v7m.fpdscr[M_REG_NS]);
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          lab_end = gen_new_label();
          tcg_gen_br(lab_end);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
          tcg_gen_or_i32(tmp, tmp, sfpa);
          tcg_temp_free_i32(control);
          /* Store result before updating FPSCR, in case it faults */
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          /* If SFPA is zero then set FPSCR from FPDSCR_NS */
          fpdscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
          zero = tcg_const_i32(0);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
      case ARM_VFP_VPR:
          /* Behaves as NOP if not privileged */
          if (IS_USER(s)) {
 +            storefn(s, opaque, NULL, false);
              break;
          }
          tmp = load_cpu_field(v7m.vpr);
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          break;
      case ARM_VFP_P0:
          tmp = load_cpu_field(v7m.vpr);
          tcg_gen_extract_i32(tmp, tmp, R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
 -        storefn(s, opaque, tmp);
 +        storefn(s, opaque, tmp, true);
          break;
      default:
          g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
      return true;
  }
-+static void bcm2835_realize(DeviceState *dev, Error **errp)
+-static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
-+{
++static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value,
-+    BCM283XState *s = BCM283X(dev);
++                             bool do_access)
-+
+ {
-+    if (!bcm283x_common_realize(dev, errp)) {
+     arg_VMSR_VMRS *a = opaque;
 +    if (!do_access) {
 +        return;
 +    }
 +
-+    if (!qdev_realize(DEVICE(&s->cpu[0].core), NULL, errp)) {
+     if (a->rt == 15) {
          /* Set the 4 flag bits in the CPSR */
          gen_set_nzcv(value);
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
      }
  }
 -static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
 +static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque, bool do_access)
  {
      arg_VMSR_VMRS *a = opaque;
 +    if (!do_access) {
 +        return NULL;
 +    }
      return load_reg(s, a->rt);
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
      }
  }
 -static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
 +static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value,
 +                                bool do_access)
  {
      arg_vldr_sysreg *a = opaque;
      uint32_t offset = a->imm;
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
          offset = -offset;
      }
 +    if (!do_access && !a->w) {
 +        return;
 +    }
 +
-+    /* Connect irq/fiq outputs from the interrupt controller. */
+     addr = load_reg(s, a->rn);
-+    sysbus_connect_irq(SYS_BUS_DEVICE(&s->peripherals), 0,
+     if (a->p) {
-+            qdev_get_gpio_in(DEVICE(&s->cpu[0].core), ARM_CPU_IRQ));
+         tcg_gen_addi_i32(addr, addr, offset);
-+    sysbus_connect_irq(SYS_BUS_DEVICE(&s->peripherals), 1,
+@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
-+            qdev_get_gpio_in(DEVICE(&s->cpu[0].core), ARM_CPU_FIQ));
+         gen_helper_v8m_stackcheck(cpu_env, addr);
-+}
+     }
-+
- static void bcm2836_realize(DeviceState *dev, Error **errp)
+-    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
 -                    MO_UL | MO_ALIGN | s->be_data);
 -    tcg_temp_free_i32(value);
 +    if (do_access) {
 +        gen_aa32_st_i32(s, value, addr, get_mem_index(s),
 +                        MO_UL | MO_ALIGN | s->be_data);
 +        tcg_temp_free_i32(value);
 +    }
      if (a->w) {
          /* writeback */
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
      }
  }
 -static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
 +static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque,
 +                                    bool do_access)
  {
-     BCM283XState *s = BCM283X(dev);
+     arg_vldr_sysreg *a = opaque;
-@@ -XXX,XX +XXX,XX @@ static void bcm283x_class_init(ObjectClass *oc, void *data)
+     uint32_t offset = a->imm;
-     dc->user_creatable = false;
+     TCGv_i32 addr;
- }
+-    TCGv_i32 value = tcg_temp_new_i32();
++    TCGv_i32 value = NULL;
-+static void bcm2835_class_init(ObjectClass *oc, void *data)
-+{
+     if (!a->a) {
-+    DeviceClass *dc = DEVICE_CLASS(oc);
+         offset = -offset;
-+    BCM283XClass *bc = BCM283X_CLASS(oc);
+     }
-+
-+    bc->cpu_type = ARM_CPU_TYPE_NAME("arm1176");
++    if (!do_access && !a->w) {
-+    bc->core_count = 1;
++        return NULL;
-+    bc->peri_base = 0x20000000;
++    }
-+    dc->realize = bcm2835_realize;
++
-+};
+     addr = load_reg(s, a->rn);
-+
+     if (a->p) {
- static void bcm2836_class_init(ObjectClass *oc, void *data)
+         tcg_gen_addi_i32(addr, addr, offset);
- {
+@@ -XXX,XX +XXX,XX @@ static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
-     DeviceClass *dc = DEVICE_CLASS(oc);
+         gen_helper_v8m_stackcheck(cpu_env, addr);
-@@ -XXX,XX +XXX,XX @@ static void bcm2837_class_init(ObjectClass *oc, void *data)
+     }
- static const TypeInfo bcm283x_types[] = {
+-    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
-     {
+-                    MO_UL | MO_ALIGN | s->be_data);
-+        .name           = TYPE_BCM2835,
++    if (do_access) {
-+        .parent         = TYPE_BCM283X,
++        value = tcg_temp_new_i32();
-+        .class_init     = bcm2835_class_init,
++        gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
-+    }, {
++                        MO_UL | MO_ALIGN | s->be_data);
-         .name           = TYPE_BCM2836,
++    }
-         .parent         = TYPE_BCM283X,
-         .class_init     = bcm2836_class_init,
+     if (a->w) {
-diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
+         /* writeback */
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/raspi.c
 +++ b/hw/arm/raspi.c
@@ -XXX,XX +XXX,XX @@ FIELD(REV_CODE, MEMORY_SIZE,       20, 3);
  FIELD(REV_CODE, STYLE,             23, 1);
  typedef enum RaspiProcessorId {
 +    PROCESSOR_ID_BCM2835 = 0,
      PROCESSOR_ID_BCM2836 = 1,
      PROCESSOR_ID_BCM2837 = 2,
  } RaspiProcessorId;
@@ -XXX,XX +XXX,XX @@ static const struct {
      const char *type;
      int cores_count;
  } soc_property[] = {
 +    [PROCESSOR_ID_BCM2835] = {TYPE_BCM2835, 1},
      [PROCESSOR_ID_BCM2836] = {TYPE_BCM2836, BCM283X_NCPUS},
      [PROCESSOR_ID_BCM2837] = {TYPE_BCM2837, BCM283X_NCPUS},
  };
 --
 .20.1

-[PULL 48/48] hw/timer/armv7m_systick: Rewrite to use ptimers
+[PULL 09/57] target/arm: Factor FP context update code out into helper function
-The armv7m systick timer is a 24-bit decrementing, wrap-on-zero,
+Factor the code in full_vfp_access_check() which updates the
-clear-on-write counter. Our current implementation has various
+ownership of the FP context and creates a new FP context
-bugs and dubious workarounds in it (for instance see
+out into its own function.
 https://bugs.launchpad.net/qemu/+bug/1872237).
 We have an implementation of a simple decrementing counter
 and we put a lot of effort into making sure it handles the
 interesting corner cases (like "spend a cycle at 0 before
 reloading") -- ptimer.
 Rewrite the systick timer to use a ptimer rather than
 a raw QEMU timer.
 Unfortunately this is a migration compatibility break,
 which will affect all M-profile boards.
 Among other bugs, this fixes
 https://bugs.launchpad.net/qemu/+bug/1872237 :
 now writes to SYST_CVR when the timer is enabled correctly
 do nothing; when the timer is enabled via SYST_CSR.ENABLE,
 the ptimer code will (because of POLICY_NO_IMMEDIATE_RELOAD)
 arrange that after one timer tick the counter is reloaded
 from SYST_RVR and then counts down from there, as the
 architecture requires.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20201015151829.14656-3-peter.maydell@linaro.org
+Message-id: 20210618141019.10671-6-peter.maydell@linaro.org
 ---
- include/hw/timer/armv7m_systick.h |   3 +-
+ target/arm/translate-vfp.c | 104 +++++++++++++++++++++----------------
- hw/timer/armv7m_systick.c         | 124 +++++++++++++-----------------
+file changed, 58 insertions(+), 46 deletions(-)
 files changed, 54 insertions(+), 73 deletions(-)
-diff --git a/include/hw/timer/armv7m_systick.h b/include/hw/timer/armv7m_systick.h
+diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/timer/armv7m_systick.h
+--- a/target/arm/translate-vfp.c
-+++ b/include/hw/timer/armv7m_systick.h
++++ b/target/arm/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ void gen_preserve_fp_state(DisasContext *s)
  #include "hw/sysbus.h"
  #include "qom/object.h"
 +#include "hw/ptimer.h"
  #define TYPE_SYSTICK "armv7m_systick"
@@ -XXX,XX +XXX,XX @@ struct SysTickState {
      uint32_t control;
      uint32_t reload;
      int64_t tick;
 -    QEMUTimer *timer;
 +    ptimer_state *ptimer;
      MemoryRegion iomem;
      qemu_irq irq;
  };
 diff --git a/hw/timer/armv7m_systick.c b/hw/timer/armv7m_systick.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/armv7m_systick.c
 +++ b/hw/timer/armv7m_systick.c
@@ -XXX,XX +XXX,XX @@ static inline int64_t systick_scale(SysTickState *s)
      }
  }
--static void systick_reload(SysTickState *s, int reset)
++/*
--{
++ * Generate code for M-profile FP context handling: update the
--    /* The Cortex-M3 Devices Generic User Guide says that "When the
++ * ownership of the FP context, and create a new context if
--     * ENABLE bit is set to 1, the counter loads the RELOAD value from the
++ * necessary. This corresponds to the parts of the pseudocode
--     * SYST RVR register and then counts down". So, we need to check the
++ * ExecuteFPCheck() after the inital PreserveFPState() call.
--     * ENABLE bit before reloading the value.
++ */
--     */
++static void gen_update_fp_context(DisasContext *s)
--    trace_systick_reload();
++{
 +    /* Update ownership of FP context: set FPCCR.S to match current state */
 +    if (s->v8m_fpccr_s_wrong) {
 +        TCGv_i32 tmp;
 +
 +        tmp = load_cpu_field(v7m.fpccr[M_REG_S]);
 +        if (s->v8m_secure) {
 +            tcg_gen_ori_i32(tmp, tmp, R_V7M_FPCCR_S_MASK);
 +        } else {
 +            tcg_gen_andi_i32(tmp, tmp, ~R_V7M_FPCCR_S_MASK);
 +        }
 +        store_cpu_field(tmp, v7m.fpccr[M_REG_S]);
 +        /* Don't need to do this for any further FP insns in this TB */
 +        s->v8m_fpccr_s_wrong = false;
 +    }
 +
 +    if (s->v7m_new_fp_ctxt_needed) {
 +        /*
 +         * Create new FP context by updating CONTROL.FPCA, CONTROL.SFPA,
 +         * the FPSCR, and VPR.
 +         */
 +        TCGv_i32 control, fpscr;
 +        uint32_t bits = R_V7M_CONTROL_FPCA_MASK;
 +
 +        fpscr = load_cpu_field(v7m.fpdscr[s->v8m_secure]);
 +        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
 +        tcg_temp_free_i32(fpscr);
 +        if (dc_isar_feature(aa32_mve, s)) {
 +            TCGv_i32 z32 = tcg_const_i32(0);
 +            store_cpu_field(z32, v7m.vpr);
 +        }
 +
 +        /*
 +         * We don't need to arrange to end the TB, because the only
 +         * parts of FPSCR which we cache in the TB flags are the VECLEN
 +         * and VECSTRIDE, and those don't exist for M-profile.
 +         */
 +
 +        if (s->v8m_secure) {
 +            bits |= R_V7M_CONTROL_SFPA_MASK;
 +        }
 +        control = load_cpu_field(v7m.control[M_REG_S]);
 +        tcg_gen_ori_i32(control, control, bits);
 +        store_cpu_field(control, v7m.control[M_REG_S]);
 +        /* Don't need to do this for any further FP insns in this TB */
 +        s->v7m_new_fp_ctxt_needed = false;
 +    }
 +}
 +
  /*
   * Check that VFP access is enabled. If it is, do the necessary
   * M-profile lazy-FP handling and then return true.
@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
          /* Trigger lazy-state preservation if necessary */
          gen_preserve_fp_state(s);
 -        /* Update ownership of FP context: set FPCCR.S to match current state */
 -        if (s->v8m_fpccr_s_wrong) {
 -            TCGv_i32 tmp;
 -
--    if ((s->control & SYSTICK_ENABLE) == 0) {
+-            tmp = load_cpu_field(v7m.fpccr[M_REG_S]);
--        return;
+-            if (s->v8m_secure) {
--    }
+-                tcg_gen_ori_i32(tmp, tmp, R_V7M_FPCCR_S_MASK);
 -            } else {
 -                tcg_gen_andi_i32(tmp, tmp, ~R_V7M_FPCCR_S_MASK);
 -            }
 -            store_cpu_field(tmp, v7m.fpccr[M_REG_S]);
 -            /* Don't need to do this for any further FP insns in this TB */
 -            s->v8m_fpccr_s_wrong = false;
 -        }
 -
--    if (reset) {
+-        if (s->v7m_new_fp_ctxt_needed) {
--        s->tick = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
+-            /*
--    }
+-             * Create new FP context by updating CONTROL.FPCA, CONTROL.SFPA,
--    s->tick += (s->reload + 1) * systick_scale(s);
+-             * the FPSCR, and VPR.
--    timer_mod(s->timer, s->tick);
+-             */
--}
+-            TCGv_i32 control, fpscr;
 -            uint32_t bits = R_V7M_CONTROL_FPCA_MASK;
 -
- static void systick_timer_tick(void *opaque)
+-            fpscr = load_cpu_field(v7m.fpdscr[s->v8m_secure]);
- {
+-            gen_helper_vfp_set_fpscr(cpu_env, fpscr);
-     SysTickState *s = (SysTickState *)opaque;
+-            tcg_temp_free_i32(fpscr);
-@@ -XXX,XX +XXX,XX @@ static void systick_timer_tick(void *opaque)
+-            if (dc_isar_feature(aa32_mve, s)) {
-         /* Tell the NVIC to pend the SysTick exception */
+-                TCGv_i32 z32 = tcg_const_i32(0);
-         qemu_irq_pulse(s->irq);
+-                store_cpu_field(z32, v7m.vpr);
 -            }
 -
 -            /*
 -             * We don't need to arrange to end the TB, because the only
 -             * parts of FPSCR which we cache in the TB flags are the VECLEN
 -             * and VECSTRIDE, and those don't exist for M-profile.
 -             */
 -
 -            if (s->v8m_secure) {
 -                bits |= R_V7M_CONTROL_SFPA_MASK;
 -            }
 -            control = load_cpu_field(v7m.control[M_REG_S]);
 -            tcg_gen_ori_i32(control, control, bits);
 -            store_cpu_field(control, v7m.control[M_REG_S]);
 -            /* Don't need to do this for any further FP insns in this TB */
 -            s->v7m_new_fp_ctxt_needed = false;
 -        }
 +        /* Update ownership of FP context and create new FP context if needed */
 +        gen_update_fp_context(s);
      }
--    if (s->reload == 0) {
--        s->control &= ~SYSTICK_ENABLE;
+     return true;
 -    } else {
 -        systick_reload(s, 0);
 +    if (ptimer_get_limit(s->ptimer) == 0) {
 +        /*
 +         * Timer expiry with SYST_RVR zero disables the timer
 +         * (but doesn't clear SYST_CSR.ENABLE)
 +         */
 +        ptimer_stop(s->ptimer);
      }
  }
@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_read(void *opaque, hwaddr addr, uint64_t *data,
          s->control &= ~SYSTICK_COUNTFLAG;
          break;
      case 0x4: /* SysTick Reload Value.  */
 -        val = s->reload;
 +        val = ptimer_get_limit(s->ptimer);
          break;
      case 0x8: /* SysTick Current Value.  */
 -    {
 -        int64_t t;
 -
 -        if ((s->control & SYSTICK_ENABLE) == 0) {
 -            val = 0;
 -            break;
 -        }
 -        t = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
 -        if (t >= s->tick) {
 -            val = 0;
 -            break;
 -        }
 -        val = ((s->tick - (t + 1)) / systick_scale(s)) + 1;
 -        /* The interrupt in triggered when the timer reaches zero.
 -           However the counter is not reloaded until the next clock
 -           tick.  This is a hack to return zero during the first tick.  */
 -        if (val > s->reload) {
 -            val = 0;
 -        }
 +        val = ptimer_get_count(s->ptimer);
          break;
 -    }
      case 0xc: /* SysTick Calibration Value.  */
          val = 10000;
          break;
@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_write(void *opaque, hwaddr addr,
      switch (addr) {
      case 0x0: /* SysTick Control and Status.  */
      {
 -        uint32_t oldval = s->control;
 +        uint32_t oldval;
 +        ptimer_transaction_begin(s->ptimer);
 +        oldval = s->control;
          s->control &= 0xfffffff8;
          s->control |= value & 7;
 +
          if ((oldval ^ value) & SYSTICK_ENABLE) {
 -            int64_t now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
              if (value & SYSTICK_ENABLE) {
 -                if (s->tick) {
 -                    s->tick += now;
 -                    timer_mod(s->timer, s->tick);
 -                } else {
 -                    systick_reload(s, 1);
 -                }
 +                /*
 +                 * Always reload the period in case board code has
 +                 * changed system_clock_scale. If we ever replace that
 +                 * global with a more sensible API then we might be able
 +                 * to set the period only when it actually changes.
 +                 */
 +                ptimer_set_period(s->ptimer, systick_scale(s));
 +                ptimer_run(s->ptimer, 0);
              } else {
 -                timer_del(s->timer);
 -                s->tick -= now;
 -                if (s->tick < 0) {
 -                    s->tick = 0;
 -                }
 +                ptimer_stop(s->ptimer);
              }
          } else if ((oldval ^ value) & SYSTICK_CLKSOURCE) {
 -            /* This is a hack. Force the timer to be reloaded
 -               when the reference clock is changed.  */
 -            systick_reload(s, 1);
 +            ptimer_set_period(s->ptimer, systick_scale(s));
          }
 +        ptimer_transaction_commit(s->ptimer);
          break;
      }
      case 0x4: /* SysTick Reload Value.  */
 -        s->reload = value;
 +        ptimer_transaction_begin(s->ptimer);
 +        ptimer_set_limit(s->ptimer, value & 0xffffff, 0);
 +        ptimer_transaction_commit(s->ptimer);
          break;
 -    case 0x8: /* SysTick Current Value.  Writes reload the timer.  */
 -        systick_reload(s, 1);
 +    case 0x8: /* SysTick Current Value. */
 +        /*
 +         * Writing any value clears SYST_CVR to zero and clears
 +         * SYST_CSR.COUNTFLAG. The counter will then reload from SYST_RVR
 +         * on the next clock edge unless SYST_RVR is zero.
 +         */
 +        ptimer_transaction_begin(s->ptimer);
 +        if (ptimer_get_limit(s->ptimer) == 0) {
 +            ptimer_stop(s->ptimer);
 +        }
 +        ptimer_set_count(s->ptimer, 0);
          s->control &= ~SYSTICK_COUNTFLAG;
 +        ptimer_transaction_commit(s->ptimer);
          break;
      default:
          qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static void systick_reset(DeviceState *dev)
       */
      assert(system_clock_scale != 0);
 +    ptimer_transaction_begin(s->ptimer);
      s->control = 0;
 -    s->reload = 0;
 -    s->tick = 0;
 -    timer_del(s->timer);
 +    ptimer_stop(s->ptimer);
 +    ptimer_set_count(s->ptimer, 0);
 +    ptimer_set_limit(s->ptimer, 0, 0);
 +    ptimer_set_period(s->ptimer, systick_scale(s));
 +    ptimer_transaction_commit(s->ptimer);
  }
  static void systick_instance_init(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void systick_instance_init(Object *obj)
  static void systick_realize(DeviceState *dev, Error **errp)
  {
      SysTickState *s = SYSTICK(dev);
 -    s->timer = timer_new_ns(QEMU_CLOCK_VIRTUAL, systick_timer_tick, s);
 +    s->ptimer = ptimer_init(systick_timer_tick, s,
 +                            PTIMER_POLICY_WRAP_AFTER_ONE_PERIOD |
 +                            PTIMER_POLICY_NO_COUNTER_ROUND_DOWN |
 +                            PTIMER_POLICY_NO_IMMEDIATE_RELOAD |
 +                            PTIMER_POLICY_TRIGGER_ONLY_ON_DECREMENT);
  }
  static const VMStateDescription vmstate_systick = {
      .name = "armv7m_systick",
 -    .version_id = 1,
 -    .minimum_version_id = 1,
 +    .version_id = 2,
 +    .minimum_version_id = 2,
      .fields = (VMStateField[]) {
          VMSTATE_UINT32(control, SysTickState),
 -        VMSTATE_UINT32(reload, SysTickState),
          VMSTATE_INT64(tick, SysTickState),
 -        VMSTATE_TIMER_PTR(timer, SysTickState),
 +        VMSTATE_PTIMER(ptimer, SysTickState),
          VMSTATE_END_OF_LIST()
      }
  };
 --
 .20.1

-[PULL 09/48] linux-user/elfload: Use Error for load_elf_interp
+[PULL 10/57] target/arm: Split vfp_access_check() into A and M versions
-From: Richard Henderson <richard.henderson@linaro.org>
+vfp_access_check and its helper routine full_vfp_access_check() has
 gradually grown and is now an awkward mix of A-profile only and
 M-profile only pieces.  Refactor it into an A-profile only and an
 M-profile only version, taking advantage of the fact that now the
 only direct call to full_vfp_access_check() is in A-profile-only
 code.
-This is slightly clearer than just using strerror, though
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-the different forms produced by error_setg_file_open and
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-error_setg_errno isn't entirely convenient.
+Message-id: 20210618141019.10671-7-peter.maydell@linaro.org
 ---
  target/arm/translate-vfp.c | 79 +++++++++++++++++++++++---------------
 file changed, 48 insertions(+), 31 deletions(-)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
 Message-id: 20201021173749.111103-10-richard.henderson@linaro.org
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  linux-user/elfload.c | 15 ++++++++-------
 file changed, 8 insertions(+), 7 deletions(-)
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/translate-vfp.c
-+++ b/linux-user/elfload.c
++++ b/target/arm/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@ static void load_elf_interp(const char *filename, struct image_info *info,
+@@ -XXX,XX +XXX,XX @@ static void gen_update_fp_context(DisasContext *s)
-                             char bprm_buf[BPRM_BUF_SIZE])
+ }
  /*
 - * Check that VFP access is enabled. If it is, do the necessary
 - * M-profile lazy-FP handling and then return true.
 - * If not, emit code to generate an appropriate exception and
 - * return false.
 + * Check that VFP access is enabled, A-profile specific version.
 + *
 + * If VFP is enabled, return true. If not, emit code to generate an
 + * appropriate exception and return false.
   * The ignore_vfp_enabled argument specifies that we should ignore
 - * whether VFP is enabled via FPEXC[EN]: this should be true for FMXR/FMRX
 + * whether VFP is enabled via FPEXC.EN: this should be true for FMXR/FMRX
   * accesses to FPSID, FPEXC, MVFR0, MVFR1, MVFR2, and false for all other insns.
   */
 -static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
 +static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
  {
-     int fd, retval;
+     if (s->fp_excp_el) {
-+    Error *err = NULL;
+-        if (arm_dc_feature(s, ARM_FEATURE_M)) {
+-            /*
-     fd = open(path(filename), O_RDONLY);
+-             * M-profile mostly catches the "FPU disabled" case early, in
-     if (fd < 0) {
+-             * disas_m_nocp(), but a few insns (eg LCTP, WLSTP, DLSTP)
--        goto exit_perror;
+-             * which do coprocessor-checks are outside the large ranges of
-+        error_setg_file_open(&err, errno, filename);
+-             * the encoding space handled by the patterns in m-nocp.decode,
-+        error_report_err(err);
+-             * and for them we may need to raise NOCP here.
-+        exit(-1);
+-             */
 -            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                               syn_uncategorized(), s->fp_excp_el);
 -        } else {
 -            gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
 -                               syn_fp_access_trap(1, 0xe, false),
 -                               s->fp_excp_el);
 -        }
 +        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
 +                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
          return false;
      }
-     retval = read(fd, bprm_buf, BPRM_BUF_SIZE);
+@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
-     if (retval < 0) {
+         unallocated_encoding(s);
--        goto exit_perror;
+         return false;
 +        error_setg_errno(&err, errno, "Error reading file header");
 +        error_reportf_err(err, "%s: ", filename);
 +        exit(-1);
      }
++    return true;
++}
+-    if (arm_dc_feature(s, ARM_FEATURE_M)) {
+-        /* Handle M-profile lazy FP state mechanics */
+-
+-        /* Trigger lazy-state preservation if necessary */
+-        gen_preserve_fp_state(s);
+-
+-        /* Update ownership of FP context and create new FP context if needed */
+-        gen_update_fp_context(s);
++/*
++ * Check that VFP access is enabled, M-profile specific version.
++ *
++ * If VFP is enabled, do the necessary M-profile lazy-FP handling and then
++ * return true. If not, emit code to generate an appropriate exception and
++ * return false.
++ */
++static bool vfp_access_check_m(DisasContext *s)
++{
++    if (s->fp_excp_el) {
++        /*
++         * M-profile mostly catches the "FPU disabled" case early, in
++         * disas_m_nocp(), but a few insns (eg LCTP, WLSTP, DLSTP)
++         * which do coprocessor-checks are outside the large ranges of
++         * the encoding space handled by the patterns in m-nocp.decode,
++         * and for them we may need to raise NOCP here.
++         */
++        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
++                           syn_uncategorized(), s->fp_excp_el);
++        return false;
+     }
++    /* Handle M-profile lazy FP state mechanics */
 +
-     if (retval < BPRM_BUF_SIZE) {
++    /* Trigger lazy-state preservation if necessary */
-         memset(bprm_buf + retval, 0, BPRM_BUF_SIZE - retval);
++    gen_preserve_fp_state(s);
 +
 +    /* Update ownership of FP context and create new FP context if needed */
 +    gen_update_fp_context(s);
 +
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
   */
  bool vfp_access_check(DisasContext *s)
  {
 -    return full_vfp_access_check(s, false);
 +    if (arm_dc_feature(s, ARM_FEATURE_M)) {
 +        return vfp_access_check_m(s);
 +    } else {
 +        return vfp_access_check_a(s, false);
 +    }
  }
  static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
          return false;
      }
-     load_elf_image(filename, fd, info, NULL, bprm_buf);
+-    if (!full_vfp_access_check(s, ignore_vfp_enabled)) {
--    return;
++    /*
--
++     * Call vfp_access_check_a() directly, because we need to tell
-- exit_perror:
++     * it to ignore FPEXC.EN for some register accesses.
--    fprintf(stderr, "%s: %s\n", filename, strerror(errno));
++     */
--    exit(-1);
++    if (!vfp_access_check_a(s, ignore_vfp_enabled)) {
- }
+         return true;
+     }
- static int symfind(const void *s0, const void *s1)
 --
 .20.1

-[PULL 32/48] hw/core/clock: trace clock values in Hz instead of ns
+[PULL 11/57] target/arm: Handle FPU check for FPCXT_NS insns via vfp_access_check_m()
-From: Luc Michel <luc@lmichel.fr>
+Instead of open-coding the "take NOCP exception if FPU disabled,
 otherwise call gen_preserve_fp_state()" code in the accessors for
 FPCXT_NS, add an argument to vfp_access_check_m() which tells it to
 skip the gen_update_fp_context() call, so we can use it for the
 FPCXT_NS case.
-The nanosecond unit greatly limits the dynamic range we can display in
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-clock value traces, for values in the order of 1GHz and more. The
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-internal representation can go way beyond this value and it is quite
+Message-id: 20210618141019.10671-8-peter.maydell@linaro.org
-common for today's clocks to be within those ranges.
+---
  target/arm/translate-a32.h    |  2 +-
  target/arm/translate-m-nocp.c | 10 ++--------
  target/arm/translate-vfp.c    | 13 ++++++++-----
 files changed, 11 insertions(+), 14 deletions(-)
-For example, a frequency between 500MHz+ and 1GHz will be displayed as
+diff --git a/target/arm/translate-a32.h b/target/arm/translate-a32.h
 ns. Beyond 1GHz, it will show up as 0ns.
 Replace nanosecond periods traces with frequencies in the Hz unit
 to have more dynamic range in the trace output.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Damien Hedde <damien.hedde@greensocs.com>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/core/clock.c      | 6 +++---
  hw/core/trace-events | 4 ++--
 files changed, 5 insertions(+), 5 deletions(-)
 diff --git a/hw/core/clock.c b/hw/core/clock.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/core/clock.c
+--- a/target/arm/translate-a32.h
-+++ b/hw/core/clock.c
++++ b/target/arm/translate-a32.h
-@@ -XXX,XX +XXX,XX @@ bool clock_set(Clock *clk, uint64_t period)
+@@ -XXX,XX +XXX,XX @@ bool disas_neon_shared(DisasContext *s, uint32_t insn);
-     if (clk->period == period) {
+ void load_reg_var(DisasContext *s, TCGv_i32 var, int reg);
-         return false;
+ void arm_gen_condlabel(DisasContext *s);
  bool vfp_access_check(DisasContext *s);
 -void gen_preserve_fp_state(DisasContext *s);
 +bool vfp_access_check_m(DisasContext *s, bool skip_context_update);
  void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp memop);
  void read_neon_element64(TCGv_i64 dest, int reg, int ele, MemOp memop);
  void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp memop);
 diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-m-nocp.c
 +++ b/target/arm/translate-m-nocp.c
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
           * otherwise PreserveFPState(), and then FPCXT_NS writes
           * behave the same as FPCXT_S writes.
           */
 -        if (s->fp_excp_el) {
 -            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                               syn_uncategorized(), s->fp_excp_el);
 +        if (!vfp_access_check_m(s, true)) {
              /*
               * This was only a conditional exception, so override
               * gen_exception_insn()'s default to DISAS_NORETURN
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
              s->base.is_jmp = DISAS_NEXT;
              break;
          }
 -        gen_preserve_fp_state(s);
      }
--    trace_clock_set(CLOCK_PATH(clk), CLOCK_PERIOD_TO_NS(clk->period),
+     /* fall through */
--                    CLOCK_PERIOD_TO_NS(period));
+     case ARM_VFP_FPCXT_S:
-+    trace_clock_set(CLOCK_PATH(clk), CLOCK_PERIOD_TO_HZ(clk->period),
+@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
-+                    CLOCK_PERIOD_TO_HZ(period));
+          * otherwise PreserveFPState(), and then FPCXT_NS
-     clk->period = period;
+          * reads the same as FPCXT_S.
           */
 -        if (s->fp_excp_el) {
 -            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                               syn_uncategorized(), s->fp_excp_el);
 +        if (!vfp_access_check_m(s, true)) {
              /*
               * This was only a conditional exception, so override
               * gen_exception_insn()'s default to DISAS_NORETURN
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
              s->base.is_jmp = DISAS_NEXT;
              break;
          }
 -        gen_preserve_fp_state(s);
          tmp = tcg_temp_new_i32();
          sfpa = tcg_temp_new_i32();
          fpscr = tcg_temp_new_i32();
 diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c
 +++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static inline long vfp_f16_offset(unsigned reg, bool top)
   * Generate code for M-profile lazy FP state preservation if needed;
   * this corresponds to the pseudocode PreserveFPState() function.
   */
 -void gen_preserve_fp_state(DisasContext *s)
 +static void gen_preserve_fp_state(DisasContext *s)
  {
      if (s->v7m_lspact) {
          /*
@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
   * If VFP is enabled, do the necessary M-profile lazy-FP handling and then
   * return true. If not, emit code to generate an appropriate exception and
   * return false.
 + * skip_context_update is true to skip the "update FP context" part of this.
   */
 -static bool vfp_access_check_m(DisasContext *s)
 +bool vfp_access_check_m(DisasContext *s, bool skip_context_update)
  {
      if (s->fp_excp_el) {
          /*
@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check_m(DisasContext *s)
      /* Trigger lazy-state preservation if necessary */
      gen_preserve_fp_state(s);
 -    /* Update ownership of FP context and create new FP context if needed */
 -    gen_update_fp_context(s);
 +    if (!skip_context_update) {
 +        /* Update ownership of FP context and create new FP context if needed */
 +        gen_update_fp_context(s);
 +    }
      return true;
-@@ -XXX,XX +XXX,XX @@ static void clock_propagate_period(Clock *clk, bool call_callbacks)
+ }
-         if (child->period != clk->period) {
+@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check_m(DisasContext *s)
-             child->period = clk->period;
+ bool vfp_access_check(DisasContext *s)
-             trace_clock_update(CLOCK_PATH(child), CLOCK_PATH(clk),
+ {
--                               CLOCK_PERIOD_TO_NS(clk->period),
+     if (arm_dc_feature(s, ARM_FEATURE_M)) {
-+                               CLOCK_PERIOD_TO_HZ(clk->period),
+-        return vfp_access_check_m(s);
-                                call_callbacks);
++        return vfp_access_check_m(s, false);
-             if (call_callbacks && child->callback) {
+     } else {
-                 child->callback(child->callback_opaque);
+         return vfp_access_check_a(s, false);
-diff --git a/hw/core/trace-events b/hw/core/trace-events
+     }
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/core/trace-events
 +++ b/hw/core/trace-events
@@ -XXX,XX +XXX,XX @@ resettable_transitional_function(void *obj, const char *objtype) "obj=%p(%s)"
  # clock.c
  clock_set_source(const char *clk, const char *src) "'%s', src='%s'"
  clock_disconnect(const char *clk) "'%s'"
 -clock_set(const char *clk, uint64_t old, uint64_t new) "'%s', ns=%"PRIu64"->%"PRIu64
 +clock_set(const char *clk, uint64_t old, uint64_t new) "'%s', %"PRIu64"Hz->%"PRIu64"Hz"
  clock_propagate(const char *clk) "'%s'"
 -clock_update(const char *clk, const char *src, uint64_t val, int cb) "'%s', src='%s', ns=%"PRIu64", cb=%d"
 +clock_update(const char *clk, const char *src, uint64_t hz, int cb) "'%s', src='%s', val=%"PRIu64"Hz cb=%d"
 --
 .20.1

-[PULL 45/48] hw/watchdog: Implement SBSA watchdog device
+[PULL 12/57] target/arm: Implement MVE VLDR/VSTR (non-widening forms)
-From: Shashi Mallela <shashi.mallela@linaro.org>
+Implement the forms of the MVE VLDR and VSTR insns which perform
 non-widening loads of bytes, halfwords or words from memory into
 vector elements of the same width (encodings T5, T6, T7).
-Generic watchdog device model implementation as per ARM SBSA v6.0
+(At the moment we know for MVE and M-profile in general that
 vfp_access_check() can never return false, but we include the
 conventional return-true-on-failure check for consistency
 with non-M-profile translation code.)
-Signed-off-by: Shashi Mallela <shashi.mallela@linaro.org>
-Message-id: 20201027015927.29495-2-shashi.mallela@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-2-peter.maydell@linaro.org
 ---
- include/hw/watchdog/sbsa_gwdt.h |  79 +++++++++
+ target/arm/{translate-mve.c => helper-mve.h} |  19 +-
- hw/watchdog/sbsa_gwdt.c         | 293 ++++++++++++++++++++++++++++++++
+ target/arm/helper.h                          |   2 +
- hw/arm/Kconfig                  |   1 +
+ target/arm/internals.h                       |  11 ++
- hw/watchdog/Kconfig             |   3 +
+ target/arm/mve.decode                        |  22 +++
- hw/watchdog/meson.build         |   1 +
+ target/arm/mve_helper.c                      | 172 +++++++++++++++++++
-files changed, 377 insertions(+)
+ target/arm/translate-mve.c                   | 119 +++++++++++++
- create mode 100644 include/hw/watchdog/sbsa_gwdt.h
+ target/arm/meson.build                       |   1 +
- create mode 100644 hw/watchdog/sbsa_gwdt.c
+files changed, 334 insertions(+), 12 deletions(-)
  copy target/arm/{translate-mve.c => helper-mve.h} (61%)
  create mode 100644 target/arm/mve_helper.c
-diff --git a/include/hw/watchdog/sbsa_gwdt.h b/include/hw/watchdog/sbsa_gwdt.h
+diff --git a/target/arm/translate-mve.c b/target/arm/helper-mve.h
 similarity index 61%
 copy from target/arm/translate-mve.c
 copy to target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@
  /*
 - *  ARM translation: M-profile MVE instructions
 + *  M-profile MVE specific helper definitions
   *
   *  Copyright (c) 2021 Linaro, Ltd.
   *
@@ -XXX,XX +XXX,XX @@
   * You should have received a copy of the GNU Lesser General Public
   * License along with this library; if not, see <http://www.gnu.org/licenses/>.
   */
 -
 -#include "qemu/osdep.h"
 -#include "tcg/tcg-op.h"
 -#include "tcg/tcg-op-gvec.h"
 -#include "exec/exec-all.h"
 -#include "exec/gen-icount.h"
 -#include "translate.h"
 -#include "translate-a32.h"
 -
 -/* Include the generated decoder */
 -#include "decode-mve.c.inc"
 +DEF_HELPER_FLAGS_3(mve_vldrb, TCG_CALL_NO_WG, void, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vldrh, TCG_CALL_NO_WG, void, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vldrw, TCG_CALL_NO_WG, void, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vstrb, TCG_CALL_NO_WG, void, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vstrh, TCG_CALL_NO_WG, void, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vstrw, TCG_CALL_NO_WG, void, env, ptr, i32)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_bfmlal_idx, TCG_CALL_NO_RWG,
  #include "helper-a64.h"
  #include "helper-sve.h"
  #endif
 +
 +#include "helper-mve.h"
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t useronly_maybe_clean_ptr(uint32_t desc, uint64_t ptr)
      return ptr;
  }
 +/* Values for M-profile PSR.ECI for MVE insns */
 +enum MVEECIState {
 +    ECI_NONE = 0, /* No completed beats */
 +    ECI_A0 = 1, /* Completed: A0 */
 +    ECI_A0A1 = 2, /* Completed: A0, A1 */
 +    /* 3 is reserved */
 +    ECI_A0A1A2 = 4, /* Completed: A0, A1, A2 */
 +    ECI_A0A1A2B0 = 5, /* Completed: A0, A1, A2, B0 */
 +    /* All other values reserved */
 +};
 +
  #endif
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  #
  # This file is processed by scripts/decodetree.py
  #
 +
 +%qd 22:1 13:3
 +
 +&vldr_vstr rn qd imm p a w size l
 +
 +@vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd
 +
 +# Vector loads and stores
 +
 +# Non-widening loads/stores (P=0 W=0 is 'related encoding')
 +VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111100 .......   @vldr_vstr \
 +                 size=0 p=0 w=1
 +VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111101 .......   @vldr_vstr \
 +                 size=1 p=0 w=1
 +VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111110 .......   @vldr_vstr \
 +                 size=2 p=0 w=1
 +VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111100 .......   @vldr_vstr \
 +                 size=0 p=1
 +VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111101 .......   @vldr_vstr \
 +                 size=1 p=1
 +VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
 +                 size=2 p=1
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/include/hw/watchdog/sbsa_gwdt.h
++++ b/target/arm/mve_helper.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Copyright (c) 2020 Linaro Limited
++ * M-profile MVE Operations
 + *
-+ * Authors:
++ * Copyright (c) 2021 Linaro, Ltd.
 + *  Shashi Mallela <shashi.mallela@linaro.org>
 + *
-+ * This work is licensed under the terms of the GNU GPL, version 2 or (at your
++ * This library is free software; you can redistribute it and/or
-+ * option) any later version.  See the COPYING file in the top-level directory.
++ * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
++ * This library is distributed in the hope that it will be useful,
++ * but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * Lesser General Public License for more details.
++ *
++ * You should have received a copy of the GNU Lesser General Public
++ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
-+#ifndef WDT_SBSA_GWDT_H
-+#define WDT_SBSA_GWDT_H
-+
-+#include "qemu/bitops.h"
-+#include "hw/sysbus.h"
-+#include "hw/irq.h"
-+
-+#define TYPE_WDT_SBSA "sbsa_gwdt"
-+#define SBSA_GWDT(obj) \
-+    OBJECT_CHECK(SBSA_GWDTState, (obj), TYPE_WDT_SBSA)
-+#define SBSA_GWDT_CLASS(klass) \
-+    OBJECT_CLASS_CHECK(SBSA_GWDTClass, (klass), TYPE_WDT_SBSA)
-+#define SBSA_GWDT_GET_CLASS(obj) \
-+    OBJECT_GET_CLASS(SBSA_GWDTClass, (obj), TYPE_WDT_SBSA)
-+
-+/* SBSA Generic Watchdog register definitions */
-+/* refresh frame */
-+#define SBSA_GWDT_WRR       0x000
-+
-+/* control frame */
-+#define SBSA_GWDT_WCS       0x000
-+#define SBSA_GWDT_WOR       0x008
-+#define SBSA_GWDT_WORU      0x00C
-+#define SBSA_GWDT_WCV       0x010
-+#define SBSA_GWDT_WCVU      0x014
-+
-+/* Watchdog Interface Identification Register */
-+#define SBSA_GWDT_W_IIDR    0xFCC
-+
-+/* Watchdog Control and Status Register Bits */
-+#define SBSA_GWDT_WCS_EN    BIT(0)
-+#define SBSA_GWDT_WCS_WS0   BIT(1)
-+#define SBSA_GWDT_WCS_WS1   BIT(2)
-+
-+#define SBSA_GWDT_WOR_MASK  0x0000FFFF
-+
-+/*
-+ * Watchdog Interface Identification Register definition
-+ * considering JEP106 code for ARM in Bits [11:0]
-+ */
-+#define SBSA_GWDT_ID        0x1043B
-+
-+/* 2 Separate memory regions for each of refresh & control register frames */
-+#define SBSA_GWDT_RMMIO_SIZE 0x1000
-+#define SBSA_GWDT_CMMIO_SIZE 0x1000
-+
-+#define SBSA_TIMER_FREQ      62500000 /* Hz */
-+
-+typedef struct SBSA_GWDTState {
-+    /* <private> */
-+    SysBusDevice parent_obj;
-+
-+    /*< public >*/
-+    MemoryRegion rmmio;
-+    MemoryRegion cmmio;
-+    qemu_irq irq;
-+
-+    QEMUTimer *timer;
-+
-+    uint32_t id;
-+    uint32_t wcs;
-+    uint32_t worl;
-+    uint32_t woru;
-+    uint32_t wcvl;
-+    uint32_t wcvu;
-+} SBSA_GWDTState;
-+
-+#endif /* WDT_SBSA_GWDT_H */
-diff --git a/hw/watchdog/sbsa_gwdt.c b/hw/watchdog/sbsa_gwdt.c
-new file mode 100644
-index XXXXXXX..XXXXXXX
---- /dev/null
-+++ b/hw/watchdog/sbsa_gwdt.c
-@@ -XXX,XX +XXX,XX @@
-+/*
-+ * Generic watchdog device model for SBSA
-+ *
-+ * The watchdog device has been implemented as revision 1 variant of
-+ * the ARM SBSA specification v6.0
-+ * (https://developer.arm.com/documentation/den0029/d?lang=en)
-+ *
-+ * Copyright Linaro.org 2020
-+ *
-+ * Authors:
-+ *  Shashi Mallela <shashi.mallela@linaro.org>
-+ *
-+ * This work is licensed under the terms of the GNU GPL, version 2 or (at your
-+ * option) any later version.  See the COPYING file in the top-level directory.
-+ *
-+ */
-+
 +#include "qemu/osdep.h"
-+#include "sysemu/reset.h"
++#include "cpu.h"
-+#include "sysemu/watchdog.h"
++#include "internals.h"
-+#include "hw/watchdog/sbsa_gwdt.h"
++#include "vec_internal.h"
-+#include "qemu/timer.h"
++#include "exec/helper-proto.h"
-+#include "migration/vmstate.h"
++#include "exec/cpu_ldst.h"
-+#include "qemu/log.h"
++#include "exec/exec-all.h"
-+#include "qemu/module.h"
++
-+
++static uint16_t mve_element_mask(CPUARMState *env)
-+static WatchdogTimerModel model = {
++{
-+    .wdt_name = TYPE_WDT_SBSA,
++    /*
-+    .wdt_description = "SBSA-compliant generic watchdog device",
++     * Return the mask of which elements in the MVE vector should be
-+};
++     * updated. This is a combination of multiple things:
-+
++     *  (1) by default, we update every lane in the vector
-+static const VMStateDescription vmstate_sbsa_gwdt = {
++     *  (2) VPT predication stores its state in the VPR register;
-+    .name = "sbsa-gwdt",
++     *  (3) low-overhead-branch tail predication will mask out part
-+    .version_id = 1,
++     *      the vector on the final iteration of the loop
-+    .minimum_version_id = 1,
++     *  (4) if EPSR.ECI is set then we must execute only some beats
-+    .fields = (VMStateField[]) {
++     *      of the insn
-+        VMSTATE_TIMER_PTR(timer, SBSA_GWDTState),
++     * We combine all these into a 16-bit result with the same semantics
-+        VMSTATE_UINT32(wcs, SBSA_GWDTState),
++     * as VPR.P0: 0 to mask the lane, 1 if it is active.
-+        VMSTATE_UINT32(worl, SBSA_GWDTState),
++     * 8-bit vector ops will look at all bits of the result;
-+        VMSTATE_UINT32(woru, SBSA_GWDTState),
++     * 16-bit ops will look at bits 0, 2, 4, ...;
-+        VMSTATE_UINT32(wcvl, SBSA_GWDTState),
++     * 32-bit ops will look at bits 0, 4, 8 and 12.
-+        VMSTATE_UINT32(wcvu, SBSA_GWDTState),
++     * Compare pseudocode GetCurInstrBeat(), though that only returns
-+        VMSTATE_END_OF_LIST()
++     * the 4-bit slice of the mask corresponding to a single beat.
-+    }
++     */
-+};
++    uint16_t mask = FIELD_EX32(env->v7m.vpr, V7M_VPR, P0);
 +
-+typedef enum WdtRefreshType {
++    if (!(env->v7m.vpr & R_V7M_VPR_MASK01_MASK)) {
-+    EXPLICIT_REFRESH = 0,
++        mask |= 0xff;
-+    TIMEOUT_REFRESH = 1,
++    }
-+} WdtRefreshType;
++    if (!(env->v7m.vpr & R_V7M_VPR_MASK23_MASK)) {
-+
++        mask |= 0xff00;
-+static uint64_t sbsa_gwdt_rread(void *opaque, hwaddr addr, unsigned int size)
++    }
-+{
++
-+    SBSA_GWDTState *s = SBSA_GWDT(opaque);
++    if (env->v7m.ltpsize < 4 &&
-+    uint32_t ret = 0;
++        env->regs[14] <= (1 << (4 - env->v7m.ltpsize))) {
 +
 +    switch (addr) {
 +    case SBSA_GWDT_WRR:
 +        /* watch refresh read has no effect and returns 0 */
 +        ret = 0;
 +        break;
 +    case SBSA_GWDT_W_IIDR:
 +        ret = s->id;
 +        break;
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR, "bad address in refresh frame read :"
 +                        " 0x%x\n", (int)addr);
 +    }
 +    return ret;
 +}
 +
 +static uint64_t sbsa_gwdt_read(void *opaque, hwaddr addr, unsigned int size)
 +{
 +    SBSA_GWDTState *s = SBSA_GWDT(opaque);
 +    uint32_t ret = 0;
 +
 +    switch (addr) {
 +    case SBSA_GWDT_WCS:
 +        ret = s->wcs;
 +        break;
 +    case SBSA_GWDT_WOR:
 +        ret = s->worl;
 +        break;
 +    case SBSA_GWDT_WORU:
 +         ret = s->woru;
 +         break;
 +    case SBSA_GWDT_WCV:
 +        ret = s->wcvl;
 +        break;
 +    case SBSA_GWDT_WCVU:
 +        ret = s->wcvu;
 +        break;
 +    case SBSA_GWDT_W_IIDR:
 +        ret = s->id;
 +        break;
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR, "bad address in control frame read :"
 +                        " 0x%x\n", (int)addr);
 +    }
 +    return ret;
 +}
 +
 +static void sbsa_gwdt_update_timer(SBSA_GWDTState *s, WdtRefreshType rtype)
 +{
 +    uint64_t timeout = 0;
 +
 +    timer_del(s->timer);
 +
 +    if (s->wcs & SBSA_GWDT_WCS_EN) {
 +        /*
-+         * Extract the upper 16 bits from woru & 32 bits from worl
++         * Tail predication active, and this is the last loop iteration.
-+         * registers to construct the 48 bit offset value
++         * The element size is (1 << ltpsize), and we only want to process
 +         * loopcount elements, so we want to retain the least significant
 +         * (loopcount * esize) predicate bits and zero out bits above that.
 +         */
-+        timeout = s->woru;
++        int masklen = env->regs[14] << env->v7m.ltpsize;
-+        timeout <<= 32;
++        assert(masklen <= 16);
-+        timeout |= s->worl;
++        mask &= MAKE_64BIT_MASK(0, masklen);
-+        timeout = muldiv64(timeout, NANOSECONDS_PER_SECOND, SBSA_TIMER_FREQ);
++    }
-+        timeout += qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
++
-+
++    if ((env->condexec_bits & 0xf) == 0) {
 +        if ((rtype == EXPLICIT_REFRESH) || ((rtype == TIMEOUT_REFRESH) &&
 +                (!(s->wcs & SBSA_GWDT_WCS_WS0)))) {
 +            /* store the current timeout value into compare registers */
 +            s->wcvu = timeout >> 32;
 +            s->wcvl = timeout;
 +        }
 +        timer_mod(s->timer, timeout);
 +    }
 +}
 +
 +static void sbsa_gwdt_rwrite(void *opaque, hwaddr offset, uint64_t data,
 +                             unsigned size) {
 +    SBSA_GWDTState *s = SBSA_GWDT(opaque);
 +
 +    if (offset == SBSA_GWDT_WRR) {
 +        s->wcs &= ~(SBSA_GWDT_WCS_WS0 | SBSA_GWDT_WCS_WS1);
 +
 +        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
 +    } else {
 +        qemu_log_mask(LOG_GUEST_ERROR, "bad address in refresh frame write :"
 +                        " 0x%x\n", (int)offset);
 +    }
 +}
 +
 +static void sbsa_gwdt_write(void *opaque, hwaddr offset, uint64_t data,
 +                             unsigned size) {
 +    SBSA_GWDTState *s = SBSA_GWDT(opaque);
 +
 +    switch (offset) {
 +    case SBSA_GWDT_WCS:
 +        s->wcs = data & SBSA_GWDT_WCS_EN;
 +        qemu_set_irq(s->irq, 0);
 +        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
 +        break;
 +
 +    case SBSA_GWDT_WOR:
 +        s->worl = data;
 +        s->wcs &= ~(SBSA_GWDT_WCS_WS0 | SBSA_GWDT_WCS_WS1);
 +        qemu_set_irq(s->irq, 0);
 +        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
 +        break;
 +
 +    case SBSA_GWDT_WORU:
 +        s->woru = data & SBSA_GWDT_WOR_MASK;
 +        s->wcs &= ~(SBSA_GWDT_WCS_WS0 | SBSA_GWDT_WCS_WS1);
 +        qemu_set_irq(s->irq, 0);
 +        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
 +        break;
 +
 +    case SBSA_GWDT_WCV:
 +        s->wcvl = data;
 +        break;
 +
 +    case SBSA_GWDT_WCVU:
 +        s->wcvu = data;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR, "bad address in control frame write :"
 +                " 0x%x\n", (int)offset);
 +    }
 +    return;
 +}
 +
 +static void wdt_sbsa_gwdt_reset(DeviceState *dev)
 +{
 +    SBSA_GWDTState *s = SBSA_GWDT(dev);
 +
 +    timer_del(s->timer);
 +
 +    s->wcs  = 0;
 +    s->wcvl = 0;
 +    s->wcvu = 0;
 +    s->worl = 0;
 +    s->woru = 0;
 +    s->id = SBSA_GWDT_ID;
 +}
 +
 +static void sbsa_gwdt_timer_sysinterrupt(void *opaque)
 +{
 +    SBSA_GWDTState *s = SBSA_GWDT(opaque);
 +
 +    if (!(s->wcs & SBSA_GWDT_WCS_WS0)) {
 +        s->wcs |= SBSA_GWDT_WCS_WS0;
 +        sbsa_gwdt_update_timer(s, TIMEOUT_REFRESH);
 +        qemu_set_irq(s->irq, 1);
 +    } else {
 +        s->wcs |= SBSA_GWDT_WCS_WS1;
 +        qemu_log_mask(CPU_LOG_RESET, "Watchdog timer expired.\n");
 +        /*
-+         * Reset the watchdog only if the guest gets notified about
++         * ECI bits indicate which beats are already executed;
-+         * expiry. watchdog_perform_action() may temporarily relinquish
++         * we handle this by effectively predicating them out.
 +         * the BQL; reset before triggering the action to avoid races with
 +         * sbsa_gwdt instructions.
 +         */
-+        switch (get_watchdog_action()) {
++        int eci = env->condexec_bits >> 4;
-+        case WATCHDOG_ACTION_DEBUG:
++        switch (eci) {
-+        case WATCHDOG_ACTION_NONE:
++        case ECI_NONE:
-+        case WATCHDOG_ACTION_PAUSE:
++            break;
 +        case ECI_A0:
 +            mask &= 0xfff0;
 +            break;
 +        case ECI_A0A1:
 +            mask &= 0xff00;
 +            break;
 +        case ECI_A0A1A2:
 +        case ECI_A0A1A2B0:
 +            mask &= 0xf000;
 +            break;
 +        default:
-+            wdt_sbsa_gwdt_reset(DEVICE(s));
++            g_assert_not_reached();
 +        }
-+        watchdog_perform_action();
++    }
-+    }
++
-+}
++    return mask;
-+
++}
-+static const MemoryRegionOps sbsa_gwdt_rops = {
++
-+    .read = sbsa_gwdt_rread,
++static void mve_advance_vpt(CPUARMState *env)
-+    .write = sbsa_gwdt_rwrite,
++{
-+    .endianness = DEVICE_LITTLE_ENDIAN,
++    /* Advance the VPT and ECI state if necessary */
-+    .valid.min_access_size = 4,
++    uint32_t vpr = env->v7m.vpr;
-+    .valid.max_access_size = 4,
++    unsigned mask01, mask23;
-+    .valid.unaligned = false,
++
-+};
++    if ((env->condexec_bits & 0xf) == 0) {
-+
++        env->condexec_bits = (env->condexec_bits == (ECI_A0A1A2B0 << 4)) ?
-+static const MemoryRegionOps sbsa_gwdt_ops = {
++            (ECI_A0 << 4) : (ECI_NONE << 4);
-+    .read = sbsa_gwdt_read,
++    }
-+    .write = sbsa_gwdt_write,
++
-+    .endianness = DEVICE_LITTLE_ENDIAN,
++    if (!(vpr & (R_V7M_VPR_MASK01_MASK | R_V7M_VPR_MASK23_MASK))) {
-+    .valid.min_access_size = 4,
++        /* VPT not enabled, nothing to do */
-+    .valid.max_access_size = 4,
++        return;
-+    .valid.unaligned = false,
++    }
-+};
++
-+
++    mask01 = FIELD_EX32(vpr, V7M_VPR, MASK01);
-+static void wdt_sbsa_gwdt_realize(DeviceState *dev, Error **errp)
++    mask23 = FIELD_EX32(vpr, V7M_VPR, MASK23);
-+{
++    if (mask01 > 8) {
-+    SBSA_GWDTState *s = SBSA_GWDT(dev);
++        /* high bit set, but not 0b1000: invert the relevant half of P0 */
-+    SysBusDevice *sbd = SYS_BUS_DEVICE(dev);
++        vpr ^= 0xff;
-+
++    }
-+    memory_region_init_io(&s->rmmio, OBJECT(dev),
++    if (mask23 > 8) {
-+                          &sbsa_gwdt_rops, s,
++        /* high bit set, but not 0b1000: invert the relevant half of P0 */
-+                          "sbsa_gwdt.refresh",
++        vpr ^= 0xff00;
-+                          SBSA_GWDT_RMMIO_SIZE);
++    }
-+
++    vpr = FIELD_DP32(vpr, V7M_VPR, MASK01, mask01 << 1);
-+    memory_region_init_io(&s->cmmio, OBJECT(dev),
++    vpr = FIELD_DP32(vpr, V7M_VPR, MASK23, mask23 << 1);
-+                          &sbsa_gwdt_ops, s,
++    env->v7m.vpr = vpr;
-+                          "sbsa_gwdt.control",
++}
-+                          SBSA_GWDT_CMMIO_SIZE);
++
 +
-+    sysbus_init_mmio(sbd, &s->rmmio);
++#define DO_VLDR(OP, MSIZE, LDTYPE, ESIZE, TYPE)                         \
-+    sysbus_init_mmio(sbd, &s->cmmio);
++    void HELPER(mve_##OP)(CPUARMState *env, void *vd, uint32_t addr)    \
-+
++    {                                                                   \
-+    sysbus_init_irq(sbd, &s->irq);
++        TYPE *d = vd;                                                   \
-+
++        uint16_t mask = mve_element_mask(env);                          \
-+    s->timer = timer_new_ns(QEMU_CLOCK_VIRTUAL, sbsa_gwdt_timer_sysinterrupt,
++        unsigned b, e;                                                  \
-+                dev);
++        /*                                                              \
-+}
++         * R_SXTM allows the dest reg to become UNKNOWN for abandoned   \
-+
++         * beats so we don't care if we update part of the dest and     \
-+static void wdt_sbsa_gwdt_class_init(ObjectClass *klass, void *data)
++         * then take an exception.                                      \
-+{
++         */                                                             \
-+    DeviceClass *dc = DEVICE_CLASS(klass);
++        for (b = 0, e = 0; b < 16; b += ESIZE, e++) {                   \
-+
++            if (mask & (1 << b)) {                                      \
-+    dc->realize = wdt_sbsa_gwdt_realize;
++                d[H##ESIZE(e)] = cpu_##LDTYPE##_data_ra(env, addr, GETPC()); \
-+    dc->reset = wdt_sbsa_gwdt_reset;
++            }                                                           \
-+    dc->hotpluggable = false;
++            addr += MSIZE;                                              \
-+    set_bit(DEVICE_CATEGORY_MISC, dc->categories);
++        }                                                               \
-+    dc->vmsd = &vmstate_sbsa_gwdt;
++        mve_advance_vpt(env);                                           \
-+}
++    }
 +
-+static const TypeInfo wdt_sbsa_gwdt_info = {
++#define DO_VSTR(OP, MSIZE, STTYPE, ESIZE, TYPE)                         \
-+    .class_init = wdt_sbsa_gwdt_class_init,
++    void HELPER(mve_##OP)(CPUARMState *env, void *vd, uint32_t addr)    \
-+    .parent = TYPE_SYS_BUS_DEVICE,
++    {                                                                   \
-+    .name  = TYPE_WDT_SBSA,
++        TYPE *d = vd;                                                   \
-+    .instance_size  = sizeof(SBSA_GWDTState),
++        uint16_t mask = mve_element_mask(env);                          \
-+};
++        unsigned b, e;                                                  \
-+
++        for (b = 0, e = 0; b < 16; b += ESIZE, e++) {                   \
-+static void wdt_sbsa_gwdt_register_types(void)
++            if (mask & (1 << b)) {                                      \
-+{
++                cpu_##STTYPE##_data_ra(env, addr, d[H##ESIZE(e)], GETPC()); \
-+    watchdog_add_model(&model);
++            }                                                           \
-+    type_register_static(&wdt_sbsa_gwdt_info);
++            addr += MSIZE;                                              \
-+}
++        }                                                               \
-+
++        mve_advance_vpt(env);                                           \
-+type_init(wdt_sbsa_gwdt_register_types)
++    }
-diff --git a/hw/arm/Kconfig b/hw/arm/Kconfig
++
-index XXXXXXX..XXXXXXX 100644
++DO_VLDR(vldrb, 1, ldub, 1, uint8_t)
---- a/hw/arm/Kconfig
++DO_VLDR(vldrh, 2, lduw, 2, uint16_t)
-+++ b/hw/arm/Kconfig
++DO_VLDR(vldrw, 4, ldl, 4, uint32_t)
-@@ -XXX,XX +XXX,XX @@ config SBSA_REF
++
-     select PL031 # RTC
++DO_VSTR(vstrb, 1, stb, 1, uint8_t)
-     select PL061 # GPIO
++DO_VSTR(vstrh, 2, stw, 2, uint16_t)
-     select USB_EHCI_SYSBUS
++DO_VSTR(vstrw, 4, stl, 4, uint32_t)
-+    select WDT_SBSA
++
++#undef DO_VLDR
- config SABRELITE
++#undef DO_VSTR
-     bool
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-diff --git a/hw/watchdog/Kconfig b/hw/watchdog/Kconfig
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
---- a/hw/watchdog/Kconfig
++++ b/target/arm/translate-mve.c
-+++ b/hw/watchdog/Kconfig
+@@ -XXX,XX +XXX,XX @@
-@@ -XXX,XX +XXX,XX @@ config WDT_DIAG288
+ /* Include the generated decoder */
- config WDT_IMX2
+ #include "decode-mve.c.inc"
-     bool
++
-+
++typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
-+config WDT_SBSA
++
-+    bool
++/* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
-diff --git a/hw/watchdog/meson.build b/hw/watchdog/meson.build
++static inline long mve_qreg_offset(unsigned reg)
-index XXXXXXX..XXXXXXX 100644
++{
---- a/hw/watchdog/meson.build
++    return offsetof(CPUARMState, vfp.zregs[reg].d[0]);
-+++ b/hw/watchdog/meson.build
++}
-@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_WDT_IB700', if_true: files('wdt_ib700.c'))
++
- softmmu_ss.add(when: 'CONFIG_WDT_DIAG288', if_true: files('wdt_diag288.c'))
++static TCGv_ptr mve_qreg_ptr(unsigned reg)
- softmmu_ss.add(when: 'CONFIG_ASPEED_SOC', if_true: files('wdt_aspeed.c'))
++{
- softmmu_ss.add(when: 'CONFIG_WDT_IMX2', if_true: files('wdt_imx2.c'))
++    TCGv_ptr ret = tcg_temp_new_ptr();
-+softmmu_ss.add(when: 'CONFIG_WDT_SBSA', if_true: files('sbsa_gwdt.c'))
++    tcg_gen_addi_ptr(ret, cpu_env, mve_qreg_offset(reg));
 +    return ret;
 +}
 +
 +static bool mve_check_qreg_bank(DisasContext *s, int qmask)
 +{
 +    /*
 +     * Check whether Qregs are in range. For v8.1M only Q0..Q7
 +     * are supported, see VFPSmallRegisterBank().
 +     */
 +    return qmask < 8;
 +}
 +
 +static bool mve_eci_check(DisasContext *s)
 +{
 +    /*
 +     * This is a beatwise insn: check that ECI is valid (not a
 +     * reserved value) and note that we are handling it.
 +     * Return true if OK, false if we generated an exception.
 +     */
 +    s->eci_handled = true;
 +    switch (s->eci) {
 +    case ECI_NONE:
 +    case ECI_A0:
 +    case ECI_A0A1:
 +    case ECI_A0A1A2:
 +    case ECI_A0A1A2B0:
 +        return true;
 +    default:
 +        /* Reserved value: INVSTATE UsageFault */
 +        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 +                           default_exception_el(s));
 +        return false;
 +    }
 +}
 +
 +static void mve_update_eci(DisasContext *s)
 +{
 +    /*
 +     * The helper function will always update the CPUState field,
 +     * so we only need to update the DisasContext field.
 +     */
 +    if (s->eci) {
 +        s->eci = (s->eci == ECI_A0A1A2B0) ? ECI_A0 : ECI_NONE;
 +    }
 +}
 +
 +static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
 +{
 +    TCGv_i32 addr;
 +    uint32_t offset;
 +    TCGv_ptr qreg;
 +
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd) ||
 +        !fn) {
 +        return false;
 +    }
 +
 +    /* CONSTRAINED UNPREDICTABLE: we choose to UNDEF */
 +    if (a->rn == 15 || (a->rn == 13 && a->w)) {
 +        return false;
 +    }
 +
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    offset = a->imm << a->size;
 +    if (!a->a) {
 +        offset = -offset;
 +    }
 +    addr = load_reg(s, a->rn);
 +    if (a->p) {
 +        tcg_gen_addi_i32(addr, addr, offset);
 +    }
 +
 +    qreg = mve_qreg_ptr(a->qd);
 +    fn(cpu_env, qreg, addr);
 +    tcg_temp_free_ptr(qreg);
 +
 +    /*
 +     * Writeback always happens after the last beat of the insn,
 +     * regardless of predication
 +     */
 +    if (a->w) {
 +        if (!a->p) {
 +            tcg_gen_addi_i32(addr, addr, offset);
 +        }
 +        store_reg(s, a->rn, addr);
 +    } else {
 +        tcg_temp_free_i32(addr);
 +    }
 +    mve_update_eci(s);
 +    return true;
 +}
 +
 +static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
 +{
 +    static MVEGenLdStFn * const ldstfns[4][2] = {
 +        { gen_helper_mve_vstrb, gen_helper_mve_vldrb },
 +        { gen_helper_mve_vstrh, gen_helper_mve_vldrh },
 +        { gen_helper_mve_vstrw, gen_helper_mve_vldrw },
 +        { NULL, NULL }
 +    };
 +    return do_ldst(s, a, ldstfns[a->size][a->l]);
 +}
 diff --git a/target/arm/meson.build b/target/arm/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/meson.build
 +++ b/target/arm/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
    'helper.c',
    'iwmmxt_helper.c',
    'm_helper.c',
 +  'mve_helper.c',
    'neon_helper.c',
    'op_helper.c',
    'tlb_helper.c',
 --
 .20.1

-New patch
+[PULL 13/57] target/arm: Implement widening/narrowing MVE VLDR/VSTR insns
+Implement the variants of MVE VLDR (encodings T1, T2) which perform
+"widening" loads where bytes or halfwords are loaded from memory and
+zero or sign-extended into halfword or word length vector elements,
+and the narrowing MVE VSTR (encodings T1, T2) where bytes or
+halfwords are stored from halfword or word elements.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-3-peter.maydell@linaro.org
+---
+ target/arm/helper-mve.h    | 10 ++++++++++
+ target/arm/mve.decode      | 25 +++++++++++++++++++++++--
+ target/arm/mve_helper.c    | 11 +++++++++++
+ target/arm/translate-mve.c | 14 ++++++++++++++
+files changed, 58 insertions(+), 2 deletions(-)
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper-mve.h
++++ b/target/arm/helper-mve.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vldrw, TCG_CALL_NO_WG, void, env, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_vstrb, TCG_CALL_NO_WG, void, env, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_vstrh, TCG_CALL_NO_WG, void, env, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_vstrw, TCG_CALL_NO_WG, void, env, ptr, i32)
++
++DEF_HELPER_FLAGS_3(mve_vldrb_sh, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vldrb_sw, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vldrb_uh, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vldrb_uw, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vldrh_sw, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vldrh_uw, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vstrb_h, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vstrb_w, TCG_CALL_NO_WG, void, env, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_vstrh_w, TCG_CALL_NO_WG, void, env, ptr, i32)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve.decode
++++ b/target/arm/mve.decode
+@@ -XXX,XX +XXX,XX @@
+ %qd 22:1 13:3
+-&vldr_vstr rn qd imm p a w size l
++&vldr_vstr rn qd imm p a w size l u
+-@vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd
++@vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
++# Note that both Rn and Qd are 3 bits only (no D bit)
++@vldst_wn ... u:1 ... . . . . l:1 . rn:3 qd:3 . ... .. imm:7 &vldr_vstr
+ # Vector loads and stores
++# Widening loads and narrowing stores:
++# for these P=0 W=0 is 'related encoding'; sz=11 is 'related encoding'
++# This means we need to expand out to multiple patterns for P, W, SZ.
++# For stores the U bit must be 0 but we catch that in the trans_ function.
++# The naming scheme here is "VLDSTB_H == in-memory byte load/store to/from
++# signed halfword element in register", etc.
++VLDSTB_H         111 . 110 0 a:1 0 1   . 0 ... ... 0 111 01 ....... @vldst_wn \
++                 p=0 w=1 size=1
++VLDSTB_H         111 . 110 1 a:1 0 w:1 . 0 ... ... 0 111 01 ....... @vldst_wn \
++                 p=1 size=1
++VLDSTB_W         111 . 110 0 a:1 0 1   . 0 ... ... 0 111 10 ....... @vldst_wn \
++                 p=0 w=1 size=2
++VLDSTB_W         111 . 110 1 a:1 0 w:1 . 0 ... ... 0 111 10 ....... @vldst_wn \
++                 p=1 size=2
++VLDSTH_W         111 . 110 0 a:1 0 1   . 1 ... ... 0 111 10 ....... @vldst_wn \
++                 p=0 w=1 size=2
++VLDSTH_W         111 . 110 1 a:1 0 w:1 . 1 ... ... 0 111 10 ....... @vldst_wn \
++                 p=1 size=2
++
+ # Non-widening loads/stores (P=0 W=0 is 'related encoding')
+ VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111100 .......   @vldr_vstr \
+                  size=0 p=0 w=1
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve_helper.c
++++ b/target/arm/mve_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_VSTR(vstrb, 1, stb, 1, uint8_t)
+ DO_VSTR(vstrh, 2, stw, 2, uint16_t)
+ DO_VSTR(vstrw, 4, stl, 4, uint32_t)
++DO_VLDR(vldrb_sh, 1, ldsb, 2, int16_t)
++DO_VLDR(vldrb_sw, 1, ldsb, 4, int32_t)
++DO_VLDR(vldrb_uh, 1, ldub, 2, uint16_t)
++DO_VLDR(vldrb_uw, 1, ldub, 4, uint32_t)
++DO_VLDR(vldrh_sw, 2, ldsw, 4, int32_t)
++DO_VLDR(vldrh_uw, 2, lduw, 4, uint32_t)
++
++DO_VSTR(vstrb_h, 1, stb, 2, int16_t)
++DO_VSTR(vstrb_w, 1, stb, 4, int32_t)
++DO_VSTR(vstrh_w, 2, stw, 4, int32_t)
++
+ #undef DO_VLDR
+ #undef DO_VSTR
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
+     };
+     return do_ldst(s, a, ldstfns[a->size][a->l]);
+ }
++
++#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST)                  \
++    static bool trans_##OP(DisasContext *s, arg_VLDR_VSTR *a)   \
++    {                                                           \
++        static MVEGenLdStFn * const ldstfns[2][2] = {           \
++            { gen_helper_mve_##ST, gen_helper_mve_##SLD },      \
++            { NULL, gen_helper_mve_##ULD },                     \
++        };                                                      \
++        return do_ldst(s, a, ldstfns[a->u][a->l]);              \
++    }
++
++DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
++DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
++DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
+--
+.20.1

-New patch
+[PULL 14/57] target/arm: Implement MVE VCLZ
+Implement the MVE VCLZ insn (and the necessary machinery
 for MVE 1-input vector ops).
 Note that for non-load instructions predication is always performed
 at a byte level granularity regardless of element size (R_ZLSJ),
 and so the masking logic here differs from that used in the VLDR
 and VSTR helpers.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-4-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  4 ++
  target/arm/mve.decode      |  8 ++++
  target/arm/mve_helper.c    | 82 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 38 ++++++++++++++++++
 files changed, 132 insertions(+)
 diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vldrh_uw, TCG_CALL_NO_WG, void, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vstrb_h, TCG_CALL_NO_WG, void, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vstrb_w, TCG_CALL_NO_WG, void, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vstrh_w, TCG_CALL_NO_WG, void, env, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(mve_vclzb, TCG_CALL_NO_WG, void, env, ptr, ptr)
 +DEF_HELPER_FLAGS_3(mve_vclzh, TCG_CALL_NO_WG, void, env, ptr, ptr)
 +DEF_HELPER_FLAGS_3(mve_vclzw, TCG_CALL_NO_WG, void, env, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  #
  %qd 22:1 13:3
 +%qm 5:1 1:3
  &vldr_vstr rn qd imm p a w size l u
 +&1op qd qm size
  @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
  # Note that both Rn and Qd are 3 bits only (no D bit)
  @vldst_wn ... u:1 ... . . . . l:1 . rn:3 qd:3 . ... .. imm:7 &vldr_vstr
 +@1op .... .... .... size:2 .. .... .... .... .... &1op qd=%qd qm=%qm
 +
  # Vector loads and stores
  # Widening loads and narrowing stores:
@@ -XXX,XX +XXX,XX @@ VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111101 .......   @vldr_vstr \
                   size=1 p=1
  VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
                   size=2 p=1
 +
 +# Vector miscellaneous
 +
 +VCLZ             1111 1111 1 . 11 .. 00 ... 0 0100 11 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VSTR(vstrh_w, 2, stw, 4, int32_t)
  #undef DO_VLDR
  #undef DO_VSTR
 +
 +/*
 + * The mergemask(D, R, M) macro performs the operation "*D = R" but
 + * storing only the bytes which correspond to 1 bits in M,
 + * leaving other bytes in *D unchanged. We use _Generic
 + * to select the correct implementation based on the type of D.
 + */
 +
 +static void mergemask_ub(uint8_t *d, uint8_t r, uint16_t mask)
 +{
 +    if (mask & 1) {
 +        *d = r;
 +    }
 +}
 +
 +static void mergemask_sb(int8_t *d, int8_t r, uint16_t mask)
 +{
 +    mergemask_ub((uint8_t *)d, r, mask);
 +}
 +
 +static void mergemask_uh(uint16_t *d, uint16_t r, uint16_t mask)
 +{
 +    uint16_t bmask = expand_pred_b_data[mask & 3];
 +    *d = (*d & ~bmask) | (r & bmask);
 +}
 +
 +static void mergemask_sh(int16_t *d, int16_t r, uint16_t mask)
 +{
 +    mergemask_uh((uint16_t *)d, r, mask);
 +}
 +
 +static void mergemask_uw(uint32_t *d, uint32_t r, uint16_t mask)
 +{
 +    uint32_t bmask = expand_pred_b_data[mask & 0xf];
 +    *d = (*d & ~bmask) | (r & bmask);
 +}
 +
 +static void mergemask_sw(int32_t *d, int32_t r, uint16_t mask)
 +{
 +    mergemask_uw((uint32_t *)d, r, mask);
 +}
 +
 +static void mergemask_uq(uint64_t *d, uint64_t r, uint16_t mask)
 +{
 +    uint64_t bmask = expand_pred_b_data[mask & 0xff];
 +    *d = (*d & ~bmask) | (r & bmask);
 +}
 +
 +static void mergemask_sq(int64_t *d, int64_t r, uint16_t mask)
 +{
 +    mergemask_uq((uint64_t *)d, r, mask);
 +}
 +
 +#define mergemask(D, R, M)                      \
 +    _Generic(D,                                 \
 +             uint8_t *: mergemask_ub,           \
 +             int8_t *:  mergemask_sb,           \
 +             uint16_t *: mergemask_uh,          \
 +             int16_t *:  mergemask_sh,          \
 +             uint32_t *: mergemask_uw,          \
 +             int32_t *:  mergemask_sw,          \
 +             uint64_t *: mergemask_uq,          \
 +             int64_t *:  mergemask_sq)(D, R, M)
 +
 +#define DO_1OP(OP, ESIZE, TYPE, FN)                                     \
 +    void HELPER(mve_##OP)(CPUARMState *env, void *vd, void *vm)         \
 +    {                                                                   \
 +        TYPE *d = vd, *m = vm;                                          \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +            mergemask(&d[H##ESIZE(e)], FN(m[H##ESIZE(e)]), mask);       \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
 +#define DO_CLZ_B(N)   (clz32(N) - 24)
 +#define DO_CLZ_H(N)   (clz32(N) - 16)
 +
 +DO_1OP(vclzb, 1, uint8_t, DO_CLZ_B)
 +DO_1OP(vclzh, 2, uint16_t, DO_CLZ_H)
 +DO_1OP(vclzw, 4, uint32_t, clz32)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
  #include "decode-mve.c.inc"
  typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
  DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
  DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
  DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
 +
 +static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
 +{
 +    TCGv_ptr qd, qm;
 +
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd | a->qm) ||
 +        !fn) {
 +        return false;
 +    }
 +
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    qd = mve_qreg_ptr(a->qd);
 +    qm = mve_qreg_ptr(a->qm);
 +    fn(cpu_env, qd, qm);
 +    tcg_temp_free_ptr(qd);
 +    tcg_temp_free_ptr(qm);
 +    mve_update_eci(s);
 +    return true;
 +}
 +
 +#define DO_1OP(INSN, FN)                                        \
 +    static bool trans_##INSN(DisasContext *s, arg_1op *a)       \
 +    {                                                           \
 +        static MVEGenOneOpFn * const fns[] = {                  \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +            gen_helper_mve_##FN##w,                             \
 +            NULL,                                               \
 +        };                                                      \
 +        return do_1op(s, a, fns[a->size]);                      \
 +    }
 +
 +DO_1OP(VCLZ, vclz)
 --
 .20.1

-[PULL 22/48] hw/arm/bcm2836: QOM'ify more by adding class_init() to each SoC type
+[PULL 15/57] target/arm: Implement MVE VCLS
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the MVE VCLS insn.
-Remove usage of TypeInfo::class_data. Instead fill the fields in
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-the corresponding class_init().
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-5-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 4 ++++
  target/arm/mve.decode      | 1 +
  target/arm/mve_helper.c    | 7 +++++++
  target/arm/translate-mve.c | 1 +
 files changed, 13 insertions(+)
-So far all children use the same values for almost all fields,
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 but we are going to add the BCM2711/BCM2838 SoC for the raspi4
 machine which use different fields.
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-3-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/bcm2836.c | 108 ++++++++++++++++++++++-------------------------
 file changed, 51 insertions(+), 57 deletions(-)
 diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/bcm2836.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/bcm2836.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vstrb_h, TCG_CALL_NO_WG, void, env, ptr, i32)
- #include "hw/arm/raspi_platform.h"
+ DEF_HELPER_FLAGS_3(mve_vstrb_w, TCG_CALL_NO_WG, void, env, ptr, i32)
- #include "hw/sysbus.h"
+ DEF_HELPER_FLAGS_3(mve_vstrh_w, TCG_CALL_NO_WG, void, env, ptr, i32)
--typedef struct BCM283XInfo BCM283XInfo;
++DEF_HELPER_FLAGS_3(mve_vclsb, TCG_CALL_NO_WG, void, env, ptr, ptr)
--
++DEF_HELPER_FLAGS_3(mve_vclsh, TCG_CALL_NO_WG, void, env, ptr, ptr)
- typedef struct BCM283XClass {
++DEF_HELPER_FLAGS_3(mve_vclsw, TCG_CALL_NO_WG, void, env, ptr, ptr)
-     /*< private >*/
++
-     DeviceClass parent_class;
+ DEF_HELPER_FLAGS_3(mve_vclzb, TCG_CALL_NO_WG, void, env, ptr, ptr)
-     /*< public >*/
+ DEF_HELPER_FLAGS_3(mve_vclzh, TCG_CALL_NO_WG, void, env, ptr, ptr)
--    const BCM283XInfo *info;
+ DEF_HELPER_FLAGS_3(mve_vclzw, TCG_CALL_NO_WG, void, env, ptr, ptr)
--} BCM283XClass;
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
--
+index XXXXXXX..XXXXXXX 100644
--struct BCM283XInfo {
+--- a/target/arm/mve.decode
-     const char *name;
++++ b/target/arm/mve.decode
-     const char *cpu_type;
+@@ -XXX,XX +XXX,XX @@ VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
-     hwaddr peri_base; /* Peripheral base address seen by the CPU */
-     hwaddr ctrl_base; /* Interrupt controller and mailboxes etc. */
+ # Vector miscellaneous
-     int clusterid;
--};
++VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
-+} BCM283XClass;
+ VCLZ             1111 1111 1 . 11 .. 00 ... 0 0100 11 . 0 ... 0 @1op
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
- #define BCM283X_CLASS(klass) \
+index XXXXXXX..XXXXXXX 100644
-     OBJECT_CLASS_CHECK(BCM283XClass, (klass), TYPE_BCM283X)
+--- a/target/arm/mve_helper.c
- #define BCM283X_GET_CLASS(obj) \
++++ b/target/arm/mve_helper.c
-     OBJECT_GET_CLASS(BCM283XClass, (obj), TYPE_BCM283X)
+@@ -XXX,XX +XXX,XX @@ static void mergemask_sq(int64_t *d, int64_t r, uint16_t mask)
+         mve_advance_vpt(env);                                           \
 -static const BCM283XInfo bcm283x_socs[] = {
 -    {
 -        .name = TYPE_BCM2836,
 -        .cpu_type = ARM_CPU_TYPE_NAME("cortex-a7"),
 -        .peri_base = 0x3f000000,
 -        .ctrl_base = 0x40000000,
 -        .clusterid = 0xf,
 -    },
 -#ifdef TARGET_AARCH64
 -    {
 -        .name = TYPE_BCM2837,
 -        .cpu_type = ARM_CPU_TYPE_NAME("cortex-a53"),
 -        .peri_base = 0x3f000000,
 -        .ctrl_base = 0x40000000,
 -        .clusterid = 0x0,
 -    },
 -#endif
 -};
 -
  static void bcm2836_init(Object *obj)
  {
      BCM283XState *s = BCM283X(obj);
      BCM283XClass *bc = BCM283X_GET_CLASS(obj);
 -    const BCM283XInfo *info = bc->info;
      int n;
      for (n = 0; n < BCM283X_NCPUS; n++) {
          object_initialize_child(obj, "cpu[*]", &s->cpu[n].core,
 -                                info->cpu_type);
 +                                bc->cpu_type);
      }
-     object_initialize_child(obj, "control", &s->control, TYPE_BCM2836_CONTROL);
++#define DO_CLS_B(N)   (clrsb32(N) - 24)
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
++#define DO_CLS_H(N)   (clrsb32(N) - 16)
- {
++
-     BCM283XState *s = BCM283X(dev);
++DO_1OP(vclsb, 1, int8_t, DO_CLS_B)
-     BCM283XClass *bc = BCM283X_GET_CLASS(dev);
++DO_1OP(vclsh, 2, int16_t, DO_CLS_H)
--    const BCM283XInfo *info = bc->info;
++DO_1OP(vclsw, 4, int32_t, clrsb32)
-     Object *obj;
++
-     int n;
+ #define DO_CLZ_B(N)   (clz32(N) - 24)
+ #define DO_CLZ_H(N)   (clz32(N) - 16)
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
-                               "sd-bus");
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
-     sysbus_mmio_map_overlap(SYS_BUS_DEVICE(&s->peripherals), 0,
+--- a/target/arm/translate-mve.c
--                            info->peri_base, 1);
++++ b/target/arm/translate-mve.c
-+                            bc->peri_base, 1);
+@@ -XXX,XX +XXX,XX @@ static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
      /* bcm2836 interrupt controller (and mailboxes, etc.) */
      if (!sysbus_realize(SYS_BUS_DEVICE(&s->control), errp)) {
          return;
      }
--    sysbus_mmio_map(SYS_BUS_DEVICE(&s->control), 0, info->ctrl_base);
+ DO_1OP(VCLZ, vclz)
-+    sysbus_mmio_map(SYS_BUS_DEVICE(&s->control), 0, bc->ctrl_base);
++DO_1OP(VCLS, vcls)
      sysbus_connect_irq(SYS_BUS_DEVICE(&s->peripherals), 0,
          qdev_get_gpio_in_named(DEVICE(&s->control), "gpu-irq", 0));
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
      for (n = 0; n < BCM283X_NCPUS; n++) {
          /* TODO: this should be converted to a property of ARM_CPU */
 -        s->cpu[n].core.mp_affinity = (info->clusterid << 8) | n;
 +        s->cpu[n].core.mp_affinity = (bc->clusterid << 8) | n;
          /* set periphbase/CBAR value for CPU-local registers */
          if (!object_property_set_int(OBJECT(&s->cpu[n].core), "reset-cbar",
 -                                     info->peri_base, errp)) {
 +                                     bc->peri_base, errp)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static Property bcm2836_props[] = {
  static void bcm283x_class_init(ObjectClass *oc, void *data)
  {
      DeviceClass *dc = DEVICE_CLASS(oc);
 -    BCM283XClass *bc = BCM283X_CLASS(oc);
 -    bc->info = data;
 -    dc->realize = bcm2836_realize;
 -    device_class_set_props(dc, bcm2836_props);
      /* Reason: Must be wired up in code (see raspi_init() function) */
      dc->user_creatable = false;
  }
 -static const TypeInfo bcm283x_type_info = {
 -    .name = TYPE_BCM283X,
 -    .parent = TYPE_DEVICE,
 -    .instance_size = sizeof(BCM283XState),
 -    .instance_init = bcm2836_init,
 -    .class_size = sizeof(BCM283XClass),
 -    .abstract = true,
 +static void bcm2836_class_init(ObjectClass *oc, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(oc);
 +    BCM283XClass *bc = BCM283X_CLASS(oc);
 +
 +    bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a7");
 +    bc->peri_base = 0x3f000000;
 +    bc->ctrl_base = 0x40000000;
 +    bc->clusterid = 0xf;
 +    dc->realize = bcm2836_realize;
 +    device_class_set_props(dc, bcm2836_props);
  };
 -static void bcm2836_register_types(void)
 +#ifdef TARGET_AARCH64
 +static void bcm2837_class_init(ObjectClass *oc, void *data)
  {
 -    int i;
 +    DeviceClass *dc = DEVICE_CLASS(oc);
 +    BCM283XClass *bc = BCM283X_CLASS(oc);
 -    type_register_static(&bcm283x_type_info);
 -    for (i = 0; i < ARRAY_SIZE(bcm283x_socs); i++) {
 -        TypeInfo ti = {
 -            .name = bcm283x_socs[i].name,
 -            .parent = TYPE_BCM283X,
 -            .class_init = bcm283x_class_init,
 -            .class_data = (void *) &bcm283x_socs[i],
 -        };
 -        type_register(&ti);
 +    bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a53");
 +    bc->peri_base = 0x3f000000;
 +    bc->ctrl_base = 0x40000000;
 +    bc->clusterid = 0x0;
 +    dc->realize = bcm2836_realize;
 +    device_class_set_props(dc, bcm2836_props);
 +};
 +#endif
 +
 +static const TypeInfo bcm283x_types[] = {
 +    {
 +        .name           = TYPE_BCM2836,
 +        .parent         = TYPE_BCM283X,
 +        .class_init     = bcm2836_class_init,
 +#ifdef TARGET_AARCH64
 +    }, {
 +        .name           = TYPE_BCM2837,
 +        .parent         = TYPE_BCM283X,
 +        .class_init     = bcm2837_class_init,
 +#endif
 +    }, {
 +        .name           = TYPE_BCM283X,
 +        .parent         = TYPE_DEVICE,
 +        .instance_size  = sizeof(BCM283XState),
 +        .instance_init  = bcm2836_init,
 +        .class_size     = sizeof(BCM283XClass),
 +        .class_init     = bcm283x_class_init,
 +        .abstract       = true,
      }
 -}
 +};
 -type_init(bcm2836_register_types)
 +DEFINE_TYPES(bcm283x_types)
 --
 .20.1

-[PULL 18/48] hw/arm/npcm7xx: Add EHCI and OHCI controllers
+[PULL 16/57] target/arm: Implement MVE VREV16, VREV32, VREV64
-From: Havard Skinnemoen <hskinnemoen@google.com>
+Implement the MVE instructions VREV16, VREV32 and VREV64.
-The NPCM730 and NPCM750 chips have a single USB host port shared between
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-a USB 2.0 EHCI host controller and a USB 1.1 OHCI host controller. This
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-adds support for both of them.
+Message-id: 20210617121628.20116-6-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  7 +++++++
  target/arm/mve.decode      |  4 ++++
  target/arm/mve_helper.c    |  7 +++++++
  target/arm/translate-mve.c | 33 +++++++++++++++++++++++++++++++++
 files changed, 51 insertions(+)
-Testing notes:
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
   * With -device usb-kbd, qemu will automatically insert a full-speed
     hub, and the keyboard becomes controlled by the OHCI controller.
   * With -device usb-kbd,bus=usb-bus.0,port=1, the keyboard is directly
     attached to the port without any hubs, and the device becomes
     controlled by the EHCI controller since it's high speed capable.
   * With -device usb-kbd,bus=usb-bus.0,port=1,usb_version=1, the
     keyboard is directly attached to the port, but it only advertises
     itself as full-speed capable, so it becomes controlled by the OHCI
     controller.
 In all cases, the keyboard device enumerates correctly.
 Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
 Reviewed-by: Gerd Hoffmann <kraxel@redhat.com>
 Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  docs/system/arm/nuvoton.rst |  2 +-
  hw/usb/hcd-ehci.h           |  1 +
  include/hw/arm/npcm7xx.h    |  4 ++++
  hw/arm/npcm7xx.c            | 27 +++++++++++++++++++++++++--
  hw/usb/hcd-ehci-sysbus.c    | 19 +++++++++++++++++++
 files changed, 50 insertions(+), 3 deletions(-)
 diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
---- a/docs/system/arm/nuvoton.rst
+--- a/target/arm/helper-mve.h
-+++ b/docs/system/arm/nuvoton.rst
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ Supported devices
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vclsw, TCG_CALL_NO_WG, void, env, ptr, ptr)
-  * OTP controllers (no protection features)
+ DEF_HELPER_FLAGS_3(mve_vclzb, TCG_CALL_NO_WG, void, env, ptr, ptr)
-  * Flash Interface Unit (FIU; no protection features)
+ DEF_HELPER_FLAGS_3(mve_vclzh, TCG_CALL_NO_WG, void, env, ptr, ptr)
-  * Random Number Generator (RNG)
+ DEF_HELPER_FLAGS_3(mve_vclzw, TCG_CALL_NO_WG, void, env, ptr, ptr)
-+ * USB host (USBH)
++
++DEF_HELPER_FLAGS_3(mve_vrev16b, TCG_CALL_NO_WG, void, env, ptr, ptr)
- Missing devices
++DEF_HELPER_FLAGS_3(mve_vrev32b, TCG_CALL_NO_WG, void, env, ptr, ptr)
- ---------------
++DEF_HELPER_FLAGS_3(mve_vrev32h, TCG_CALL_NO_WG, void, env, ptr, ptr)
-@@ -XXX,XX +XXX,XX @@ Missing devices
++DEF_HELPER_FLAGS_3(mve_vrev64b, TCG_CALL_NO_WG, void, env, ptr, ptr)
-    * eSPI slave interface
++DEF_HELPER_FLAGS_3(mve_vrev64h, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vrev64w, TCG_CALL_NO_WG, void, env, ptr, ptr)
-  * Ethernet controllers (GMAC and EMC)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 - * USB host (USBH)
   * USB device (USBD)
   * SMBus controller (SMBF)
   * Peripheral SPI controller (PSPI)
 diff --git a/hw/usb/hcd-ehci.h b/hw/usb/hcd-ehci.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/usb/hcd-ehci.h
+--- a/target/arm/mve.decode
-+++ b/hw/usb/hcd-ehci.h
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ struct EHCIPCIState {
+@@ -XXX,XX +XXX,XX @@ VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
- #define TYPE_PLATFORM_EHCI "platform-ehci-usb"
- #define TYPE_EXYNOS4210_EHCI "exynos4210-ehci-usb"
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
- #define TYPE_AW_H3_EHCI "aw-h3-ehci-usb"
+ VCLZ             1111 1111 1 . 11 .. 00 ... 0 0100 11 . 0 ... 0 @1op
-+#define TYPE_NPCM7XX_EHCI "npcm7xx-ehci-usb"
++
- #define TYPE_TEGRA2_EHCI "tegra2-ehci-usb"
++VREV16           1111 1111 1 . 11 .. 00 ... 0 0001 01 . 0 ... 0 @1op
- #define TYPE_PPC4xx_EHCI "ppc4xx-ehci-usb"
++VREV32           1111 1111 1 . 11 .. 00 ... 0 0000 11 . 0 ... 0 @1op
- #define TYPE_FUSBH200_EHCI "fusbh200-ehci-usb"
++VREV64           1111 1111 1 . 11 .. 00 ... 0 0000 01 . 0 ... 0 @1op
-diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/npcm7xx.h
+--- a/target/arm/mve_helper.c
-+++ b/include/hw/arm/npcm7xx.h
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DO_1OP(vclsw, 4, int32_t, clrsb32)
- #include "hw/nvram/npcm7xx_otp.h"
+ DO_1OP(vclzb, 1, uint8_t, DO_CLZ_B)
- #include "hw/timer/npcm7xx_timer.h"
+ DO_1OP(vclzh, 2, uint16_t, DO_CLZ_H)
- #include "hw/ssi/npcm7xx_fiu.h"
+ DO_1OP(vclzw, 4, uint32_t, clz32)
-+#include "hw/usb/hcd-ehci.h"
++
-+#include "hw/usb/hcd-ohci.h"
++DO_1OP(vrev16b, 2, uint16_t, bswap16)
- #include "target/arm/cpu.h"
++DO_1OP(vrev32b, 4, uint32_t, bswap32)
++DO_1OP(vrev32h, 4, uint32_t, hswap32)
- #define NPCM7XX_MAX_NUM_CPUS    (2)
++DO_1OP(vrev64b, 8, uint64_t, bswap64)
-@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
++DO_1OP(vrev64h, 8, uint64_t, hswap64)
-     NPCM7xxOTPState     fuse_array;
++DO_1OP(vrev64w, 8, uint64_t, wswap64)
-     NPCM7xxMCState      mc;
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
      NPCM7xxRNGState     rng;
 +    EHCISysBusState     ehci;
 +    OHCISysBusState     ohci;
      NPCM7xxFIUState     fiu[2];
  } NPCM7xxState;
 diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/npcm7xx.c
+--- a/target/arm/translate-mve.c
-+++ b/hw/arm/npcm7xx.c
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
- #define NPCM7XX_MC_BA           (0xf0824000)
- #define NPCM7XX_RNG_BA          (0xf000b000)
+ DO_1OP(VCLZ, vclz)
+ DO_1OP(VCLS, vcls)
 +/* USB Host modules */
 +#define NPCM7XX_EHCI_BA         (0xf0806000)
 +#define NPCM7XX_OHCI_BA         (0xf0807000)
 +
- /* Internal AHB SRAM */
++static bool trans_VREV16(DisasContext *s, arg_1op *a)
  #define NPCM7XX_RAM3_BA         (0xc0008000)
  #define NPCM7XX_RAM3_SZ         (4 * KiB)
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
      NPCM7XX_WDG0_IRQ            = 47,   /* Timer Module 0 Watchdog */
      NPCM7XX_WDG1_IRQ,                   /* Timer Module 1 Watchdog */
      NPCM7XX_WDG2_IRQ,                   /* Timer Module 2 Watchdog */
 +    NPCM7XX_EHCI_IRQ            = 61,
 +    NPCM7XX_OHCI_IRQ            = 62,
  };
  /* Total number of GIC interrupts, including internal Cortex-A9 interrupts. */
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
          object_initialize_child(obj, "tim[*]", &s->tim[i], TYPE_NPCM7XX_TIMER);
      }
 +    object_initialize_child(obj, "ehci", &s->ehci, TYPE_NPCM7XX_EHCI);
 +    object_initialize_child(obj, "ohci", &s->ohci, TYPE_SYSBUS_OHCI);
 +
      QEMU_BUILD_BUG_ON(ARRAY_SIZE(npcm7xx_fiu) != ARRAY_SIZE(s->fiu));
      for (i = 0; i < ARRAY_SIZE(s->fiu); i++) {
          object_initialize_child(obj, npcm7xx_fiu[i].name, &s->fiu[i],
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
      sysbus_realize(SYS_BUS_DEVICE(&s->rng), &error_abort);
      sysbus_mmio_map(SYS_BUS_DEVICE(&s->rng), 0, NPCM7XX_RNG_BA);
 +    /* USB Host */
 +    object_property_set_bool(OBJECT(&s->ehci), "companion-enable", true,
 +                             &error_abort);
 +    sysbus_realize(SYS_BUS_DEVICE(&s->ehci), &error_abort);
 +    sysbus_mmio_map(SYS_BUS_DEVICE(&s->ehci), 0, NPCM7XX_EHCI_BA);
 +    sysbus_connect_irq(SYS_BUS_DEVICE(&s->ehci), 0,
 +                       npcm7xx_irq(s, NPCM7XX_EHCI_IRQ));
 +
 +    object_property_set_str(OBJECT(&s->ohci), "masterbus", "usb-bus.0",
 +                            &error_abort);
 +    object_property_set_uint(OBJECT(&s->ohci), "num-ports", 1, &error_abort);
 +    sysbus_realize(SYS_BUS_DEVICE(&s->ohci), &error_abort);
 +    sysbus_mmio_map(SYS_BUS_DEVICE(&s->ohci), 0, NPCM7XX_OHCI_BA);
 +    sysbus_connect_irq(SYS_BUS_DEVICE(&s->ohci), 0,
 +                       npcm7xx_irq(s, NPCM7XX_OHCI_IRQ));
 +
      /*
       * Flash Interface Unit (FIU). Can fail if incorrect number of chip selects
       * specified, but this is a programming error.
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
      create_unimplemented_device("npcm7xx.mcphy",        0xf05f0000,  64 * KiB);
      create_unimplemented_device("npcm7xx.gmac1",        0xf0802000,   8 * KiB);
      create_unimplemented_device("npcm7xx.gmac2",        0xf0804000,   8 * KiB);
 -    create_unimplemented_device("npcm7xx.ehci",         0xf0806000,   4 * KiB);
 -    create_unimplemented_device("npcm7xx.ohci",         0xf0807000,   4 * KiB);
      create_unimplemented_device("npcm7xx.vcd",          0xf0810000,  64 * KiB);
      create_unimplemented_device("npcm7xx.ece",          0xf0820000,   8 * KiB);
      create_unimplemented_device("npcm7xx.vdma",         0xf0822000,   8 * KiB);
 diff --git a/hw/usb/hcd-ehci-sysbus.c b/hw/usb/hcd-ehci-sysbus.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/usb/hcd-ehci-sysbus.c
 +++ b/hw/usb/hcd-ehci-sysbus.c
@@ -XXX,XX +XXX,XX @@ static const TypeInfo ehci_aw_h3_type_info = {
      .class_init    = ehci_aw_h3_class_init,
  };
 +static void ehci_npcm7xx_class_init(ObjectClass *oc, void *data)
 +{
-+    SysBusEHCIClass *sec = SYS_BUS_EHCI_CLASS(oc);
++    static MVEGenOneOpFn * const fns[] = {
-+    DeviceClass *dc = DEVICE_CLASS(oc);
++        gen_helper_mve_vrev16b,
-+
++        NULL,
-+    sec->capsbase = 0x0;
++        NULL,
-+    sec->opregbase = 0x10;
++        NULL,
-+    sec->portscbase = 0x44;
++    };
-+    sec->portnr = 1;
++    return do_1op(s, a, fns[a->size]);
 +    set_bit(DEVICE_CATEGORY_USB, dc->categories);
 +}
 +
-+static const TypeInfo ehci_npcm7xx_type_info = {
++static bool trans_VREV32(DisasContext *s, arg_1op *a)
-+    .name          = TYPE_NPCM7XX_EHCI,
++{
-+    .parent        = TYPE_SYS_BUS_EHCI,
++    static MVEGenOneOpFn * const fns[] = {
-+    .class_init    = ehci_npcm7xx_class_init,
++        gen_helper_mve_vrev32b,
-+};
++        gen_helper_mve_vrev32h,
 +        NULL,
 +        NULL,
 +    };
 +    return do_1op(s, a, fns[a->size]);
 +}
 +
- static void ehci_tegra2_class_init(ObjectClass *oc, void *data)
++static bool trans_VREV64(DisasContext *s, arg_1op *a)
- {
++{
-     SysBusEHCIClass *sec = SYS_BUS_EHCI_CLASS(oc);
++    static MVEGenOneOpFn * const fns[] = {
-@@ -XXX,XX +XXX,XX @@ static void ehci_sysbus_register_types(void)
++        gen_helper_mve_vrev64b,
-     type_register_static(&ehci_platform_type_info);
++        gen_helper_mve_vrev64h,
-     type_register_static(&ehci_exynos4210_type_info);
++        gen_helper_mve_vrev64w,
-     type_register_static(&ehci_aw_h3_type_info);
++        NULL,
-+    type_register_static(&ehci_npcm7xx_type_info);
++    };
-     type_register_static(&ehci_tegra2_type_info);
++    return do_1op(s, a, fns[a->size]);
-     type_register_static(&ehci_ppc4xx_type_info);
++}
      type_register_static(&ehci_fusbh200_type_info);
 --
 .20.1

-New patch
+[PULL 17/57] target/arm: Implement MVE VMVN (register)
+Implement the MVE VMVN(register) operation.  Note that for
+predication this operation is byte-by-byte.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-7-peter.maydell@linaro.org
+---
+ target/arm/helper-mve.h    | 2 ++
+ target/arm/mve.decode      | 3 +++
+ target/arm/mve_helper.c    | 4 ++++
+ target/arm/translate-mve.c | 5 +++++
+files changed, 14 insertions(+)
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper-mve.h
++++ b/target/arm/helper-mve.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vrev32h, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vrev64b, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vrev64h, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vrev64w, TCG_CALL_NO_WG, void, env, ptr, ptr)
++
++DEF_HELPER_FLAGS_3(mve_vmvn, TCG_CALL_NO_WG, void, env, ptr, ptr)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve.decode
++++ b/target/arm/mve.decode
+@@ -XXX,XX +XXX,XX @@
+ @vldst_wn ... u:1 ... . . . . l:1 . rn:3 qd:3 . ... .. imm:7 &vldr_vstr
+ @1op .... .... .... size:2 .. .... .... .... .... &1op qd=%qd qm=%qm
++@1op_nosz .... .... .... .... .... .... .... .... &1op qd=%qd qm=%qm size=0
+ # Vector loads and stores
+@@ -XXX,XX +XXX,XX @@ VCLZ             1111 1111 1 . 11 .. 00 ... 0 0100 11 . 0 ... 0 @1op
+ VREV16           1111 1111 1 . 11 .. 00 ... 0 0001 01 . 0 ... 0 @1op
+ VREV32           1111 1111 1 . 11 .. 00 ... 0 0000 11 . 0 ... 0 @1op
+ VREV64           1111 1111 1 . 11 .. 00 ... 0 0000 01 . 0 ... 0 @1op
++
++VMVN             1111 1111 1 . 11 00 00 ... 0 0101 11 . 0 ... 0 @1op_nosz
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve_helper.c
++++ b/target/arm/mve_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_1OP(vrev32h, 4, uint32_t, hswap32)
+ DO_1OP(vrev64b, 8, uint64_t, bswap64)
+ DO_1OP(vrev64h, 8, uint64_t, hswap64)
+ DO_1OP(vrev64w, 8, uint64_t, wswap64)
++
++#define DO_NOT(N) (~(N))
++
++DO_1OP(vmvn, 8, uint64_t, DO_NOT)
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_VREV64(DisasContext *s, arg_1op *a)
+     };
+     return do_1op(s, a, fns[a->size]);
+ }
++
++static bool trans_VMVN(DisasContext *s, arg_1op *a)
++{
++    return do_1op(s, a, gen_helper_mve_vmvn);
++}
+--
+.20.1

-New patch
+[PULL 18/57] target/arm: Implement MVE VABS
+Implement the MVE VABS functions (both integer and floating point).
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-8-peter.maydell@linaro.org
+---
+ target/arm/helper-mve.h    |  6 ++++++
+ target/arm/mve.decode      |  3 +++
+ target/arm/mve_helper.c    | 13 +++++++++++++
+ target/arm/translate-mve.c | 15 +++++++++++++++
+files changed, 37 insertions(+)
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper-mve.h
++++ b/target/arm/helper-mve.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vrev64h, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vrev64w, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vmvn, TCG_CALL_NO_WG, void, env, ptr, ptr)
++
++DEF_HELPER_FLAGS_3(mve_vabsb, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vabsh, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vabsw, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vfabsh, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vfabss, TCG_CALL_NO_WG, void, env, ptr, ptr)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve.decode
++++ b/target/arm/mve.decode
+@@ -XXX,XX +XXX,XX @@ VREV32           1111 1111 1 . 11 .. 00 ... 0 0000 11 . 0 ... 0 @1op
+ VREV64           1111 1111 1 . 11 .. 00 ... 0 0000 01 . 0 ... 0 @1op
+ VMVN             1111 1111 1 . 11 00 00 ... 0 0101 11 . 0 ... 0 @1op_nosz
++
++VABS             1111 1111 1 . 11 .. 01 ... 0 0011 01 . 0 ... 0 @1op
++VABS_fp          1111 1111 1 . 11 .. 01 ... 0 0111 01 . 0 ... 0 @1op
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve_helper.c
++++ b/target/arm/mve_helper.c
+@@ -XXX,XX +XXX,XX @@
+ #include "exec/helper-proto.h"
+ #include "exec/cpu_ldst.h"
+ #include "exec/exec-all.h"
++#include "tcg/tcg.h"
+ static uint16_t mve_element_mask(CPUARMState *env)
+ {
+@@ -XXX,XX +XXX,XX @@ DO_1OP(vrev64w, 8, uint64_t, wswap64)
+ #define DO_NOT(N) (~(N))
+ DO_1OP(vmvn, 8, uint64_t, DO_NOT)
++
++#define DO_ABS(N) ((N) < 0 ? -(N) : (N))
++#define DO_FABSH(N)  ((N) & dup_const(MO_16, 0x7fff))
++#define DO_FABSS(N)  ((N) & dup_const(MO_32, 0x7fffffff))
++
++DO_1OP(vabsb, 1, int8_t, DO_ABS)
++DO_1OP(vabsh, 2, int16_t, DO_ABS)
++DO_1OP(vabsw, 4, int32_t, DO_ABS)
++
++/* We can do these 64 bits at a time */
++DO_1OP(vfabsh, 8, uint64_t, DO_FABSH)
++DO_1OP(vfabss, 8, uint64_t, DO_FABSS)
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
+ DO_1OP(VCLZ, vclz)
+ DO_1OP(VCLS, vcls)
++DO_1OP(VABS, vabs)
+ static bool trans_VREV16(DisasContext *s, arg_1op *a)
+ {
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMVN(DisasContext *s, arg_1op *a)
+ {
+     return do_1op(s, a, gen_helper_mve_vmvn);
+ }
++
++static bool trans_VABS_fp(DisasContext *s, arg_1op *a)
++{
++    static MVEGenOneOpFn * const fns[] = {
++        NULL,
++        gen_helper_mve_vfabsh,
++        gen_helper_mve_vfabss,
++        NULL,
++    };
++    if (!dc_isar_feature(aa32_mve_fp, s)) {
++        return false;
++    }
++    return do_1op(s, a, fns[a->size]);
++}
+--
+.20.1

-New patch
+[PULL 19/57] target/arm: Implement MVE VNEG
+Implement the MVE VNEG insn (both integer and floating point forms).
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-9-peter.maydell@linaro.org
+---
+ target/arm/helper-mve.h    |  6 ++++++
+ target/arm/mve.decode      |  2 ++
+ target/arm/mve_helper.c    | 12 ++++++++++++
+ target/arm/translate-mve.c | 15 +++++++++++++++
+files changed, 35 insertions(+)
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper-mve.h
++++ b/target/arm/helper-mve.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vabsh, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vabsw, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vfabsh, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vfabss, TCG_CALL_NO_WG, void, env, ptr, ptr)
++
++DEF_HELPER_FLAGS_3(mve_vnegb, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vnegh, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vnegw, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vfnegh, TCG_CALL_NO_WG, void, env, ptr, ptr)
++DEF_HELPER_FLAGS_3(mve_vfnegs, TCG_CALL_NO_WG, void, env, ptr, ptr)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve.decode
++++ b/target/arm/mve.decode
+@@ -XXX,XX +XXX,XX @@ VMVN             1111 1111 1 . 11 00 00 ... 0 0101 11 . 0 ... 0 @1op_nosz
+ VABS             1111 1111 1 . 11 .. 01 ... 0 0011 01 . 0 ... 0 @1op
+ VABS_fp          1111 1111 1 . 11 .. 01 ... 0 0111 01 . 0 ... 0 @1op
++VNEG             1111 1111 1 . 11 .. 01 ... 0 0011 11 . 0 ... 0 @1op
++VNEG_fp          1111 1111 1 . 11 .. 01 ... 0 0111 11 . 0 ... 0 @1op
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mve_helper.c
++++ b/target/arm/mve_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_1OP(vabsw, 4, int32_t, DO_ABS)
+ /* We can do these 64 bits at a time */
+ DO_1OP(vfabsh, 8, uint64_t, DO_FABSH)
+ DO_1OP(vfabss, 8, uint64_t, DO_FABSS)
++
++#define DO_NEG(N)    (-(N))
++#define DO_FNEGH(N) ((N) ^ dup_const(MO_16, 0x8000))
++#define DO_FNEGS(N) ((N) ^ dup_const(MO_32, 0x80000000))
++
++DO_1OP(vnegb, 1, int8_t, DO_NEG)
++DO_1OP(vnegh, 2, int16_t, DO_NEG)
++DO_1OP(vnegw, 4, int32_t, DO_NEG)
++
++/* We can do these 64 bits at a time */
++DO_1OP(vfnegh, 8, uint64_t, DO_FNEGH)
++DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
+ DO_1OP(VCLZ, vclz)
+ DO_1OP(VCLS, vcls)
+ DO_1OP(VABS, vabs)
++DO_1OP(VNEG, vneg)
+ static bool trans_VREV16(DisasContext *s, arg_1op *a)
+ {
+@@ -XXX,XX +XXX,XX @@ static bool trans_VABS_fp(DisasContext *s, arg_1op *a)
+     }
+     return do_1op(s, a, fns[a->size]);
+ }
++
++static bool trans_VNEG_fp(DisasContext *s, arg_1op *a)
++{
++    static MVEGenOneOpFn * const fns[] = {
++        NULL,
++        gen_helper_mve_vfnegh,
++        gen_helper_mve_vfnegs,
++        NULL,
++    };
++    if (!dc_isar_feature(aa32_mve_fp, s)) {
++        return false;
++    }
++    return do_1op(s, a, fns[a->size]);
++}
+--
+.20.1

-[PULL 24/48] hw/arm/bcm2836: Only provide "enabled-cpus" property to multicore SoCs
+[PULL 20/57] tcg: Make gen_dup_i32/i64() public as tcg_gen_dup_i32/i64
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+The Arm MVE VDUP implementation would like to be able to emit code to
 duplicate a byte or halfword value into an i32.  We have code to do
 this already in tcg-op-gvec.c, so all we need to do is make the
 functions global.
-It makes no sense to set enabled-cpus=0 on single core SoCs.
+For consistency with other functions made available to the frontends:
  * we rename to tcg_gen_dup_*
  * we expose both the _i32 and _i64 forms
  * we provide the #define for a _tl form
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+Suggested-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201024170127.3592182-5-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20210617121628.20116-10-peter.maydell@linaro.org
 ---
- hw/arm/bcm2836.c | 15 +++++++--------
+ include/tcg/tcg-op.h |  8 ++++++++
-file changed, 7 insertions(+), 8 deletions(-)
+ include/tcg/tcg.h    |  1 -
  tcg/tcg-op-gvec.c    | 20 ++++++++++----------
 files changed, 18 insertions(+), 11 deletions(-)
-diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
+diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/bcm2836.c
+--- a/include/tcg/tcg-op.h
-+++ b/hw/arm/bcm2836.c
++++ b/include/tcg/tcg-op.h
-@@ -XXX,XX +XXX,XX @@ typedef struct BCM283XClass {
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_umin_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
- #define BCM283X_GET_CLASS(obj) \
+ void tcg_gen_umax_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
-     OBJECT_GET_CLASS(BCM283XClass, (obj), TYPE_BCM283X)
+ void tcg_gen_abs_i32(TCGv_i32, TCGv_i32);
-+static Property bcm2836_enabled_cores_property =
++/* Replicate a value of size @vece from @in to all the lanes in @out */
-+    DEFINE_PROP_UINT32("enabled-cpus", BCM283XState, enabled_cpus, 0);
++void tcg_gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in);
 +
- static void bcm2836_init(Object *obj)
+ static inline void tcg_gen_discard_i32(TCGv_i32 arg)
  {
-     BCM283XState *s = BCM283X(obj);
+     tcg_gen_op1_i32(INDEX_op_discard, arg);
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_umin_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
-         object_initialize_child(obj, "cpu[*]", &s->cpu[n].core,
+ void tcg_gen_umax_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
-                                 bc->cpu_type);
+ void tcg_gen_abs_i64(TCGv_i64, TCGv_i64);
-     }
-+    if (bc->core_count > 1) {
++/* Replicate a value of size @vece from @in to all the lanes in @out */
-+        qdev_property_add_static(DEVICE(obj), &bcm2836_enabled_cores_property);
++void tcg_gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in);
-+        qdev_prop_set_uint32(DEVICE(obj), "enabled-cpus", bc->core_count);
++
-+    }
+ #if TCG_TARGET_REG_BITS == 64
+ static inline void tcg_gen_discard_i64(TCGv_i64 arg)
-     object_initialize_child(obj, "control", &s->control, TYPE_BCM2836_CONTROL);
+ {
+@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
+ #define tcg_gen_atomic_smax_fetch_tl tcg_gen_atomic_smax_fetch_i64
  #define tcg_gen_atomic_umax_fetch_tl tcg_gen_atomic_umax_fetch_i64
  #define tcg_gen_dup_tl_vec  tcg_gen_dup_i64_vec
 +#define tcg_gen_dup_tl tcg_gen_dup_i64
  #else
  #define tcg_gen_movi_tl tcg_gen_movi_i32
  #define tcg_gen_mov_tl tcg_gen_mov_i32
@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
  #define tcg_gen_atomic_smax_fetch_tl tcg_gen_atomic_smax_fetch_i32
  #define tcg_gen_atomic_umax_fetch_tl tcg_gen_atomic_umax_fetch_i32
  #define tcg_gen_dup_tl_vec  tcg_gen_dup_i32_vec
 +#define tcg_gen_dup_tl tcg_gen_dup_i32
  #endif
  #if UINTPTR_MAX == UINT32_MAX
 diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/tcg/tcg.h
 +++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ uint64_t dup_const(unsigned vece, uint64_t c);
          : (qemu_build_not_reached_always(), 0))                    \
       : dup_const(VECE, C))
 -
  /*
   * Memory helpers that will be used by TCG generated code.
   */
 diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg-op-gvec.c
 +++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ uint64_t (dup_const)(unsigned vece, uint64_t c)
  }
  /* Duplicate IN into OUT as per VECE.  */
 -static void gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
 +void tcg_gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
  {
      switch (vece) {
      case MO_8:
@@ -XXX,XX +XXX,XX @@ static void gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
      }
  }
--static Property bcm2836_props[] = {
+-static void gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in)
--    DEFINE_PROP_UINT32("enabled-cpus", BCM283XState, enabled_cpus,
++void tcg_gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in)
 -                       BCM283X_NCPUS),
 -    DEFINE_PROP_END_OF_LIST()
 -};
 -
  static void bcm283x_class_init(ObjectClass *oc, void *data)
  {
-     DeviceClass *dc = DEVICE_CLASS(oc);
+     switch (vece) {
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_class_init(ObjectClass *oc, void *data)
+     case MO_8:
-     bc->ctrl_base = 0x40000000;
+@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
-     bc->clusterid = 0xf;
+                 && (vece != MO_32 || !check_size_impl(oprsz, 4))) {
-     dc->realize = bcm2836_realize;
+                 t_64 = tcg_temp_new_i64();
--    device_class_set_props(dc, bcm2836_props);
+                 tcg_gen_extu_i32_i64(t_64, in_32);
- };
+-                gen_dup_i64(vece, t_64, t_64);
++                tcg_gen_dup_i64(vece, t_64, t_64);
- #ifdef TARGET_AARCH64
+             } else {
-@@ -XXX,XX +XXX,XX @@ static void bcm2837_class_init(ObjectClass *oc, void *data)
+                 t_32 = tcg_temp_new_i32();
-     bc->ctrl_base = 0x40000000;
+-                gen_dup_i32(vece, t_32, in_32);
-     bc->clusterid = 0x0;
++                tcg_gen_dup_i32(vece, t_32, in_32);
-     dc->realize = bcm2836_realize;
+             }
--    device_class_set_props(dc, bcm2836_props);
+         } else if (in_64) {
- };
+             /* We are given a 64-bit variable input.  */
- #endif
+             t_64 = tcg_temp_new_i64();
+-            gen_dup_i64(vece, t_64, in_64);
 +            tcg_gen_dup_i64(vece, t_64, in_64);
          } else {
              /* We are given a constant input.  */
              /* For 64-bit hosts, use 64-bit constants for "simple" constants
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_2s(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
      } else if (g->fni8 && check_size_impl(oprsz, 8)) {
          TCGv_i64 t64 = tcg_temp_new_i64();
 -        gen_dup_i64(g->vece, t64, c);
 +        tcg_gen_dup_i64(g->vece, t64, c);
          expand_2s_i64(dofs, aofs, oprsz, t64, g->scalar_first, g->fni8);
          tcg_temp_free_i64(t64);
      } else if (g->fni4 && check_size_impl(oprsz, 4)) {
          TCGv_i32 t32 = tcg_temp_new_i32();
          tcg_gen_extrl_i64_i32(t32, c);
 -        gen_dup_i32(g->vece, t32, t32);
 +        tcg_gen_dup_i32(g->vece, t32, t32);
          expand_2s_i32(dofs, aofs, oprsz, t32, g->scalar_first, g->fni4);
          tcg_temp_free_i32(t32);
      } else {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_ands(unsigned vece, uint32_t dofs, uint32_t aofs,
                         TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
  {
      TCGv_i64 tmp = tcg_temp_new_i64();
 -    gen_dup_i64(vece, tmp, c);
 +    tcg_gen_dup_i64(vece, tmp, c);
      tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ands);
      tcg_temp_free_i64(tmp);
  }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_xors(unsigned vece, uint32_t dofs, uint32_t aofs,
                         TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
  {
      TCGv_i64 tmp = tcg_temp_new_i64();
 -    gen_dup_i64(vece, tmp, c);
 +    tcg_gen_dup_i64(vece, tmp, c);
      tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_xors);
      tcg_temp_free_i64(tmp);
  }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_ors(unsigned vece, uint32_t dofs, uint32_t aofs,
                        TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
  {
      TCGv_i64 tmp = tcg_temp_new_i64();
 -    gen_dup_i64(vece, tmp, c);
 +    tcg_gen_dup_i64(vece, tmp, c);
      tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ors);
      tcg_temp_free_i64(tmp);
  }
 --
 .20.1

-[PULL 36/48] hw/misc/bcm2835_cprman: implement PLLs behaviour
+[PULL 21/57] target/arm: Implement MVE VDUP
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VDUP insn, which duplicates a value from
 a general-purpose register into every lane of a vector
 register (subject to predication).
-The CPRMAN PLLs generate a clock based on a prescaler, a multiplier and
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-a divider. The prescaler doubles the parent (xosc) frequency, then the
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-multiplier/divider are applied. The multiplier has an integer and a
+Message-id: 20210617121628.20116-11-peter.maydell@linaro.org
-fractional part.
+---
  target/arm/helper-mve.h    |  2 ++
  target/arm/mve.decode      | 10 ++++++++++
  target/arm/mve_helper.c    | 16 ++++++++++++++++
  target/arm/translate-mve.c | 27 +++++++++++++++++++++++++++
 files changed, 55 insertions(+)
-This commit also implements the CPRMAN CM_LOCK register. This register
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 reports which PLL is currently locked. We consider a PLL has being
 locked as soon as it is enabled (on real hardware, there is a delay
 after turning a PLL on, for it to stabilize).
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/misc/bcm2835_cprman_internals.h |  8 +++
  hw/misc/bcm2835_cprman.c                   | 64 +++++++++++++++++++++-
 files changed, 71 insertions(+), 1 deletion(-)
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman_internals.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/misc/bcm2835_cprman_internals.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ REG32(A2W_PLLD_FRAC, 0x1240)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vstrb_h, TCG_CALL_NO_WG, void, env, ptr, i32)
- REG32(A2W_PLLH_FRAC, 0x1260)
+ DEF_HELPER_FLAGS_3(mve_vstrb_w, TCG_CALL_NO_WG, void, env, ptr, i32)
- REG32(A2W_PLLB_FRAC, 0x12e0)
+ DEF_HELPER_FLAGS_3(mve_vstrh_w, TCG_CALL_NO_WG, void, env, ptr, i32)
-+/* misc registers */
++DEF_HELPER_FLAGS_3(mve_vdup, TCG_CALL_NO_WG, void, env, ptr, i32)
 +REG32(CM_LOCK, 0x114)
 +    FIELD(CM_LOCK, FLOCKH, 12, 1)
 +    FIELD(CM_LOCK, FLOCKD, 11, 1)
 +    FIELD(CM_LOCK, FLOCKC, 10, 1)
 +    FIELD(CM_LOCK, FLOCKB, 9, 1)
 +    FIELD(CM_LOCK, FLOCKA, 8, 1)
 +
- /*
+ DEF_HELPER_FLAGS_3(mve_vclsb, TCG_CALL_NO_WG, void, env, ptr, ptr)
-  * This field is common to all registers. Each register write value must match
+ DEF_HELPER_FLAGS_3(mve_vclsh, TCG_CALL_NO_WG, void, env, ptr, ptr)
-  * the CPRMAN_PASSWORD magic value in its 8 MSB.
+ DEF_HELPER_FLAGS_3(mve_vclsw, TCG_CALL_NO_WG, void, env, ptr, ptr)
-diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/bcm2835_cprman.c
+--- a/target/arm/mve.decode
-+++ b/hw/misc/bcm2835_cprman.c
++++ b/target/arm/mve.decode
 @@ -XXX,XX +XXX,XX @@
- /* PLL */
+ %qd 22:1 13:3
+ %qm 5:1 1:3
-+static bool pll_is_locked(const CprmanPllState *pll)
++%qn 7:1 17:3
  &vldr_vstr rn qd imm p a w size l u
  &1op qd qm size
@@ -XXX,XX +XXX,XX @@ VABS             1111 1111 1 . 11 .. 01 ... 0 0011 01 . 0 ... 0 @1op
  VABS_fp          1111 1111 1 . 11 .. 01 ... 0 0111 01 . 0 ... 0 @1op
  VNEG             1111 1111 1 . 11 .. 01 ... 0 0011 11 . 0 ... 0 @1op
  VNEG_fp          1111 1111 1 . 11 .. 01 ... 0 0111 11 . 0 ... 0 @1op
 +
 +&vdup qd rt size
 +# Qd is in the fields usually named Qn
 +@vdup            .... .... . . .. ... . rt:4 .... . . . . .... qd=%qn &vdup
 +
 +# B and E bits encode size, which we decode here to the usual size values
 +VDUP             1110 1110 1 1 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=0
 +VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 1 1 0000 @vdup size=1
 +VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=2
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ static void mergemask_sq(int64_t *d, int64_t r, uint16_t mask)
               uint64_t *: mergemask_uq,          \
               int64_t *:  mergemask_sq)(D, R, M)
 +void HELPER(mve_vdup)(CPUARMState *env, void *vd, uint32_t val)
 +{
-+    return !FIELD_EX32(*pll->reg_a2w_ctrl, A2W_PLLx_CTRL, PWRDN)
++    /*
-+        && !FIELD_EX32(*pll->reg_cm, CM_PLLx, ANARST);
++     * The generated code already replicated an 8 or 16 bit constant
 +     * into the 32-bit value, so we only need to write the 32-bit
 +     * value to all elements of the Qreg, allowing for predication.
 +     */
 +    uint32_t *d = vd;
 +    uint16_t mask = mve_element_mask(env);
 +    unsigned e;
 +    for (e = 0; e < 16 / 4; e++, mask >>= 4) {
 +        mergemask(&d[H4(e)], val, mask);
 +    }
 +    mve_advance_vpt(env);
 +}
 +
- static void pll_update(CprmanPllState *pll)
+ #define DO_1OP(OP, ESIZE, TYPE, FN)                                     \
- {
+     void HELPER(mve_##OP)(CPUARMState *env, void *vd, void *vm)         \
--    clock_update(pll->out, 0);
+     {                                                                   \
-+    uint64_t freq, ndiv, fdiv, pdiv;
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
  DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
  DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
 +static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
 +{
 +    TCGv_ptr qd;
 +    TCGv_i32 rt;
 +
-+    if (!pll_is_locked(pll)) {
++    if (!dc_isar_feature(aa32_mve, s) ||
-+        clock_update(pll->out, 0);
++        !mve_check_qreg_bank(s, a->qd)) {
-+        return;
++        return false;
 +    }
 +    if (a->rt == 13 || a->rt == 15) {
 +        /* UNPREDICTABLE; we choose to UNDEF */
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    pdiv = FIELD_EX32(*pll->reg_a2w_ctrl, A2W_PLLx_CTRL, PDIV);
++    qd = mve_qreg_ptr(a->qd);
-+
++    rt = load_reg(s, a->rt);
-+    if (!pdiv) {
++    tcg_gen_dup_i32(a->size, rt, rt);
-+        clock_update(pll->out, 0);
++    gen_helper_mve_vdup(cpu_env, qd, rt);
-+        return;
++    tcg_temp_free_ptr(qd);
-+    }
++    tcg_temp_free_i32(rt);
-+
++    mve_update_eci(s);
-+    ndiv = FIELD_EX32(*pll->reg_a2w_ctrl, A2W_PLLx_CTRL, NDIV);
++    return true;
 +    fdiv = FIELD_EX32(*pll->reg_a2w_frac, A2W_PLLx_FRAC, FRAC);
 +
 +    if (pll->reg_a2w_ana[1] & pll->prediv_mask) {
 +        /* The prescaler doubles the parent frequency */
 +        ndiv *= 2;
 +        fdiv *= 2;
 +    }
 +
 +    /*
 +     * We have a multiplier with an integer part (ndiv) and a fractional part
 +     * (fdiv), and a divider (pdiv).
 +     */
 +    freq = clock_get_hz(pll->xosc_in) *
 +        ((ndiv << R_A2W_PLLx_FRAC_FRAC_LENGTH) + fdiv);
 +    freq /= pdiv;
 +    freq >>= R_A2W_PLLx_FRAC_FRAC_LENGTH;
 +
 +    clock_update_hz(pll->out, freq);
  }
  static void pll_xosc_update(void *opaque)
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_info = {
  /* CPRMAN "top level" model */
 +static uint32_t get_cm_lock(const BCM2835CprmanState *s)
 +{
 +    static const int CM_LOCK_MAPPING[CPRMAN_NUM_PLL] = {
 +        [CPRMAN_PLLA] = R_CM_LOCK_FLOCKA_SHIFT,
 +        [CPRMAN_PLLC] = R_CM_LOCK_FLOCKC_SHIFT,
 +        [CPRMAN_PLLD] = R_CM_LOCK_FLOCKD_SHIFT,
 +        [CPRMAN_PLLH] = R_CM_LOCK_FLOCKH_SHIFT,
 +        [CPRMAN_PLLB] = R_CM_LOCK_FLOCKB_SHIFT,
 +    };
 +
 +    uint32_t r = 0;
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
 +        r |= pll_is_locked(&s->plls[i]) << CM_LOCK_MAPPING[i];
 +    }
 +
 +    return r;
 +}
 +
- static uint64_t cprman_read(void *opaque, hwaddr offset,
+ static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
                              unsigned size)
  {
-@@ -XXX,XX +XXX,XX @@ static uint64_t cprman_read(void *opaque, hwaddr offset,
+     TCGv_ptr qd, qm;
      size_t idx = offset / sizeof(uint32_t);
      switch (idx) {
 +    case R_CM_LOCK:
 +        r = get_cm_lock(s);
 +        break;
 +
      default:
          r = s->regs[idx];
      }
 --
 .20.1

-[PULL 11/48] linux-user/elfload: Parse GNU_PROPERTY_AARCH64_FEATURE_1_AND
+[PULL 22/57] target/arm: Implement MVE VAND, VBIC, VORR, VORN, VEOR
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE vector logical operations operating
 on two registers.
-Use the new generic support for NT_GNU_PROPERTY_TYPE_0.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-12-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  6 ++++++
  target/arm/mve.decode      |  9 +++++++++
  target/arm/mve_helper.c    | 26 ++++++++++++++++++++++++++
  target/arm/translate-mve.c | 37 +++++++++++++++++++++++++++++++++++++
 files changed, 78 insertions(+)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Message-id: 20201021173749.111103-12-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  linux-user/elfload.c | 48 ++++++++++++++++++++++++++++++++++++++++++--
 file changed, 46 insertions(+), 2 deletions(-)
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/elfload.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void elf_core_copy_regs(target_elf_gregset_t *regs,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vnegh, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vnegw, TCG_CALL_NO_WG, void, env, ptr, ptr)
- #include "elf.h"
+ DEF_HELPER_FLAGS_3(mve_vfnegh, TCG_CALL_NO_WG, void, env, ptr, ptr)
+ DEF_HELPER_FLAGS_3(mve_vfnegs, TCG_CALL_NO_WG, void, env, ptr, ptr)
 +/* We must delay the following stanzas until after "elf.h". */
 +#if defined(TARGET_AARCH64)
 +
-+static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
++DEF_HELPER_FLAGS_4(mve_vand, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+                                    const uint32_t *data,
++DEF_HELPER_FLAGS_4(mve_vbic, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+                                    struct image_info *info,
++DEF_HELPER_FLAGS_4(mve_vorr, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+                                    Error **errp)
++DEF_HELPER_FLAGS_4(mve_vorn, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_veor, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  &vldr_vstr rn qd imm p a w size l u
  &1op qd qm size
 +&2op qd qm qn size
  @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
  # Note that both Rn and Qd are 3 bits only (no D bit)
@@ -XXX,XX +XXX,XX @@
  @1op .... .... .... size:2 .. .... .... .... .... &1op qd=%qd qm=%qm
  @1op_nosz .... .... .... .... .... .... .... .... &1op qd=%qd qm=%qm size=0
 +@2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
  # Vector loads and stores
@@ -XXX,XX +XXX,XX @@ VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111101 .......   @vldr_vstr \
  VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
                   size=2 p=1
 +# Vector 2-op
 +VAND             1110 1111 0 . 00 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
 +VBIC             1110 1111 0 . 01 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
 +VORR             1110 1111 0 . 10 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
 +VORN             1110 1111 0 . 11 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
 +VEOR             1111 1111 0 . 00 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vnegw, 4, int32_t, DO_NEG)
  /* We can do these 64 bits at a time */
  DO_1OP(vfnegh, 8, uint64_t, DO_FNEGH)
  DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
 +
 +#define DO_2OP(OP, ESIZE, TYPE, FN)                                     \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env,                       \
 +                                void *vd, void *vn, void *vm)           \
 +    {                                                                   \
 +        TYPE *d = vd, *n = vn, *m = vm;                                 \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +            mergemask(&d[H##ESIZE(e)],                                  \
 +                      FN(n[H##ESIZE(e)], m[H##ESIZE(e)]), mask);        \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
 +#define DO_AND(N, M)  ((N) & (M))
 +#define DO_BIC(N, M)  ((N) & ~(M))
 +#define DO_ORR(N, M)  ((N) | (M))
 +#define DO_ORN(N, M)  ((N) | ~(M))
 +#define DO_EOR(N, M)  ((N) ^ (M))
 +
 +DO_2OP(vand, 8, uint64_t, DO_AND)
 +DO_2OP(vbic, 8, uint64_t, DO_BIC)
 +DO_2OP(vorr, 8, uint64_t, DO_ORR)
 +DO_2OP(vorn, 8, uint64_t, DO_ORN)
 +DO_2OP(veor, 8, uint64_t, DO_EOR)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
  typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
 +typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VNEG_fp(DisasContext *s, arg_1op *a)
      }
      return do_1op(s, a, fns[a->size]);
  }
 +
 +static bool do_2op(DisasContext *s, arg_2op *a, MVEGenTwoOpFn fn)
 +{
-+    if (pr_type == GNU_PROPERTY_AARCH64_FEATURE_1_AND) {
++    TCGv_ptr qd, qn, qm;
-+        if (pr_datasz != sizeof(uint32_t)) {
++
-+            error_setg(errp, "Ill-formed GNU_PROPERTY_AARCH64_FEATURE_1_AND");
++    if (!dc_isar_feature(aa32_mve, s) ||
-+            return false;
++        !mve_check_qreg_bank(s, a->qd | a->qn | a->qm) ||
-+        }
++        !fn) {
-+        /* We will extract GNU_PROPERTY_AARCH64_FEATURE_1_BTI later. */
++        return false;
 +        info->note_flags = *data;
 +    }
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
++        return true;
++    }
++
++    qd = mve_qreg_ptr(a->qd);
++    qn = mve_qreg_ptr(a->qn);
++    qm = mve_qreg_ptr(a->qm);
++    fn(cpu_env, qd, qn, qm);
++    tcg_temp_free_ptr(qd);
++    tcg_temp_free_ptr(qn);
++    tcg_temp_free_ptr(qm);
++    mve_update_eci(s);
 +    return true;
 +}
-+#define ARCH_USE_GNU_PROPERTY 1
 +
-+#else
++#define DO_LOGIC(INSN, HELPER)                                  \
 +    static bool trans_##INSN(DisasContext *s, arg_2op *a)       \
 +    {                                                           \
 +        return do_2op(s, a, HELPER);                            \
 +    }
 +
- static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
++DO_LOGIC(VAND, gen_helper_mve_vand)
-                                     const uint32_t *data,
++DO_LOGIC(VBIC, gen_helper_mve_vbic)
-                                     struct image_info *info,
++DO_LOGIC(VORR, gen_helper_mve_vorr)
-@@ -XXX,XX +XXX,XX @@ static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
++DO_LOGIC(VORN, gen_helper_mve_vorn)
- }
++DO_LOGIC(VEOR, gen_helper_mve_veor)
  #define ARCH_USE_GNU_PROPERTY 0
 +#endif
 +
  struct exec
  {
      unsigned int a_info;   /* Use macros N_MAGIC, etc for access */
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
      struct elfhdr *ehdr = (struct elfhdr *)bprm_buf;
      struct elf_phdr *phdr;
      abi_ulong load_addr, load_bias, loaddr, hiaddr, error;
 -    int i, retval;
 +    int i, retval, prot_exec;
      Error *err = NULL;
      /* First of all, some simple consistency checks */
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
      info->brk = 0;
      info->elf_flags = ehdr->e_flags;
 +    prot_exec = PROT_EXEC;
 +#ifdef TARGET_AARCH64
 +    /*
 +     * If the BTI feature is present, this indicates that the executable
 +     * pages of the startup binary should be mapped with PROT_BTI, so that
 +     * branch targets are enforced.
 +     *
 +     * The startup binary is either the interpreter or the static executable.
 +     * The interpreter is responsible for all pages of a dynamic executable.
 +     *
 +     * Elf notes are backward compatible to older cpus.
 +     * Do not enable BTI unless it is supported.
 +     */
 +    if ((info->note_flags & GNU_PROPERTY_AARCH64_FEATURE_1_BTI)
 +        && (pinterp_name == NULL || *pinterp_name == 0)
 +        && cpu_isar_feature(aa64_bti, ARM_CPU(thread_cpu))) {
 +        prot_exec |= TARGET_PROT_BTI;
 +    }
 +#endif
 +
      for (i = 0; i < ehdr->e_phnum; i++) {
          struct elf_phdr *eppnt = phdr + i;
          if (eppnt->p_type == PT_LOAD) {
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                  elf_prot |= PROT_WRITE;
              }
              if (eppnt->p_flags & PF_X) {
 -                elf_prot |= PROT_EXEC;
 +                elf_prot |= prot_exec;
              }
              vaddr = load_bias + eppnt->p_vaddr;
 --
 .20.1

-[PULL 47/48] hw/core/ptimer: Support ptimer being disabled by timer callback
+[PULL 23/57] target/arm: Implement MVE VADD, VSUB, VMUL
-In ptimer_reload(), we call the callback function provided by the
+Implement the MVE VADD, VSUB and VMUL insns.
 timer device that is using the ptimer.  This callback might disable
 the ptimer.  The code mostly handles this correctly, except that
 we'll still print the warning about "Timer with delta zero,
 disabling" if the now-disabled timer happened to be set such that it
 would fire again immediately if it were enabled (eg because the
 limit/reload value is zero).
 Suppress the spurious warning message and the unnecessary
 repeat-deletion of the underlying timer in this case.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20201015151829.14656-2-peter.maydell@linaro.org
+Message-id: 20210617121628.20116-13-peter.maydell@linaro.org
 ---
- hw/core/ptimer.c | 4 ++++
+ target/arm/helper-mve.h    | 12 ++++++++++++
-file changed, 4 insertions(+)
+ target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 14 ++++++++++++++
  target/arm/translate-mve.c | 16 ++++++++++++++++
 files changed, 47 insertions(+)
-diff --git a/hw/core/ptimer.c b/hw/core/ptimer.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/core/ptimer.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/core/ptimer.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void ptimer_reload(ptimer_state *s, int delta_adjust)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vbic, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vorr, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vorn, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_veor, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vaddb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vaddh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vaddw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vsubb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vsubh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vsubw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vmulb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  @1op .... .... .... size:2 .. .... .... .... .... &1op qd=%qd qm=%qm
  @1op_nosz .... .... .... .... .... .... .... .... &1op qd=%qd qm=%qm size=0
 +@2op .... .... .. size:2 .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn
  @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
  # Vector loads and stores
@@ -XXX,XX +XXX,XX @@ VORR             1110 1111 0 . 10 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
  VORN             1110 1111 0 . 11 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
  VEOR             1111 1111 0 . 00 ... 0 ... 0 0001 . 1 . 1 ... 0 @2op_nosz
 +VADD             1110 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
 +VSUB             1111 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
 +VMUL             1110 1111 0 . .. ... 0 ... 0 1001 . 1 . 1 ... 0 @2op
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
          mve_advance_vpt(env);                                           \
      }
-     if (delta == 0) {
++/* provide unsigned 2-op helpers for all sizes */
-+        if (s->enabled == 0) {
++#define DO_2OP_U(OP, FN)                        \
-+            /* trigger callback disabled the timer already */
++    DO_2OP(OP##b, 1, uint8_t, FN)               \
-+            return;
++    DO_2OP(OP##h, 2, uint16_t, FN)              \
-+        }
++    DO_2OP(OP##w, 4, uint32_t, FN)
-         if (!qtest_enabled()) {
++
-             fprintf(stderr, "Timer with delta zero, disabling\n");
+ #define DO_AND(N, M)  ((N) & (M))
-         }
+ #define DO_BIC(N, M)  ((N) & ~(M))
  #define DO_ORR(N, M)  ((N) | (M))
@@ -XXX,XX +XXX,XX @@ DO_2OP(vbic, 8, uint64_t, DO_BIC)
  DO_2OP(vorr, 8, uint64_t, DO_ORR)
  DO_2OP(vorn, 8, uint64_t, DO_ORN)
  DO_2OP(veor, 8, uint64_t, DO_EOR)
 +
 +#define DO_ADD(N, M) ((N) + (M))
 +#define DO_SUB(N, M) ((N) - (M))
 +#define DO_MUL(N, M) ((N) * (M))
 +
 +DO_2OP_U(vadd, DO_ADD)
 +DO_2OP_U(vsub, DO_SUB)
 +DO_2OP_U(vmul, DO_MUL)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_LOGIC(VBIC, gen_helper_mve_vbic)
  DO_LOGIC(VORR, gen_helper_mve_vorr)
  DO_LOGIC(VORN, gen_helper_mve_vorn)
  DO_LOGIC(VEOR, gen_helper_mve_veor)
 +
 +#define DO_2OP(INSN, FN) \
 +    static bool trans_##INSN(DisasContext *s, arg_2op *a)       \
 +    {                                                           \
 +        static MVEGenTwoOpFn * const fns[] = {                  \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +            gen_helper_mve_##FN##w,                             \
 +            NULL,                                               \
 +        };                                                      \
 +        return do_2op(s, a, fns[a->size]);                      \
 +    }
 +
 +DO_2OP(VADD, vadd)
 +DO_2OP(VSUB, vsub)
 +DO_2OP(VMUL, vmul)
 --
 .20.1

-[PULL 42/48] hw/misc/bcm2835_cprman: add sane reset values to the registers
+[PULL 24/57] target/arm: Implement MVE VMULH
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VMULH insn, which performs a vector
 multiply and returns the high half of the result.
-Those reset values have been extracted from a Raspberry Pi 3 model B
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-v1.2, using the 2020-08-20 version of raspios. The dump was done using
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-the debugfs interface of the CPRMAN driver in Linux (under
+Message-id: 20210617121628.20116-14-peter.maydell@linaro.org
-'/sys/kernel/debug/clk'). Each exposed clock tree stage (PLLs, channels
+---
-and muxes) can be observed by reading the 'regdump' file (e.g.
+ target/arm/helper-mve.h    |  7 +++++++
-'plla/regdump').
+ target/arm/mve.decode      |  3 +++
  target/arm/mve_helper.c    | 26 ++++++++++++++++++++++++++
  target/arm/translate-mve.c |  2 ++
 files changed, 38 insertions(+)
-Those values are set by the Raspberry Pi firmware at boot time (Linux
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 expects them to be set when it boots up).
 Some stages are not exposed by the Linux driver (e.g. the PLL B). For
 those, the reset values are unknown and left to 0 which implies a
 disabled output.
 Once booted in QEMU, the final clock tree is very similar to the one
 visible on real hardware. The differences come from some unimplemented
 devices for which the driver simply disable the corresponding clock.
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/misc/bcm2835_cprman_internals.h | 269 +++++++++++++++++++++
  hw/misc/bcm2835_cprman.c                   |  31 +++
 files changed, 300 insertions(+)
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman_internals.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/misc/bcm2835_cprman_internals.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static inline void set_clock_mux_init_info(BCM2835CprmanState *s,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vsubw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mux->frac_bits = CLOCK_MUX_INIT_INFO[id].frac_bits;
+ DEF_HELPER_FLAGS_4(mve_vmulb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- }
+ DEF_HELPER_FLAGS_4(mve_vmulh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+ DEF_HELPER_FLAGS_4(mve_vmulw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vmulhsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulhsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulhsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulhub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulhuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulhuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VADD             1110 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
  VSUB             1111 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
  VMUL             1110 1111 0 . .. ... 0 ... 0 1001 . 1 . 1 ... 0 @2op
 +VMULH_S          111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +VMULH_U          111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(veor, 8, uint64_t, DO_EOR)
  DO_2OP_U(vadd, DO_ADD)
  DO_2OP_U(vsub, DO_SUB)
  DO_2OP_U(vmul, DO_MUL)
 +
 +/*
-+ * Object reset info
++ * Because the computation type is at least twice as large as required,
-+ * Those values have been dumped from a Raspberry Pi 3 Model B v1.2 using the
++ * these work for both signed and unsigned source types.
 + * clk debugfs interface in Linux.
 + */
-+typedef struct PLLResetInfo {
++static inline uint8_t do_mulh_b(int32_t n, int32_t m)
 +    uint32_t cm;
 +    uint32_t a2w_ctrl;
 +    uint32_t a2w_ana[4];
 +    uint32_t a2w_frac;
 +} PLLResetInfo;
 +
 +static const PLLResetInfo PLL_RESET_INFO[] = {
 +    [CPRMAN_PLLA] = {
 +        .cm = 0x0000008a,
 +        .a2w_ctrl = 0x0002103a,
 +        .a2w_frac = 0x00098000,
 +        .a2w_ana = { 0x00000000, 0x00144000, 0x00000000, 0x00000100 }
 +    },
 +
 +    [CPRMAN_PLLC] = {
 +        .cm = 0x00000228,
 +        .a2w_ctrl = 0x0002103e,
 +        .a2w_frac = 0x00080000,
 +        .a2w_ana = { 0x00000000, 0x00144000, 0x00000000, 0x00000100 }
 +    },
 +
 +    [CPRMAN_PLLD] = {
 +        .cm = 0x0000020a,
 +        .a2w_ctrl = 0x00021034,
 +        .a2w_frac = 0x00015556,
 +        .a2w_ana = { 0x00000000, 0x00144000, 0x00000000, 0x00000100 }
 +    },
 +
 +    [CPRMAN_PLLH] = {
 +        .cm = 0x00000000,
 +        .a2w_ctrl = 0x0002102d,
 +        .a2w_frac = 0x00000000,
 +        .a2w_ana = { 0x00900000, 0x0000000c, 0x00000000, 0x00000000 }
 +    },
 +
 +    [CPRMAN_PLLB] = {
 +        /* unknown */
 +        .cm = 0x00000000,
 +        .a2w_ctrl = 0x00000000,
 +        .a2w_frac = 0x00000000,
 +        .a2w_ana = { 0x00000000, 0x00000000, 0x00000000, 0x00000000 }
 +    }
 +};
 +
 +typedef struct PLLChannelResetInfo {
 +    /*
 +     * Even though a PLL channel has a CM register, it shares it with its
 +     * parent PLL. The parent already takes care of the reset value.
 +     */
 +    uint32_t a2w_ctrl;
 +} PLLChannelResetInfo;
 +
 +static const PLLChannelResetInfo PLL_CHANNEL_RESET_INFO[] = {
 +    [CPRMAN_PLLA_CHANNEL_DSI0] = { .a2w_ctrl = 0x00000100 },
 +    [CPRMAN_PLLA_CHANNEL_CORE] = { .a2w_ctrl = 0x00000003 },
 +    [CPRMAN_PLLA_CHANNEL_PER] = { .a2w_ctrl = 0x00000000 }, /* unknown */
 +    [CPRMAN_PLLA_CHANNEL_CCP2] = { .a2w_ctrl = 0x00000100 },
 +
 +    [CPRMAN_PLLC_CHANNEL_CORE2] = { .a2w_ctrl = 0x00000100 },
 +    [CPRMAN_PLLC_CHANNEL_CORE1] = { .a2w_ctrl = 0x00000100 },
 +    [CPRMAN_PLLC_CHANNEL_PER] = { .a2w_ctrl = 0x00000002 },
 +    [CPRMAN_PLLC_CHANNEL_CORE0] = { .a2w_ctrl = 0x00000002 },
 +
 +    [CPRMAN_PLLD_CHANNEL_DSI0] = { .a2w_ctrl = 0x00000100 },
 +    [CPRMAN_PLLD_CHANNEL_CORE] = { .a2w_ctrl = 0x00000004 },
 +    [CPRMAN_PLLD_CHANNEL_PER] = { .a2w_ctrl = 0x00000004 },
 +    [CPRMAN_PLLD_CHANNEL_DSI1] = { .a2w_ctrl = 0x00000100 },
 +
 +    [CPRMAN_PLLH_CHANNEL_AUX] = { .a2w_ctrl = 0x00000004 },
 +    [CPRMAN_PLLH_CHANNEL_RCAL] = { .a2w_ctrl = 0x00000000 },
 +    [CPRMAN_PLLH_CHANNEL_PIX] = { .a2w_ctrl = 0x00000000 },
 +
 +    [CPRMAN_PLLB_CHANNEL_ARM] = { .a2w_ctrl = 0x00000000 }, /* unknown */
 +};
 +
 +typedef struct ClockMuxResetInfo {
 +    uint32_t cm_ctl;
 +    uint32_t cm_div;
 +} ClockMuxResetInfo;
 +
 +static const ClockMuxResetInfo CLOCK_MUX_RESET_INFO[] = {
 +    [CPRMAN_CLOCK_GNRIC] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_VPU] = {
 +        .cm_ctl = 0x00000245,
 +        .cm_div = 0x00003000,
 +    },
 +
 +    [CPRMAN_CLOCK_SYS] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_PERIA] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_PERII] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_H264] = {
 +        .cm_ctl = 0x00000244,
 +        .cm_div = 0x00003000,
 +    },
 +
 +    [CPRMAN_CLOCK_ISP] = {
 +        .cm_ctl = 0x00000244,
 +        .cm_div = 0x00003000,
 +    },
 +
 +    [CPRMAN_CLOCK_V3D] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_CAM0] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_CAM1] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_CCP2] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_DSI0E] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_DSI0P] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_DPI] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_GP0] = {
 +        .cm_ctl = 0x00000200,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_GP1] = {
 +        .cm_ctl = 0x00000096,
 +        .cm_div = 0x00014000,
 +    },
 +
 +    [CPRMAN_CLOCK_GP2] = {
 +        .cm_ctl = 0x00000291,
 +        .cm_div = 0x00249f00,
 +    },
 +
 +    [CPRMAN_CLOCK_HSM] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_OTP] = {
 +        .cm_ctl = 0x00000091,
 +        .cm_div = 0x00004000,
 +    },
 +
 +    [CPRMAN_CLOCK_PCM] = {
 +        .cm_ctl = 0x00000200,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_PWM] = {
 +        .cm_ctl = 0x00000200,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_SLIM] = {
 +        .cm_ctl = 0x00000200,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_SMI] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_TEC] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_TD0] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_TD1] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_TSENS] = {
 +        .cm_ctl = 0x00000091,
 +        .cm_div = 0x0000a000,
 +    },
 +
 +    [CPRMAN_CLOCK_TIMER] = {
 +        .cm_ctl = 0x00000291,
 +        .cm_div = 0x00013333,
 +    },
 +
 +    [CPRMAN_CLOCK_UART] = {
 +        .cm_ctl = 0x00000296,
 +        .cm_div = 0x0000a6ab,
 +    },
 +
 +    [CPRMAN_CLOCK_VEC] = {
 +        .cm_ctl = 0x00000097,
 +        .cm_div = 0x00002000,
 +    },
 +
 +    [CPRMAN_CLOCK_PULSE] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_SDC] = {
 +        .cm_ctl = 0x00004006,
 +        .cm_div = 0x00003000,
 +    },
 +
 +    [CPRMAN_CLOCK_ARM] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +
 +    [CPRMAN_CLOCK_AVEO] = {
 +        .cm_ctl = 0x00000000,
 +        .cm_div = 0x00000000,
 +    },
 +
 +    [CPRMAN_CLOCK_EMMC] = {
 +        .cm_ctl = 0x00000295,
 +        .cm_div = 0x00006000,
 +    },
 +
 +    [CPRMAN_CLOCK_EMMC2] = {
 +        .cm_ctl = 0, /* unknown */
 +        .cm_div = 0
 +    },
 +};
 +
  #endif
 diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/bcm2835_cprman.c
 +++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
  /* PLL */
 +static void pll_reset(DeviceState *dev)
 +{
-+    CprmanPllState *s = CPRMAN_PLL(dev);
++    return (n * m) >> 8;
 +    const PLLResetInfo *info = &PLL_RESET_INFO[s->id];
 +
 +    *s->reg_cm = info->cm;
 +    *s->reg_a2w_ctrl = info->a2w_ctrl;
 +    memcpy(s->reg_a2w_ana, info->a2w_ana, sizeof(info->a2w_ana));
 +    *s->reg_a2w_frac = info->a2w_frac;
 +}
 +
- static bool pll_is_locked(const CprmanPllState *pll)
++static inline uint16_t do_mulh_h(int32_t n, int32_t m)
  {
      return !FIELD_EX32(*pll->reg_a2w_ctrl, A2W_PLLx_CTRL, PWRDN)
@@ -XXX,XX +XXX,XX @@ static void pll_class_init(ObjectClass *klass, void *data)
  {
      DeviceClass *dc = DEVICE_CLASS(klass);
 +    dc->reset = pll_reset;
      dc->vmsd = &pll_vmstate;
  }
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_info = {
  /* PLL channel */
 +static void pll_channel_reset(DeviceState *dev)
 +{
-+    CprmanPllChannelState *s = CPRMAN_PLL_CHANNEL(dev);
++    return (n * m) >> 16;
 +    const PLLChannelResetInfo *info = &PLL_CHANNEL_RESET_INFO[s->id];
 +
 +    *s->reg_a2w_ctrl = info->a2w_ctrl;
 +}
 +
- static bool pll_channel_is_enabled(CprmanPllChannelState *channel)
++static inline uint32_t do_mulh_w(int64_t n, int64_t m)
  {
      /*
@@ -XXX,XX +XXX,XX @@ static void pll_channel_class_init(ObjectClass *klass, void *data)
  {
      DeviceClass *dc = DEVICE_CLASS(klass);
 +    dc->reset = pll_channel_reset;
      dc->vmsd = &pll_channel_vmstate;
  }
@@ -XXX,XX +XXX,XX @@ static void clock_mux_src_update(void *opaque)
      clock_mux_update(s);
  }
 +static void clock_mux_reset(DeviceState *dev)
 +{
-+    CprmanClockMuxState *clock = CPRMAN_CLOCK_MUX(dev);
++    return (n * m) >> 32;
 +    const ClockMuxResetInfo *info = &CLOCK_MUX_RESET_INFO[clock->id];
 +
 +    *clock->reg_ctl = info->cm_ctl;
 +    *clock->reg_div = info->cm_div;
 +}
 +
- static void clock_mux_init(Object *obj)
++DO_2OP(vmulhsb, 1, int8_t, do_mulh_b)
- {
++DO_2OP(vmulhsh, 2, int16_t, do_mulh_h)
-     CprmanClockMuxState *s = CPRMAN_CLOCK_MUX(obj);
++DO_2OP(vmulhsw, 4, int32_t, do_mulh_w)
-@@ -XXX,XX +XXX,XX @@ static void clock_mux_class_init(ObjectClass *klass, void *data)
++DO_2OP(vmulhub, 1, uint8_t, do_mulh_b)
- {
++DO_2OP(vmulhuh, 2, uint16_t, do_mulh_h)
-     DeviceClass *dc = DEVICE_CLASS(klass);
++DO_2OP(vmulhuw, 4, uint32_t, do_mulh_w)
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+    dc->reset = clock_mux_reset;
+index XXXXXXX..XXXXXXX 100644
-     dc->vmsd = &clock_mux_vmstate;
+--- a/target/arm/translate-mve.c
- }
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ DO_LOGIC(VEOR, gen_helper_mve_veor)
  DO_2OP(VADD, vadd)
  DO_2OP(VSUB, vsub)
  DO_2OP(VMUL, vmul)
 +DO_2OP(VMULH_S, vmulhs)
 +DO_2OP(VMULH_U, vmulhu)
 --
 .20.1

-[PULL 43/48] hw/char/pl011: add a clock input
+[PULL 25/57] target/arm: Implement MVE VRMULH
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VRMULH insn, which performs a rounding multiply
 and then returns the high half.
-Add a clock input to the PL011 UART so we can compute the current baud
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-rate and trace it. This is intended for developers who wish to use QEMU
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-to e.g. debug their firmware or to figure out the baud rate configured
+Message-id: 20210617121628.20116-15-peter.maydell@linaro.org
-by an unknown/closed source binary.
+---
  target/arm/helper-mve.h    |  7 +++++++
  target/arm/mve.decode      |  3 +++
  target/arm/mve_helper.c    | 22 ++++++++++++++++++++++
  target/arm/translate-mve.c |  2 ++
 files changed, 34 insertions(+)
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/char/pl011.h |  1 +
  hw/char/pl011.c         | 45 +++++++++++++++++++++++++++++++++++++++++
  hw/char/trace-events    |  1 +
 files changed, 47 insertions(+)
 diff --git a/include/hw/char/pl011.h b/include/hw/char/pl011.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/char/pl011.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/char/pl011.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ struct PL011State {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmulhsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     int read_trigger;
+ DEF_HELPER_FLAGS_4(mve_vmulhub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     CharBackend chr;
+ DEF_HELPER_FLAGS_4(mve_vmulhuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     qemu_irq irq[6];
+ DEF_HELPER_FLAGS_4(mve_vmulhuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    Clock *clk;
++
-     const unsigned char *id;
++DEF_HELPER_FLAGS_4(mve_vrmulhsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- };
++DEF_HELPER_FLAGS_4(mve_vrmulhsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++DEF_HELPER_FLAGS_4(mve_vrmulhsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-diff --git a/hw/char/pl011.c b/hw/char/pl011.c
++DEF_HELPER_FLAGS_4(mve_vrmulhub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vrmulhuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vrmulhuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/hw/char/pl011.c
+--- a/target/arm/mve.decode
-+++ b/hw/char/pl011.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VMUL             1110 1111 0 . .. ... 0 ... 0 1001 . 1 . 1 ... 0 @2op
- #include "hw/char/pl011.h"
+ VMULH_S          111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
- #include "hw/irq.h"
+ VMULH_U          111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
- #include "hw/sysbus.h"
-+#include "hw/qdev-clock.h"
++VRMULH_S         111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
- #include "migration/vmstate.h"
++VRMULH_U         111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
- #include "chardev/char-fe.h"
++
- #include "qemu/log.h"
+ # Vector miscellaneous
-@@ -XXX,XX +XXX,XX @@ static void pl011_set_read_trigger(PL011State *s)
-         s->read_trigger = 1;
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t do_mulh_w(int64_t n, int64_t m)
      return (n * m) >> 32;
  }
-+static unsigned int pl011_get_baudrate(const PL011State *s)
++static inline uint8_t do_rmulh_b(int32_t n, int32_t m)
 +{
-+    uint64_t clk;
++    return (n * m + (1U << 7)) >> 8;
 +
 +    if (s->fbrd == 0) {
 +        return 0;
 +    }
 +
 +    clk = clock_get_hz(s->clk);
 +    return (clk / ((s->ibrd << 6) + s->fbrd)) << 2;
 +}
 +
-+static void pl011_trace_baudrate_change(const PL011State *s)
++static inline uint16_t do_rmulh_h(int32_t n, int32_t m)
 +{
-+    trace_pl011_baudrate_change(pl011_get_baudrate(s),
++    return (n * m + (1U << 15)) >> 16;
 +                                clock_get_hz(s->clk),
 +                                s->ibrd, s->fbrd);
 +}
 +
- static void pl011_write(void *opaque, hwaddr offset,
++static inline uint32_t do_rmulh_w(int64_t n, int64_t m)
                          uint64_t value, unsigned size)
  {
@@ -XXX,XX +XXX,XX @@ static void pl011_write(void *opaque, hwaddr offset,
          break;
      case 9: /* UARTIBRD */
          s->ibrd = value;
 +        pl011_trace_baudrate_change(s);
          break;
      case 10: /* UARTFBRD */
          s->fbrd = value;
 +        pl011_trace_baudrate_change(s);
          break;
      case 11: /* UARTLCR_H */
          /* Reset the FIFO state on FIFO enable or disable */
@@ -XXX,XX +XXX,XX @@ static void pl011_event(void *opaque, QEMUChrEvent event)
          pl011_put_fifo(opaque, 0x400);
  }
 +static void pl011_clock_update(void *opaque)
 +{
-+    PL011State *s = PL011(opaque);
++    return (n * m + (1U << 31)) >> 32;
 +
 +    pl011_trace_baudrate_change(s);
 +}
 +
- static const MemoryRegionOps pl011_ops = {
+ DO_2OP(vmulhsb, 1, int8_t, do_mulh_b)
-     .read = pl011_read,
+ DO_2OP(vmulhsh, 2, int16_t, do_mulh_h)
-     .write = pl011_write,
+ DO_2OP(vmulhsw, 4, int32_t, do_mulh_w)
-     .endianness = DEVICE_NATIVE_ENDIAN,
+ DO_2OP(vmulhub, 1, uint8_t, do_mulh_b)
- };
+ DO_2OP(vmulhuh, 2, uint16_t, do_mulh_h)
+ DO_2OP(vmulhuw, 4, uint32_t, do_mulh_w)
 +static const VMStateDescription vmstate_pl011_clock = {
 +    .name = "pl011/clock",
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_CLOCK(clk, PL011State),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
- static const VMStateDescription vmstate_pl011 = {
++DO_2OP(vrmulhsb, 1, int8_t, do_rmulh_b)
-     .name = "pl011",
++DO_2OP(vrmulhsh, 2, int16_t, do_rmulh_h)
-     .version_id = 2,
++DO_2OP(vrmulhsw, 4, int32_t, do_rmulh_w)
-@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_pl011 = {
++DO_2OP(vrmulhub, 1, uint8_t, do_rmulh_b)
-         VMSTATE_INT32(read_count, PL011State),
++DO_2OP(vrmulhuh, 2, uint16_t, do_rmulh_h)
-         VMSTATE_INT32(read_trigger, PL011State),
++DO_2OP(vrmulhuw, 4, uint32_t, do_rmulh_w)
-         VMSTATE_END_OF_LIST()
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 +    },
 +    .subsections = (const VMStateDescription * []) {
 +        &vmstate_pl011_clock,
 +        NULL
      }
  };
@@ -XXX,XX +XXX,XX @@ static void pl011_init(Object *obj)
          sysbus_init_irq(sbd, &s->irq[i]);
      }
 +    s->clk = qdev_init_clock_in(DEVICE(obj), "clk", pl011_clock_update, s);
 +
      s->read_trigger = 1;
      s->ifl = 0x12;
      s->cr = 0x300;
 diff --git a/hw/char/trace-events b/hw/char/trace-events
 index XXXXXXX..XXXXXXX 100644
---- a/hw/char/trace-events
+--- a/target/arm/translate-mve.c
-+++ b/hw/char/trace-events
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ pl011_write(uint32_t addr, uint32_t value) "addr 0x%08x value 0x%08x"
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VSUB, vsub)
- pl011_can_receive(uint32_t lcr, int read_count, int r) "LCR 0x%08x read_count %d returning %d"
+ DO_2OP(VMUL, vmul)
- pl011_put_fifo(uint32_t c, int read_count) "new char 0x%x read_count now %d"
+ DO_2OP(VMULH_S, vmulhs)
- pl011_put_fifo_full(void) "FIFO now full, RXFF set"
+ DO_2OP(VMULH_U, vmulhu)
-+pl011_baudrate_change(unsigned int baudrate, uint64_t clock, uint32_t ibrd, uint32_t fbrd) "new baudrate %u (clk: %" PRIu64 "hz, ibrd: %" PRIu32 ", fbrd: %" PRIu32 ")"
++DO_2OP(VRMULH_S, vrmulhs)
++DO_2OP(VRMULH_U, vrmulhu)
  # cmsdk-apb-uart.c
  cmsdk_apb_uart_read(uint64_t offset, uint64_t data, unsigned size) "CMSDK APB UART read: offset 0x%" PRIx64 " data 0x%" PRIx64 " size %u"
 --
 .20.1

-[PULL 44/48] hw/arm/bcm2835_peripherals: connect the UART clock
+[PULL 26/57] target/arm: Implement MVE VMAX, VMIN
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VMAX and VMIN insns.
-Connect the 'uart-out' clock from the CPRMAN to the PL011 instance.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-16-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 14 ++++++++++++++
  target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 14 ++++++++++++++
  target/arm/translate-mve.c |  4 ++++
 files changed, 37 insertions(+)
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/bcm2835_peripherals.c | 2 ++
 file changed, 2 insertions(+)
 diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/bcm2835_peripherals.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/bcm2835_peripherals.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrmulhsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     }
+ DEF_HELPER_FLAGS_4(mve_vrmulhub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     memory_region_add_subregion(&s->peri_mr, CPRMAN_OFFSET,
+ DEF_HELPER_FLAGS_4(mve_vrmulhuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-                 sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->cprman), 0));
+ DEF_HELPER_FLAGS_4(mve_vrmulhuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    qdev_connect_clock_in(DEVICE(&s->uart0), "clk",
++
-+                          qdev_get_clock_out(DEVICE(&s->cprman), "uart-out"));
++DEF_HELPER_FLAGS_4(mve_vmaxsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++DEF_HELPER_FLAGS_4(mve_vmaxsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     memory_region_add_subregion(&s->peri_mr, ARMCTRL_IC_OFFSET,
++DEF_HELPER_FLAGS_4(mve_vmaxsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-                 sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->ic), 0));
++DEF_HELPER_FLAGS_4(mve_vmaxub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmaxuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmaxuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vminsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vminsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vminsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vminub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vminuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vminuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VMULH_U          111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
  VRMULH_S         111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
  VRMULH_U         111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +VMAX_S           111 0 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
 +VMAX_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
 +VMIN_S           111 0 1111 0 . .. ... 0 ... 0 0110 . 1 . 1 ... 0 @2op
 +VMIN_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 1 ... 0 @2op
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
      DO_2OP(OP##h, 2, uint16_t, FN)              \
      DO_2OP(OP##w, 4, uint32_t, FN)
 +/* provide signed 2-op helpers for all sizes */
 +#define DO_2OP_S(OP, FN)                        \
 +    DO_2OP(OP##b, 1, int8_t, FN)                \
 +    DO_2OP(OP##h, 2, int16_t, FN)               \
 +    DO_2OP(OP##w, 4, int32_t, FN)
 +
  #define DO_AND(N, M)  ((N) & (M))
  #define DO_BIC(N, M)  ((N) & ~(M))
  #define DO_ORR(N, M)  ((N) | (M))
@@ -XXX,XX +XXX,XX @@ DO_2OP(vrmulhsw, 4, int32_t, do_rmulh_w)
  DO_2OP(vrmulhub, 1, uint8_t, do_rmulh_b)
  DO_2OP(vrmulhuh, 2, uint16_t, do_rmulh_h)
  DO_2OP(vrmulhuw, 4, uint32_t, do_rmulh_w)
 +
 +#define DO_MAX(N, M)  ((N) >= (M) ? (N) : (M))
 +#define DO_MIN(N, M)  ((N) >= (M) ? (M) : (N))
 +
 +DO_2OP_S(vmaxs, DO_MAX)
 +DO_2OP_U(vmaxu, DO_MAX)
 +DO_2OP_S(vmins, DO_MIN)
 +DO_2OP_U(vminu, DO_MIN)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VMULH_S, vmulhs)
  DO_2OP(VMULH_U, vmulhu)
  DO_2OP(VRMULH_S, vrmulhs)
  DO_2OP(VRMULH_U, vrmulhu)
 +DO_2OP(VMAX_S, vmaxs)
 +DO_2OP(VMAX_U, vmaxu)
 +DO_2OP(VMIN_S, vmins)
 +DO_2OP(VMIN_U, vminu)
 --
 .20.1

-[PULL 33/48] hw/arm/raspi: fix CPRMAN base address
+[PULL 27/57] target/arm: Implement MVE VABD
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VABD insn.
-The CPRMAN (clock controller) was mapped at the watchdog/power manager
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-address. It was also split into two unimplemented peripherals (CM and
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-A2W) but this is really the same one, as shown by this extract of the
+Message-id: 20210617121628.20116-17-peter.maydell@linaro.org
-Raspberry Pi 3 Linux device tree:
+---
  target/arm/helper-mve.h    | 7 +++++++
  target/arm/mve.decode      | 3 +++
  target/arm/mve_helper.c    | 5 +++++
  target/arm/translate-mve.c | 2 ++
 files changed, 17 insertions(+)
-    watchdog@7e100000 {
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
             compatible = "brcm,bcm2835-pm\0brcm,bcm2835-pm-wdt";
             [...]
             reg = <0x7e100000 0x114 0x7e00a000 0x24>;
             [...]
     };
     [...]
     cprman@7e101000 {
             compatible = "brcm,bcm2835-cprman";
             [...]
             reg = <0x7e101000 0x2000>;
             [...]
     };
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/arm/bcm2835_peripherals.h | 2 +-
  include/hw/arm/raspi_platform.h      | 5 ++---
  hw/arm/bcm2835_peripherals.c         | 4 ++--
 files changed, 5 insertions(+), 6 deletions(-)
 diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/bcm2835_peripherals.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/arm/bcm2835_peripherals.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vminsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     BCM2835MphiState mphi;
+ DEF_HELPER_FLAGS_4(mve_vminub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     UnimplementedDeviceState txp;
+ DEF_HELPER_FLAGS_4(mve_vminuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     UnimplementedDeviceState armtmr;
+ DEF_HELPER_FLAGS_4(mve_vminuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    UnimplementedDeviceState powermgt;
++
-     UnimplementedDeviceState cprman;
++DEF_HELPER_FLAGS_4(mve_vabdsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--    UnimplementedDeviceState a2w;
++DEF_HELPER_FLAGS_4(mve_vabdsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     PL011State uart0;
++DEF_HELPER_FLAGS_4(mve_vabdsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     BCM2835AuxState aux;
++DEF_HELPER_FLAGS_4(mve_vabdub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     BCM2835FBState fb;
++DEF_HELPER_FLAGS_4(mve_vabduh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-diff --git a/include/hw/arm/raspi_platform.h b/include/hw/arm/raspi_platform.h
++DEF_HELPER_FLAGS_4(mve_vabduw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/raspi_platform.h
+--- a/target/arm/mve.decode
-+++ b/include/hw/arm/raspi_platform.h
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VMAX_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
- #define ARMCTRL_TIMER0_1_OFFSET (ARM_OFFSET + 0x400) /* Timer 0 and 1 (SP804) */
+ VMIN_S           111 0 1111 0 . .. ... 0 ... 0 0110 . 1 . 1 ... 0 @2op
- #define ARMCTRL_0_SBM_OFFSET    (ARM_OFFSET + 0x800) /* User 0 (ARM) Semaphores
+ VMIN_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 1 ... 0 @2op
-                                                       * Doorbells & Mailboxes */
--#define CPRMAN_OFFSET           0x100000 /* Power Management, Watchdog */
++VABD_S           111 0 1111 0 . .. ... 0 ... 0 0111 . 1 . 0 ... 0 @2op
--#define CM_OFFSET               0x101000 /* Clock Management */
++VABD_U           111 1 1111 0 . .. ... 0 ... 0 0111 . 1 . 0 ... 0 @2op
--#define A2W_OFFSET              0x102000 /* Reset controller */
++
-+#define PM_OFFSET               0x100000 /* Power Management */
+ # Vector miscellaneous
-+#define CPRMAN_OFFSET           0x101000 /* Clock Management */
- #define AVS_OFFSET              0x103000 /* Audio Video Standard */
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
- #define RNG_OFFSET              0x104000
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
  #define GPIO_OFFSET             0x200000
 diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/bcm2835_peripherals.c
+--- a/target/arm/mve_helper.c
-+++ b/hw/arm/bcm2835_peripherals.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
+@@ -XXX,XX +XXX,XX @@ DO_2OP_S(vmaxs, DO_MAX)
+ DO_2OP_U(vmaxu, DO_MAX)
-     create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
+ DO_2OP_S(vmins, DO_MIN)
-     create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
+ DO_2OP_U(vminu, DO_MIN)
--    create_unimp(s, &s->cprman, "bcm2835-cprman", CPRMAN_OFFSET, 0x1000);
++
--    create_unimp(s, &s->a2w, "bcm2835-a2w", A2W_OFFSET, 0x1000);
++#define DO_ABD(N, M)  ((N) >= (M) ? (N) - (M) : (M) - (N))
-+    create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
++
-+    create_unimp(s, &s->cprman, "bcm2835-cprman", CPRMAN_OFFSET, 0x2000);
++DO_2OP_S(vabds, DO_ABD)
-     create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
++DO_2OP_U(vabdu, DO_ABD)
-     create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-     create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VMAX_S, vmaxs)
  DO_2OP(VMAX_U, vmaxu)
  DO_2OP(VMIN_S, vmins)
  DO_2OP(VMIN_U, vminu)
 +DO_2OP(VABD_S, vabds)
 +DO_2OP(VABD_U, vabdu)
 --
 .20.1

-[PULL 41/48] hw/misc/bcm2835_cprman: add the DSI0HSCK multiplexer
+[PULL 28/57] target/arm: Implement MVE VHADD, VHSUB
-From: Luc Michel <luc@lmichel.fr>
+Implement MVE VHADD and VHSUB insns, which perform an addition
 or subtraction and then halve the result.
-This simple mux sits between the PLL channels and the DSI0E and DSI0P
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-clock muxes. This mux selects between PLLA-DSI0 and PLLD-DSI0 channel
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-and outputs the selected signal to source number 4 of DSI0E/P clock
+Message-id: 20210617121628.20116-18-peter.maydell@linaro.org
-muxes. It is controlled by the cm_dsi0hsck register.
+---
  target/arm/helper-mve.h    | 14 ++++++++++++++
  target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 25 +++++++++++++++++++++++++
  target/arm/translate-mve.c |  4 ++++
 files changed, 48 insertions(+)
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/misc/bcm2835_cprman.h           | 15 +++++
  include/hw/misc/bcm2835_cprman_internals.h |  6 ++
  hw/misc/bcm2835_cprman.c                   | 74 +++++++++++++++++++++-
 files changed, 94 insertions(+), 1 deletion(-)
 diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/misc/bcm2835_cprman.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ typedef struct CprmanClockMuxState {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vabdsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     struct CprmanClockMuxState *backref[CPRMAN_NUM_CLOCK_MUX_SRC];
+ DEF_HELPER_FLAGS_4(mve_vabdub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- } CprmanClockMuxState;
+ DEF_HELPER_FLAGS_4(mve_vabduh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+ DEF_HELPER_FLAGS_4(mve_vabduw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +typedef struct CprmanDsi0HsckMuxState {
 +    /*< private >*/
 +    DeviceState parent_obj;
 +
-+    /*< public >*/
++DEF_HELPER_FLAGS_4(mve_vhaddsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CprmanClockMux id;
++DEF_HELPER_FLAGS_4(mve_vhaddsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhaddsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhaddub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhadduh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhadduw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
-+    uint32_t *reg_cm;
++DEF_HELPER_FLAGS_4(mve_vhsubsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhsubsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhsubsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhsubub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhsubuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vhsubuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VMIN_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 1 ... 0 @2op
  VABD_S           111 0 1111 0 . .. ... 0 ... 0 0111 . 1 . 0 ... 0 @2op
  VABD_U           111 1 1111 0 . .. ... 0 ... 0 0111 . 1 . 0 ... 0 @2op
 +VHADD_S          111 0 1111 0 . .. ... 0 ... 0 0000 . 1 . 0 ... 0 @2op
 +VHADD_U          111 1 1111 0 . .. ... 0 ... 0 0000 . 1 . 0 ... 0 @2op
 +VHSUB_S          111 0 1111 0 . .. ... 0 ... 0 0010 . 1 . 0 ... 0 @2op
 +VHSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 0 ... 0 @2op
 +
-+    Clock *plla_in;
+ # Vector miscellaneous
-+    Clock *plld_in;
-+    Clock *out;
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
-+} CprmanDsi0HsckMuxState;
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vminu, DO_MIN)
  DO_2OP_S(vabds, DO_ABD)
  DO_2OP_U(vabdu, DO_ABD)
 +
- struct BCM2835CprmanState {
++static inline uint32_t do_vhadd_u(uint32_t n, uint32_t m)
      /*< private >*/
      SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
      CprmanPllState plls[CPRMAN_NUM_PLL];
      CprmanPllChannelState channels[CPRMAN_NUM_PLL_CHANNEL];
      CprmanClockMuxState clock_muxes[CPRMAN_NUM_CLOCK_MUX];
 +    CprmanDsi0HsckMuxState dsi0hsck_mux;
      uint32_t regs[CPRMAN_NUM_REGS];
      uint32_t xosc_freq;
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/misc/bcm2835_cprman_internals.h
 +++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
  #define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
  #define TYPE_CPRMAN_PLL_CHANNEL "bcm2835-cprman-pll-channel"
  #define TYPE_CPRMAN_CLOCK_MUX "bcm2835-cprman-clock-mux"
 +#define TYPE_CPRMAN_DSI0HSCK_MUX "bcm2835-cprman-dsi0hsck-mux"
  DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
                           TYPE_CPRMAN_PLL)
@@ -XXX,XX +XXX,XX @@ DECLARE_INSTANCE_CHECKER(CprmanPllChannelState, CPRMAN_PLL_CHANNEL,
                           TYPE_CPRMAN_PLL_CHANNEL)
  DECLARE_INSTANCE_CHECKER(CprmanClockMuxState, CPRMAN_CLOCK_MUX,
                           TYPE_CPRMAN_CLOCK_MUX)
 +DECLARE_INSTANCE_CHECKER(CprmanDsi0HsckMuxState, CPRMAN_DSI0HSCK_MUX,
 +                         TYPE_CPRMAN_DSI0HSCK_MUX)
  /* Register map */
@@ -XXX,XX +XXX,XX @@ REG32(CM_LOCK, 0x114)
      FIELD(CM_LOCK, FLOCKB, 9, 1)
      FIELD(CM_LOCK, FLOCKA, 8, 1)
 +REG32(CM_DSI0HSCK, 0x120)
 +    FIELD(CM_DSI0HSCK, SELPLLD, 0, 1)
 +
  /*
   * This field is common to all registers. Each register write value must match
   * the CPRMAN_PASSWORD magic value in its 8 MSB.
 diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/bcm2835_cprman.c
 +++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_clock_mux_info = {
  };
 +/* DSI0HSCK mux */
 +
 +static void dsi0hsck_mux_update(CprmanDsi0HsckMuxState *s)
 +{
-+    bool src_is_plld = FIELD_EX32(*s->reg_cm, CM_DSI0HSCK, SELPLLD);
++    return ((uint64_t)n + m) >> 1;
 +    Clock *src = src_is_plld ? s->plld_in : s->plla_in;
 +
 +    clock_update(s->out, clock_get(src));
 +}
 +
-+static void dsi0hsck_mux_in_update(void *opaque)
++static inline int32_t do_vhadd_s(int32_t n, int32_t m)
 +{
-+    dsi0hsck_mux_update(CPRMAN_DSI0HSCK_MUX(opaque));
++    return ((int64_t)n + m) >> 1;
 +}
 +
-+static void dsi0hsck_mux_init(Object *obj)
++static inline uint32_t do_vhsub_u(uint32_t n, uint32_t m)
 +{
-+    CprmanDsi0HsckMuxState *s = CPRMAN_DSI0HSCK_MUX(obj);
++    return ((uint64_t)n - m) >> 1;
 +    DeviceState *dev = DEVICE(obj);
 +
 +    s->plla_in = qdev_init_clock_in(dev, "plla-in", dsi0hsck_mux_in_update, s);
 +    s->plld_in = qdev_init_clock_in(dev, "plld-in", dsi0hsck_mux_in_update, s);
 +    s->out = qdev_init_clock_out(DEVICE(s), "out");
 +}
 +
-+static const VMStateDescription dsi0hsck_mux_vmstate = {
++static inline int32_t do_vhsub_s(int32_t n, int32_t m)
 +    .name = TYPE_CPRMAN_DSI0HSCK_MUX,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_CLOCK(plla_in, CprmanDsi0HsckMuxState),
 +        VMSTATE_CLOCK(plld_in, CprmanDsi0HsckMuxState),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
 +static void dsi0hsck_mux_class_init(ObjectClass *klass, void *data)
 +{
-+    DeviceClass *dc = DEVICE_CLASS(klass);
++    return ((int64_t)n - m) >> 1;
 +
 +    dc->vmsd = &dsi0hsck_mux_vmstate;
 +}
 +
-+static const TypeInfo cprman_dsi0hsck_mux_info = {
++DO_2OP_S(vhadds, do_vhadd_s)
-+    .name = TYPE_CPRMAN_DSI0HSCK_MUX,
++DO_2OP_U(vhaddu, do_vhadd_u)
-+    .parent = TYPE_DEVICE,
++DO_2OP_S(vhsubs, do_vhsub_s)
-+    .instance_size = sizeof(CprmanDsi0HsckMuxState),
++DO_2OP_U(vhsubu, do_vhsub_u)
-+    .class_init = dsi0hsck_mux_class_init,
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+    .instance_init = dsi0hsck_mux_init,
+index XXXXXXX..XXXXXXX 100644
-+};
+--- a/target/arm/translate-mve.c
-+
++++ b/target/arm/translate-mve.c
-+
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VMIN_S, vmins)
- /* CPRMAN "top level" model */
+ DO_2OP(VMIN_U, vminu)
+ DO_2OP(VABD_S, vabds)
- static uint32_t get_cm_lock(const BCM2835CprmanState *s)
+ DO_2OP(VABD_U, vabdu)
-@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
++DO_2OP(VHADD_S, vhadds)
-     case R_CM_EMMC2CTL ... R_CM_EMMC2DIV:
++DO_2OP(VHADD_U, vhaddu)
-         update_mux_from_cm(s, idx);
++DO_2OP(VHSUB_S, vhsubs)
-         break;
++DO_2OP(VHSUB_U, vhsubu)
 +
 +    case R_CM_DSI0HSCK:
 +        dsi0hsck_mux_update(&s->dsi0hsck_mux);
 +        break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void cprman_reset(DeviceState *dev)
          device_cold_reset(DEVICE(&s->channels[i]));
      }
 +    device_cold_reset(DEVICE(&s->dsi0hsck_mux));
 +
      for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
          device_cold_reset(DEVICE(&s->clock_muxes[i]));
      }
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
          set_pll_channel_init_info(s, &s->channels[i], i);
      }
 +    object_initialize_child(obj, "dsi0hsck-mux",
 +                            &s->dsi0hsck_mux, TYPE_CPRMAN_DSI0HSCK_MUX);
 +    s->dsi0hsck_mux.reg_cm = &s->regs[R_CM_DSI0HSCK];
 +
      for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
          char *alias;
@@ -XXX,XX +XXX,XX @@ static void connect_mux_sources(BCM2835CprmanState *s,
          if (mapping == CPRMAN_CLOCK_SRC_FORCE_GROUND) {
              src = s->gnd;
          } else if (mapping == CPRMAN_CLOCK_SRC_DSI0HSCK) {
 -            src = s->gnd; /* TODO */
 +            src = s->dsi0hsck_mux.out;
          } else if (i < CPRMAN_CLOCK_SRC_PLLA) {
              src = CLK_SRC_MAPPING[i];
          } else {
@@ -XXX,XX +XXX,XX @@ static void cprman_realize(DeviceState *dev, Error **errp)
          }
      }
 +    clock_set_source(s->dsi0hsck_mux.plla_in,
 +                     s->channels[CPRMAN_PLLA_CHANNEL_DSI0].out);
 +    clock_set_source(s->dsi0hsck_mux.plld_in,
 +                     s->channels[CPRMAN_PLLD_CHANNEL_DSI0].out);
 +
 +    if (!qdev_realize(DEVICE(&s->dsi0hsck_mux), NULL, errp)) {
 +        return;
 +    }
 +
      for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
          CprmanClockMuxState *clock_mux = &s->clock_muxes[i];
@@ -XXX,XX +XXX,XX @@ static void cprman_register_types(void)
      type_register_static(&cprman_pll_info);
      type_register_static(&cprman_pll_channel_info);
      type_register_static(&cprman_clock_mux_info);
 +    type_register_static(&cprman_dsi0hsck_mux_info);
  }
  type_init(cprman_register_types);
 --
 .20.1

-[PULL 02/48] linux-user: Set PAGE_TARGET_1 for TARGET_PROT_BTI
+[PULL 29/57] target/arm: Implement MVE VMULL
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VMULL insn, which multiplies two single
 width integer elements to produce a double width result.
-Transform the prot bit to a qemu internal page bit, and save
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-it in the page tables.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-19-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 14 ++++++++++++++
  target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 34 ++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  4 ++++
 files changed, 57 insertions(+)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201021173749.111103-3-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/exec/cpu-all.h     |  2 ++
  linux-user/syscall_defs.h  |  4 ++++
  target/arm/cpu.h           |  5 +++++
  linux-user/mmap.c          | 16 ++++++++++++++++
  target/arm/translate-a64.c |  6 +++---
 files changed, 30 insertions(+), 3 deletions(-)
 diff --git a/include/exec/cpu-all.h b/include/exec/cpu-all.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/cpu-all.h
+--- a/target/arm/helper-mve.h
-+++ b/include/exec/cpu-all.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ extern intptr_t qemu_host_page_mask;
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vhsubsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- /* FIXME: Code that sets/uses this is broken and needs to go away.  */
+ DEF_HELPER_FLAGS_4(mve_vhsubub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #define PAGE_RESERVED  0x0020
+ DEF_HELPER_FLAGS_4(mve_vhsubuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #endif
+ DEF_HELPER_FLAGS_4(mve_vhsubuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+/* Target-specific bits that will be used via page_get_flags().  */
++
-+#define PAGE_TARGET_1  0x0080
++DEF_HELPER_FLAGS_4(mve_vmullbsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++DEF_HELPER_FLAGS_4(mve_vmullbsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #if defined(CONFIG_USER_ONLY)
++DEF_HELPER_FLAGS_4(mve_vmullbsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- void page_dump(FILE *f);
++DEF_HELPER_FLAGS_4(mve_vmullbub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-diff --git a/linux-user/syscall_defs.h b/linux-user/syscall_defs.h
++DEF_HELPER_FLAGS_4(mve_vmullbuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmullbuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vmulltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulltsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulltub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vmulltuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/syscall_defs.h
+--- a/target/arm/mve.decode
-+++ b/linux-user/syscall_defs.h
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ struct target_winsize {
+@@ -XXX,XX +XXX,XX @@ VHADD_U          111 1 1111 0 . .. ... 0 ... 0 0000 . 1 . 0 ... 0 @2op
- #define TARGET_PROT_SEM         0x08
+ VHSUB_S          111 0 1111 0 . .. ... 0 ... 0 0010 . 1 . 0 ... 0 @2op
- #endif
+ VHSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 0 ... 0 @2op
-+#ifdef TARGET_AARCH64
++VMULL_BS         111 0 1110 0 . .. ... 1 ... 0 1110 . 0 . 0 ... 0 @2op
-+#define TARGET_PROT_BTI         0x10
++VMULL_BU         111 1 1110 0 . .. ... 1 ... 0 1110 . 0 . 0 ... 0 @2op
-+#endif
++VMULL_TS         111 0 1110 0 . .. ... 1 ... 1 1110 . 0 . 0 ... 0 @2op
 +VMULL_TU         111 1 1110 0 . .. ... 1 ... 1 1110 . 0 . 0 ... 0 @2op
 +
- /* Common */
+ # Vector miscellaneous
- #define TARGET_MAP_SHARED    0x01        /* Share changes */
- #define TARGET_MAP_PRIVATE    0x02        /* Changes are private */
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/cpu.h
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static inline MemTxAttrs *typecheck_memtxattrs(MemTxAttrs *x)
+@@ -XXX,XX +XXX,XX @@ DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
- #define arm_tlb_bti_gp(x) (typecheck_memtxattrs(x)->target_tlb_bit0)
+     DO_2OP(OP##h, 2, int16_t, FN)               \
- #define arm_tlb_mte_tagged(x) (typecheck_memtxattrs(x)->target_tlb_bit1)
+     DO_2OP(OP##w, 4, int32_t, FN)
 +/*
-+ * AArch64 usage of the PAGE_TARGET_* bits for linux-user.
++ * "Long" operations where two half-sized inputs (taken from either the
 + * top or the bottom of the input vector) produce a double-width result.
 + * Here ESIZE, TYPE are for the input, and LESIZE, LTYPE for the output.
 + */
-+#define PAGE_BTI  PAGE_TARGET_1
++#define DO_2OP_L(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)               \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn, void *vm) \
 +    {                                                                   \
 +        LTYPE *d = vd;                                                  \
 +        TYPE *n = vn, *m = vm;                                          \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned le;                                                    \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
 +            LTYPE r = FN((LTYPE)n[H##ESIZE(le * 2 + TOP)],              \
 +                         m[H##ESIZE(le * 2 + TOP)]);                    \
 +            mergemask(&d[H##LESIZE(le)], r, mask);                      \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
  #define DO_AND(N, M)  ((N) & (M))
  #define DO_BIC(N, M)  ((N) & ~(M))
  #define DO_ORR(N, M)  ((N) | (M))
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vadd, DO_ADD)
  DO_2OP_U(vsub, DO_SUB)
  DO_2OP_U(vmul, DO_MUL)
 +DO_2OP_L(vmullbsb, 0, 1, int8_t, 2, int16_t, DO_MUL)
 +DO_2OP_L(vmullbsh, 0, 2, int16_t, 4, int32_t, DO_MUL)
 +DO_2OP_L(vmullbsw, 0, 4, int32_t, 8, int64_t, DO_MUL)
 +DO_2OP_L(vmullbub, 0, 1, uint8_t, 2, uint16_t, DO_MUL)
 +DO_2OP_L(vmullbuh, 0, 2, uint16_t, 4, uint32_t, DO_MUL)
 +DO_2OP_L(vmullbuw, 0, 4, uint32_t, 8, uint64_t, DO_MUL)
 +
 +DO_2OP_L(vmulltsb, 1, 1, int8_t, 2, int16_t, DO_MUL)
 +DO_2OP_L(vmulltsh, 1, 2, int16_t, 4, int32_t, DO_MUL)
 +DO_2OP_L(vmulltsw, 1, 4, int32_t, 8, int64_t, DO_MUL)
 +DO_2OP_L(vmulltub, 1, 1, uint8_t, 2, uint16_t, DO_MUL)
 +DO_2OP_L(vmulltuh, 1, 2, uint16_t, 4, uint32_t, DO_MUL)
 +DO_2OP_L(vmulltuw, 1, 4, uint32_t, 8, uint64_t, DO_MUL)
 +
  /*
-  * Naming convention for isar_feature functions:
+  * Because the computation type is at least twice as large as required,
-  * Functions which test 32-bit ID registers should have _aa32_ in
+  * these work for both signed and unsigned source types.
-diff --git a/linux-user/mmap.c b/linux-user/mmap.c
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/mmap.c
+--- a/target/arm/translate-mve.c
-+++ b/linux-user/mmap.c
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ static int validate_prot_to_pageflags(int *host_prot, int prot)
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VHADD_S, vhadds)
-     *host_prot = (prot & (PROT_READ | PROT_WRITE))
+ DO_2OP(VHADD_U, vhaddu)
-                | (prot & PROT_EXEC ? PROT_READ : 0);
+ DO_2OP(VHSUB_S, vhsubs)
+ DO_2OP(VHSUB_U, vhsubu)
-+#ifdef TARGET_AARCH64
++DO_2OP(VMULL_BS, vmullbs)
-+    /*
++DO_2OP(VMULL_BU, vmullbu)
-+     * The PROT_BTI bit is only accepted if the cpu supports the feature.
++DO_2OP(VMULL_TS, vmullts)
-+     * Since this is the unusual case, don't bother checking unless
++DO_2OP(VMULL_TU, vmulltu)
 +     * the bit has been requested.  If set and valid, record the bit
 +     * within QEMU's page_flags.
 +     */
 +    if (prot & TARGET_PROT_BTI) {
 +        ARMCPU *cpu = ARM_CPU(thread_cpu);
 +        if (cpu_isar_feature(aa64_bti, cpu)) {
 +            valid |= TARGET_PROT_BTI;
 +            page_flags |= PAGE_BTI;
 +        }
 +    }
 +#endif
 +
      return prot & ~valid ? 0 : page_flags;
  }
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
   */
  static bool is_guarded_page(CPUARMState *env, DisasContext *s)
  {
 -#ifdef CONFIG_USER_ONLY
 -    return false;  /* FIXME */
 -#else
      uint64_t addr = s->base.pc_first;
 +#ifdef CONFIG_USER_ONLY
 +    return page_get_flags(addr) & PAGE_BTI;
 +#else
      int mmu_idx = arm_to_core_mmu_idx(s->mmu_idx);
      unsigned int index = tlb_index(env, mmu_idx, addr);
      CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
 --
 .20.1

-[PULL 25/48] hw/arm/bcm2836: Split out common realize() code
+[PULL 30/57] target/arm: Implement MVE VMLALDAV
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the MVE VMLALDAV insn, which multiplies pairs of integer
+elements, accumulating them into a 64-bit result in a pair of
-The realize() function is clearly composed of two parts,
+general-purpose registers.
-each described by a comment:
   void realize()
   {
      /* common peripherals from bcm2835 */
      ...
      /* bcm2836 interrupt controller (and mailboxes, etc.) */
      ...
    }
 Split the two part, so we can reuse the common part with other
 SoCs from this family.
 Reviewed-by: Luc Michel <luc.michel@greensocs.com>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-6-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-20-peter.maydell@linaro.org
 ---
- hw/arm/bcm2836.c | 22 ++++++++++++++++++----
+ target/arm/helper-mve.h    |  8 ++++
-file changed, 18 insertions(+), 4 deletions(-)
+ target/arm/translate.h     | 10 ++++
+ target/arm/mve.decode      | 15 ++++++
-diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
+ target/arm/mve_helper.c    | 34 ++++++++++++++
-index XXXXXXX..XXXXXXX 100644
+ target/arm/translate-mve.c | 96 ++++++++++++++++++++++++++++++++++++++
---- a/hw/arm/bcm2836.c
+files changed, 163 insertions(+)
-+++ b/hw/arm/bcm2836.c
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-         qdev_prop_set_uint32(DEVICE(obj), "enabled-cpus", bc->core_count);
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmulltsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vmulltub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vmulltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vmulltuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
 +DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vmlaldavxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +
 +DEF_HELPER_FLAGS_4(mve_vmlaldavuh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vmlaldavuw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int negate(DisasContext *s, int x)
      return -x;
  }
 +static inline int plus_1(DisasContext *s, int x)
 +{
 +    return x + 1;
 +}
 +
  static inline int plus_2(DisasContext *s, int x)
  {
      return x + 2;
@@ -XXX,XX +XXX,XX @@ static inline int times_4(DisasContext *s, int x)
      return x * 4;
  }
 +static inline int times_2_plus_1(DisasContext *s, int x)
 +{
 +    return x * 2 + 1;
 +}
 +
  static inline int arm_dc_feature(DisasContext *dc, int feature)
  {
      return (dc->features & (1ULL << feature)) != 0;
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VNEG_fp          1111 1111 1 . 11 .. 01 ... 0 0111 11 . 0 ... 0 @1op
  VDUP             1110 1110 1 1 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=0
  VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 1 1 0000 @vdup size=1
  VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=2
 +
 +# multiply-add long dual accumulate
 +# rdahi: bits [3:1] from insn, bit 0 is 1
 +# rdalo: bits [3:1] from insn, bit 0 is 0
 +%rdahi 20:3 !function=times_2_plus_1
 +%rdalo 13:3 !function=times_2
 +# size bit is 0 for 16 bit, 1 for 32 bit
 +%size_16 16:1 !function=plus_1
 +
 +&vmlaldav rdahi rdalo size qn qm x a
 +
 +@vmlaldav        .... .... . ... ... . ... . .... .... qm:3 . \
 +                 qn=%qn rdahi=%rdahi rdalo=%rdalo size=%size_16 &vmlaldav
 +VMLALDAV_S       1110 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
 +VMLALDAV_U       1111 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_S(vhadds, do_vhadd_s)
  DO_2OP_U(vhaddu, do_vhadd_u)
  DO_2OP_S(vhsubs, do_vhsub_s)
  DO_2OP_U(vhsubu, do_vhsub_u)
 +
 +
 +/*
 + * Multiply add long dual accumulate ops.
 + */
 +#define DO_LDAV(OP, ESIZE, TYPE, XCHG, EVENACC, ODDACC)                 \
 +    uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vn,         \
 +                                    void *vm, uint64_t a)               \
 +    {                                                                   \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        TYPE *n = vn, *m = vm;                                          \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +            if (mask & 1) {                                             \
 +                if (e & 1) {                                            \
 +                    a ODDACC                                            \
 +                        (int64_t)n[H##ESIZE(e - 1 * XCHG)] * m[H##ESIZE(e)]; \
 +                } else {                                                \
 +                    a EVENACC                                           \
 +                        (int64_t)n[H##ESIZE(e + 1 * XCHG)] * m[H##ESIZE(e)]; \
 +                }                                                       \
 +            }                                                           \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +        return a;                                                       \
 +    }
 +
 +DO_LDAV(vmlaldavsh, 2, int16_t, false, +=, +=)
 +DO_LDAV(vmlaldavxsh, 2, int16_t, true, +=, +=)
 +DO_LDAV(vmlaldavsw, 4, int32_t, false, +=, +=)
 +DO_LDAV(vmlaldavxsw, 4, int32_t, true, +=, +=)
 +
 +DO_LDAV(vmlaldavuh, 2, uint16_t, false, +=, +=)
 +DO_LDAV(vmlaldavuw, 4, uint32_t, false, +=, +=)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
  typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
 +typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static void mve_update_eci(DisasContext *s)
      }
--    object_initialize_child(obj, "control", &s->control, TYPE_BCM2836_CONTROL);
-+    if (bc->ctrl_base) {
-+        object_initialize_child(obj, "control", &s->control,
-+                                TYPE_BCM2836_CONTROL);
-+    }
-     object_initialize_child(obj, "peripherals", &s->peripherals,
-                             TYPE_BCM2835_PERIPHERALS);
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
-                               "vcram-size");
  }
--static void bcm2836_realize(DeviceState *dev, Error **errp)
++static bool mve_skip_first_beat(DisasContext *s)
-+static bool bcm283x_common_realize(DeviceState *dev, Error **errp)
++{
 +    /* Return true if PSR.ECI says we must skip the first beat of this insn */
 +    switch (s->eci) {
 +    case ECI_NONE:
 +        return false;
 +    case ECI_A0:
 +    case ECI_A0A1:
 +    case ECI_A0A1A2:
 +    case ECI_A0A1A2B0:
 +        return true;
 +    default:
 +        g_assert_not_reached();
 +    }
 +}
 +
  static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
  {
-     BCM283XState *s = BCM283X(dev);
+     TCGv_i32 addr;
-     BCM283XClass *bc = BCM283X_GET_CLASS(dev);
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VMULL_BS, vmullbs)
-     Object *obj;
+ DO_2OP(VMULL_BU, vmullbu)
--    int n;
+ DO_2OP(VMULL_TS, vmullts)
+ DO_2OP(VMULL_TU, vmulltu)
-     /* common peripherals from bcm2835 */
++
++static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
++                             MVEGenDualAccOpFn *fn)
-     object_property_add_const_link(OBJECT(&s->peripherals), "ram", obj);
++{
++    TCGv_ptr qn, qm;
-     if (!sysbus_realize(SYS_BUS_DEVICE(&s->peripherals), errp)) {
++    TCGv_i64 rda;
--        return;
++    TCGv_i32 rdalo, rdahi;
 +
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qn | a->qm) ||
 +        !fn) {
 +        return false;
-     }
++    }
++    /*
-     object_property_add_alias(OBJECT(s), "sd-bus", OBJECT(&s->peripherals),
++     * rdahi == 13 is UNPREDICTABLE; rdahi == 15 is a related
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
++     * encoding; rdalo always has bit 0 clear so cannot be 13 or 15.
++     */
-     sysbus_mmio_map_overlap(SYS_BUS_DEVICE(&s->peripherals), 0,
++    if (a->rdahi == 13 || a->rdahi == 15) {
-                             bc->peri_base, 1);
++        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    qn = mve_qreg_ptr(a->qn);
 +    qm = mve_qreg_ptr(a->qm);
 +
 +    /*
 +     * This insn is subject to beat-wise execution. Partial execution
 +     * of an A=0 (no-accumulate) insn which does not execute the first
 +     * beat must start with the current rda value, not 0.
 +     */
 +    if (a->a || mve_skip_first_beat(s)) {
 +        rda = tcg_temp_new_i64();
 +        rdalo = load_reg(s, a->rdalo);
 +        rdahi = load_reg(s, a->rdahi);
 +        tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +        tcg_temp_free_i32(rdalo);
 +        tcg_temp_free_i32(rdahi);
 +    } else {
 +        rda = tcg_const_i64(0);
 +    }
 +
 +    fn(rda, cpu_env, qn, qm, rda);
 +    tcg_temp_free_ptr(qn);
 +    tcg_temp_free_ptr(qm);
 +
 +    rdalo = tcg_temp_new_i32();
 +    rdahi = tcg_temp_new_i32();
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +    mve_update_eci(s);
 +    return true;
 +}
 +
-+static void bcm2836_realize(DeviceState *dev, Error **errp)
++static bool trans_VMLALDAV_S(DisasContext *s, arg_vmlaldav *a)
 +{
-+    BCM283XState *s = BCM283X(dev);
++    static MVEGenDualAccOpFn * const fns[4][2] = {
-+    BCM283XClass *bc = BCM283X_GET_CLASS(dev);
++        { NULL, NULL },
-+    int n;
++        { gen_helper_mve_vmlaldavsh, gen_helper_mve_vmlaldavxsh },
-+
++        { gen_helper_mve_vmlaldavsw, gen_helper_mve_vmlaldavxsw },
-+    if (!bcm283x_common_realize(dev, errp)) {
++        { NULL, NULL },
-+        return;
++    };
-+    }
++    return do_long_dual_acc(s, a, fns[a->size][a->x]);
++}
-     /* bcm2836 interrupt controller (and mailboxes, etc.) */
++
-     if (!sysbus_realize(SYS_BUS_DEVICE(&s->control), errp)) {
++static bool trans_VMLALDAV_U(DisasContext *s, arg_vmlaldav *a)
 +{
 +    static MVEGenDualAccOpFn * const fns[4][2] = {
 +        { NULL, NULL },
 +        { gen_helper_mve_vmlaldavuh, NULL },
 +        { gen_helper_mve_vmlaldavuw, NULL },
 +        { NULL, NULL },
 +    };
 +    return do_long_dual_acc(s, a, fns[a->size][a->x]);
 +}
 --
 .20.1

-[PULL 31/48] hw/core/clock: provide the VMSTATE_ARRAY_CLOCK macro
+[PULL 31/57] target/arm: Implement MVE VMLSLDAV
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE insn VMLSLDAV, which multiplies source elements,
 alternately adding and subtracting them, and accumulates into a
 -bit result in a pair of general purpose registers.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Damien Hedde <damien.hedde@greensocs.com>
-Signed-off-by: Luc Michel <luc@lmichel.fr>
-Tested-by: Guenter Roeck <linux@roeck-us.net>
-Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-21-peter.maydell@linaro.org
 ---
- include/hw/clock.h | 5 +++++
+ target/arm/helper-mve.h    |  5 +++++
-file changed, 5 insertions(+)
+ target/arm/mve.decode      |  2 ++
  target/arm/mve_helper.c    |  5 +++++
  target/arm/translate-mve.c | 11 +++++++++++
 files changed, 23 insertions(+)
-diff --git a/include/hw/clock.h b/include/hw/clock.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/clock.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/clock.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_clock;
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmlaldavxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-     VMSTATE_CLOCK_V(field, state, 0)
- #define VMSTATE_CLOCK_V(field, state, version) \
+ DEF_HELPER_FLAGS_4(mve_vmlaldavuh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-     VMSTATE_STRUCT_POINTER_V(field, state, version, vmstate_clock, Clock)
+ DEF_HELPER_FLAGS_4(mve_vmlaldavuw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-+#define VMSTATE_ARRAY_CLOCK(field, state, num) \
++
-+    VMSTATE_ARRAY_CLOCK_V(field, state, num, 0)
++DEF_HELPER_FLAGS_4(mve_vmlsldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-+#define VMSTATE_ARRAY_CLOCK_V(field, state, num, version)          \
++DEF_HELPER_FLAGS_4(mve_vmlsldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-+    VMSTATE_ARRAY_OF_POINTER_TO_STRUCT(field, state, num, version, \
++DEF_HELPER_FLAGS_4(mve_vmlsldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-+                                       vmstate_clock, Clock)
++DEF_HELPER_FLAGS_4(mve_vmlsldavxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
- /**
+index XXXXXXX..XXXXXXX 100644
-  * clock_setup_canonical_path:
+--- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=2
                   qn=%qn rdahi=%rdahi rdalo=%rdalo size=%size_16 &vmlaldav
  VMLALDAV_S       1110 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
  VMLALDAV_U       1111 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
 +
 +VMLSLDAV         1110 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 1 @vmlaldav
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_LDAV(vmlaldavxsw, 4, int32_t, true, +=, +=)
  DO_LDAV(vmlaldavuh, 2, uint16_t, false, +=, +=)
  DO_LDAV(vmlaldavuw, 4, uint32_t, false, +=, +=)
 +
 +DO_LDAV(vmlsldavsh, 2, int16_t, false, +=, -=)
 +DO_LDAV(vmlsldavxsh, 2, int16_t, true, +=, -=)
 +DO_LDAV(vmlsldavsw, 4, int32_t, false, +=, -=)
 +DO_LDAV(vmlsldavxsw, 4, int32_t, true, +=, -=)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLALDAV_U(DisasContext *s, arg_vmlaldav *a)
      };
      return do_long_dual_acc(s, a, fns[a->size][a->x]);
  }
 +
 +static bool trans_VMLSLDAV(DisasContext *s, arg_vmlaldav *a)
 +{
 +    static MVEGenDualAccOpFn * const fns[4][2] = {
 +        { NULL, NULL },
 +        { gen_helper_mve_vmlsldavsh, gen_helper_mve_vmlsldavxsh },
 +        { gen_helper_mve_vmlsldavsw, gen_helper_mve_vmlsldavxsw },
 +        { NULL, NULL },
 +    };
 +    return do_long_dual_acc(s, a, fns[a->size][a->x]);
 +}
 --
 .20.1

-[PULL 34/48] hw/arm/raspi: add a skeleton implementation of the CPRMAN
+[PULL 32/57] target/arm: Implement MVE VRMLALDAVH, VRMLSLDAVH
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VRMLALDAVH and VRMLSLDAVH insns, which accumulate
 the results of a rounded multiply of pairs of elements into a 72-bit
 accumulator, returning the top 64 bits in a pair of general purpose
 registers.
-The BCM2835 CPRMAN is the clock manager of the SoC. It is composed of a
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-main oscillator, and several sub-components (PLLs, multiplexers, ...) to
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-generate the BCM2835 clock tree.
+Message-id: 20210617121628.20116-22-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  8 ++++++++
  target/arm/mve.decode      |  7 +++++++
  target/arm/mve_helper.c    | 37 +++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 24 ++++++++++++++++++++++++
 files changed, 76 insertions(+)
-This commit adds a skeleton of the CPRMAN, with a dummy register
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 read/write implementation. It embeds the main oscillator (xosc) from
 which all the clocks will be derived.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/arm/bcm2835_peripherals.h       |   3 +-
  include/hw/misc/bcm2835_cprman.h           |  37 +++++
  include/hw/misc/bcm2835_cprman_internals.h |  24 +++
  hw/arm/bcm2835_peripherals.c               |  11 +-
  hw/misc/bcm2835_cprman.c                   | 163 +++++++++++++++++++++
  hw/misc/meson.build                        |   1 +
  hw/misc/trace-events                       |   5 +
 files changed, 242 insertions(+), 2 deletions(-)
  create mode 100644 include/hw/misc/bcm2835_cprman.h
  create mode 100644 include/hw/misc/bcm2835_cprman_internals.h
  create mode 100644 hw/misc/bcm2835_cprman.c
 diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/bcm2835_peripherals.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/arm/bcm2835_peripherals.h
++++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmlsldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlsldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlsldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlsldavxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +
 +DEF_HELPER_FLAGS_4(mve_vrmlaldavhsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vrmlaldavhxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +
 +DEF_HELPER_FLAGS_4(mve_vrmlaldavhuw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +
 +DEF_HELPER_FLAGS_4(mve_vrmlsldavhsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vrmlsldavhxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=2
  @vmlaldav        .... .... . ... ... . ... . .... .... qm:3 . \
                   qn=%qn rdahi=%rdahi rdalo=%rdalo size=%size_16 &vmlaldav
 +@vmlaldav_nosz   .... .... . ... ... . ... . .... .... qm:3 . \
 +                 qn=%qn rdahi=%rdahi rdalo=%rdalo size=0 &vmlaldav
  VMLALDAV_S       1110 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
  VMLALDAV_U       1111 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
  VMLSLDAV         1110 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 1 @vmlaldav
 +
 +VRMLALDAVH_S     1110 1110 1 ... ... 0 ... x:1 1111 . 0 a:1 0 ... 0 @vmlaldav_nosz
 +VRMLALDAVH_U     1111 1110 1 ... ... 0 ... x:1 1111 . 0 a:1 0 ... 0 @vmlaldav_nosz
 +
 +VRMLSLDAVH       1111 1110 1 ... ... 0 ... x:1 1110 . 0 a:1 0 ... 1 @vmlaldav_nosz
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
 @@ -XXX,XX +XXX,XX @@
- #include "hw/misc/bcm2835_mbox.h"
+  */
- #include "hw/misc/bcm2835_mphi.h"
- #include "hw/misc/bcm2835_thermal.h"
+ #include "qemu/osdep.h"
-+#include "hw/misc/bcm2835_cprman.h"
++#include "qemu/int128.h"
- #include "hw/sd/sdhci.h"
+ #include "cpu.h"
- #include "hw/sd/bcm2835_sdhost.h"
+ #include "internals.h"
- #include "hw/gpio/bcm2835_gpio.h"
+ #include "vec_internal.h"
-@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
+@@ -XXX,XX +XXX,XX @@ DO_LDAV(vmlsldavsh, 2, int16_t, false, +=, -=)
-     UnimplementedDeviceState txp;
+ DO_LDAV(vmlsldavxsh, 2, int16_t, true, +=, -=)
-     UnimplementedDeviceState armtmr;
+ DO_LDAV(vmlsldavsw, 4, int32_t, false, +=, -=)
-     UnimplementedDeviceState powermgt;
+ DO_LDAV(vmlsldavxsw, 4, int32_t, true, +=, -=)
 -    UnimplementedDeviceState cprman;
 +    BCM2835CprmanState cprman;
      PL011State uart0;
      BCM2835AuxState aux;
      BCM2835FBState fb;
 diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/include/hw/misc/bcm2835_cprman.h
@@ -XXX,XX +XXX,XX @@
 +/*
 + * BCM2835 CPRMAN clock manager
 + *
 + * Copyright (c) 2020 Luc Michel <luc@lmichel.fr>
 + *
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
 +#ifndef HW_MISC_CPRMAN_H
 +#define HW_MISC_CPRMAN_H
 +
 +#include "hw/sysbus.h"
 +#include "hw/qdev-clock.h"
 +
 +#define TYPE_BCM2835_CPRMAN "bcm2835-cprman"
 +
 +typedef struct BCM2835CprmanState BCM2835CprmanState;
 +
 +DECLARE_INSTANCE_CHECKER(BCM2835CprmanState, CPRMAN,
 +                         TYPE_BCM2835_CPRMAN)
 +
 +#define CPRMAN_NUM_REGS (0x2000 / sizeof(uint32_t))
 +
 +struct BCM2835CprmanState {
 +    /*< private >*/
 +    SysBusDevice parent_obj;
 +
 +    /*< public >*/
 +    MemoryRegion iomem;
 +
 +    uint32_t regs[CPRMAN_NUM_REGS];
 +    uint32_t xosc_freq;
 +
 +    Clock *xosc;
 +};
 +
 +#endif
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
 +/*
 + * BCM2835 CPRMAN clock manager
 + *
 + * Copyright (c) 2020 Luc Michel <luc@lmichel.fr>
 + *
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
 +#ifndef HW_MISC_CPRMAN_INTERNALS_H
 +#define HW_MISC_CPRMAN_INTERNALS_H
 +
 +#include "hw/registerfields.h"
 +#include "hw/misc/bcm2835_cprman.h"
 +
 +/* Register map */
 +
 +/*
-+ * This field is common to all registers. Each register write value must match
++ * Rounding multiply add long dual accumulate high: we must keep
-+ * the CPRMAN_PASSWORD magic value in its 8 MSB.
++ * a 72-bit internal accumulator value and return the top 64 bits.
 + */
-+FIELD(CPRMAN, PASSWORD, 24, 8)
++#define DO_LDAVH(OP, ESIZE, TYPE, XCHG, EVENACC, ODDACC, TO128)         \
-+#define CPRMAN_PASSWORD 0x5a
++    uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vn,         \
-+
++                                    void *vm, uint64_t a)               \
-+#endif
++    {                                                                   \
-diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
++        uint16_t mask = mve_element_mask(env);                          \
-index XXXXXXX..XXXXXXX 100644
++        unsigned e;                                                     \
---- a/hw/arm/bcm2835_peripherals.c
++        TYPE *n = vn, *m = vm;                                          \
-+++ b/hw/arm/bcm2835_peripherals.c
++        Int128 acc = int128_lshift(TO128(a), 8);                        \
-@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_init(Object *obj)
++        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
-     /* DWC2 */
++            if (mask & 1) {                                             \
-     object_initialize_child(obj, "dwc2", &s->dwc2, TYPE_DWC2_USB);
++                if (e & 1) {                                            \
++                    acc = ODDACC(acc, TO128(n[H##ESIZE(e - 1 * XCHG)] * \
-+    /* CPRMAN clock manager */
++                                            m[H##ESIZE(e)]));           \
-+    object_initialize_child(obj, "cprman", &s->cprman, TYPE_BCM2835_CPRMAN);
++                } else {                                                \
-+
++                    acc = EVENACC(acc, TO128(n[H##ESIZE(e + 1 * XCHG)] * \
-     object_property_add_const_link(OBJECT(&s->dwc2), "dma-mr",
++                                             m[H##ESIZE(e)]));          \
-                                    OBJECT(&s->gpu_bus_mr));
++                }                                                       \
- }
++                acc = int128_add(acc, 1 << 7);                          \
-@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
++            }                                                           \
-         return;
++        }                                                               \
-     }
++        mve_advance_vpt(env);                                           \
++        return int128_getlo(int128_rshift(acc, 8));                     \
 +    /* CPRMAN clock manager */
 +    if (!sysbus_realize(SYS_BUS_DEVICE(&s->cprman), errp)) {
 +        return;
 +    }
 +    memory_region_add_subregion(&s->peri_mr, CPRMAN_OFFSET,
 +                sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->cprman), 0));
 +
      memory_region_add_subregion(&s->peri_mr, ARMCTRL_IC_OFFSET,
                  sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->ic), 0));
      sysbus_pass_irq(SYS_BUS_DEVICE(s), SYS_BUS_DEVICE(&s->ic));
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
      create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
      create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
      create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
 -    create_unimp(s, &s->cprman, "bcm2835-cprman", CPRMAN_OFFSET, 0x2000);
      create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
      create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
      create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
 diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * BCM2835 CPRMAN clock manager
 + *
 + * Copyright (c) 2020 Luc Michel <luc@lmichel.fr>
 + *
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
 +/*
 + * This peripheral is roughly divided into 3 main parts:
 + *   - the PLLs
 + *   - the PLL channels
 + *   - the clock muxes
 + *
 + * A main oscillator (xosc) feeds all the PLLs. Each PLLs has one or more
 + * channels. Those channel are then connected to the clock muxes. Each mux has
 + * multiples sources (usually the xosc, some of the PLL channels and some "test
 + * debug" clocks). A mux is configured to select a given source through its
 + * control register. Each mux has one output clock that also goes out of the
 + * CPRMAN. This output clock usually connects to another peripheral in the SoC
 + * (so a given mux is dedicated to a peripheral).
 + *
 + * At each level (PLL, channel and mux), the clock can be altered through
 + * dividers (and multipliers in case of the PLLs), and can be disabled (in this
 + * case, the next levels see no clock).
 + *
 + * This can be sum-up as follows (this is an example and not the actual BCM2835
 + * clock tree):
 + *
 + *          /-->[PLL]-|->[PLL channel]--...            [mux]--> to peripherals
 + *          |         |->[PLL channel]  muxes takes    [mux]
 + *          |         \->[PLL channel]  inputs from    [mux]
 + *          |                           some channels  [mux]
 + * [xosc]---|-->[PLL]-|->[PLL channel]  and other srcs [mux]
 + *          |         \->[PLL channel]           ...-->[mux]
 + *          |                                          [mux]
 + *          \-->[PLL]--->[PLL channel]                 [mux]
 + *
 + * The page at https://elinux.org/The_Undocumented_Pi gives the actual clock
 + * tree configuration.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/log.h"
 +#include "migration/vmstate.h"
 +#include "hw/qdev-properties.h"
 +#include "hw/misc/bcm2835_cprman.h"
 +#include "hw/misc/bcm2835_cprman_internals.h"
 +#include "trace.h"
 +
 +/* CPRMAN "top level" model */
 +
 +static uint64_t cprman_read(void *opaque, hwaddr offset,
 +                            unsigned size)
 +{
 +    BCM2835CprmanState *s = CPRMAN(opaque);
 +    uint64_t r = 0;
 +    size_t idx = offset / sizeof(uint32_t);
 +
 +    switch (idx) {
 +    default:
 +        r = s->regs[idx];
 +    }
 +
-+    trace_bcm2835_cprman_read(offset, r);
++DO_LDAVH(vrmlaldavhsw, 4, int32_t, false, int128_add, int128_add, int128_makes64)
-+    return r;
++DO_LDAVH(vrmlaldavhxsw, 4, int32_t, true, int128_add, int128_add, int128_makes64)
 +
 +DO_LDAVH(vrmlaldavhuw, 4, uint32_t, false, int128_add, int128_add, int128_make64)
 +
 +DO_LDAVH(vrmlsldavhsw, 4, int32_t, false, int128_add, int128_sub, int128_makes64)
 +DO_LDAVH(vrmlsldavhxsw, 4, int32_t, true, int128_add, int128_sub, int128_makes64)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VMLSLDAV(DisasContext *s, arg_vmlaldav *a)
      };
      return do_long_dual_acc(s, a, fns[a->size][a->x]);
  }
 +
 +static bool trans_VRMLALDAVH_S(DisasContext *s, arg_vmlaldav *a)
 +{
 +    static MVEGenDualAccOpFn * const fns[] = {
 +        gen_helper_mve_vrmlaldavhsw, gen_helper_mve_vrmlaldavhxsw,
 +    };
 +    return do_long_dual_acc(s, a, fns[a->x]);
 +}
 +
-+static void cprman_write(void *opaque, hwaddr offset,
++static bool trans_VRMLALDAVH_U(DisasContext *s, arg_vmlaldav *a)
 +                         uint64_t value, unsigned size)
 +{
-+    BCM2835CprmanState *s = CPRMAN(opaque);
++    static MVEGenDualAccOpFn * const fns[] = {
-+    size_t idx = offset / sizeof(uint32_t);
++        gen_helper_mve_vrmlaldavhuw, NULL,
-+
++    };
-+    if (FIELD_EX32(value, CPRMAN, PASSWORD) != CPRMAN_PASSWORD) {
++    return do_long_dual_acc(s, a, fns[a->x]);
 +        trace_bcm2835_cprman_write_invalid_magic(offset, value);
 +        return;
 +    }
 +
 +    value &= ~R_CPRMAN_PASSWORD_MASK;
 +
 +    trace_bcm2835_cprman_write(offset, value);
 +    s->regs[idx] = value;
 +
 +}
 +
-+static const MemoryRegionOps cprman_ops = {
++static bool trans_VRMLSLDAVH(DisasContext *s, arg_vmlaldav *a)
 +    .read = cprman_read,
 +    .write = cprman_write,
 +    .endianness = DEVICE_LITTLE_ENDIAN,
 +    .valid = {
 +        /*
 +         * Although this hasn't been checked against real hardware, nor the
 +         * information can be found in a datasheet, it seems reasonable because
 +         * of the "PASSWORD" magic value found in every registers.
 +         */
 +        .min_access_size        = 4,
 +        .max_access_size        = 4,
 +        .unaligned              = false,
 +    },
 +    .impl = {
 +        .max_access_size = 4,
 +    },
 +};
 +
 +static void cprman_reset(DeviceState *dev)
 +{
-+    BCM2835CprmanState *s = CPRMAN(dev);
++    static MVEGenDualAccOpFn * const fns[] = {
-+
++        gen_helper_mve_vrmlsldavhsw, gen_helper_mve_vrmlsldavhxsw,
-+    memset(s->regs, 0, sizeof(s->regs));
++    };
-+
++    return do_long_dual_acc(s, a, fns[a->x]);
 +    clock_update_hz(s->xosc, s->xosc_freq);
 +}
-+
-+static void cprman_init(Object *obj)
-+{
-+    BCM2835CprmanState *s = CPRMAN(obj);
-+
-+    s->xosc = clock_new(obj, "xosc");
-+
-+    memory_region_init_io(&s->iomem, obj, &cprman_ops,
-+                          s, "bcm2835-cprman", 0x2000);
-+    sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->iomem);
-+}
-+
-+static const VMStateDescription cprman_vmstate = {
-+    .name = TYPE_BCM2835_CPRMAN,
-+    .version_id = 1,
-+    .minimum_version_id = 1,
-+    .fields = (VMStateField[]) {
-+        VMSTATE_UINT32_ARRAY(regs, BCM2835CprmanState, CPRMAN_NUM_REGS),
-+        VMSTATE_END_OF_LIST()
-+    }
-+};
-+
-+static Property cprman_properties[] = {
-+    DEFINE_PROP_UINT32("xosc-freq-hz", BCM2835CprmanState, xosc_freq, 19200000),
-+    DEFINE_PROP_END_OF_LIST()
-+};
-+
-+static void cprman_class_init(ObjectClass *klass, void *data)
-+{
-+    DeviceClass *dc = DEVICE_CLASS(klass);
-+
-+    dc->reset = cprman_reset;
-+    dc->vmsd = &cprman_vmstate;
-+    device_class_set_props(dc, cprman_properties);
-+}
-+
-+static const TypeInfo cprman_info = {
-+    .name = TYPE_BCM2835_CPRMAN,
-+    .parent = TYPE_SYS_BUS_DEVICE,
-+    .instance_size = sizeof(BCM2835CprmanState),
-+    .class_init = cprman_class_init,
-+    .instance_init = cprman_init,
-+};
-+
-+static void cprman_register_types(void)
-+{
-+    type_register_static(&cprman_info);
-+}
-+
-+type_init(cprman_register_types);
-diff --git a/hw/misc/meson.build b/hw/misc/meson.build
-index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/meson.build
-+++ b/hw/misc/meson.build
-@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
-   'bcm2835_property.c',
-   'bcm2835_rng.c',
-   'bcm2835_thermal.c',
-+  'bcm2835_cprman.c',
- ))
- softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
- softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
-diff --git a/hw/misc/trace-events b/hw/misc/trace-events
-index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/trace-events
-+++ b/hw/misc/trace-events
-@@ -XXX,XX +XXX,XX @@ grlib_apb_pnp_read(uint64_t addr, uint32_t value) "APB PnP read addr:0x%03"PRIx6
- # pca9552.c
- pca955x_gpio_status(const char *description, const char *buf) "%s GPIOs 0-15 [%s]"
- pca955x_gpio_change(const char *description, unsigned id, unsigned prev_state, unsigned current_state) "%s GPIO id:%u status: %u -> %u"
-+
-+# bcm2835_cprman.c
-+bcm2835_cprman_read(uint64_t offset, uint64_t value) "offset:0x%" PRIx64 " value:0x%" PRIx64
-+bcm2835_cprman_write(uint64_t offset, uint64_t value) "offset:0x%" PRIx64 " value:0x%" PRIx64
-+bcm2835_cprman_write_invalid_magic(uint64_t offset, uint64_t value) "offset:0x%" PRIx64 " value:0x%" PRIx64
 --
 .20.1

-[PULL 10/48] linux-user/elfload: Parse NT_GNU_PROPERTY_TYPE_0 notes
+[PULL 33/57] target/arm: Implement MVE VADD (scalar)
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the scalar form of the MVE VADD insn. This takes the
 scalar operand from a general purpose register.
-This is generic support, with the code disabled for all targets.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-23-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  4 ++++
  target/arm/mve.decode      |  7 ++++++
  target/arm/mve_helper.c    | 22 +++++++++++++++++++
  target/arm/translate-mve.c | 45 ++++++++++++++++++++++++++++++++++++++
 files changed, 78 insertions(+)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Message-id: 20201021173749.111103-11-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  linux-user/qemu.h    |   4 ++
  linux-user/elfload.c | 157 +++++++++++++++++++++++++++++++++++++++++++
 files changed, 161 insertions(+)
 diff --git a/linux-user/qemu.h b/linux-user/qemu.h
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/qemu.h
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/qemu.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ struct image_info {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmulltub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         abi_ulong       interpreter_loadmap_addr;
+ DEF_HELPER_FLAGS_4(mve_vmulltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         abi_ulong       interpreter_pt_dynamic_addr;
+ DEF_HELPER_FLAGS_4(mve_vmulltuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         struct image_info *other_info;
 +DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
-+        /* For target-specific processing of NT_GNU_PROPERTY_TYPE_0. */
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-+        uint32_t        note_flags;
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  &vldr_vstr rn qd imm p a w size l u
  &1op qd qm size
  &2op qd qm qn size
 +&2scalar qd qn rm size
  @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
  # Note that both Rn and Qd are 3 bits only (no D bit)
@@ -XXX,XX +XXX,XX @@
  @2op .... .... .. size:2 .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn
  @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
 +@2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
 +
- #ifdef TARGET_MIPS
+ # Vector loads and stores
-         int             fp_abi;
-         int             interp_fp_abi;
+ # Widening loads and narrowing stores:
-diff --git a/linux-user/elfload.c b/linux-user/elfload.c
+@@ -XXX,XX +XXX,XX @@ VRMLALDAVH_S     1110 1110 1 ... ... 0 ... x:1 1111 . 0 a:1 0 ... 0 @vmlaldav_no
  VRMLALDAVH_U     1111 1110 1 ... ... 0 ... x:1 1111 . 0 a:1 0 ... 0 @vmlaldav_nosz
  VRMLSLDAVH       1111 1110 1 ... ... 0 ... x:1 1110 . 0 a:1 0 ... 1 @vmlaldav_nosz
 +
 +# Scalar operations
 +
 +VADD_scalar      1110 1110 0 . .. ... 1 ... 0 1111 . 100 .... @2scalar
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/mve_helper.c
-+++ b/linux-user/elfload.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void elf_core_copy_regs(target_elf_gregset_t *regs,
+@@ -XXX,XX +XXX,XX @@ DO_2OP_S(vhsubs, do_vhsub_s)
+ DO_2OP_U(vhsubu, do_vhsub_u)
- #include "elf.h"
-+static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
++#define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
-+                                    const uint32_t *data,
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
-+                                    struct image_info *info,
++                                uint32_t rm)                            \
-+                                    Error **errp)
++    {                                                                   \
-+{
++        TYPE *d = vd, *n = vn;                                          \
-+    g_assert_not_reached();
++        TYPE m = rm;                                                    \
-+}
++        uint16_t mask = mve_element_mask(env);                          \
-+#define ARCH_USE_GNU_PROPERTY 0
++        unsigned e;                                                     \
-+
++        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
- struct exec
++            mergemask(&d[H##ESIZE(e)], FN(n[H##ESIZE(e)], m), mask);    \
- {
++        }                                                               \
-     unsigned int a_info;   /* Use macros N_MAGIC, etc for access */
++        mve_advance_vpt(env);                                           \
@@ -XXX,XX +XXX,XX @@ void probe_guest_base(const char *image_name, abi_ulong guest_loaddr,
                    "@ 0x%" PRIx64 "\n", (uint64_t)guest_base);
  }
 +enum {
 +    /* The string "GNU\0" as a magic number. */
 +    GNU0_MAGIC = const_le32('G' | 'N' << 8 | 'U' << 16),
 +    NOTE_DATA_SZ = 1 * KiB,
 +    NOTE_NAME_SZ = 4,
 +    ELF_GNU_PROPERTY_ALIGN = ELF_CLASS == ELFCLASS32 ? 4 : 8,
 +};
 +
 +/*
 + * Process a single gnu_property entry.
 + * Return false for error.
 + */
 +static bool parse_elf_property(const uint32_t *data, int *off, int datasz,
 +                               struct image_info *info, bool have_prev_type,
 +                               uint32_t *prev_type, Error **errp)
 +{
 +    uint32_t pr_type, pr_datasz, step;
 +
 +    if (*off > datasz || !QEMU_IS_ALIGNED(*off, ELF_GNU_PROPERTY_ALIGN)) {
 +        goto error_data;
 +    }
 +    datasz -= *off;
 +    data += *off / sizeof(uint32_t);
 +
 +    if (datasz < 2 * sizeof(uint32_t)) {
 +        goto error_data;
 +    }
 +    pr_type = data[0];
 +    pr_datasz = data[1];
 +    data += 2;
 +    datasz -= 2 * sizeof(uint32_t);
 +    step = ROUND_UP(pr_datasz, ELF_GNU_PROPERTY_ALIGN);
 +    if (step > datasz) {
 +        goto error_data;
 +    }
 +
-+    /* Properties are supposed to be unique and sorted on pr_type. */
++/* provide unsigned 2-op scalar helpers for all sizes */
-+    if (have_prev_type && pr_type <= *prev_type) {
++#define DO_2OP_SCALAR_U(OP, FN)                 \
-+        if (pr_type == *prev_type) {
++    DO_2OP_SCALAR(OP##b, 1, uint8_t, FN)        \
-+            error_setg(errp, "Duplicate property in PT_GNU_PROPERTY");
++    DO_2OP_SCALAR(OP##h, 2, uint16_t, FN)       \
-+        } else {
++    DO_2OP_SCALAR(OP##w, 4, uint32_t, FN)
-+            error_setg(errp, "Unsorted property in PT_GNU_PROPERTY");
++
-+        }
++DO_2OP_SCALAR_U(vadd_scalar, DO_ADD)
 +
  /*
   * Multiply add long dual accumulate ops.
   */
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
  typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
 +typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
@@ -XXX,XX +XXX,XX @@ DO_2OP(VMULL_BU, vmullbu)
  DO_2OP(VMULL_TS, vmullts)
  DO_2OP(VMULL_TU, vmulltu)
 +static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
 +                          MVEGenTwoOpScalarFn fn)
 +{
 +    TCGv_ptr qd, qn;
 +    TCGv_i32 rm;
 +
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd | a->qn) ||
 +        !fn) {
 +        return false;
 +    }
-+    *prev_type = pr_type;
++    if (a->rm == 13 || a->rm == 15) {
-+
++        /* UNPREDICTABLE */
 +    if (!arch_parse_elf_property(pr_type, pr_datasz, data, info, errp)) {
 +        return false;
 +    }
-+
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +    *off += 2 * sizeof(uint32_t) + step;
 +    return true;
 +
 + error_data:
 +    error_setg(errp, "Ill-formed property in PT_GNU_PROPERTY");
 +    return false;
 +}
 +
 +/* Process NT_GNU_PROPERTY_TYPE_0. */
 +static bool parse_elf_properties(int image_fd,
 +                                 struct image_info *info,
 +                                 const struct elf_phdr *phdr,
 +                                 char bprm_buf[BPRM_BUF_SIZE],
 +                                 Error **errp)
 +{
 +    union {
 +        struct elf_note nhdr;
 +        uint32_t data[NOTE_DATA_SZ / sizeof(uint32_t)];
 +    } note;
 +
 +    int n, off, datasz;
 +    bool have_prev_type;
 +    uint32_t prev_type;
 +
 +    /* Unless the arch requires properties, ignore them. */
 +    if (!ARCH_USE_GNU_PROPERTY) {
 +        return true;
 +    }
 +
-+    /* If the properties are crazy large, that's too bad. */
++    qd = mve_qreg_ptr(a->qd);
-+    n = phdr->p_filesz;
++    qn = mve_qreg_ptr(a->qn);
-+    if (n > sizeof(note)) {
++    rm = load_reg(s, a->rm);
-+        error_setg(errp, "PT_GNU_PROPERTY too large");
++    fn(cpu_env, qd, qn, rm);
-+        return false;
++    tcg_temp_free_i32(rm);
-+    }
++    tcg_temp_free_ptr(qd);
-+    if (n < sizeof(note.nhdr)) {
++    tcg_temp_free_ptr(qn);
-+        error_setg(errp, "PT_GNU_PROPERTY too small");
++    mve_update_eci(s);
-+        return false;
++    return true;
 +}
 +
 +#define DO_2OP_SCALAR(INSN, FN) \
 +    static bool trans_##INSN(DisasContext *s, arg_2scalar *a)   \
 +    {                                                           \
 +        static MVEGenTwoOpScalarFn * const fns[] = {            \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +            gen_helper_mve_##FN##w,                             \
 +            NULL,                                               \
 +        };                                                      \
 +        return do_2op_scalar(s, a, fns[a->size]);               \
 +    }
 +
-+    if (phdr->p_offset + n <= BPRM_BUF_SIZE) {
++DO_2OP_SCALAR(VADD_scalar, vadd_scalar)
 +        memcpy(&note, bprm_buf + phdr->p_offset, n);
 +    } else {
 +        ssize_t len = pread(image_fd, &note, n, phdr->p_offset);
 +        if (len != n) {
 +            error_setg_errno(errp, errno, "Error reading file header");
 +            return false;
 +        }
 +    }
 +
-+    /*
+ static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
-+     * The contents of a valid PT_GNU_PROPERTY is a sequence
+                              MVEGenDualAccOpFn *fn)
-+     * of uint32_t -- swap them all now.
+ {
 +     */
 +#ifdef BSWAP_NEEDED
 +    for (int i = 0; i < n / 4; i++) {
 +        bswap32s(note.data + i);
 +    }
 +#endif
 +
 +    /*
 +     * Note that nhdr is 3 words, and that the "name" described by namesz
 +     * immediately follows nhdr and is thus at the 4th word.  Further, all
 +     * of the inputs to the kernel's round_up are multiples of 4.
 +     */
 +    if (note.nhdr.n_type != NT_GNU_PROPERTY_TYPE_0 ||
 +        note.nhdr.n_namesz != NOTE_NAME_SZ ||
 +        note.data[3] != GNU0_MAGIC) {
 +        error_setg(errp, "Invalid note in PT_GNU_PROPERTY");
 +        return false;
 +    }
 +    off = sizeof(note.nhdr) + NOTE_NAME_SZ;
 +
 +    datasz = note.nhdr.n_descsz + off;
 +    if (datasz > n) {
 +        error_setg(errp, "Invalid note size in PT_GNU_PROPERTY");
 +        return false;
 +    }
 +
 +    have_prev_type = false;
 +    prev_type = 0;
 +    while (1) {
 +        if (off == datasz) {
 +            return true;  /* end, exit ok */
 +        }
 +        if (!parse_elf_property(note.data, &off, datasz, info,
 +                                have_prev_type, &prev_type, errp)) {
 +            return false;
 +        }
 +        have_prev_type = true;
 +    }
 +}
 +
  /* Load an ELF image into the address space.
     IMAGE_NAME is the filename of the image, to use in error messages.
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                  goto exit_errmsg;
              }
              *pinterp_name = g_steal_pointer(&interp_name);
 +        } else if (eppnt->p_type == PT_GNU_PROPERTY) {
 +            if (!parse_elf_properties(image_fd, info, eppnt, bprm_buf, &err)) {
 +                goto exit_errmsg;
 +            }
          }
      }
 --
 .20.1

-[PULL 04/48] linux-user/elfload: Avoid leaking interp_name using GLib memory API
+[PULL 34/57] target/arm: Implement MVE VSUB, VMUL (scalar)
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the scalar forms of the MVE VSUB and VMUL insns.
-Fix an unlikely memory leak in load_elf_image().
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-24-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 8 ++++++++
  target/arm/mve.decode      | 2 ++
  target/arm/mve_helper.c    | 2 ++
  target/arm/translate-mve.c | 2 ++
 files changed, 14 insertions(+)
-Fixes: bf858897b7 ("linux-user: Re-use load_elf_image for the main binary.")
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201021173749.111103-5-richard.henderson@linaro.org
 Message-Id: <20201003174944.1972444-1-f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  linux-user/elfload.c | 8 ++++----
 file changed, 4 insertions(+), 4 deletions(-)
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/elfload.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                 info->brk = vaddr_em;
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-             }
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-         } else if (eppnt->p_type == PT_INTERP && pinterp_name) {
--            char *interp_name;
++DEF_HELPER_FLAGS_4(mve_vsub_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+            g_autofree char *interp_name = NULL;
++DEF_HELPER_FLAGS_4(mve_vsub_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vsub_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-             if (*pinterp_name) {
++
-                 errmsg = "Multiple PT_INTERP entries";
++DEF_HELPER_FLAGS_4(mve_vmul_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                 goto exit_errmsg;
++DEF_HELPER_FLAGS_4(mve_vmul_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-             }
++DEF_HELPER_FLAGS_4(mve_vmul_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
--            interp_name = malloc(eppnt->p_filesz);
++
-+            interp_name = g_malloc(eppnt->p_filesz);
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-             if (!interp_name) {
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-                 goto exit_perror;
+ DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-             }
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+index XXXXXXX..XXXXXXX 100644
-                 errmsg = "Invalid PT_INTERP entry";
+--- a/target/arm/mve.decode
-                 goto exit_errmsg;
++++ b/target/arm/mve.decode
-             }
+@@ -XXX,XX +XXX,XX @@ VRMLSLDAVH       1111 1110 1 ... ... 0 ... x:1 1110 . 0 a:1 0 ... 1 @vmlaldav_no
--            *pinterp_name = interp_name;
+ # Scalar operations
-+            *pinterp_name = g_steal_pointer(&interp_name);
- #ifdef TARGET_MIPS
+ VADD_scalar      1110 1110 0 . .. ... 1 ... 0 1111 . 100 .... @2scalar
-         } else if (eppnt->p_type == PT_MIPS_ABIFLAGS) {
++VSUB_scalar      1110 1110 0 . .. ... 1 ... 1 1111 . 100 .... @2scalar
-             Mips_elf_abiflags_v0 abiflags;
++VMUL_scalar      1110 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
-@@ -XXX,XX +XXX,XX @@ int load_elf_binary(struct linux_binprm *bprm, struct image_info *info)
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
-     if (elf_interpreter) {
+index XXXXXXX..XXXXXXX 100644
-         info->load_bias = interp_info.load_bias;
+--- a/target/arm/mve_helper.c
-         info->entry = interp_info.entry;
++++ b/target/arm/mve_helper.c
--        free(elf_interpreter);
+@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhsubu, do_vhsub_u)
-+        g_free(elf_interpreter);
+     DO_2OP_SCALAR(OP##w, 4, uint32_t, FN)
  DO_2OP_SCALAR_U(vadd_scalar, DO_ADD)
 +DO_2OP_SCALAR_U(vsub_scalar, DO_SUB)
 +DO_2OP_SCALAR_U(vmul_scalar, DO_MUL)
  /*
   * Multiply add long dual accumulate ops.
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
      }
- #ifdef USE_ELF_CORE_DUMP
+ DO_2OP_SCALAR(VADD_scalar, vadd_scalar)
 +DO_2OP_SCALAR(VSUB_scalar, vsub_scalar)
 +DO_2OP_SCALAR(VMUL_scalar, vmul_scalar)
  static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
                               MVEGenDualAccOpFn *fn)
 --
 .20.1

-[PULL 30/48] arm/trace: Fix hex printing
+[PULL 35/57] target/arm: Implement MVE VHADD, VHSUB (scalar)
-From: "Dr. David Alan Gilbert" <dgilbert@redhat.com>
+Implement the scalar variants of the MVE VHADD and VHSUB insns.
-Use of 0x%d - make up our mind as 0x%x
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-25-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 16 ++++++++++++++++
  target/arm/mve.decode      |  4 ++++
  target/arm/mve_helper.c    |  8 ++++++++
  target/arm/translate-mve.c |  4 ++++
 files changed, 32 insertions(+)
-Signed-off-by: Dr. David Alan Gilbert <dgilbert@redhat.com>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Acked-by: Eric Auger <eric.auger@redhat.com>
 Message-id: 20201014193355.53074-1-dgilbert@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/trace-events | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
 diff --git a/hw/arm/trace-events b/hw/arm/trace-events
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/trace-events
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/trace-events
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ smmuv3_get_cd(uint64_t addr) "CD addr: 0x%"PRIx64
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmul_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- smmuv3_decode_cd(uint32_t oas) "oas=%d"
+ DEF_HELPER_FLAGS_4(mve_vmul_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- smmuv3_decode_cd_tt(int i, uint32_t tsz, uint64_t ttb, uint32_t granule_sz, bool had) "TT[%d]:tsz:%d ttb:0x%"PRIx64" granule_sz:%d had:%d"
+ DEF_HELPER_FLAGS_4(mve_vmul_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- smmuv3_cmdq_cfgi_ste(int streamid) "streamid =%d"
--smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%d - end=0x%d"
++DEF_HELPER_FLAGS_4(mve_vhadds_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%x - end=0x%x"
++DEF_HELPER_FLAGS_4(mve_vhadds_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- smmuv3_cmdq_cfgi_cd(uint32_t sid) "streamid = %d"
++DEF_HELPER_FLAGS_4(mve_vhadds_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid %d (hits=%d, misses=%d, hit rate=%d)"
++
- smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid %d (hits=%d, misses=%d, hit rate=%d)"
++DEF_HELPER_FLAGS_4(mve_vhaddu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vhaddu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vhaddu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vhsubs_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vhsubs_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vhsubs_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vhsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vhsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vhsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VRMLSLDAVH       1111 1110 1 ... ... 0 ... x:1 1110 . 0 a:1 0 ... 1 @vmlaldav_no
  VADD_scalar      1110 1110 0 . .. ... 1 ... 0 1111 . 100 .... @2scalar
  VSUB_scalar      1110 1110 0 . .. ... 1 ... 1 1111 . 100 .... @2scalar
  VMUL_scalar      1110 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
 +VHADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
 +VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
 +VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 +VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhsubu, do_vhsub_u)
      DO_2OP_SCALAR(OP##b, 1, uint8_t, FN)        \
      DO_2OP_SCALAR(OP##h, 2, uint16_t, FN)       \
      DO_2OP_SCALAR(OP##w, 4, uint32_t, FN)
 +#define DO_2OP_SCALAR_S(OP, FN)                 \
 +    DO_2OP_SCALAR(OP##b, 1, int8_t, FN)         \
 +    DO_2OP_SCALAR(OP##h, 2, int16_t, FN)        \
 +    DO_2OP_SCALAR(OP##w, 4, int32_t, FN)
  DO_2OP_SCALAR_U(vadd_scalar, DO_ADD)
  DO_2OP_SCALAR_U(vsub_scalar, DO_SUB)
  DO_2OP_SCALAR_U(vmul_scalar, DO_MUL)
 +DO_2OP_SCALAR_S(vhadds_scalar, do_vhadd_s)
 +DO_2OP_SCALAR_U(vhaddu_scalar, do_vhadd_u)
 +DO_2OP_SCALAR_S(vhsubs_scalar, do_vhsub_s)
 +DO_2OP_SCALAR_U(vhsubu_scalar, do_vhsub_u)
  /*
   * Multiply add long dual accumulate ops.
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
  DO_2OP_SCALAR(VADD_scalar, vadd_scalar)
  DO_2OP_SCALAR(VSUB_scalar, vsub_scalar)
  DO_2OP_SCALAR(VMUL_scalar, vmul_scalar)
 +DO_2OP_SCALAR(VHADD_S_scalar, vhadds_scalar)
 +DO_2OP_SCALAR(VHADD_U_scalar, vhaddu_scalar)
 +DO_2OP_SCALAR(VHSUB_S_scalar, vhsubs_scalar)
 +DO_2OP_SCALAR(VHSUB_U_scalar, vhsubu_scalar)
  static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
                               MVEGenDualAccOpFn *fn)
 --
 .20.1

-[PULL 03/48] include/elf: Add defines related to GNU property notes for AArch64
+[PULL 36/57] target/arm: Implement MVE VBRSR
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VBRSR insn, which reverses a specified
 number of bits in each element, setting the rest to zero.
-These are all of the defines required to parse
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-GNU_PROPERTY_AARCH64_FEATURE_1_AND, copied from binutils.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Other missing defines related to other GNU program headers
+Message-id: 20210617121628.20116-26-peter.maydell@linaro.org
-and notes are elided for now.
+---
  target/arm/helper-mve.h    |  4 ++++
  target/arm/mve.decode      |  1 +
  target/arm/mve_helper.c    | 43 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  1 +
 files changed, 49 insertions(+)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201021173749.111103-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/elf.h | 22 ++++++++++++++++++++++
 file changed, 22 insertions(+)
 diff --git a/include/elf.h b/include/elf.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/elf.h
+--- a/target/arm/helper-mve.h
-+++ b/include/elf.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ typedef int64_t  Elf64_Sxword;
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PT_NOTE    4
+ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PT_SHLIB   5
+ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PT_PHDR    6
-+#define PT_LOOS    0x60000000
++DEF_HELPER_FLAGS_4(mve_vbrsrb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#define PT_HIOS    0x6fffffff
++DEF_HELPER_FLAGS_4(mve_vbrsrh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define PT_LOPROC  0x70000000
++DEF_HELPER_FLAGS_4(mve_vbrsrw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  #define PT_HIPROC  0x7fffffff
 +#define PT_GNU_PROPERTY   (PT_LOOS + 0x474e553)
 +
- #define PT_MIPS_REGINFO   0x70000000
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
- #define PT_MIPS_RTPROC    0x70000001
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
- #define PT_MIPS_OPTIONS   0x70000002
+ DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-@@ -XXX,XX +XXX,XX @@ typedef struct elf64_shdr {
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
- #define NT_ARM_SYSTEM_CALL      0x404   /* ARM system call number */
+index XXXXXXX..XXXXXXX 100644
- #define NT_ARM_SVE      0x405           /* ARM Scalable Vector Extension regs */
+--- a/target/arm/mve.decode
++++ b/target/arm/mve.decode
-+/* Defined note types for GNU systems.  */
+@@ -XXX,XX +XXX,XX @@ VHADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
  VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
  VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
  VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 +VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR_U(vhaddu_scalar, do_vhadd_u)
  DO_2OP_SCALAR_S(vhsubs_scalar, do_vhsub_s)
  DO_2OP_SCALAR_U(vhsubu_scalar, do_vhsub_u)
 +static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
 +{
 +    m &= 0xff;
 +    if (m == 0) {
 +        return 0;
 +    }
 +    n = revbit8(n);
 +    if (m < 8) {
 +        n >>= 8 - m;
 +    }
 +    return n;
 +}
 +
-+#define NT_GNU_PROPERTY_TYPE_0  5       /* Program property */
++static inline uint32_t do_vbrsrh(uint32_t n, uint32_t m)
 +{
 +    m &= 0xff;
 +    if (m == 0) {
 +        return 0;
 +    }
 +    n = revbit16(n);
 +    if (m < 16) {
 +        n >>= 16 - m;
 +    }
 +    return n;
 +}
 +
-+/* Values used in GNU .note.gnu.property notes (NT_GNU_PROPERTY_TYPE_0).  */
++static inline uint32_t do_vbrsrw(uint32_t n, uint32_t m)
 +{
 +    m &= 0xff;
 +    if (m == 0) {
 +        return 0;
 +    }
 +    n = revbit32(n);
 +    if (m < 32) {
 +        n >>= 32 - m;
 +    }
 +    return n;
 +}
 +
-+#define GNU_PROPERTY_STACK_SIZE                 1
++DO_2OP_SCALAR(vbrsrb, 1, uint8_t, do_vbrsrb)
-+#define GNU_PROPERTY_NO_COPY_ON_PROTECTED       2
++DO_2OP_SCALAR(vbrsrh, 2, uint16_t, do_vbrsrh)
-+
++DO_2OP_SCALAR(vbrsrw, 4, uint32_t, do_vbrsrw)
 +#define GNU_PROPERTY_LOPROC                     0xc0000000
 +#define GNU_PROPERTY_HIPROC                     0xdfffffff
 +#define GNU_PROPERTY_LOUSER                     0xe0000000
 +#define GNU_PROPERTY_HIUSER                     0xffffffff
 +
 +#define GNU_PROPERTY_AARCH64_FEATURE_1_AND      0xc0000000
 +#define GNU_PROPERTY_AARCH64_FEATURE_1_BTI      (1u << 0)
 +#define GNU_PROPERTY_AARCH64_FEATURE_1_PAC      (1u << 1)
 +
  /*
-  * Physical entry point into the kernel.
+  * Multiply add long dual accumulate ops.
-  *
+  */
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR(VHADD_S_scalar, vhadds_scalar)
  DO_2OP_SCALAR(VHADD_U_scalar, vhaddu_scalar)
  DO_2OP_SCALAR(VHSUB_S_scalar, vhsubs_scalar)
  DO_2OP_SCALAR(VHSUB_U_scalar, vhsubu_scalar)
 +DO_2OP_SCALAR(VBRSR, vbrsr)
  static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
                               MVEGenDualAccOpFn *fn)
 --
 .20.1

-[PULL 46/48] hw/arm/sbsa-ref: add SBSA watchdog device
+[PULL 37/57] target/arm: Implement MVE VPST
-From: Shashi Mallela <shashi.mallela@linaro.org>
+Implement the MVE VPST insn, which sets the predicate mask
 fields in the VPR to the immediate value encoded in the insn.
-Included the newly implemented SBSA generic watchdog device model into
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-SBSA platform
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-27-peter.maydell@linaro.org
 ---
  target/arm/mve.decode      |  4 +++
  target/arm/translate-mve.c | 59 ++++++++++++++++++++++++++++++++++++++
 files changed, 63 insertions(+)
-Signed-off-by: Shashi Mallela <shashi.mallela@linaro.org>
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20201027015927.29495-3-shashi.mallela@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/sbsa-ref.c | 23 +++++++++++++++++++++++
 file changed, 23 insertions(+)
 diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/sbsa-ref.c
+--- a/target/arm/mve.decode
-+++ b/hw/arm/sbsa-ref.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
- #include "hw/qdev-properties.h"
+ VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
- #include "hw/usb.h"
+ VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
- #include "hw/char/pl011.h"
+ VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
-+#include "hw/watchdog/sbsa_gwdt.h"
++
- #include "net/net.h"
++# Predicate operations
- #include "qom/object.h"
++%mask_22_13      22:1 13:3
++VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
-@@ -XXX,XX +XXX,XX @@ enum {
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-     SBSA_GIC_DIST,
+index XXXXXXX..XXXXXXX 100644
-     SBSA_GIC_REDIST,
+--- a/target/arm/translate-mve.c
-     SBSA_SECURE_EC,
++++ b/target/arm/translate-mve.c
-+    SBSA_GWDT,
+@@ -XXX,XX +XXX,XX @@ static void mve_update_eci(DisasContext *s)
-+    SBSA_GWDT_REFRESH,
+     }
 +    SBSA_GWDT_CONTROL,
      SBSA_SMMU,
      SBSA_UART,
      SBSA_RTC,
@@ -XXX,XX +XXX,XX @@ static const MemMapEntry sbsa_ref_memmap[] = {
      [SBSA_GIC_DIST] =           { 0x40060000, 0x00010000 },
      [SBSA_GIC_REDIST] =         { 0x40080000, 0x04000000 },
      [SBSA_SECURE_EC] =          { 0x50000000, 0x00001000 },
 +    [SBSA_GWDT_REFRESH] =       { 0x50010000, 0x00001000 },
 +    [SBSA_GWDT_CONTROL] =       { 0x50011000, 0x00001000 },
      [SBSA_UART] =               { 0x60000000, 0x00001000 },
      [SBSA_RTC] =                { 0x60010000, 0x00001000 },
      [SBSA_GPIO] =               { 0x60020000, 0x00001000 },
@@ -XXX,XX +XXX,XX @@ static const int sbsa_ref_irqmap[] = {
      [SBSA_AHCI] = 10,
      [SBSA_EHCI] = 11,
      [SBSA_SMMU] = 12, /* ... to 15 */
 +    [SBSA_GWDT] = 16,
  };
  static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
@@ -XXX,XX +XXX,XX @@ static void create_rtc(const SBSAMachineState *sms)
      sysbus_create_simple("pl031", base, qdev_get_gpio_in(sms->gic, irq));
  }
-+static void create_wdt(const SBSAMachineState *sms)
++static void mve_update_and_store_eci(DisasContext *s)
 +{
-+    hwaddr rbase = sbsa_ref_memmap[SBSA_GWDT_REFRESH].base;
++    /*
-+    hwaddr cbase = sbsa_ref_memmap[SBSA_GWDT_CONTROL].base;
++     * For insns which don't call a helper function that will call
-+    DeviceState *dev = qdev_new(TYPE_WDT_SBSA);
++     * mve_advance_vpt(), this version updates s->eci and also stores
-+    SysBusDevice *s = SYS_BUS_DEVICE(dev);
++     * it out to the CPUState field.
-+    int irq = sbsa_ref_irqmap[SBSA_GWDT];
++     */
-+
++    if (s->eci) {
-+    sysbus_realize_and_unref(s, &error_fatal);
++        mve_update_eci(s);
-+    sysbus_mmio_map(s, 0, rbase);
++        store_cpu_field(tcg_constant_i32(s->eci << 4), condexec_bits);
-+    sysbus_mmio_map(s, 1, cbase);
++    }
 +    sysbus_connect_irq(s, 0, qdev_get_gpio_in(sms->gic, irq));
 +}
 +
- static DeviceState *gpio_key_dev;
+ static bool mve_skip_first_beat(DisasContext *s)
  static void sbsa_ref_powerdown_req(Notifier *n, void *opaque)
  {
-@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
+     /* Return true if PSR.ECI says we must skip the first beat of this insn */
+@@ -XXX,XX +XXX,XX @@ static bool trans_VRMLSLDAVH(DisasContext *s, arg_vmlaldav *a)
-     create_rtc(sms);
+     };
+     return do_long_dual_acc(s, a, fns[a->x]);
-+    create_wdt(sms);
+ }
 +
-     create_gpio(sms);
++static bool trans_VPST(DisasContext *s, arg_VPST *a)
++{
-     create_ahci(sms);
++    TCGv_i32 vpr;
 +
 +    /* mask == 0 is a "related encoding" */
 +    if (!dc_isar_feature(aa32_mve, s) || !a->mask) {
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +    /*
 +     * Set the VPR mask fields. We take advantage of MASK01 and MASK23
 +     * being adjacent fields in the register.
 +     *
 +     * This insn is not predicated, but it is subject to beat-wise
 +     * execution, and the mask is updated on the odd-numbered beats.
 +     * So if PSR.ECI says we should skip beat 1, we mustn't update the
 +     * 01 mask field.
 +     */
 +    vpr = load_cpu_field(v7m.vpr);
 +    switch (s->eci) {
 +    case ECI_NONE:
 +    case ECI_A0:
 +        /* Update both 01 and 23 fields */
 +        tcg_gen_deposit_i32(vpr, vpr,
 +                            tcg_constant_i32(a->mask | (a->mask << 4)),
 +                            R_V7M_VPR_MASK01_SHIFT,
 +                            R_V7M_VPR_MASK01_LENGTH + R_V7M_VPR_MASK23_LENGTH);
 +        break;
 +    case ECI_A0A1:
 +    case ECI_A0A1A2:
 +    case ECI_A0A1A2B0:
 +        /* Update only the 23 mask field */
 +        tcg_gen_deposit_i32(vpr, vpr,
 +                            tcg_constant_i32(a->mask),
 +                            R_V7M_VPR_MASK23_SHIFT, R_V7M_VPR_MASK23_LENGTH);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    store_cpu_field(vpr, v7m.vpr);
 +    mve_update_and_store_eci(s);
 +    return true;
 +}
 --
 .20.1

-[PULL 38/48] hw/misc/bcm2835_cprman: implement PLL channels behaviour
+[PULL 38/57] target/arm: Implement MVE VQADD and VQSUB
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VQADD and VQSUB insns, which perform saturating
 addition of a scalar to each element.  Note that individual bytes of
 each result element are used or discarded according to the predicate
 mask, but FPSCR.QC is only set if the predicate mask for the lowest
 byte of the element is set.
-A PLL channel is able to further divide the generated PLL frequency.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-The divider is given in the CTRL_A2W register. Some channels have an
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-additional fixed divider which is always applied to the signal.
+Message-id: 20210617121628.20116-28-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 16 ++++++++++
  target/arm/mve.decode      |  5 +++
  target/arm/mve_helper.c    | 62 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  4 +++
 files changed, 87 insertions(+)
-Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/misc/bcm2835_cprman.c | 33 ++++++++++++++++++++++++++++++++-
 file changed, 32 insertions(+), 1 deletion(-)
 diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/bcm2835_cprman.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/misc/bcm2835_cprman.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_info = {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- /* PLL channel */
+ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+static bool pll_channel_is_enabled(CprmanPllChannelState *channel)
++DEF_HELPER_FLAGS_4(mve_vqadds_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqadds_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqadds_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqaddu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqaddu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqaddu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqsubs_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqsubs_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqsubs_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_4(mve_vbrsrb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vbrsrh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vbrsrw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VHADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
  VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
  VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
  VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 +
 +VQADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
 +VQADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
 +VQSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
 +VQSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
  VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
  # Predicate operations
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhaddu, do_vhadd_u)
  DO_2OP_S(vhsubs, do_vhsub_s)
  DO_2OP_U(vhsubu, do_vhsub_u)
 +static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
 +{
-+    /*
++    if (val > max) {
-+     * XXX I'm not sure of the purpose of the LOAD field. The Linux driver does
++        *s = true;
-+     * not set it when enabling the channel, but does clear it when disabling
++        return max;
-+     * it.
++    } else if (val < min) {
-+     */
++        *s = true;
-+    return !FIELD_EX32(*channel->reg_a2w_ctrl, A2W_PLLx_CHANNELy, DISABLE)
++        return min;
-+        && !(*channel->reg_cm & channel->hold_mask);
++    }
 +    return val;
 +}
 +
- static void pll_channel_update(CprmanPllChannelState *channel)
++#define DO_SQADD_B(n, m, s) do_sat_bhw((int64_t)n + m, INT8_MIN, INT8_MAX, s)
- {
++#define DO_SQADD_H(n, m, s) do_sat_bhw((int64_t)n + m, INT16_MIN, INT16_MAX, s)
--    clock_update(channel->out, 0);
++#define DO_SQADD_W(n, m, s) do_sat_bhw((int64_t)n + m, INT32_MIN, INT32_MAX, s)
 +    uint64_t freq, div;
 +
-+    if (!pll_channel_is_enabled(channel)) {
++#define DO_UQADD_B(n, m, s) do_sat_bhw((int64_t)n + m, 0, UINT8_MAX, s)
-+        clock_update(channel->out, 0);
++#define DO_UQADD_H(n, m, s) do_sat_bhw((int64_t)n + m, 0, UINT16_MAX, s)
-+        return;
++#define DO_UQADD_W(n, m, s) do_sat_bhw((int64_t)n + m, 0, UINT32_MAX, s)
 +
 +#define DO_SQSUB_B(n, m, s) do_sat_bhw((int64_t)n - m, INT8_MIN, INT8_MAX, s)
 +#define DO_SQSUB_H(n, m, s) do_sat_bhw((int64_t)n - m, INT16_MIN, INT16_MAX, s)
 +#define DO_SQSUB_W(n, m, s) do_sat_bhw((int64_t)n - m, INT32_MIN, INT32_MAX, s)
 +
 +#define DO_UQSUB_B(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT8_MAX, s)
 +#define DO_UQSUB_H(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT16_MAX, s)
 +#define DO_UQSUB_W(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT32_MAX, s)
  #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhsubu, do_vhsub_u)
          mve_advance_vpt(env);                                           \
      }
 +#define DO_2OP_SAT_SCALAR(OP, ESIZE, TYPE, FN)                          \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
 +                                uint32_t rm)                            \
 +    {                                                                   \
 +        TYPE *d = vd, *n = vn;                                          \
 +        TYPE m = rm;                                                    \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        bool qc = false;                                                \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +            bool sat = false;                                           \
 +            mergemask(&d[H##ESIZE(e)], FN(n[H##ESIZE(e)], m, &sat),     \
 +                      mask);                                            \
 +            qc |= sat & mask & 1;                                       \
 +        }                                                               \
 +        if (qc) {                                                       \
 +            env->vfp.qc[0] = qc;                                        \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-+    div = FIELD_EX32(*channel->reg_a2w_ctrl, A2W_PLLx_CHANNELy, DIV);
+ /* provide unsigned 2-op scalar helpers for all sizes */
  #define DO_2OP_SCALAR_U(OP, FN)                 \
      DO_2OP_SCALAR(OP##b, 1, uint8_t, FN)        \
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR_U(vhaddu_scalar, do_vhadd_u)
  DO_2OP_SCALAR_S(vhsubs_scalar, do_vhsub_s)
  DO_2OP_SCALAR_U(vhsubu_scalar, do_vhsub_u)
 +DO_2OP_SAT_SCALAR(vqaddu_scalarb, 1, uint8_t, DO_UQADD_B)
 +DO_2OP_SAT_SCALAR(vqaddu_scalarh, 2, uint16_t, DO_UQADD_H)
 +DO_2OP_SAT_SCALAR(vqaddu_scalarw, 4, uint32_t, DO_UQADD_W)
 +DO_2OP_SAT_SCALAR(vqadds_scalarb, 1, int8_t, DO_SQADD_B)
 +DO_2OP_SAT_SCALAR(vqadds_scalarh, 2, int16_t, DO_SQADD_H)
 +DO_2OP_SAT_SCALAR(vqadds_scalarw, 4, int32_t, DO_SQADD_W)
 +
-+    if (!div) {
++DO_2OP_SAT_SCALAR(vqsubu_scalarb, 1, uint8_t, DO_UQSUB_B)
-+        /*
++DO_2OP_SAT_SCALAR(vqsubu_scalarh, 2, uint16_t, DO_UQSUB_H)
-+         * It seems that when the divider value is 0, it is considered as
++DO_2OP_SAT_SCALAR(vqsubu_scalarw, 4, uint32_t, DO_UQSUB_W)
-+         * being maximum by the hardware (see the Linux driver).
++DO_2OP_SAT_SCALAR(vqsubs_scalarb, 1, int8_t, DO_SQSUB_B)
-+         */
++DO_2OP_SAT_SCALAR(vqsubs_scalarh, 2, int16_t, DO_SQSUB_H)
-+        div = R_A2W_PLLx_CHANNELy_DIV_MASK;
++DO_2OP_SAT_SCALAR(vqsubs_scalarw, 4, int32_t, DO_SQSUB_W)
 +    }
 +
-+    /* Some channels have an additional fixed divider */
+ static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
-+    freq = clock_get_hz(channel->pll_in) / (div * channel->fixed_divider);
+ {
-+
+     m &= 0xff;
-+    clock_update_hz(channel->out, freq);
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
- }
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
- /* Update a PLL and all its channels */
++++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR(VHADD_S_scalar, vhadds_scalar)
  DO_2OP_SCALAR(VHADD_U_scalar, vhaddu_scalar)
  DO_2OP_SCALAR(VHSUB_S_scalar, vhsubs_scalar)
  DO_2OP_SCALAR(VHSUB_U_scalar, vhsubu_scalar)
 +DO_2OP_SCALAR(VQADD_S_scalar, vqadds_scalar)
 +DO_2OP_SCALAR(VQADD_U_scalar, vqaddu_scalar)
 +DO_2OP_SCALAR(VQSUB_S_scalar, vqsubs_scalar)
 +DO_2OP_SCALAR(VQSUB_U_scalar, vqsubu_scalar)
  DO_2OP_SCALAR(VBRSR, vbrsr)
  static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
 --
 .20.1

-[PULL 29/48] hw/arm/raspi: Add the Raspberry Pi 3 model A+
+[PULL 39/57] target/arm: Implement MVE VQDMULH and VQRDMULH (scalar)
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the MVE VQDMULH and VQRDMULH scalar insns, which multiply
 elements by the scalar, double, possibly round, take the high half
 and saturate.
-The Pi 3A+ is a stripped down version of the 3B:
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-- 512 MiB of RAM instead of 1 GiB
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-- no on-board ethernet chipset
+Message-id: 20210617121628.20116-29-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  8 ++++++++
  target/arm/mve.decode      |  3 +++
  target/arm/mve_helper.c    | 25 +++++++++++++++++++++++++
  target/arm/translate-mve.c |  2 ++
 files changed, 38 insertions(+)
-Add it as it is a closer match to what we model.
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-10-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/raspi.c | 13 +++++++++++++
 file changed, 13 insertions(+)
 diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/raspi.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/raspi.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void raspi2b_machine_class_init(ObjectClass *oc, void *data)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- };
+ DEF_HELPER_FLAGS_4(mve_vqsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vqsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #ifdef TARGET_AARCH64
-+static void raspi3ap_machine_class_init(ObjectClass *oc, void *data)
++DEF_HELPER_FLAGS_4(mve_vqdmulh_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+{
++DEF_HELPER_FLAGS_4(mve_vqdmulh_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    MachineClass *mc = MACHINE_CLASS(oc);
++DEF_HELPER_FLAGS_4(mve_vqdmulh_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +    RaspiMachineClass *rmc = RASPI_MACHINE_CLASS(oc);
 +
-+    rmc->board_rev = 0x9020e0; /* Revision 1.0 */
++DEF_HELPER_FLAGS_4(mve_vqrdmulh_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    raspi_machine_class_common_init(mc, rmc->board_rev);
++DEF_HELPER_FLAGS_4(mve_vqrdmulh_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+};
++DEF_HELPER_FLAGS_4(mve_vqrdmulh_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
- static void raspi3b_machine_class_init(ObjectClass *oc, void *data)
+ DEF_HELPER_FLAGS_4(mve_vbrsrb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vbrsrh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vbrsrw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
  VQSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
  VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
 +VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
 +VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
 +
  # Predicate operations
  %mask_22_13      22:1 13:3
  VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
  #define DO_UQSUB_H(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT16_MAX, s)
  #define DO_UQSUB_W(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT32_MAX, s)
 +/*
 + * For QDMULH and QRDMULH we simplify "double and shift by esize" into
 + * "shift by esize-1", adjusting the QRDMULH rounding constant to match.
 + */
 +#define DO_QDMULH_B(n, m, s) do_sat_bhw(((int64_t)n * m) >> 7, \
 +                                        INT8_MIN, INT8_MAX, s)
 +#define DO_QDMULH_H(n, m, s) do_sat_bhw(((int64_t)n * m) >> 15, \
 +                                        INT16_MIN, INT16_MAX, s)
 +#define DO_QDMULH_W(n, m, s) do_sat_bhw(((int64_t)n * m) >> 31, \
 +                                        INT32_MIN, INT32_MAX, s)
 +
 +#define DO_QRDMULH_B(n, m, s) do_sat_bhw(((int64_t)n * m + (1 << 6)) >> 7, \
 +                                         INT8_MIN, INT8_MAX, s)
 +#define DO_QRDMULH_H(n, m, s) do_sat_bhw(((int64_t)n * m + (1 << 14)) >> 15, \
 +                                         INT16_MIN, INT16_MAX, s)
 +#define DO_QRDMULH_W(n, m, s) do_sat_bhw(((int64_t)n * m + (1 << 30)) >> 31, \
 +                                         INT32_MIN, INT32_MAX, s)
 +
  #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
                                  uint32_t rm)                            \
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT_SCALAR(vqsubs_scalarb, 1, int8_t, DO_SQSUB_B)
  DO_2OP_SAT_SCALAR(vqsubs_scalarh, 2, int16_t, DO_SQSUB_H)
  DO_2OP_SAT_SCALAR(vqsubs_scalarw, 4, int32_t, DO_SQSUB_W)
 +DO_2OP_SAT_SCALAR(vqdmulh_scalarb, 1, int8_t, DO_QDMULH_B)
 +DO_2OP_SAT_SCALAR(vqdmulh_scalarh, 2, int16_t, DO_QDMULH_H)
 +DO_2OP_SAT_SCALAR(vqdmulh_scalarw, 4, int32_t, DO_QDMULH_W)
 +DO_2OP_SAT_SCALAR(vqrdmulh_scalarb, 1, int8_t, DO_QRDMULH_B)
 +DO_2OP_SAT_SCALAR(vqrdmulh_scalarh, 2, int16_t, DO_QRDMULH_H)
 +DO_2OP_SAT_SCALAR(vqrdmulh_scalarw, 4, int32_t, DO_QRDMULH_W)
 +
  static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
  {
-     MachineClass *mc = MACHINE_CLASS(oc);
+     m &= 0xff;
-@@ -XXX,XX +XXX,XX @@ static const TypeInfo raspi_machine_types[] = {
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-         .parent         = TYPE_RASPI_MACHINE,
+index XXXXXXX..XXXXXXX 100644
-         .class_init     = raspi2b_machine_class_init,
+--- a/target/arm/translate-mve.c
- #ifdef TARGET_AARCH64
++++ b/target/arm/translate-mve.c
-+    }, {
+@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR(VQADD_S_scalar, vqadds_scalar)
-+        .name           = MACHINE_TYPE_NAME("raspi3ap"),
+ DO_2OP_SCALAR(VQADD_U_scalar, vqaddu_scalar)
-+        .parent         = TYPE_RASPI_MACHINE,
+ DO_2OP_SCALAR(VQSUB_S_scalar, vqsubs_scalar)
-+        .class_init     = raspi3ap_machine_class_init,
+ DO_2OP_SCALAR(VQSUB_U_scalar, vqsubu_scalar)
-     }, {
++DO_2OP_SCALAR(VQDMULH_scalar, vqdmulh_scalar)
-         .name           = MACHINE_TYPE_NAME("raspi3b"),
++DO_2OP_SCALAR(VQRDMULH_scalar, vqrdmulh_scalar)
-         .parent         = TYPE_RASPI_MACHINE,
+ DO_2OP_SCALAR(VBRSR, vbrsr)
  static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
 --
 .20.1

-[PULL 28/48] hw/arm/raspi: Add the Raspberry Pi Zero machine
+[PULL 40/57] target/arm: Implement MVE VQDMULL scalar
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the MVE VQDMULL scalar insn. This multiplies the top or
+bottom half of each element by the scalar, doubles and saturates
-Similarly to the Pi A, the Pi Zero uses a BCM2835 SoC (ARMv6Z core).
+to a double-width result.
-The only difference between the revision 1.2 and 1.3 is the latter
+Note that this encoding overlaps with VQADD and VQSUB; it uses
-exposes a CSI camera connector. As we do not implement the Unicam
+what in VQADD and VQSUB would be the 'size=0b11' encoding.
-peripheral, there is no point in exposing a camera connector :)
 Therefore we choose to model the 1.2 revision.
 Example booting the machine using content from [*]:
   $ qemu-system-arm -M raspi0 -serial stdio \
       -kernel raspberrypi/firmware/boot/kernel.img \
       -dtb raspberrypi/firmware/boot/bcm2708-rpi-zero.dtb \
       -append 'printk.time=0 earlycon=pl011,0x20201000 console=ttyAMA0'
   [    0.000000] Booting Linux on physical CPU 0x0
   [    0.000000] Linux version 4.19.118+ (dom@buildbot) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1311 Mon Apr 27 14:16:15 BST 2020
   [    0.000000] CPU: ARMv6-compatible processor [410fb767] revision 7 (ARMv7), cr=00c5387d
   [    0.000000] CPU: VIPT aliasing data cache, unknown instruction cache
   [    0.000000] OF: fdt: Machine model: Raspberry Pi Zero
   ...
 [*] http://archive.raspberrypi.org/debian/pool/main/r/raspberrypi-firmware/raspberrypi-kernel_1.20200512-2_armhf.deb
 Reviewed-by: Luc Michel <luc.michel@greensocs.com>
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-9-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-30-peter.maydell@linaro.org
 ---
- hw/arm/raspi.c | 13 +++++++++++++
+ target/arm/helper-mve.h    |  5 +++
-file changed, 13 insertions(+)
+ target/arm/mve.decode      | 23 +++++++++++---
+ target/arm/mve_helper.c    | 65 ++++++++++++++++++++++++++++++++++++++
-diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
+ target/arm/translate-mve.c | 30 ++++++++++++++++++
-index XXXXXXX..XXXXXXX 100644
+files changed, 119 insertions(+), 4 deletions(-)
---- a/hw/arm/raspi.c
-+++ b/hw/arm/raspi.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void raspi_machine_class_common_init(MachineClass *mc,
+index XXXXXXX..XXXXXXX 100644
-     mc->default_ram_id = "ram";
+--- a/target/arm/helper-mve.h
- };
++++ b/target/arm/helper-mve.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vbrsrb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+static void raspi0_machine_class_init(ObjectClass *oc, void *data)
+ DEF_HELPER_FLAGS_4(mve_vbrsrh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+{
+ DEF_HELPER_FLAGS_4(mve_vbrsrw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    MachineClass *mc = MACHINE_CLASS(oc);
-+    RaspiMachineClass *rmc = RASPI_MACHINE_CLASS(oc);
++DEF_HELPER_FLAGS_4(mve_vqdmullb_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+
++DEF_HELPER_FLAGS_4(mve_vqdmullb_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    rmc->board_rev = 0x920092; /* Revision 1.2 */
++DEF_HELPER_FLAGS_4(mve_vqdmullt_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    raspi_machine_class_common_init(mc, rmc->board_rev);
++DEF_HELPER_FLAGS_4(mve_vqdmullt_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+};
++
-+
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
- static void raspi1ap_machine_class_init(ObjectClass *oc, void *data)
+ DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
  DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  %qm 5:1 1:3
  %qn 7:1 17:3
 +# VQDMULL has size in bit 28: 0 for 16 bit, 1 for 32 bit
 +%size_28 28:1 !function=plus_1
 +
  &vldr_vstr rn qd imm p a w size l u
  &1op qd qm size
  &2op qd qm qn size
@@ -XXX,XX +XXX,XX @@
  @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
  @2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
 +@2scalar_nosz .... .... .... .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
  # Vector loads and stores
@@ -XXX,XX +XXX,XX @@ VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
  VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
  VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 -VQADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
 -VQADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
 -VQSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
 -VQSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
 +{
 +  VQADD_S_scalar  1110  1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
 +  VQADD_U_scalar  1111  1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
 +  VQDMULLB_scalar 111 . 1110 0 . 11 ... 0 ... 0 1111 . 110 .... @2scalar_nosz \
 +                  size=%size_28
 +}
 +
 +{
 +  VQSUB_S_scalar  1110  1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
 +  VQSUB_U_scalar  1111  1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
 +  VQDMULLT_scalar 111 . 1110 0 . 11 ... 0 ... 1 1111 . 110 .... @2scalar_nosz \
 +                  size=%size_28
 +}
 +
  VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
  VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
 +
  # Predicate operations
  %mask_22_13      22:1 13:3
  VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT_SCALAR(vqrdmulh_scalarb, 1, int8_t, DO_QRDMULH_B)
  DO_2OP_SAT_SCALAR(vqrdmulh_scalarh, 2, int16_t, DO_QRDMULH_H)
  DO_2OP_SAT_SCALAR(vqrdmulh_scalarw, 4, int32_t, DO_QRDMULH_W)
 +/*
 + * Long saturating scalar ops. As with DO_2OP_L, TYPE and H are for the
 + * input (smaller) type and LESIZE, LTYPE, LH for the output (long) type.
 + * SATMASK specifies which bits of the predicate mask matter for determining
 + * whether to propagate a saturation indication into FPSCR.QC -- for
 + * the 16x16->32 case we must check only the bit corresponding to the T or B
 + * half that we used, but for the 32x32->64 case we propagate if the mask
 + * bit is set for either half.
 + */
 +#define DO_2OP_SAT_SCALAR_L(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN, SATMASK) \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
 +                                uint32_t rm)                            \
 +    {                                                                   \
 +        LTYPE *d = vd;                                                  \
 +        TYPE *n = vn;                                                   \
 +        TYPE m = rm;                                                    \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned le;                                                    \
 +        bool qc = false;                                                \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
 +            bool sat = false;                                           \
 +            LTYPE r = FN((LTYPE)n[H##ESIZE(le * 2 + TOP)], m, &sat);    \
 +            mergemask(&d[H##LESIZE(le)], r, mask);                      \
 +            qc |= sat && (mask & SATMASK);                              \
 +        }                                                               \
 +        if (qc) {                                                       \
 +            env->vfp.qc[0] = qc;                                        \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
 +static inline int32_t do_qdmullh(int16_t n, int16_t m, bool *sat)
 +{
 +    int64_t r = ((int64_t)n * m) * 2;
 +    return do_sat_bhw(r, INT32_MIN, INT32_MAX, sat);
 +}
 +
 +static inline int64_t do_qdmullw(int32_t n, int32_t m, bool *sat)
 +{
 +    /* The multiply can't overflow, but the doubling might */
 +    int64_t r = (int64_t)n * m;
 +    if (r > INT64_MAX / 2) {
 +        *sat = true;
 +        return INT64_MAX;
 +    } else if (r < INT64_MIN / 2) {
 +        *sat = true;
 +        return INT64_MIN;
 +    } else {
 +        return r * 2;
 +    }
 +}
 +
 +#define SATMASK16B 1
 +#define SATMASK16T (1 << 2)
 +#define SATMASK32 ((1 << 4) | 1)
 +
 +DO_2OP_SAT_SCALAR_L(vqdmullb_scalarh, 0, 2, int16_t, 4, int32_t, \
 +                    do_qdmullh, SATMASK16B)
 +DO_2OP_SAT_SCALAR_L(vqdmullb_scalarw, 0, 4, int32_t, 8, int64_t, \
 +                    do_qdmullw, SATMASK32)
 +DO_2OP_SAT_SCALAR_L(vqdmullt_scalarh, 1, 2, int16_t, 4, int32_t, \
 +                    do_qdmullh, SATMASK16T)
 +DO_2OP_SAT_SCALAR_L(vqdmullt_scalarw, 1, 4, int32_t, 8, int64_t, \
 +                    do_qdmullw, SATMASK32)
 +
  static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
  {
-     MachineClass *mc = MACHINE_CLASS(oc);
+     m &= 0xff;
-@@ -XXX,XX +XXX,XX @@ static void raspi3b_machine_class_init(ObjectClass *oc, void *data)
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
- static const TypeInfo raspi_machine_types[] = {
+--- a/target/arm/translate-mve.c
-     {
++++ b/target/arm/translate-mve.c
-+        .name           = MACHINE_TYPE_NAME("raspi0"),
+@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR(VQDMULH_scalar, vqdmulh_scalar)
-+        .parent         = TYPE_RASPI_MACHINE,
+ DO_2OP_SCALAR(VQRDMULH_scalar, vqrdmulh_scalar)
-+        .class_init     = raspi0_machine_class_init,
+ DO_2OP_SCALAR(VBRSR, vbrsr)
-+    }, {
-         .name           = MACHINE_TYPE_NAME("raspi1ap"),
++static bool trans_VQDMULLB_scalar(DisasContext *s, arg_2scalar *a)
-         .parent         = TYPE_RASPI_MACHINE,
++{
-         .class_init     = raspi1ap_machine_class_init,
++    static MVEGenTwoOpScalarFn * const fns[] = {
 +        NULL,
 +        gen_helper_mve_vqdmullb_scalarh,
 +        gen_helper_mve_vqdmullb_scalarw,
 +        NULL,
 +    };
 +    if (a->qd == a->qn && a->size == MO_32) {
 +        /* UNPREDICTABLE; we choose to undef */
 +        return false;
 +    }
 +    return do_2op_scalar(s, a, fns[a->size]);
 +}
 +
 +static bool trans_VQDMULLT_scalar(DisasContext *s, arg_2scalar *a)
 +{
 +    static MVEGenTwoOpScalarFn * const fns[] = {
 +        NULL,
 +        gen_helper_mve_vqdmullt_scalarh,
 +        gen_helper_mve_vqdmullt_scalarw,
 +        NULL,
 +    };
 +    if (a->qd == a->qn && a->size == MO_32) {
 +        /* UNPREDICTABLE; we choose to undef */
 +        return false;
 +    }
 +    return do_2op_scalar(s, a, fns[a->size]);
 +}
 +
  static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
                               MVEGenDualAccOpFn *fn)
  {
 --
 .20.1

-[PULL 07/48] linux-user/elfload: Move PT_INTERP detection to first loop
+[PULL 41/57] target/arm: Implement MVE VQDMULH, VQRDMULH (vector)
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the vector forms of the MVE VQDMULH and VQRDMULH insns.
-For BTI, we need to know if the executable is static or dynamic,
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-which means looking for PT_INTERP earlier.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-31-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  8 ++++++++
  target/arm/mve.decode      |  3 +++
  target/arm/mve_helper.c    | 27 +++++++++++++++++++++++++++
  target/arm/translate-mve.c |  2 ++
 files changed, 40 insertions(+)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Message-id: 20201021173749.111103-8-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  linux-user/elfload.c | 60 +++++++++++++++++++++++---------------------
 file changed, 31 insertions(+), 29 deletions(-)
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/elfload.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmulltub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+ DEF_HELPER_FLAGS_4(mve_vmulltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mmap_lock();
+ DEF_HELPER_FLAGS_4(mve_vmulltuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--    /* Find the maximum size of the image and allocate an appropriate
++DEF_HELPER_FLAGS_4(mve_vqdmulhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--       amount of memory to handle that.  */
++DEF_HELPER_FLAGS_4(mve_vqdmulhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    /*
++DEF_HELPER_FLAGS_4(mve_vqdmulhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +     * Find the maximum size of the image and allocate an appropriate
 +     * amount of memory to handle that.  Locate the interpreter, if any.
 +     */
      loaddr = -1, hiaddr = 0;
      info->alignment = 0;
      for (i = 0; i < ehdr->e_phnum; ++i) {
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
              }
              ++info->nsegs;
              info->alignment |= eppnt->p_align;
 +        } else if (eppnt->p_type == PT_INTERP && pinterp_name) {
 +            g_autofree char *interp_name = NULL;
 +
-+            if (*pinterp_name) {
++DEF_HELPER_FLAGS_4(mve_vqrdmulhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+                errmsg = "Multiple PT_INTERP entries";
++DEF_HELPER_FLAGS_4(mve_vqrdmulhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+                goto exit_errmsg;
++DEF_HELPER_FLAGS_4(mve_vqrdmulhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +            }
 +            interp_name = g_malloc(eppnt->p_filesz);
 +            if (!interp_name) {
 +                goto exit_perror;
 +            }
 +
-+            if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+                memcpy(interp_name, bprm_buf + eppnt->p_offset,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+                       eppnt->p_filesz);
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+            } else {
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-+                retval = pread(image_fd, interp_name, eppnt->p_filesz,
+index XXXXXXX..XXXXXXX 100644
-+                               eppnt->p_offset);
+--- a/target/arm/mve.decode
-+                if (retval != eppnt->p_filesz) {
++++ b/target/arm/mve.decode
-+                    goto exit_perror;
+@@ -XXX,XX +XXX,XX @@ VMULL_BU         111 1 1110 0 . .. ... 1 ... 0 1110 . 0 . 0 ... 0 @2op
-+                }
+ VMULL_TS         111 0 1110 0 . .. ... 1 ... 1 1110 . 0 . 0 ... 0 @2op
-+            }
+ VMULL_TU         111 1 1110 0 . .. ... 1 ... 1 1110 . 0 . 0 ... 0 @2op
-+            if (interp_name[eppnt->p_filesz - 1] != 0) {
-+                errmsg = "Invalid PT_INTERP entry";
++VQDMULH          1110 1111 0 . .. ... 0 ... 0 1011 . 1 . 0 ... 0 @2op
-+                goto exit_errmsg;
++VQRDMULH         1111 1111 0 . .. ... 0 ... 0 1011 . 1 . 0 ... 0 @2op
-+            }
++
-+            *pinterp_name = g_steal_pointer(&interp_name);
+ # Vector miscellaneous
-         }
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
          mve_advance_vpt(env);                                           \
      }
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
++#define DO_2OP_SAT(OP, ESIZE, TYPE, FN)                                 \
-             if (vaddr_em > info->brk) {
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn, void *vm) \
-                 info->brk = vaddr_em;
++    {                                                                   \
-             }
++        TYPE *d = vd, *n = vn, *m = vm;                                 \
--        } else if (eppnt->p_type == PT_INTERP && pinterp_name) {
++        uint16_t mask = mve_element_mask(env);                          \
--            g_autofree char *interp_name = NULL;
++        unsigned e;                                                     \
--
++        bool qc = false;                                                \
--            if (*pinterp_name) {
++        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
--                errmsg = "Multiple PT_INTERP entries";
++            bool sat = false;                                           \
--                goto exit_errmsg;
++            TYPE r = FN(n[H##ESIZE(e)], m[H##ESIZE(e)], &sat);          \
--            }
++            mergemask(&d[H##ESIZE(e)], r, mask);                        \
--            interp_name = g_malloc(eppnt->p_filesz);
++            qc |= sat & mask & 1;                                       \
--            if (!interp_name) {
++        }                                                               \
--                goto exit_perror;
++        if (qc) {                                                       \
--            }
++            env->vfp.qc[0] = qc;                                        \
--
++        }                                                               \
--            if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
++        mve_advance_vpt(env);                                           \
--                memcpy(interp_name, bprm_buf + eppnt->p_offset,
++    }
--                       eppnt->p_filesz);
++
--            } else {
+ #define DO_AND(N, M)  ((N) & (M))
--                retval = pread(image_fd, interp_name, eppnt->p_filesz,
+ #define DO_BIC(N, M)  ((N) & ~(M))
--                               eppnt->p_offset);
+ #define DO_ORR(N, M)  ((N) | (M))
--                if (retval != eppnt->p_filesz) {
+@@ -XXX,XX +XXX,XX @@ static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
--                    goto exit_perror;
+ #define DO_QRDMULH_W(n, m, s) do_sat_bhw(((int64_t)n * m + (1 << 30)) >> 31, \
--                }
+                                          INT32_MIN, INT32_MAX, s)
--            }
--            if (interp_name[eppnt->p_filesz - 1] != 0) {
++DO_2OP_SAT(vqdmulhb, 1, int8_t, DO_QDMULH_B)
--                errmsg = "Invalid PT_INTERP entry";
++DO_2OP_SAT(vqdmulhh, 2, int16_t, DO_QDMULH_H)
--                goto exit_errmsg;
++DO_2OP_SAT(vqdmulhw, 4, int32_t, DO_QDMULH_W)
--            }
++
--            *pinterp_name = g_steal_pointer(&interp_name);
++DO_2OP_SAT(vqrdmulhb, 1, int8_t, DO_QRDMULH_B)
- #ifdef TARGET_MIPS
++DO_2OP_SAT(vqrdmulhh, 2, int16_t, DO_QRDMULH_H)
-         } else if (eppnt->p_type == PT_MIPS_ABIFLAGS) {
++DO_2OP_SAT(vqrdmulhw, 4, int32_t, DO_QRDMULH_W)
-             Mips_elf_abiflags_v0 abiflags;
++
  #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
                                  uint32_t rm)                            \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VMULL_BS, vmullbs)
  DO_2OP(VMULL_BU, vmullbu)
  DO_2OP(VMULL_TS, vmullts)
  DO_2OP(VMULL_TU, vmulltu)
 +DO_2OP(VQDMULH, vqdmulh)
 +DO_2OP(VQRDMULH, vqrdmulh)
  static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
                            MVEGenTwoOpScalarFn fn)
 --
 .20.1

-[PULL 27/48] hw/arm/raspi: Add the Raspberry Pi A+ machine
+[PULL 42/57] target/arm: Implement MVE VQADD, VQSUB (vector)
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the vector forms of the MVE VQADD and VQSUB insns.
-The Pi A is almost the first machine released.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-It uses a BCM2835 SoC which includes a ARMv6Z core.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-32-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 16 ++++++++++++++++
  target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 14 ++++++++++++++
  target/arm/translate-mve.c |  4 ++++
 files changed, 39 insertions(+)
-Example booting the machine using content from [*]
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 (we use the device tree from the B model):
   $ qemu-system-arm -M raspi1ap -serial stdio \
       -kernel raspberrypi/firmware/boot/kernel.img \
       -dtb raspberrypi/firmware/boot/bcm2708-rpi-b-plus.dtb \
       -append 'earlycon=pl011,0x20201000 console=ttyAMA0'
   [    0.000000] Booting Linux on physical CPU 0x0
   [    0.000000] Linux version 4.19.118+ (dom@buildbot) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1311 Mon Apr 27 14:16:15 BST 2020
   [    0.000000] CPU: ARMv6-compatible processor [410fb767] revision 7 (ARMv7), cr=00c5387d
   [    0.000000] CPU: VIPT aliasing data cache, unknown instruction cache
   [    0.000000] OF: fdt: Machine model: Raspberry Pi Model B+
   ...
 [*] http://archive.raspberrypi.org/debian/pool/main/r/raspberrypi-firmware/raspberrypi-kernel_1.20200512-2_armhf.deb
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-8-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/raspi.c | 13 +++++++++++++
 file changed, 13 insertions(+)
 diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/raspi.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/raspi.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void raspi_machine_class_common_init(MachineClass *mc,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrdmulhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mc->default_ram_id = "ram";
+ DEF_HELPER_FLAGS_4(mve_vqrdmulhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- };
+ DEF_HELPER_FLAGS_4(mve_vqrdmulhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+static void raspi1ap_machine_class_init(ObjectClass *oc, void *data)
++DEF_HELPER_FLAGS_4(mve_vqaddsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+{
++DEF_HELPER_FLAGS_4(mve_vqaddsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    MachineClass *mc = MACHINE_CLASS(oc);
++DEF_HELPER_FLAGS_4(mve_vqaddsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +    RaspiMachineClass *rmc = RASPI_MACHINE_CLASS(oc);
 +
-+    rmc->board_rev = 0x900021; /* Revision 1.1 */
++DEF_HELPER_FLAGS_4(mve_vqaddub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    raspi_machine_class_common_init(mc, rmc->board_rev);
++DEF_HELPER_FLAGS_4(mve_vqadduh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+};
++DEF_HELPER_FLAGS_4(mve_vqadduw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
- static void raspi2b_machine_class_init(ObjectClass *oc, void *data)
++DEF_HELPER_FLAGS_4(mve_vqsubsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- {
++DEF_HELPER_FLAGS_4(mve_vqsubsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     MachineClass *mc = MACHINE_CLASS(oc);
++DEF_HELPER_FLAGS_4(mve_vqsubsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-@@ -XXX,XX +XXX,XX @@ static void raspi3b_machine_class_init(ObjectClass *oc, void *data)
++
++DEF_HELPER_FLAGS_4(mve_vqsubub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- static const TypeInfo raspi_machine_types[] = {
++DEF_HELPER_FLAGS_4(mve_vqsubuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     {
++DEF_HELPER_FLAGS_4(mve_vqsubuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+        .name           = MACHINE_TYPE_NAME("raspi1ap"),
++
-+        .parent         = TYPE_RASPI_MACHINE,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+        .class_init     = raspi1ap_machine_class_init,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    }, {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-         .name           = MACHINE_TYPE_NAME("raspi2b"),
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-         .parent         = TYPE_RASPI_MACHINE,
+index XXXXXXX..XXXXXXX 100644
-         .class_init     = raspi2b_machine_class_init,
+--- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VMULL_TU         111 1 1110 0 . .. ... 1 ... 1 1110 . 0 . 0 ... 0 @2op
  VQDMULH          1110 1111 0 . .. ... 0 ... 0 1011 . 1 . 0 ... 0 @2op
  VQRDMULH         1111 1111 0 . .. ... 0 ... 0 1011 . 1 . 0 ... 0 @2op
 +VQADD_S          111 0 1111 0 . .. ... 0 ... 0 0000 . 1 . 1 ... 0 @2op
 +VQADD_U          111 1 1111 0 . .. ... 0 ... 0 0000 . 1 . 1 ... 0 @2op
 +VQSUB_S          111 0 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
 +VQSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT(vqrdmulhb, 1, int8_t, DO_QRDMULH_B)
  DO_2OP_SAT(vqrdmulhh, 2, int16_t, DO_QRDMULH_H)
  DO_2OP_SAT(vqrdmulhw, 4, int32_t, DO_QRDMULH_W)
 +DO_2OP_SAT(vqaddub, 1, uint8_t, DO_UQADD_B)
 +DO_2OP_SAT(vqadduh, 2, uint16_t, DO_UQADD_H)
 +DO_2OP_SAT(vqadduw, 4, uint32_t, DO_UQADD_W)
 +DO_2OP_SAT(vqaddsb, 1, int8_t, DO_SQADD_B)
 +DO_2OP_SAT(vqaddsh, 2, int16_t, DO_SQADD_H)
 +DO_2OP_SAT(vqaddsw, 4, int32_t, DO_SQADD_W)
 +
 +DO_2OP_SAT(vqsubub, 1, uint8_t, DO_UQSUB_B)
 +DO_2OP_SAT(vqsubuh, 2, uint16_t, DO_UQSUB_H)
 +DO_2OP_SAT(vqsubuw, 4, uint32_t, DO_UQSUB_W)
 +DO_2OP_SAT(vqsubsb, 1, int8_t, DO_SQSUB_B)
 +DO_2OP_SAT(vqsubsh, 2, int16_t, DO_SQSUB_H)
 +DO_2OP_SAT(vqsubsw, 4, int32_t, DO_SQSUB_W)
 +
  #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
                                  uint32_t rm)                            \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VMULL_TS, vmullts)
  DO_2OP(VMULL_TU, vmulltu)
  DO_2OP(VQDMULH, vqdmulh)
  DO_2OP(VQRDMULH, vqrdmulh)
 +DO_2OP(VQADD_S, vqadds)
 +DO_2OP(VQADD_U, vqaddu)
 +DO_2OP(VQSUB_S, vqsubs)
 +DO_2OP(VQSUB_U, vqsubu)
  static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
                            MVEGenTwoOpScalarFn fn)
 --
 .20.1

-[PULL 06/48] linux-user/elfload: Adjust iteration over phdr
+[PULL 43/57] target/arm: Implement MVE VQSHL (vector)
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VQSHL insn (encoding T4, which is the
 vector-shift-by-vector version).
-The second loop uses a loop induction variable, and the first
+The DO_SQSHL_OP and DO_UQSHL_OP macros here are derived from
-does not.  Transform the first to match the second, to simplify
+the neon_helper.c code for qshl_u{8,16,32} and qshl_s{8,16,32}.
 a following patch moving code between them.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20201021173749.111103-7-richard.henderson@linaro.org
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-33-peter.maydell@linaro.org
 ---
- linux-user/elfload.c | 9 +++++----
+ target/arm/helper-mve.h    |  8 ++++++++
-file changed, 5 insertions(+), 4 deletions(-)
+ target/arm/mve.decode      | 12 ++++++++++++
  target/arm/mve_helper.c    | 34 ++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  2 ++
 files changed, 56 insertions(+)
-diff --git a/linux-user/elfload.c b/linux-user/elfload.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/elfload.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqsubub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     loaddr = -1, hiaddr = 0;
+ DEF_HELPER_FLAGS_4(mve_vqsubuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     info->alignment = 0;
+ DEF_HELPER_FLAGS_4(mve_vqsubuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     for (i = 0; i < ehdr->e_phnum; ++i) {
--        if (phdr[i].p_type == PT_LOAD) {
++DEF_HELPER_FLAGS_4(mve_vqshlsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--            abi_ulong a = phdr[i].p_vaddr - phdr[i].p_offset;
++DEF_HELPER_FLAGS_4(mve_vqshlsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+        struct elf_phdr *eppnt = phdr + i;
++DEF_HELPER_FLAGS_4(mve_vqshlsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+        if (eppnt->p_type == PT_LOAD) {
++
-+            abi_ulong a = eppnt->p_vaddr - eppnt->p_offset;
++DEF_HELPER_FLAGS_4(mve_vqshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-             if (a < loaddr) {
++DEF_HELPER_FLAGS_4(mve_vqshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-                 loaddr = a;
++DEF_HELPER_FLAGS_4(mve_vqshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-             }
++
--            a = phdr[i].p_vaddr + phdr[i].p_memsz;
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+            a = eppnt->p_vaddr + eppnt->p_memsz;
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-             if (a > hiaddr) {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                 hiaddr = a;
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-             }
+index XXXXXXX..XXXXXXX 100644
-             ++info->nsegs;
+--- a/target/arm/mve.decode
--            info->alignment |= phdr[i].p_align;
++++ b/target/arm/mve.decode
-+            info->alignment |= eppnt->p_align;
+@@ -XXX,XX +XXX,XX @@
-         }
+ @2op .... .... .. size:2 .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn
  @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
 +# The _rev suffix indicates that Vn and Vm are reversed. This is
 +# the case for shifts. In the Arm ARM these insns are documented
 +# with the Vm and Vn fields in their usual places, but in the
 +# assembly the operands are listed "backwards", ie in the order
 +# Qd, Qm, Qn where other insns use Qd, Qn, Qm. For QEMU we choose
 +# to consider Vm and Vn as being in different fields in the insn.
 +# This gives us consistency with A64 and Neon.
 +@2op_rev .... .... .. size:2 .... .... .... .... .... &2op qd=%qd qm=%qn qn=%qm
 +
  @2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
  @2scalar_nosz .... .... .... .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
@@ -XXX,XX +XXX,XX @@ VQADD_U          111 1 1111 0 . .. ... 0 ... 0 0000 . 1 . 1 ... 0 @2op
  VQSUB_S          111 0 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
  VQSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
 +VQSHL_S          111 0 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
 +VQSHL_U          111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
          mve_advance_vpt(env);                                           \
      }
++/* provide unsigned 2-op helpers for all sizes */
++#define DO_2OP_SAT_U(OP, FN)                    \
++    DO_2OP_SAT(OP##b, 1, uint8_t, FN)           \
++    DO_2OP_SAT(OP##h, 2, uint16_t, FN)          \
++    DO_2OP_SAT(OP##w, 4, uint32_t, FN)
++
++/* provide signed 2-op helpers for all sizes */
++#define DO_2OP_SAT_S(OP, FN)                    \
++    DO_2OP_SAT(OP##b, 1, int8_t, FN)            \
++    DO_2OP_SAT(OP##h, 2, int16_t, FN)           \
++    DO_2OP_SAT(OP##w, 4, int32_t, FN)
++
+ #define DO_AND(N, M)  ((N) & (M))
+ #define DO_BIC(N, M)  ((N) & ~(M))
+ #define DO_ORR(N, M)  ((N) | (M))
+@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT(vqsubsb, 1, int8_t, DO_SQSUB_B)
+ DO_2OP_SAT(vqsubsh, 2, int16_t, DO_SQSUB_H)
+ DO_2OP_SAT(vqsubsw, 4, int32_t, DO_SQSUB_W)
++/*
++ * This wrapper fixes up the impedance mismatch between do_sqrshl_bhs()
++ * and friends wanting a uint32_t* sat and our needing a bool*.
++ */
++#define WRAP_QRSHL_HELPER(FN, N, M, ROUND, satp)                        \
++    ({                                                                  \
++        uint32_t su32 = 0;                                              \
++        typeof(N) r = FN(N, (int8_t)(M), sizeof(N) * 8, ROUND, &su32);  \
++        if (su32) {                                                     \
++            *satp = true;                                               \
++        }                                                               \
++        r;                                                              \
++    })
++
++#define DO_SQSHL_OP(N, M, satp) \
++    WRAP_QRSHL_HELPER(do_sqrshl_bhs, N, M, false, satp)
++#define DO_UQSHL_OP(N, M, satp) \
++    WRAP_QRSHL_HELPER(do_uqrshl_bhs, N, M, false, satp)
++
++DO_2OP_SAT_S(vqshls, DO_SQSHL_OP)
++DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
++
+ #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
+     void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
+                                 uint32_t rm)                            \
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VQADD_S, vqadds)
+ DO_2OP(VQADD_U, vqaddu)
+ DO_2OP(VQSUB_S, vqsubs)
+ DO_2OP(VQSUB_U, vqsubu)
++DO_2OP(VQSHL_S, vqshls)
++DO_2OP(VQSHL_U, vqshlu)
+ static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
+                           MVEGenTwoOpScalarFn fn)
 --
 .20.1

-[PULL 23/48] hw/arm/bcm2836: Introduce BCM283XClass::core_count
+[PULL 44/57] target/arm: Implement MVE VQRSHL
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the MV VQRSHL (vector) insn.  Again, the code to perform
 the actual shifts is borrowed from neon_helper.c.
-The BCM2835 has only one core. Introduce the core_count field to
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-be able to use values different than BCM283X_NCPUS (4).
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-34-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 8 ++++++++
  target/arm/mve.decode      | 3 +++
  target/arm/mve_helper.c    | 6 ++++++
  target/arm/translate-mve.c | 2 ++
 files changed, 19 insertions(+)
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-4-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/bcm2836.c | 5 ++++-
 file changed, 4 insertions(+), 1 deletion(-)
 diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/bcm2836.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/bcm2836.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ typedef struct BCM283XClass {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     /*< public >*/
+ DEF_HELPER_FLAGS_4(mve_vqshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     const char *name;
+ DEF_HELPER_FLAGS_4(mve_vqshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     const char *cpu_type;
-+    unsigned core_count;
++DEF_HELPER_FLAGS_4(mve_vqrshlsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     hwaddr peri_base; /* Peripheral base address seen by the CPU */
++DEF_HELPER_FLAGS_4(mve_vqrshlsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     hwaddr ctrl_base; /* Interrupt controller and mailboxes etc. */
++DEF_HELPER_FLAGS_4(mve_vqrshlsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     int clusterid;
++
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
++DEF_HELPER_FLAGS_4(mve_vqrshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     BCM283XClass *bc = BCM283X_GET_CLASS(obj);
++DEF_HELPER_FLAGS_4(mve_vqrshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     int n;
++DEF_HELPER_FLAGS_4(mve_vqrshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++
--    for (n = 0; n < BCM283X_NCPUS; n++) {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    for (n = 0; n < bc->core_count; n++) {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-         object_initialize_child(obj, "cpu[*]", &s->cpu[n].core,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                                 bc->cpu_type);
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-     }
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ static void bcm2836_class_init(ObjectClass *oc, void *data)
+--- a/target/arm/mve.decode
-     BCM283XClass *bc = BCM283X_CLASS(oc);
++++ b/target/arm/mve.decode
+@@ -XXX,XX +XXX,XX @@ VQSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
-     bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a7");
+ VQSHL_S          111 0 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
-+    bc->core_count = BCM283X_NCPUS;
+ VQSHL_U          111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
-     bc->peri_base = 0x3f000000;
-     bc->ctrl_base = 0x40000000;
++VQRSHL_S         111 0 1111 0 . .. ... 0 ... 0 0101 . 1 . 1 ... 0 @2op_rev
-     bc->clusterid = 0xf;
++VQRSHL_U         111 1 1111 0 . .. ... 0 ... 0 0101 . 1 . 1 ... 0 @2op_rev
-@@ -XXX,XX +XXX,XX @@ static void bcm2837_class_init(ObjectClass *oc, void *data)
++
-     BCM283XClass *bc = BCM283X_CLASS(oc);
+ # Vector miscellaneous
-     bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a53");
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
-+    bc->core_count = BCM283X_NCPUS;
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
-     bc->peri_base = 0x3f000000;
+index XXXXXXX..XXXXXXX 100644
-     bc->ctrl_base = 0x40000000;
+--- a/target/arm/mve_helper.c
-     bc->clusterid = 0x0;
++++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT(vqsubsw, 4, int32_t, DO_SQSUB_W)
      WRAP_QRSHL_HELPER(do_sqrshl_bhs, N, M, false, satp)
  #define DO_UQSHL_OP(N, M, satp) \
      WRAP_QRSHL_HELPER(do_uqrshl_bhs, N, M, false, satp)
 +#define DO_SQRSHL_OP(N, M, satp) \
 +    WRAP_QRSHL_HELPER(do_sqrshl_bhs, N, M, true, satp)
 +#define DO_UQRSHL_OP(N, M, satp) \
 +    WRAP_QRSHL_HELPER(do_uqrshl_bhs, N, M, true, satp)
  DO_2OP_SAT_S(vqshls, DO_SQSHL_OP)
  DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
 +DO_2OP_SAT_S(vqrshls, DO_SQRSHL_OP)
 +DO_2OP_SAT_U(vqrshlu, DO_UQRSHL_OP)
  #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VQSUB_S, vqsubs)
  DO_2OP(VQSUB_U, vqsubu)
  DO_2OP(VQSHL_S, vqshls)
  DO_2OP(VQSHL_U, vqshlu)
 +DO_2OP(VQRSHL_S, vqrshls)
 +DO_2OP(VQRSHL_U, vqrshlu)
  static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
                            MVEGenTwoOpScalarFn fn)
 --
 .20.1

-[PULL 21/48] hw/arm/bcm2836: Restrict BCM283XInfo declaration to C source
+[PULL 45/57] target/arm: Implement MVE VSHL insn
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Implement the MVE VSHL insn (vector form).
-No code out of bcm2836.c uses (or requires) the BCM283XInfo
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-declarations. Move it locally to the C source file.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-35-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 8 ++++++++
  target/arm/mve.decode      | 3 +++
  target/arm/mve_helper.c    | 6 ++++++
  target/arm/translate-mve.c | 2 ++
 files changed, 19 insertions(+)
-Reviewed-by: Luc Michel <luc.michel@greensocs.com>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20201024170127.3592182-2-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/arm/bcm2836.h |  8 --------
  hw/arm/bcm2836.c         | 14 ++++++++++++++
 files changed, 14 insertions(+), 8 deletions(-)
 diff --git a/include/hw/arm/bcm2836.h b/include/hw/arm/bcm2836.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/bcm2836.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/arm/bcm2836.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ struct BCM283XState {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqsubub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     BCM2835PeripheralState peripherals;
+ DEF_HELPER_FLAGS_4(mve_vqsubuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- };
+ DEF_HELPER_FLAGS_4(mve_vqsubuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--typedef struct BCM283XInfo BCM283XInfo;
++DEF_HELPER_FLAGS_4(mve_vshlsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--
++DEF_HELPER_FLAGS_4(mve_vshlsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--struct BCM283XClass {
++DEF_HELPER_FLAGS_4(mve_vshlsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--    DeviceClass parent_class;
++
--    const BCM283XInfo *info;
++DEF_HELPER_FLAGS_4(mve_vshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--};
++DEF_HELPER_FLAGS_4(mve_vshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--
++DEF_HELPER_FLAGS_4(mve_vshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--
++
- #endif /* BCM2836_H */
+ DEF_HELPER_FLAGS_4(mve_vqshlsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
+ DEF_HELPER_FLAGS_4(mve_vqshlsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vqshlsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/bcm2836.c
+--- a/target/arm/mve.decode
-+++ b/hw/arm/bcm2836.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VQADD_U          111 1 1111 0 . .. ... 0 ... 0 0000 . 1 . 1 ... 0 @2op
- #include "hw/arm/raspi_platform.h"
+ VQSUB_S          111 0 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
- #include "hw/sysbus.h"
+ VQSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
-+typedef struct BCM283XInfo BCM283XInfo;
++VSHL_S           111 0 1111 0 . .. ... 0 ... 0 0100 . 1 . 0 ... 0 @2op_rev
 +VSHL_U           111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 0 ... 0 @2op_rev
 +
-+typedef struct BCM283XClass {
+ VQSHL_S          111 0 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
-+    /*< private >*/
+ VQSHL_U          111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
-+    DeviceClass parent_class;
-+    /*< public >*/
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
-+    const BCM283XInfo *info;
+index XXXXXXX..XXXXXXX 100644
-+} BCM283XClass;
+--- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhaddu, do_vhadd_u)
  DO_2OP_S(vhsubs, do_vhsub_s)
  DO_2OP_U(vhsubu, do_vhsub_u)
 +#define DO_VSHLS(N, M) do_sqrshl_bhs(N, (int8_t)(M), sizeof(N) * 8, false, NULL)
 +#define DO_VSHLU(N, M) do_uqrshl_bhs(N, (int8_t)(M), sizeof(N) * 8, false, NULL)
 +
- struct BCM283XInfo {
++DO_2OP_S(vshls, DO_VSHLS)
-     const char *name;
++DO_2OP_U(vshlu, DO_VSHLU)
      const char *cpu_type;
@@ -XXX,XX +XXX,XX @@ struct BCM283XInfo {
      int clusterid;
  };
 +#define BCM283X_CLASS(klass) \
 +    OBJECT_CLASS_CHECK(BCM283XClass, (klass), TYPE_BCM283X)
 +#define BCM283X_GET_CLASS(obj) \
 +    OBJECT_GET_CLASS(BCM283XClass, (obj), TYPE_BCM283X)
 +
- static const BCM283XInfo bcm283x_socs[] = {
+ static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
-     {
+ {
-         .name = TYPE_BCM2836,
+     if (val > max) {
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VQADD_S, vqadds)
  DO_2OP(VQADD_U, vqaddu)
  DO_2OP(VQSUB_S, vqsubs)
  DO_2OP(VQSUB_U, vqsubu)
 +DO_2OP(VSHL_S, vshls)
 +DO_2OP(VSHL_U, vshlu)
  DO_2OP(VQSHL_S, vqshls)
  DO_2OP(VQSHL_U, vqshlu)
  DO_2OP(VQRSHL_S, vqrshls)
 --
 .20.1

-[PULL 20/48] hw/arm/smmuv3: Set the restoration priority of the vSMMUv3 explicitly
+[PULL 46/57] target/arm: Implement MVE VRSHL
-From: Zenghui Yu <yuzenghui@huawei.com>
+Implement the MVE VRSHL insn (vector form).
-Ensure the vSMMUv3 will be restored before all PCIe devices so that DMA
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-translation can work properly during migration.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-36-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 8 ++++++++
  target/arm/mve.decode      | 3 +++
  target/arm/mve_helper.c    | 4 ++++
  target/arm/translate-mve.c | 2 ++
 files changed, 17 insertions(+)
-Signed-off-by: Zenghui Yu <yuzenghui@huawei.com>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Message-id: 20201019091508.197-1-yuzenghui@huawei.com
 Acked-by: Eric Auger <eric.auger@redhat.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/smmuv3.c | 1 +
 file changed, 1 insertion(+)
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/smmuv3.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/smmuv3.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_smmuv3 = {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     .name = "smmuv3",
+ DEF_HELPER_FLAGS_4(mve_vshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     .version_id = 1,
+ DEF_HELPER_FLAGS_4(mve_vshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     .minimum_version_id = 1,
-+    .priority = MIG_PRI_IOMMU,
++DEF_HELPER_FLAGS_4(mve_vrshlsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     .fields = (VMStateField[]) {
++DEF_HELPER_FLAGS_4(mve_vrshlsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         VMSTATE_UINT32(features, SMMUv3State),
++DEF_HELPER_FLAGS_4(mve_vrshlsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         VMSTATE_UINT8(sid_size, SMMUv3State),
++
 +DEF_HELPER_FLAGS_4(mve_vrshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vrshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vrshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
  DEF_HELPER_FLAGS_4(mve_vqshlsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vqshlsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  DEF_HELPER_FLAGS_4(mve_vqshlsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQSUB_U          111 1 1111 0 . .. ... 0 ... 0 0010 . 1 . 1 ... 0 @2op
  VSHL_S           111 0 1111 0 . .. ... 0 ... 0 0100 . 1 . 0 ... 0 @2op_rev
  VSHL_U           111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 0 ... 0 @2op_rev
 +VRSHL_S          111 0 1111 0 . .. ... 0 ... 0 0101 . 1 . 0 ... 0 @2op_rev
 +VRSHL_U          111 1 1111 0 . .. ... 0 ... 0 0101 . 1 . 0 ... 0 @2op_rev
 +
  VQSHL_S          111 0 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
  VQSHL_U          111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhsubu, do_vhsub_u)
  #define DO_VSHLS(N, M) do_sqrshl_bhs(N, (int8_t)(M), sizeof(N) * 8, false, NULL)
  #define DO_VSHLU(N, M) do_uqrshl_bhs(N, (int8_t)(M), sizeof(N) * 8, false, NULL)
 +#define DO_VRSHLS(N, M) do_sqrshl_bhs(N, (int8_t)(M), sizeof(N) * 8, true, NULL)
 +#define DO_VRSHLU(N, M) do_uqrshl_bhs(N, (int8_t)(M), sizeof(N) * 8, true, NULL)
  DO_2OP_S(vshls, DO_VSHLS)
  DO_2OP_U(vshlu, DO_VSHLU)
 +DO_2OP_S(vrshls, DO_VRSHLS)
 +DO_2OP_U(vrshlu, DO_VRSHLU)
  static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
  {
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VQSUB_S, vqsubs)
  DO_2OP(VQSUB_U, vqsubu)
  DO_2OP(VSHL_S, vshls)
  DO_2OP(VSHL_U, vshlu)
 +DO_2OP(VRSHL_S, vrshls)
 +DO_2OP(VRSHL_U, vrshlu)
  DO_2OP(VQSHL_S, vqshls)
  DO_2OP(VQSHL_U, vqshlu)
  DO_2OP(VQRSHL_S, vqrshls)
 --
 .20.1

-[PULL 35/48] hw/misc/bcm2835_cprman: add a PLL skeleton implementation
+[PULL 47/57] target/arm: Implement MVE VQDMLADH and VQRDMLADH
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VQDMLADH and VQRDMLADH insns.  These multiply
 elements, and then add pairs of products, double, possibly round,
 saturate and return the high half of the result.
-There are 5 PLLs in the CPRMAN, namely PLL A, C, D, H and B. All of them
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-take the xosc clock as input and produce a new clock.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-37-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 16 +++++++
  target/arm/mve.decode      |  5 +++
  target/arm/mve_helper.c    | 89 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  4 ++
 files changed, 114 insertions(+)
-This commit adds a skeleton implementation for the PLLs as sub-devices
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 of the CPRMAN. The PLLs are instantiated and connected internally to the
 main oscillator.
 Each PLL has 6 registers : CM, A2W_CTRL, A2W_ANA[0,1,2,3], A2W_FRAC. A
 write to any of them triggers a call to the (not yet implemented)
 pll_update function.
 If the main oscillator changes frequency, an update is also triggered.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/misc/bcm2835_cprman.h           |  29 +++++
  include/hw/misc/bcm2835_cprman_internals.h | 144 +++++++++++++++++++++
  hw/misc/bcm2835_cprman.c                   | 108 ++++++++++++++++
 files changed, 281 insertions(+)
 diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/misc/bcm2835_cprman.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DECLARE_INSTANCE_CHECKER(BCM2835CprmanState, CPRMAN,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+ DEF_HELPER_FLAGS_4(mve_vqrshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #define CPRMAN_NUM_REGS (0x2000 / sizeof(uint32_t))
+ DEF_HELPER_FLAGS_4(mve_vqrshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+typedef enum CprmanPll {
++DEF_HELPER_FLAGS_4(mve_vqdmladhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLA = 0,
++DEF_HELPER_FLAGS_4(mve_vqdmladhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLC,
++DEF_HELPER_FLAGS_4(mve_vqdmladhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +    CPRMAN_PLLD,
 +    CPRMAN_PLLH,
 +    CPRMAN_PLLB,
 +
-+    CPRMAN_NUM_PLL
++DEF_HELPER_FLAGS_4(mve_vqdmladhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+} CprmanPll;
++DEF_HELPER_FLAGS_4(mve_vqdmladhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vqdmladhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
-+typedef struct CprmanPllState {
++DEF_HELPER_FLAGS_4(mve_vqrdmladhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    /*< private >*/
++DEF_HELPER_FLAGS_4(mve_vqrdmladhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    DeviceState parent_obj;
++DEF_HELPER_FLAGS_4(mve_vqrdmladhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
-+    /*< public >*/
++DEF_HELPER_FLAGS_4(mve_vqrdmladhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CprmanPll id;
++DEF_HELPER_FLAGS_4(mve_vqrdmladhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vqrdmladhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
-+    uint32_t *reg_cm;
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    uint32_t *reg_a2w_ctrl;
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    uint32_t *reg_a2w_ana; /* ANA[0] .. ANA[3] */
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    uint32_t prediv_mask; /* prediv bit in ana[1] */
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-+    uint32_t *reg_a2w_frac;
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQSHL_U          111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
  VQRSHL_S         111 0 1111 0 . .. ... 0 ... 0 0101 . 1 . 1 ... 0 @2op_rev
  VQRSHL_U         111 1 1111 0 . .. ... 0 ... 0 0101 . 1 . 1 ... 0 @2op_rev
 +VQDMLADH         1110 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 0 @2op
 +VQDMLADHX        1110 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 0 @2op
 +VQRDMLADH        1110 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 1 @2op
 +VQRDMLADHX       1110 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 1 @2op
 +
-+    Clock *xosc_in;
+ # Vector miscellaneous
-+    Clock *out;
-+} CprmanPllState;
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
  DO_2OP_SAT_S(vqrshls, DO_SQRSHL_OP)
  DO_2OP_SAT_U(vqrshlu, DO_UQRSHL_OP)
 +/*
 + * Multiply add dual returning high half
 + * The 'FN' here takes four inputs A, B, C, D, a 0/1 indicator of
 + * whether to add the rounding constant, and the pointer to the
 + * saturation flag, and should do "(A * B + C * D) * 2 + rounding constant",
 + * saturate to twice the input size and return the high half; or
 + * (A * B - C * D) etc for VQDMLSDH.
 + */
 +#define DO_VQDMLADH_OP(OP, ESIZE, TYPE, XCHG, ROUND, FN)                \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
 +                                void *vm)                               \
 +    {                                                                   \
 +        TYPE *d = vd, *n = vn, *m = vm;                                 \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        bool qc = false;                                                \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +            bool sat = false;                                           \
 +            if ((e & 1) == XCHG) {                                      \
 +                TYPE r = FN(n[H##ESIZE(e)],                             \
 +                            m[H##ESIZE(e - XCHG)],                      \
 +                            n[H##ESIZE(e + (1 - 2 * XCHG))],            \
 +                            m[H##ESIZE(e + (1 - XCHG))],                \
 +                            ROUND, &sat);                               \
 +                mergemask(&d[H##ESIZE(e)], r, mask);                    \
 +                qc |= sat & mask & 1;                                   \
 +            }                                                           \
 +        }                                                               \
 +        if (qc) {                                                       \
 +            env->vfp.qc[0] = qc;                                        \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
- struct BCM2835CprmanState {
++static int8_t do_vqdmladh_b(int8_t a, int8_t b, int8_t c, int8_t d,
-     /*< private >*/
++                            int round, bool *sat)
      SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
      /*< public >*/
      MemoryRegion iomem;
 +    CprmanPllState plls[CPRMAN_NUM_PLL];
 +
      uint32_t regs[CPRMAN_NUM_REGS];
      uint32_t xosc_freq;
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/misc/bcm2835_cprman_internals.h
 +++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
  #include "hw/registerfields.h"
  #include "hw/misc/bcm2835_cprman.h"
 +#define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
 +
 +DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
 +                         TYPE_CPRMAN_PLL)
 +
  /* Register map */
 +/* PLLs */
 +REG32(CM_PLLA, 0x104)
 +    FIELD(CM_PLLA, LOADDSI0, 0, 1)
 +    FIELD(CM_PLLA, HOLDDSI0, 1, 1)
 +    FIELD(CM_PLLA, LOADCCP2, 2, 1)
 +    FIELD(CM_PLLA, HOLDCCP2, 3, 1)
 +    FIELD(CM_PLLA, LOADCORE, 4, 1)
 +    FIELD(CM_PLLA, HOLDCORE, 5, 1)
 +    FIELD(CM_PLLA, LOADPER, 6, 1)
 +    FIELD(CM_PLLA, HOLDPER, 7, 1)
 +    FIELD(CM_PLLx, ANARST, 8, 1)
 +REG32(CM_PLLC, 0x108)
 +    FIELD(CM_PLLC, LOADCORE0, 0, 1)
 +    FIELD(CM_PLLC, HOLDCORE0, 1, 1)
 +    FIELD(CM_PLLC, LOADCORE1, 2, 1)
 +    FIELD(CM_PLLC, HOLDCORE1, 3, 1)
 +    FIELD(CM_PLLC, LOADCORE2, 4, 1)
 +    FIELD(CM_PLLC, HOLDCORE2, 5, 1)
 +    FIELD(CM_PLLC, LOADPER, 6, 1)
 +    FIELD(CM_PLLC, HOLDPER, 7, 1)
 +REG32(CM_PLLD, 0x10c)
 +    FIELD(CM_PLLD, LOADDSI0, 0, 1)
 +    FIELD(CM_PLLD, HOLDDSI0, 1, 1)
 +    FIELD(CM_PLLD, LOADDSI1, 2, 1)
 +    FIELD(CM_PLLD, HOLDDSI1, 3, 1)
 +    FIELD(CM_PLLD, LOADCORE, 4, 1)
 +    FIELD(CM_PLLD, HOLDCORE, 5, 1)
 +    FIELD(CM_PLLD, LOADPER, 6, 1)
 +    FIELD(CM_PLLD, HOLDPER, 7, 1)
 +REG32(CM_PLLH, 0x110)
 +    FIELD(CM_PLLH, LOADPIX, 0, 1)
 +    FIELD(CM_PLLH, LOADAUX, 1, 1)
 +    FIELD(CM_PLLH, LOADRCAL, 2, 1)
 +REG32(CM_PLLB, 0x170)
 +    FIELD(CM_PLLB, LOADARM, 0, 1)
 +    FIELD(CM_PLLB, HOLDARM, 1, 1)
 +
 +REG32(A2W_PLLA_CTRL, 0x1100)
 +    FIELD(A2W_PLLx_CTRL, NDIV, 0, 10)
 +    FIELD(A2W_PLLx_CTRL, PDIV, 12, 3)
 +    FIELD(A2W_PLLx_CTRL, PWRDN, 16, 1)
 +    FIELD(A2W_PLLx_CTRL, PRST_DISABLE, 17, 1)
 +REG32(A2W_PLLC_CTRL, 0x1120)
 +REG32(A2W_PLLD_CTRL, 0x1140)
 +REG32(A2W_PLLH_CTRL, 0x1160)
 +REG32(A2W_PLLB_CTRL, 0x11e0)
 +
 +REG32(A2W_PLLA_ANA0, 0x1010)
 +REG32(A2W_PLLA_ANA1, 0x1014)
 +    FIELD(A2W_PLLx_ANA1, FB_PREDIV, 14, 1)
 +REG32(A2W_PLLA_ANA2, 0x1018)
 +REG32(A2W_PLLA_ANA3, 0x101c)
 +
 +REG32(A2W_PLLC_ANA0, 0x1030)
 +REG32(A2W_PLLC_ANA1, 0x1034)
 +REG32(A2W_PLLC_ANA2, 0x1038)
 +REG32(A2W_PLLC_ANA3, 0x103c)
 +
 +REG32(A2W_PLLD_ANA0, 0x1050)
 +REG32(A2W_PLLD_ANA1, 0x1054)
 +REG32(A2W_PLLD_ANA2, 0x1058)
 +REG32(A2W_PLLD_ANA3, 0x105c)
 +
 +REG32(A2W_PLLH_ANA0, 0x1070)
 +REG32(A2W_PLLH_ANA1, 0x1074)
 +    FIELD(A2W_PLLH_ANA1, FB_PREDIV, 11, 1)
 +REG32(A2W_PLLH_ANA2, 0x1078)
 +REG32(A2W_PLLH_ANA3, 0x107c)
 +
 +REG32(A2W_PLLB_ANA0, 0x10f0)
 +REG32(A2W_PLLB_ANA1, 0x10f4)
 +REG32(A2W_PLLB_ANA2, 0x10f8)
 +REG32(A2W_PLLB_ANA3, 0x10fc)
 +
 +REG32(A2W_PLLA_FRAC, 0x1200)
 +    FIELD(A2W_PLLx_FRAC, FRAC, 0, 20)
 +REG32(A2W_PLLC_FRAC, 0x1220)
 +REG32(A2W_PLLD_FRAC, 0x1240)
 +REG32(A2W_PLLH_FRAC, 0x1260)
 +REG32(A2W_PLLB_FRAC, 0x12e0)
 +
  /*
   * This field is common to all registers. Each register write value must match
   * the CPRMAN_PASSWORD magic value in its 8 MSB.
@@ -XXX,XX +XXX,XX @@
  FIELD(CPRMAN, PASSWORD, 24, 8)
  #define CPRMAN_PASSWORD 0x5a
 +/* PLL init info */
 +typedef struct PLLInitInfo {
 +    const char *name;
 +    size_t cm_offset;
 +    size_t a2w_ctrl_offset;
 +    size_t a2w_ana_offset;
 +    uint32_t prediv_mask; /* Prediv bit in ana[1] */
 +    size_t a2w_frac_offset;
 +} PLLInitInfo;
 +
 +#define FILL_PLL_INIT_INFO(pll_)                \
 +    .cm_offset = R_CM_ ## pll_,                 \
 +    .a2w_ctrl_offset = R_A2W_ ## pll_ ## _CTRL, \
 +    .a2w_ana_offset = R_A2W_ ## pll_ ## _ANA0,  \
 +    .a2w_frac_offset = R_A2W_ ## pll_ ## _FRAC
 +
 +static const PLLInitInfo PLL_INIT_INFO[] = {
 +    [CPRMAN_PLLA] = {
 +        .name = "plla",
 +        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
 +        FILL_PLL_INIT_INFO(PLLA),
 +    },
 +    [CPRMAN_PLLC] = {
 +        .name = "pllc",
 +        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
 +        FILL_PLL_INIT_INFO(PLLC),
 +    },
 +    [CPRMAN_PLLD] = {
 +        .name = "plld",
 +        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
 +        FILL_PLL_INIT_INFO(PLLD),
 +    },
 +    [CPRMAN_PLLH] = {
 +        .name = "pllh",
 +        .prediv_mask = R_A2W_PLLH_ANA1_FB_PREDIV_MASK,
 +        FILL_PLL_INIT_INFO(PLLH),
 +    },
 +    [CPRMAN_PLLB] = {
 +        .name = "pllb",
 +        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
 +        FILL_PLL_INIT_INFO(PLLB),
 +    },
 +};
 +
 +#undef FILL_PLL_CHANNEL_INIT_INFO
 +
 +static inline void set_pll_init_info(BCM2835CprmanState *s,
 +                                     CprmanPllState *pll,
 +                                     CprmanPll id)
 +{
-+    pll->id = id;
++    int64_t r = ((int64_t)a * b + (int64_t)c * d) * 2 + (round << 7);
-+    pll->reg_cm = &s->regs[PLL_INIT_INFO[id].cm_offset];
++    return do_sat_bhw(r, INT16_MIN, INT16_MAX, sat) >> 8;
 +    pll->reg_a2w_ctrl = &s->regs[PLL_INIT_INFO[id].a2w_ctrl_offset];
 +    pll->reg_a2w_ana = &s->regs[PLL_INIT_INFO[id].a2w_ana_offset];
 +    pll->prediv_mask = PLL_INIT_INFO[id].prediv_mask;
 +    pll->reg_a2w_frac = &s->regs[PLL_INIT_INFO[id].a2w_frac_offset];
 +}
 +
- #endif
++static int16_t do_vqdmladh_h(int16_t a, int16_t b, int16_t c, int16_t d,
-diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
++                             int round, bool *sat)
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/bcm2835_cprman.c
 +++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
  #include "hw/misc/bcm2835_cprman_internals.h"
  #include "trace.h"
 +/* PLL */
 +
 +static void pll_update(CprmanPllState *pll)
 +{
-+    clock_update(pll->out, 0);
++    int64_t r = ((int64_t)a * b + (int64_t)c * d) * 2 + (round << 15);
 +    return do_sat_bhw(r, INT32_MIN, INT32_MAX, sat) >> 16;
 +}
 +
-+static void pll_xosc_update(void *opaque)
++static int32_t do_vqdmladh_w(int32_t a, int32_t b, int32_t c, int32_t d,
 +                             int round, bool *sat)
 +{
-+    pll_update(CPRMAN_PLL(opaque));
++    int64_t m1 = (int64_t)a * b;
 +    int64_t m2 = (int64_t)c * d;
 +    int64_t r;
 +    /*
 +     * Architecturally we should do the entire add, double, round
 +     * and then check for saturation. We do three saturating adds,
 +     * but we need to be careful about the order. If the first
 +     * m1 + m2 saturates then it's impossible for the *2+rc to
 +     * bring it back into the non-saturated range. However, if
 +     * m1 + m2 is negative then it's possible that doing the doubling
 +     * would take the intermediate result below INT64_MAX and the
 +     * addition of the rounding constant then brings it back in range.
 +     * So we add half the rounding constant before doubling rather
 +     * than adding the rounding constant after the doubling.
 +     */
 +    if (sadd64_overflow(m1, m2, &r) ||
 +        sadd64_overflow(r, (round << 30), &r) ||
 +        sadd64_overflow(r, r, &r)) {
 +        *sat = true;
 +        return r < 0 ? INT32_MAX : INT32_MIN;
 +    }
 +    return r >> 32;
 +}
 +
-+static void pll_init(Object *obj)
++DO_VQDMLADH_OP(vqdmladhb, 1, int8_t, 0, 0, do_vqdmladh_b)
-+{
++DO_VQDMLADH_OP(vqdmladhh, 2, int16_t, 0, 0, do_vqdmladh_h)
-+    CprmanPllState *s = CPRMAN_PLL(obj);
++DO_VQDMLADH_OP(vqdmladhw, 4, int32_t, 0, 0, do_vqdmladh_w)
 +DO_VQDMLADH_OP(vqdmladhxb, 1, int8_t, 1, 0, do_vqdmladh_b)
 +DO_VQDMLADH_OP(vqdmladhxh, 2, int16_t, 1, 0, do_vqdmladh_h)
 +DO_VQDMLADH_OP(vqdmladhxw, 4, int32_t, 1, 0, do_vqdmladh_w)
 +
-+    s->xosc_in = qdev_init_clock_in(DEVICE(s), "xosc-in", pll_xosc_update, s);
++DO_VQDMLADH_OP(vqrdmladhb, 1, int8_t, 0, 1, do_vqdmladh_b)
-+    s->out = qdev_init_clock_out(DEVICE(s), "out");
++DO_VQDMLADH_OP(vqrdmladhh, 2, int16_t, 0, 1, do_vqdmladh_h)
-+}
++DO_VQDMLADH_OP(vqrdmladhw, 4, int32_t, 0, 1, do_vqdmladh_w)
 +DO_VQDMLADH_OP(vqrdmladhxb, 1, int8_t, 1, 1, do_vqdmladh_b)
 +DO_VQDMLADH_OP(vqrdmladhxh, 2, int16_t, 1, 1, do_vqdmladh_h)
 +DO_VQDMLADH_OP(vqrdmladhxw, 4, int32_t, 1, 1, do_vqdmladh_w)
 +
-+static const VMStateDescription pll_vmstate = {
+ #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
-+    .name = TYPE_CPRMAN_PLL,
+     void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
-+    .version_id = 1,
+                                 uint32_t rm)                            \
-+    .minimum_version_id = 1,
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+    .fields = (VMStateField[]) {
+index XXXXXXX..XXXXXXX 100644
-+        VMSTATE_CLOCK(xosc_in, CprmanPllState),
+--- a/target/arm/translate-mve.c
-+        VMSTATE_END_OF_LIST()
++++ b/target/arm/translate-mve.c
-+    }
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VQSHL_S, vqshls)
-+};
+ DO_2OP(VQSHL_U, vqshlu)
-+
+ DO_2OP(VQRSHL_S, vqrshls)
-+static void pll_class_init(ObjectClass *klass, void *data)
+ DO_2OP(VQRSHL_U, vqrshlu)
-+{
++DO_2OP(VQDMLADH, vqdmladh)
-+    DeviceClass *dc = DEVICE_CLASS(klass);
++DO_2OP(VQDMLADHX, vqdmladhx)
-+
++DO_2OP(VQRDMLADH, vqrdmladh)
-+    dc->vmsd = &pll_vmstate;
++DO_2OP(VQRDMLADHX, vqrdmladhx)
-+}
-+
+ static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
-+static const TypeInfo cprman_pll_info = {
+                           MVEGenTwoOpScalarFn fn)
 +    .name = TYPE_CPRMAN_PLL,
 +    .parent = TYPE_DEVICE,
 +    .instance_size = sizeof(CprmanPllState),
 +    .class_init = pll_class_init,
 +    .instance_init = pll_init,
 +};
 +
 +
  /* CPRMAN "top level" model */
  static uint64_t cprman_read(void *opaque, hwaddr offset,
@@ -XXX,XX +XXX,XX @@ static uint64_t cprman_read(void *opaque, hwaddr offset,
      return r;
  }
 +#define CASE_PLL_REGS(pll_)       \
 +    case R_CM_ ## pll_:           \
 +    case R_A2W_ ## pll_ ## _CTRL: \
 +    case R_A2W_ ## pll_ ## _ANA0: \
 +    case R_A2W_ ## pll_ ## _ANA1: \
 +    case R_A2W_ ## pll_ ## _ANA2: \
 +    case R_A2W_ ## pll_ ## _ANA3: \
 +    case R_A2W_ ## pll_ ## _FRAC
 +
  static void cprman_write(void *opaque, hwaddr offset,
                           uint64_t value, unsigned size)
  {
@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
      trace_bcm2835_cprman_write(offset, value);
      s->regs[idx] = value;
 +    switch (idx) {
 +    CASE_PLL_REGS(PLLA) :
 +        pll_update(&s->plls[CPRMAN_PLLA]);
 +        break;
 +
 +    CASE_PLL_REGS(PLLC) :
 +        pll_update(&s->plls[CPRMAN_PLLC]);
 +        break;
 +
 +    CASE_PLL_REGS(PLLD) :
 +        pll_update(&s->plls[CPRMAN_PLLD]);
 +        break;
 +
 +    CASE_PLL_REGS(PLLH) :
 +        pll_update(&s->plls[CPRMAN_PLLH]);
 +        break;
 +
 +    CASE_PLL_REGS(PLLB) :
 +        pll_update(&s->plls[CPRMAN_PLLB]);
 +        break;
 +    }
  }
 +#undef CASE_PLL_REGS
 +
  static const MemoryRegionOps cprman_ops = {
      .read = cprman_read,
      .write = cprman_write,
@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps cprman_ops = {
  static void cprman_reset(DeviceState *dev)
  {
      BCM2835CprmanState *s = CPRMAN(dev);
 +    size_t i;
      memset(s->regs, 0, sizeof(s->regs));
 +    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
 +        device_cold_reset(DEVICE(&s->plls[i]));
 +    }
 +
      clock_update_hz(s->xosc, s->xosc_freq);
  }
  static void cprman_init(Object *obj)
  {
      BCM2835CprmanState *s = CPRMAN(obj);
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
 +        object_initialize_child(obj, PLL_INIT_INFO[i].name,
 +                                &s->plls[i], TYPE_CPRMAN_PLL);
 +        set_pll_init_info(s, &s->plls[i], i);
 +    }
      s->xosc = clock_new(obj, "xosc");
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
      sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->iomem);
  }
 +static void cprman_realize(DeviceState *dev, Error **errp)
 +{
 +    BCM2835CprmanState *s = CPRMAN(dev);
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
 +        CprmanPllState *pll = &s->plls[i];
 +
 +        clock_set_source(pll->xosc_in, s->xosc);
 +
 +        if (!qdev_realize(DEVICE(pll), NULL, errp)) {
 +            return;
 +        }
 +    }
 +}
 +
  static const VMStateDescription cprman_vmstate = {
      .name = TYPE_BCM2835_CPRMAN,
      .version_id = 1,
@@ -XXX,XX +XXX,XX @@ static void cprman_class_init(ObjectClass *klass, void *data)
  {
      DeviceClass *dc = DEVICE_CLASS(klass);
 +    dc->realize = cprman_realize;
      dc->reset = cprman_reset;
      dc->vmsd = &cprman_vmstate;
      device_class_set_props(dc, cprman_properties);
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_info = {
  static void cprman_register_types(void)
  {
      type_register_static(&cprman_info);
 +    type_register_static(&cprman_pll_info);
  }
  type_init(cprman_register_types);
 --
 .20.1

-[PULL 37/48] hw/misc/bcm2835_cprman: add a PLL channel skeleton implementation
+[PULL 48/57] target/arm: Implement MVE VQDMLSDH and VQRDMLSDH
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VQDMLSDH and VQRDMLSDH insns, which are
 like VQDMLADH and VQRDMLADH except that products are subtracted
 rather than added.
-PLLs are composed of multiple channels. Each channel outputs one clock
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-signal. They are modeled as one device taking the PLL generated clock as
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-input, and outputting a new clock.
+Message-id: 20210617121628.20116-38-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 16 ++++++++++++++
  target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 44 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  4 ++++
 files changed, 69 insertions(+)
-A channel shares the CM register with its parent PLL, and has its own
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 A2W_CTRL register. A write to the CM register will trigger an update of
 the PLL and all its channels, while a write to an A2W_CTRL channel
 register will update the required channel only.
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/misc/bcm2835_cprman.h           |  44 ++++++
  include/hw/misc/bcm2835_cprman_internals.h | 146 +++++++++++++++++++
  hw/misc/bcm2835_cprman.c                   | 155 +++++++++++++++++++--
 files changed, 337 insertions(+), 8 deletions(-)
 diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/misc/bcm2835_cprman.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ typedef enum CprmanPll {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrdmladhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     CPRMAN_NUM_PLL
+ DEF_HELPER_FLAGS_4(mve_vqrdmladhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- } CprmanPll;
+ DEF_HELPER_FLAGS_4(mve_vqrdmladhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+typedef enum CprmanPllChannel {
++DEF_HELPER_FLAGS_4(mve_vqdmlsdhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLA_CHANNEL_DSI0 = 0,
++DEF_HELPER_FLAGS_4(mve_vqdmlsdhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLA_CHANNEL_CORE,
++DEF_HELPER_FLAGS_4(mve_vqdmlsdhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +    CPRMAN_PLLA_CHANNEL_PER,
 +    CPRMAN_PLLA_CHANNEL_CCP2,
 +
-+    CPRMAN_PLLC_CHANNEL_CORE2,
++DEF_HELPER_FLAGS_4(mve_vqdmlsdhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLC_CHANNEL_CORE1,
++DEF_HELPER_FLAGS_4(mve_vqdmlsdhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLC_CHANNEL_PER,
++DEF_HELPER_FLAGS_4(mve_vqdmlsdhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +    CPRMAN_PLLC_CHANNEL_CORE0,
 +
-+    CPRMAN_PLLD_CHANNEL_DSI0,
++DEF_HELPER_FLAGS_4(mve_vqrdmlsdhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLD_CHANNEL_CORE,
++DEF_HELPER_FLAGS_4(mve_vqrdmlsdhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLD_CHANNEL_PER,
++DEF_HELPER_FLAGS_4(mve_vqrdmlsdhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +    CPRMAN_PLLD_CHANNEL_DSI1,
 +
-+    CPRMAN_PLLH_CHANNEL_AUX,
++DEF_HELPER_FLAGS_4(mve_vqrdmlsdhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLH_CHANNEL_RCAL,
++DEF_HELPER_FLAGS_4(mve_vqrdmlsdhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+    CPRMAN_PLLH_CHANNEL_PIX,
++DEF_HELPER_FLAGS_4(mve_vqrdmlsdhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
-+    CPRMAN_PLLB_CHANNEL_ARM,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQDMLADHX        1110 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 0 @2op
  VQRDMLADH        1110 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 1 @2op
  VQRDMLADHX       1110 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 1 @2op
 +VQDMLSDH         1111 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 0 @2op
 +VQDMLSDHX        1111 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 0 @2op
 +VQRDMLSDH        1111 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 1 @2op
 +VQRDMLSDHX       1111 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 1 @2op
 +
-+    CPRMAN_NUM_PLL_CHANNEL,
+ # Vector miscellaneous
-+} CprmanPllChannel;
-+
+ VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
- typedef struct CprmanPllState {
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
      /*< private >*/
      DeviceState parent_obj;
@@ -XXX,XX +XXX,XX @@ typedef struct CprmanPllState {
      Clock *out;
  } CprmanPllState;
 +typedef struct CprmanPllChannelState {
 +    /*< private >*/
 +    DeviceState parent_obj;
 +
 +    /*< public >*/
 +    CprmanPllChannel id;
 +    CprmanPll parent;
 +
 +    uint32_t *reg_cm;
 +    uint32_t hold_mask;
 +    uint32_t load_mask;
 +    uint32_t *reg_a2w_ctrl;
 +    int fixed_divider;
 +
 +    Clock *pll_in;
 +    Clock *out;
 +} CprmanPllChannelState;
 +
  struct BCM2835CprmanState {
      /*< private >*/
      SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
      MemoryRegion iomem;
      CprmanPllState plls[CPRMAN_NUM_PLL];
 +    CprmanPllChannelState channels[CPRMAN_NUM_PLL_CHANNEL];
      uint32_t regs[CPRMAN_NUM_REGS];
      uint32_t xosc_freq;
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman_internals.h
+--- a/target/arm/mve_helper.c
-+++ b/include/hw/misc/bcm2835_cprman_internals.h
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int32_t do_vqdmladh_w(int32_t a, int32_t b, int32_t c, int32_t d,
- #include "hw/misc/bcm2835_cprman.h"
+     return r >> 32;
  #define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
 +#define TYPE_CPRMAN_PLL_CHANNEL "bcm2835-cprman-pll-channel"
  DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
                           TYPE_CPRMAN_PLL)
 +DECLARE_INSTANCE_CHECKER(CprmanPllChannelState, CPRMAN_PLL_CHANNEL,
 +                         TYPE_CPRMAN_PLL_CHANNEL)
  /* Register map */
@@ -XXX,XX +XXX,XX @@ REG32(A2W_PLLD_FRAC, 0x1240)
  REG32(A2W_PLLH_FRAC, 0x1260)
  REG32(A2W_PLLB_FRAC, 0x12e0)
 +/* PLL channels */
 +REG32(A2W_PLLA_DSI0, 0x1300)
 +    FIELD(A2W_PLLx_CHANNELy, DIV, 0, 8)
 +    FIELD(A2W_PLLx_CHANNELy, DISABLE, 8, 1)
 +REG32(A2W_PLLA_CORE, 0x1400)
 +REG32(A2W_PLLA_PER, 0x1500)
 +REG32(A2W_PLLA_CCP2, 0x1600)
 +
 +REG32(A2W_PLLC_CORE2, 0x1320)
 +REG32(A2W_PLLC_CORE1, 0x1420)
 +REG32(A2W_PLLC_PER, 0x1520)
 +REG32(A2W_PLLC_CORE0, 0x1620)
 +
 +REG32(A2W_PLLD_DSI0, 0x1340)
 +REG32(A2W_PLLD_CORE, 0x1440)
 +REG32(A2W_PLLD_PER, 0x1540)
 +REG32(A2W_PLLD_DSI1, 0x1640)
 +
 +REG32(A2W_PLLH_AUX, 0x1360)
 +REG32(A2W_PLLH_RCAL, 0x1460)
 +REG32(A2W_PLLH_PIX, 0x1560)
 +REG32(A2W_PLLH_STS, 0x1660)
 +
 +REG32(A2W_PLLB_ARM, 0x13e0)
 +
  /* misc registers */
  REG32(CM_LOCK, 0x114)
      FIELD(CM_LOCK, FLOCKH, 12, 1)
@@ -XXX,XX +XXX,XX @@ static inline void set_pll_init_info(BCM2835CprmanState *s,
      pll->reg_a2w_frac = &s->regs[PLL_INIT_INFO[id].a2w_frac_offset];
  }
-+
++static int8_t do_vqdmlsdh_b(int8_t a, int8_t b, int8_t c, int8_t d,
-+/* PLL channel init info */
++                            int round, bool *sat)
 +typedef struct PLLChannelInitInfo {
 +    const char *name;
 +    CprmanPll parent;
 +    size_t cm_offset;
 +    uint32_t cm_hold_mask;
 +    uint32_t cm_load_mask;
 +    size_t a2w_ctrl_offset;
 +    unsigned int fixed_divider;
 +} PLLChannelInitInfo;
 +
 +#define FILL_PLL_CHANNEL_INIT_INFO_common(pll_, channel_)            \
 +    .parent = CPRMAN_ ## pll_,                                       \
 +    .cm_offset = R_CM_ ## pll_,                                      \
 +    .cm_load_mask = R_CM_ ## pll_ ## _ ## LOAD ## channel_ ## _MASK, \
 +    .a2w_ctrl_offset = R_A2W_ ## pll_ ## _ ## channel_
 +
 +#define FILL_PLL_CHANNEL_INIT_INFO(pll_, channel_)                   \
 +    FILL_PLL_CHANNEL_INIT_INFO_common(pll_, channel_),               \
 +    .cm_hold_mask = R_CM_ ## pll_ ## _ ## HOLD ## channel_ ## _MASK, \
 +    .fixed_divider = 1
 +
 +#define FILL_PLL_CHANNEL_INIT_INFO_nohold(pll_, channel_) \
 +    FILL_PLL_CHANNEL_INIT_INFO_common(pll_, channel_),    \
 +    .cm_hold_mask = 0
 +
 +static PLLChannelInitInfo PLL_CHANNEL_INIT_INFO[] = {
 +    [CPRMAN_PLLA_CHANNEL_DSI0] = {
 +        .name = "plla-dsi0",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLA, DSI0),
 +    },
 +    [CPRMAN_PLLA_CHANNEL_CORE] = {
 +        .name = "plla-core",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLA, CORE),
 +    },
 +    [CPRMAN_PLLA_CHANNEL_PER] = {
 +        .name = "plla-per",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLA, PER),
 +    },
 +    [CPRMAN_PLLA_CHANNEL_CCP2] = {
 +        .name = "plla-ccp2",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLA, CCP2),
 +    },
 +
 +    [CPRMAN_PLLC_CHANNEL_CORE2] = {
 +        .name = "pllc-core2",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLC, CORE2),
 +    },
 +    [CPRMAN_PLLC_CHANNEL_CORE1] = {
 +        .name = "pllc-core1",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLC, CORE1),
 +    },
 +    [CPRMAN_PLLC_CHANNEL_PER] = {
 +        .name = "pllc-per",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLC, PER),
 +    },
 +    [CPRMAN_PLLC_CHANNEL_CORE0] = {
 +        .name = "pllc-core0",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLC, CORE0),
 +    },
 +
 +    [CPRMAN_PLLD_CHANNEL_DSI0] = {
 +        .name = "plld-dsi0",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLD, DSI0),
 +    },
 +    [CPRMAN_PLLD_CHANNEL_CORE] = {
 +        .name = "plld-core",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLD, CORE),
 +    },
 +    [CPRMAN_PLLD_CHANNEL_PER] = {
 +        .name = "plld-per",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLD, PER),
 +    },
 +    [CPRMAN_PLLD_CHANNEL_DSI1] = {
 +        .name = "plld-dsi1",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLD, DSI1),
 +    },
 +
 +    [CPRMAN_PLLH_CHANNEL_AUX] = {
 +        .name = "pllh-aux",
 +        .fixed_divider = 1,
 +        FILL_PLL_CHANNEL_INIT_INFO_nohold(PLLH, AUX),
 +    },
 +    [CPRMAN_PLLH_CHANNEL_RCAL] = {
 +        .name = "pllh-rcal",
 +        .fixed_divider = 10,
 +        FILL_PLL_CHANNEL_INIT_INFO_nohold(PLLH, RCAL),
 +    },
 +    [CPRMAN_PLLH_CHANNEL_PIX] = {
 +        .name = "pllh-pix",
 +        .fixed_divider = 10,
 +        FILL_PLL_CHANNEL_INIT_INFO_nohold(PLLH, PIX),
 +    },
 +
 +    [CPRMAN_PLLB_CHANNEL_ARM] = {
 +        .name = "pllb-arm",
 +        FILL_PLL_CHANNEL_INIT_INFO(PLLB, ARM),
 +    },
 +};
 +
 +#undef FILL_PLL_CHANNEL_INIT_INFO_nohold
 +#undef FILL_PLL_CHANNEL_INIT_INFO
 +#undef FILL_PLL_CHANNEL_INIT_INFO_common
 +
 +static inline void set_pll_channel_init_info(BCM2835CprmanState *s,
 +                                             CprmanPllChannelState *channel,
 +                                             CprmanPllChannel id)
 +{
-+    channel->id = id;
++    int64_t r = ((int64_t)a * b - (int64_t)c * d) * 2 + (round << 7);
-+    channel->parent = PLL_CHANNEL_INIT_INFO[id].parent;
++    return do_sat_bhw(r, INT16_MIN, INT16_MAX, sat) >> 8;
 +    channel->reg_cm = &s->regs[PLL_CHANNEL_INIT_INFO[id].cm_offset];
 +    channel->hold_mask = PLL_CHANNEL_INIT_INFO[id].cm_hold_mask;
 +    channel->load_mask = PLL_CHANNEL_INIT_INFO[id].cm_load_mask;
 +    channel->reg_a2w_ctrl = &s->regs[PLL_CHANNEL_INIT_INFO[id].a2w_ctrl_offset];
 +    channel->fixed_divider = PLL_CHANNEL_INIT_INFO[id].fixed_divider;
 +}
 +
- #endif
++static int16_t do_vqdmlsdh_h(int16_t a, int16_t b, int16_t c, int16_t d,
-diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
++                             int round, bool *sat)
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/bcm2835_cprman.c
 +++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_info = {
  };
 +/* PLL channel */
 +
 +static void pll_channel_update(CprmanPllChannelState *channel)
 +{
-+    clock_update(channel->out, 0);
++    int64_t r = ((int64_t)a * b - (int64_t)c * d) * 2 + (round << 15);
 +    return do_sat_bhw(r, INT32_MIN, INT32_MAX, sat) >> 16;
 +}
 +
-+/* Update a PLL and all its channels */
++static int32_t do_vqdmlsdh_w(int32_t a, int32_t b, int32_t c, int32_t d,
-+static void pll_update_all_channels(BCM2835CprmanState *s,
++                             int round, bool *sat)
 +                                    CprmanPllState *pll)
 +{
-+    size_t i;
++    int64_t m1 = (int64_t)a * b;
-+
++    int64_t m2 = (int64_t)c * d;
-+    pll_update(pll);
++    int64_t r;
-+
++    /* The same ordering issue as in do_vqdmladh_w applies here too */
-+    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
++    if (ssub64_overflow(m1, m2, &r) ||
-+        CprmanPllChannelState *channel = &s->channels[i];
++        sadd64_overflow(r, (round << 30), &r) ||
-+        if (channel->parent == pll->id) {
++        sadd64_overflow(r, r, &r)) {
-+            pll_channel_update(channel);
++        *sat = true;
-+        }
++        return r < 0 ? INT32_MAX : INT32_MIN;
 +    }
++    return r >> 32;
 +}
 +
-+static void pll_channel_pll_in_update(void *opaque)
+ DO_VQDMLADH_OP(vqdmladhb, 1, int8_t, 0, 0, do_vqdmladh_b)
-+{
+ DO_VQDMLADH_OP(vqdmladhh, 2, int16_t, 0, 0, do_vqdmladh_h)
-+    pll_channel_update(CPRMAN_PLL_CHANNEL(opaque));
+ DO_VQDMLADH_OP(vqdmladhw, 4, int32_t, 0, 0, do_vqdmladh_w)
-+}
+@@ -XXX,XX +XXX,XX @@ DO_VQDMLADH_OP(vqrdmladhxb, 1, int8_t, 1, 1, do_vqdmladh_b)
  DO_VQDMLADH_OP(vqrdmladhxh, 2, int16_t, 1, 1, do_vqdmladh_h)
  DO_VQDMLADH_OP(vqrdmladhxw, 4, int32_t, 1, 1, do_vqdmladh_w)
 +DO_VQDMLADH_OP(vqdmlsdhb, 1, int8_t, 0, 0, do_vqdmlsdh_b)
 +DO_VQDMLADH_OP(vqdmlsdhh, 2, int16_t, 0, 0, do_vqdmlsdh_h)
 +DO_VQDMLADH_OP(vqdmlsdhw, 4, int32_t, 0, 0, do_vqdmlsdh_w)
 +DO_VQDMLADH_OP(vqdmlsdhxb, 1, int8_t, 1, 0, do_vqdmlsdh_b)
 +DO_VQDMLADH_OP(vqdmlsdhxh, 2, int16_t, 1, 0, do_vqdmlsdh_h)
 +DO_VQDMLADH_OP(vqdmlsdhxw, 4, int32_t, 1, 0, do_vqdmlsdh_w)
 +
-+static void pll_channel_init(Object *obj)
++DO_VQDMLADH_OP(vqrdmlsdhb, 1, int8_t, 0, 1, do_vqdmlsdh_b)
-+{
++DO_VQDMLADH_OP(vqrdmlsdhh, 2, int16_t, 0, 1, do_vqdmlsdh_h)
-+    CprmanPllChannelState *s = CPRMAN_PLL_CHANNEL(obj);
++DO_VQDMLADH_OP(vqrdmlsdhw, 4, int32_t, 0, 1, do_vqdmlsdh_w)
 +DO_VQDMLADH_OP(vqrdmlsdhxb, 1, int8_t, 1, 1, do_vqdmlsdh_b)
 +DO_VQDMLADH_OP(vqrdmlsdhxh, 2, int16_t, 1, 1, do_vqdmlsdh_h)
 +DO_VQDMLADH_OP(vqrdmlsdhxw, 4, int32_t, 1, 1, do_vqdmlsdh_w)
 +
-+    s->pll_in = qdev_init_clock_in(DEVICE(s), "pll-in",
+ #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
-+                                   pll_channel_pll_in_update, s);
+     void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
-+    s->out = qdev_init_clock_out(DEVICE(s), "out");
+                                 uint32_t rm)                            \
-+}
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+
+index XXXXXXX..XXXXXXX 100644
-+static const VMStateDescription pll_channel_vmstate = {
+--- a/target/arm/translate-mve.c
-+    .name = TYPE_CPRMAN_PLL_CHANNEL,
++++ b/target/arm/translate-mve.c
-+    .version_id = 1,
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VQDMLADH, vqdmladh)
-+    .minimum_version_id = 1,
+ DO_2OP(VQDMLADHX, vqdmladhx)
-+    .fields = (VMStateField[]) {
+ DO_2OP(VQRDMLADH, vqrdmladh)
-+        VMSTATE_CLOCK(pll_in, CprmanPllChannelState),
+ DO_2OP(VQRDMLADHX, vqrdmladhx)
-+        VMSTATE_END_OF_LIST()
++DO_2OP(VQDMLSDH, vqdmlsdh)
-+    }
++DO_2OP(VQDMLSDHX, vqdmlsdhx)
-+};
++DO_2OP(VQRDMLSDH, vqrdmlsdh)
-+
++DO_2OP(VQRDMLSDHX, vqrdmlsdhx)
-+static void pll_channel_class_init(ObjectClass *klass, void *data)
-+{
+ static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
-+    DeviceClass *dc = DEVICE_CLASS(klass);
+                           MVEGenTwoOpScalarFn fn)
 +
 +    dc->vmsd = &pll_channel_vmstate;
 +}
 +
 +static const TypeInfo cprman_pll_channel_info = {
 +    .name = TYPE_CPRMAN_PLL_CHANNEL,
 +    .parent = TYPE_DEVICE,
 +    .instance_size = sizeof(CprmanPllChannelState),
 +    .class_init = pll_channel_class_init,
 +    .instance_init = pll_channel_init,
 +};
 +
 +
  /* CPRMAN "top level" model */
  static uint32_t get_cm_lock(const BCM2835CprmanState *s)
@@ -XXX,XX +XXX,XX @@ static uint64_t cprman_read(void *opaque, hwaddr offset,
      return r;
  }
 -#define CASE_PLL_REGS(pll_)       \
 -    case R_CM_ ## pll_:           \
 +static inline void update_pll_and_channels_from_cm(BCM2835CprmanState *s,
 +                                                   size_t idx)
 +{
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
 +        if (PLL_INIT_INFO[i].cm_offset == idx) {
 +            pll_update_all_channels(s, &s->plls[i]);
 +            return;
 +        }
 +    }
 +}
 +
 +static inline void update_channel_from_a2w(BCM2835CprmanState *s, size_t idx)
 +{
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
 +        if (PLL_CHANNEL_INIT_INFO[i].a2w_ctrl_offset == idx) {
 +            pll_channel_update(&s->channels[i]);
 +            return;
 +        }
 +    }
 +}
 +
 +#define CASE_PLL_A2W_REGS(pll_) \
      case R_A2W_ ## pll_ ## _CTRL: \
      case R_A2W_ ## pll_ ## _ANA0: \
      case R_A2W_ ## pll_ ## _ANA1: \
@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
      s->regs[idx] = value;
      switch (idx) {
 -    CASE_PLL_REGS(PLLA) :
 +    case R_CM_PLLA ... R_CM_PLLH:
 +    case R_CM_PLLB:
 +        /*
 +         * A given CM_PLLx register is shared by both the PLL and the channels
 +         * of this PLL.
 +         */
 +        update_pll_and_channels_from_cm(s, idx);
 +        break;
 +
 +    CASE_PLL_A2W_REGS(PLLA) :
          pll_update(&s->plls[CPRMAN_PLLA]);
          break;
 -    CASE_PLL_REGS(PLLC) :
 +    CASE_PLL_A2W_REGS(PLLC) :
          pll_update(&s->plls[CPRMAN_PLLC]);
          break;
 -    CASE_PLL_REGS(PLLD) :
 +    CASE_PLL_A2W_REGS(PLLD) :
          pll_update(&s->plls[CPRMAN_PLLD]);
          break;
 -    CASE_PLL_REGS(PLLH) :
 +    CASE_PLL_A2W_REGS(PLLH) :
          pll_update(&s->plls[CPRMAN_PLLH]);
          break;
 -    CASE_PLL_REGS(PLLB) :
 +    CASE_PLL_A2W_REGS(PLLB) :
          pll_update(&s->plls[CPRMAN_PLLB]);
          break;
 +
 +    case R_A2W_PLLA_DSI0:
 +    case R_A2W_PLLA_CORE:
 +    case R_A2W_PLLA_PER:
 +    case R_A2W_PLLA_CCP2:
 +    case R_A2W_PLLC_CORE2:
 +    case R_A2W_PLLC_CORE1:
 +    case R_A2W_PLLC_PER:
 +    case R_A2W_PLLC_CORE0:
 +    case R_A2W_PLLD_DSI0:
 +    case R_A2W_PLLD_CORE:
 +    case R_A2W_PLLD_PER:
 +    case R_A2W_PLLD_DSI1:
 +    case R_A2W_PLLH_AUX:
 +    case R_A2W_PLLH_RCAL:
 +    case R_A2W_PLLH_PIX:
 +    case R_A2W_PLLB_ARM:
 +        update_channel_from_a2w(s, idx);
 +        break;
      }
  }
 -#undef CASE_PLL_REGS
 +#undef CASE_PLL_A2W_REGS
  static const MemoryRegionOps cprman_ops = {
      .read = cprman_read,
@@ -XXX,XX +XXX,XX @@ static void cprman_reset(DeviceState *dev)
          device_cold_reset(DEVICE(&s->plls[i]));
      }
 +    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
 +        device_cold_reset(DEVICE(&s->channels[i]));
 +    }
 +
      clock_update_hz(s->xosc, s->xosc_freq);
  }
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
          set_pll_init_info(s, &s->plls[i], i);
      }
 +    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
 +        object_initialize_child(obj, PLL_CHANNEL_INIT_INFO[i].name,
 +                                &s->channels[i],
 +                                TYPE_CPRMAN_PLL_CHANNEL);
 +        set_pll_channel_init_info(s, &s->channels[i], i);
 +    }
 +
      s->xosc = clock_new(obj, "xosc");
      memory_region_init_io(&s->iomem, obj, &cprman_ops,
@@ -XXX,XX +XXX,XX @@ static void cprman_realize(DeviceState *dev, Error **errp)
              return;
          }
      }
 +
 +    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
 +        CprmanPllChannelState *channel = &s->channels[i];
 +        CprmanPll parent = PLL_CHANNEL_INIT_INFO[i].parent;
 +        Clock *parent_clk = s->plls[parent].out;
 +
 +        clock_set_source(channel->pll_in, parent_clk);
 +
 +        if (!qdev_realize(DEVICE(channel), NULL, errp)) {
 +            return;
 +        }
 +    }
  }
  static const VMStateDescription cprman_vmstate = {
@@ -XXX,XX +XXX,XX @@ static void cprman_register_types(void)
  {
      type_register_static(&cprman_info);
      type_register_static(&cprman_pll_info);
 +    type_register_static(&cprman_pll_channel_info);
  }
  type_init(cprman_register_types);
 --
 .20.1

-[PULL 01/48] linux-user/aarch64: Reset btype for signals
+[PULL 49/57] target/arm: Implement MVE VQDMULL (vector)
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the vector form of the MVE VQDMULL insn.
-The kernel sets btype for the signal handler as if for a call.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-39-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  5 +++++
  target/arm/mve.decode      |  5 +++++
  target/arm/mve_helper.c    | 30 ++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 30 ++++++++++++++++++++++++++++++
 files changed, 70 insertions(+)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201021173749.111103-2-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  linux-user/aarch64/signal.c | 10 ++++++++--
 file changed, 8 insertions(+), 2 deletions(-)
 diff --git a/linux-user/aarch64/signal.c b/linux-user/aarch64/signal.c
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/aarch64/signal.c
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/aarch64/signal.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void target_setup_frame(int usig, struct target_sigaction *ka,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrdmlsdhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-             + offsetof(struct target_rt_frame_record, tramp);
+ DEF_HELPER_FLAGS_4(mve_vqrdmlsdhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     }
+ DEF_HELPER_FLAGS_4(mve_vqrdmlsdhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     env->xregs[0] = usig;
--    env->xregs[31] = frame_addr;
++DEF_HELPER_FLAGS_4(mve_vqdmullbh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     env->xregs[29] = frame_addr + fr_ofs;
++DEF_HELPER_FLAGS_4(mve_vqdmullbw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--    env->pc = ka->_sa_handler;
++DEF_HELPER_FLAGS_4(mve_vqdmullth, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     env->xregs[30] = return_addr;
++DEF_HELPER_FLAGS_4(mve_vqdmulltw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +    env->xregs[31] = frame_addr;
 +    env->pc = ka->_sa_handler;
 +
-+    /* Invoke the signal handler as if by indirect call.  */
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+        env->btype = 2;
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  @1op_nosz .... .... .... .... .... .... .... .... &1op qd=%qd qm=%qm size=0
  @2op .... .... .. size:2 .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn
  @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
 +@2op_sz28 .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn \
 +     size=%size_28
  # The _rev suffix indicates that Vn and Vm are reversed. This is
  # the case for shifts. In the Arm ARM these insns are documented
@@ -XXX,XX +XXX,XX @@ VQDMLSDHX        1111 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 0 @2op
  VQRDMLSDH        1111 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 1 @2op
  VQRDMLSDHX       1111 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 1 @2op
 +VQDMULLB         111 . 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 1 @2op_sz28
 +VQDMULLT         111 . 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 1 @2op_sz28
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT_SCALAR_L(vqdmullt_scalarh, 1, 2, int16_t, 4, int32_t, \
  DO_2OP_SAT_SCALAR_L(vqdmullt_scalarw, 1, 4, int32_t, 8, int64_t, \
                      do_qdmullw, SATMASK32)
 +/*
 + * Long saturating ops
 + */
 +#define DO_2OP_SAT_L(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN, SATMASK)  \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
 +                                void *vm)                               \
 +    {                                                                   \
 +        LTYPE *d = vd;                                                  \
 +        TYPE *n = vn, *m = vm;                                          \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned le;                                                    \
 +        bool qc = false;                                                \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
 +            bool sat = false;                                           \
 +            LTYPE op1 = n[H##ESIZE(le * 2 + TOP)];                      \
 +            LTYPE op2 = m[H##ESIZE(le * 2 + TOP)];                      \
 +            mergemask(&d[H##LESIZE(le)], FN(op1, op2, &sat), mask);     \
 +            qc |= sat && (mask & SATMASK);                              \
 +        }                                                               \
 +        if (qc) {                                                       \
 +            env->vfp.qc[0] = qc;                                        \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-     if (info) {
++DO_2OP_SAT_L(vqdmullbh, 0, 2, int16_t, 4, int32_t, do_qdmullh, SATMASK16B)
-         tswap_siginfo(&frame->info, info);
++DO_2OP_SAT_L(vqdmullbw, 0, 4, int32_t, 8, int64_t, do_qdmullw, SATMASK32)
-         env->xregs[1] = frame_addr + offsetof(struct target_rt_sigframe, info);
++DO_2OP_SAT_L(vqdmullth, 1, 2, int16_t, 4, int32_t, do_qdmullh, SATMASK16T)
 +DO_2OP_SAT_L(vqdmulltw, 1, 4, int32_t, 8, int64_t, do_qdmullw, SATMASK32)
 +
  static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
  {
      m &= 0xff;
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VQDMLSDHX, vqdmlsdhx)
  DO_2OP(VQRDMLSDH, vqrdmlsdh)
  DO_2OP(VQRDMLSDHX, vqrdmlsdhx)
 +static bool trans_VQDMULLB(DisasContext *s, arg_2op *a)
 +{
 +    static MVEGenTwoOpFn * const fns[] = {
 +        NULL,
 +        gen_helper_mve_vqdmullbh,
 +        gen_helper_mve_vqdmullbw,
 +        NULL,
 +    };
 +    if (a->size == MO_32 && (a->qd == a->qm || a->qd == a->qn)) {
 +        /* UNPREDICTABLE; we choose to undef */
 +        return false;
 +    }
 +    return do_2op(s, a, fns[a->size]);
 +}
 +
 +static bool trans_VQDMULLT(DisasContext *s, arg_2op *a)
 +{
 +    static MVEGenTwoOpFn * const fns[] = {
 +        NULL,
 +        gen_helper_mve_vqdmullth,
 +        gen_helper_mve_vqdmulltw,
 +        NULL,
 +    };
 +    if (a->size == MO_32 && (a->qd == a->qm || a->qd == a->qn)) {
 +        /* UNPREDICTABLE; we choose to undef */
 +        return false;
 +    }
 +    return do_2op(s, a, fns[a->size]);
 +}
 +
  static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
                            MVEGenTwoOpScalarFn fn)
  {
 --
 .20.1

-[PULL 14/48] hw/arm: fix min_cpus for xlnx-versal-virt platform
+[PULL 50/57] target/arm: Implement MVE VRHADD
-From: Pavel Dovgalyuk <pavel.dovgalyuk@ispras.ru>
+Implement the MVE VRHADD insn, which performs a rounded halving
 addition.
-This patch sets min_cpus field for xlnx-versal-virt platform,
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-because it always creates XLNX_VERSAL_NR_ACPUS cpus even with
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
--smp 1 command line option.
+Message-id: 20210617121628.20116-40-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    | 8 ++++++++
  target/arm/mve.decode      | 3 +++
  target/arm/mve_helper.c    | 6 ++++++
  target/arm/translate-mve.c | 2 ++
 files changed, 19 insertions(+)
-Signed-off-by: Pavel Dovgalyuk <pavel.dovgalyuk@ispras.ru>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Message-id: 160343854912.8460.17915238517799132371.stgit@pasha-ThinkPad-X280
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/xlnx-versal-virt.c | 1 +
 file changed, 1 insertion(+)
 diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/xlnx-versal-virt.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/xlnx-versal-virt.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void versal_virt_machine_class_init(ObjectClass *oc, void *data)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqdmullbw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+ DEF_HELPER_FLAGS_4(mve_vqdmullth, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mc->desc = "Xilinx Versal Virtual development board";
+ DEF_HELPER_FLAGS_4(mve_vqdmulltw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mc->init = versal_virt_init;
-+    mc->min_cpus = XLNX_VERSAL_NR_ACPUS;
++DEF_HELPER_FLAGS_4(mve_vrhaddsb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mc->max_cpus = XLNX_VERSAL_NR_ACPUS;
++DEF_HELPER_FLAGS_4(mve_vrhaddsh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mc->default_cpus = XLNX_VERSAL_NR_ACPUS;
++DEF_HELPER_FLAGS_4(mve_vrhaddsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     mc->no_cdrom = true;
++
 +DEF_HELPER_FLAGS_4(mve_vrhaddub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vrhadduh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +DEF_HELPER_FLAGS_4(mve_vrhadduw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 +
  DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQRDMLSDHX       1111 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 1 @2op
  VQDMULLB         111 . 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 1 @2op_sz28
  VQDMULLT         111 . 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 1 @2op_sz28
 +VRHADD_S         111 0 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
 +VRHADD_U         111 1 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
 +
  # Vector miscellaneous
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vshlu, DO_VSHLU)
  DO_2OP_S(vrshls, DO_VRSHLS)
  DO_2OP_U(vrshlu, DO_VRSHLU)
 +#define DO_RHADD_S(N, M) (((int64_t)(N) + (M) + 1) >> 1)
 +#define DO_RHADD_U(N, M) (((uint64_t)(N) + (M) + 1) >> 1)
 +
 +DO_2OP_S(vrhadds, DO_RHADD_S)
 +DO_2OP_U(vrhaddu, DO_RHADD_U)
 +
  static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
  {
      if (val > max) {
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VQDMLSDH, vqdmlsdh)
  DO_2OP(VQDMLSDHX, vqdmlsdhx)
  DO_2OP(VQRDMLSDH, vqrdmlsdh)
  DO_2OP(VQRDMLSDHX, vqrdmlsdhx)
 +DO_2OP(VRHADD_S, vrhadds)
 +DO_2OP(VRHADD_U, vrhaddu)
  static bool trans_VQDMULLB(DisasContext *s, arg_2op *a)
  {
 --
 .20.1

-[PULL 19/48] hw/gpio: Add GPIO model for Nuvoton NPCM7xx
+[PULL 51/57] target/arm: Implement MVE VADC, VSBC
-From: Havard Skinnemoen <hskinnemoen@google.com>
+Implement the MVE VADC and VSBC insns.  These perform an
 add-with-carry or subtract-with-carry of the 32-bit elements in each
 lane of the input vectors, where the carry-out of each add is the
 carry-in of the next.  The initial carry input is either 1 or is from
 FPSCR.C; the carry out at the end is written back to FPSCR.C.
-The NPCM7xx chips have multiple GPIO controllers that are mostly
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-identical except for some minor differences like the reset values of
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-some registers. Each controller controls up to 32 pins.
+Message-id: 20210617121628.20116-41-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  5 ++++
  target/arm/mve.decode      |  5 ++++
  target/arm/mve_helper.c    | 52 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 37 +++++++++++++++++++++++++++
 files changed, 99 insertions(+)
-Each individual pin is modeled as a pair of unnamed GPIOs -- one for
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 emitting the actual pin state, and one for driving the pin externally.
 Like the nRF51 GPIO controller, a gpio level may be negative, which
 means the pin is not driven, or floating.
 Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
 Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  docs/system/arm/nuvoton.rst     |   2 +-
  include/hw/arm/npcm7xx.h        |   2 +
  include/hw/gpio/npcm7xx_gpio.h  |  55 +++++
  hw/arm/npcm7xx.c                |  80 ++++++
  hw/gpio/npcm7xx_gpio.c          | 424 ++++++++++++++++++++++++++++++++
  tests/qtest/npcm7xx_gpio-test.c | 385 +++++++++++++++++++++++++++++
  hw/gpio/meson.build             |   1 +
  hw/gpio/trace-events            |   7 +
  tests/qtest/meson.build         |   3 +-
 files changed, 957 insertions(+), 2 deletions(-)
  create mode 100644 include/hw/gpio/npcm7xx_gpio.h
  create mode 100644 hw/gpio/npcm7xx_gpio.c
  create mode 100644 tests/qtest/npcm7xx_gpio-test.c
 diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
---- a/docs/system/arm/nuvoton.rst
+--- a/target/arm/helper-mve.h
-+++ b/docs/system/arm/nuvoton.rst
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ Supported devices
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrhaddub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-  * Flash Interface Unit (FIU; no protection features)
+ DEF_HELPER_FLAGS_4(mve_vrhadduh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-  * Random Number Generator (RNG)
+ DEF_HELPER_FLAGS_4(mve_vrhadduw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-  * USB host (USBH)
-+ * GPIO controller
++DEF_HELPER_FLAGS_4(mve_vadc, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++DEF_HELPER_FLAGS_4(mve_vadci, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- Missing devices
++DEF_HELPER_FLAGS_4(mve_vsbc, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- ---------------
++DEF_HELPER_FLAGS_4(mve_vsbci, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++
-- * GPIO controller
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-  * LPC/eSPI host-to-BMC interface, including
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-    * Keyboard and mouse controller interface (KBCI)
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/npcm7xx.h
+--- a/target/arm/mve.decode
-+++ b/include/hw/arm/npcm7xx.h
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VQDMULLT         111 . 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 1 @2op_sz28
+ VRHADD_S         111 0 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
- #include "hw/boards.h"
+ VRHADD_U         111 1 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
- #include "hw/cpu/a9mpcore.h"
-+#include "hw/gpio/npcm7xx_gpio.h"
++VADC             1110 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
- #include "hw/mem/npcm7xx_mc.h"
++VSBC             1111 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
- #include "hw/misc/npcm7xx_clk.h"
++VADCI            1110 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
- #include "hw/misc/npcm7xx_gcr.h"
++VSBCI            1111 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
      NPCM7xxOTPState     fuse_array;
      NPCM7xxMCState      mc;
      NPCM7xxRNGState     rng;
 +    NPCM7xxGPIOState    gpio[8];
      EHCISysBusState     ehci;
      OHCISysBusState     ohci;
      NPCM7xxFIUState     fiu[2];
 diff --git a/include/hw/gpio/npcm7xx_gpio.h b/include/hw/gpio/npcm7xx_gpio.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/include/hw/gpio/npcm7xx_gpio.h
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Nuvoton NPCM7xx General Purpose Input / Output (GPIO)
 + *
 + * Copyright 2020 Google LLC
 + *
 + * This program is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU General Public License
 + * version 2 as published by the Free Software Foundation.
 + *
 + * This program is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
 + * GNU General Public License for more details.
 + */
 +#ifndef NPCM7XX_GPIO_H
 +#define NPCM7XX_GPIO_H
 +
-+#include "exec/memory.h"
+ # Vector miscellaneous
-+#include "hw/sysbus.h"
  VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vrshlu, DO_VRSHLU)
  DO_2OP_S(vrhadds, DO_RHADD_S)
  DO_2OP_U(vrhaddu, DO_RHADD_U)
 +static void do_vadc(CPUARMState *env, uint32_t *d, uint32_t *n, uint32_t *m,
 +                    uint32_t inv, uint32_t carry_in, bool update_flags)
 +{
 +    uint16_t mask = mve_element_mask(env);
 +    unsigned e;
 +
-+/* Number of pins managed by each controller. */
++    /* If any additions trigger, we will update flags. */
-+#define NPCM7XX_GPIO_NR_PINS (32)
++    if (mask & 0x1111) {
-+
++        update_flags = true;
 +/*
 + * Number of registers in our device state structure. Don't change this without
 + * incrementing the version_id in the vmstate.
 + */
 +#define NPCM7XX_GPIO_NR_REGS (0x80 / sizeof(uint32_t))
 +
 +typedef struct NPCM7xxGPIOState {
 +    SysBusDevice parent;
 +
 +    /* Properties to be defined by the SoC */
 +    uint32_t reset_pu;
 +    uint32_t reset_pd;
 +    uint32_t reset_osrc;
 +    uint32_t reset_odsc;
 +
 +    MemoryRegion mmio;
 +
 +    qemu_irq irq;
 +    qemu_irq output[NPCM7XX_GPIO_NR_PINS];
 +
 +    uint32_t pin_level;
 +    uint32_t ext_level;
 +    uint32_t ext_driven;
 +
 +    uint32_t regs[NPCM7XX_GPIO_NR_REGS];
 +} NPCM7xxGPIOState;
 +
 +#define TYPE_NPCM7XX_GPIO "npcm7xx-gpio"
 +#define NPCM7XX_GPIO(obj) \
 +    OBJECT_CHECK(NPCM7xxGPIOState, (obj), TYPE_NPCM7XX_GPIO)
 +
 +#endif /* NPCM7XX_GPIO_H */
 diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/npcm7xx.c
 +++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
      NPCM7XX_WDG2_IRQ,                   /* Timer Module 2 Watchdog */
      NPCM7XX_EHCI_IRQ            = 61,
      NPCM7XX_OHCI_IRQ            = 62,
 +    NPCM7XX_GPIO0_IRQ           = 116,
 +    NPCM7XX_GPIO1_IRQ,
 +    NPCM7XX_GPIO2_IRQ,
 +    NPCM7XX_GPIO3_IRQ,
 +    NPCM7XX_GPIO4_IRQ,
 +    NPCM7XX_GPIO5_IRQ,
 +    NPCM7XX_GPIO6_IRQ,
 +    NPCM7XX_GPIO7_IRQ,
  };
  /* Total number of GIC interrupts, including internal Cortex-A9 interrupts. */
@@ -XXX,XX +XXX,XX @@ static const hwaddr npcm7xx_fiu3_flash_addr[] = {
 xb8000000, /* CS3 */
  };
 +static const struct {
 +    hwaddr regs_addr;
 +    uint32_t unconnected_pins;
 +    uint32_t reset_pu;
 +    uint32_t reset_pd;
 +    uint32_t reset_osrc;
 +    uint32_t reset_odsc;
 +} npcm7xx_gpio[] = {
 +    {
 +        .regs_addr = 0xf0010000,
 +        .reset_pu = 0xff03ffff,
 +        .reset_pd = 0x00fc0000,
 +    }, {
 +        .regs_addr = 0xf0011000,
 +        .unconnected_pins = 0x0000001e,
 +        .reset_pu = 0xfefffe07,
 +        .reset_pd = 0x010001e0,
 +    }, {
 +        .regs_addr = 0xf0012000,
 +        .reset_pu = 0x780fffff,
 +        .reset_pd = 0x07f00000,
 +        .reset_odsc = 0x00700000,
 +    }, {
 +        .regs_addr = 0xf0013000,
 +        .reset_pu = 0x00fc0000,
 +        .reset_pd = 0xff000000,
 +    }, {
 +        .regs_addr = 0xf0014000,
 +        .reset_pu = 0xffffffff,
 +    }, {
 +        .regs_addr = 0xf0015000,
 +        .reset_pu = 0xbf83f801,
 +        .reset_pd = 0x007c0000,
 +        .reset_osrc = 0x000000f1,
 +        .reset_odsc = 0x3f9f80f1,
 +    }, {
 +        .regs_addr = 0xf0016000,
 +        .reset_pu = 0xfc00f801,
 +        .reset_pd = 0x000007fe,
 +        .reset_odsc = 0x00000800,
 +    }, {
 +        .regs_addr = 0xf0017000,
 +        .unconnected_pins = 0xffffff00,
 +        .reset_pu = 0x0000007f,
 +        .reset_osrc = 0x0000007f,
 +        .reset_odsc = 0x0000007f,
 +    },
 +};
 +
  static const struct {
      const char *name;
      hwaddr regs_addr;
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
          object_initialize_child(obj, "tim[*]", &s->tim[i], TYPE_NPCM7XX_TIMER);
      }
 +    for (i = 0; i < ARRAY_SIZE(s->gpio); i++) {
 +        object_initialize_child(obj, "gpio[*]", &s->gpio[i], TYPE_NPCM7XX_GPIO);
 +    }
 +
-     object_initialize_child(obj, "ehci", &s->ehci, TYPE_NPCM7XX_EHCI);
++    for (e = 0; e < 16 / 4; e++, mask >>= 4) {
-     object_initialize_child(obj, "ohci", &s->ohci, TYPE_SYSBUS_OHCI);
++        uint64_t r = carry_in;
++        r += n[H4(e)];
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
++        r += m[H4(e)] ^ inv;
-     sysbus_realize(SYS_BUS_DEVICE(&s->rng), &error_abort);
++        if (mask & 1) {
-     sysbus_mmio_map(SYS_BUS_DEVICE(&s->rng), 0, NPCM7XX_RNG_BA);
++            carry_in = r >> 32;
++        }
-+    /* GPIO modules. Cannot fail. */
++        mergemask(&d[H4(e)], r, mask);
 +    QEMU_BUILD_BUG_ON(ARRAY_SIZE(npcm7xx_gpio) != ARRAY_SIZE(s->gpio));
 +    for (i = 0; i < ARRAY_SIZE(s->gpio); i++) {
 +        Object *obj = OBJECT(&s->gpio[i]);
 +
 +        object_property_set_uint(obj, "reset-pullup",
 +                                 npcm7xx_gpio[i].reset_pu, &error_abort);
 +        object_property_set_uint(obj, "reset-pulldown",
 +                                 npcm7xx_gpio[i].reset_pd, &error_abort);
 +        object_property_set_uint(obj, "reset-osrc",
 +                                 npcm7xx_gpio[i].reset_osrc, &error_abort);
 +        object_property_set_uint(obj, "reset-odsc",
 +                                 npcm7xx_gpio[i].reset_odsc, &error_abort);
 +        sysbus_realize(SYS_BUS_DEVICE(obj), &error_abort);
 +        sysbus_mmio_map(SYS_BUS_DEVICE(obj), 0, npcm7xx_gpio[i].regs_addr);
 +        sysbus_connect_irq(SYS_BUS_DEVICE(obj), 0,
 +                           npcm7xx_irq(s, NPCM7XX_GPIO0_IRQ + i));
 +    }
 +
-     /* USB Host */
++    if (update_flags) {
-     object_property_set_bool(OBJECT(&s->ehci), "companion-enable", true,
++        /* Store C, clear NZV. */
-                              &error_abort);
++        env->vfp.xregs[ARM_VFP_FPSCR] &= ~FPCR_NZCV_MASK;
-diff --git a/hw/gpio/npcm7xx_gpio.c b/hw/gpio/npcm7xx_gpio.c
++        env->vfp.xregs[ARM_VFP_FPSCR] |= carry_in * FPCR_C;
-new file mode 100644
++    }
-index XXXXXXX..XXXXXXX
++    mve_advance_vpt(env);
 --- /dev/null
 +++ b/hw/gpio/npcm7xx_gpio.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * Nuvoton NPCM7xx General Purpose Input / Output (GPIO)
 + *
 + * Copyright 2020 Google LLC
 + *
 + * This program is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU General Public License
 + * version 2 as published by the Free Software Foundation.
 + *
 + * This program is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
 + * GNU General Public License for more details.
 + */
 +
 +#include "qemu/osdep.h"
 +
 +#include "hw/gpio/npcm7xx_gpio.h"
 +#include "hw/irq.h"
 +#include "hw/qdev-properties.h"
 +#include "migration/vmstate.h"
 +#include "qapi/error.h"
 +#include "qemu/log.h"
 +#include "qemu/module.h"
 +#include "qemu/units.h"
 +#include "trace.h"
 +
 +/* 32-bit register indices. */
 +enum NPCM7xxGPIORegister {
 +    NPCM7XX_GPIO_TLOCK1,
 +    NPCM7XX_GPIO_DIN,
 +    NPCM7XX_GPIO_POL,
 +    NPCM7XX_GPIO_DOUT,
 +    NPCM7XX_GPIO_OE,
 +    NPCM7XX_GPIO_OTYP,
 +    NPCM7XX_GPIO_MP,
 +    NPCM7XX_GPIO_PU,
 +    NPCM7XX_GPIO_PD,
 +    NPCM7XX_GPIO_DBNC,
 +    NPCM7XX_GPIO_EVTYP,
 +    NPCM7XX_GPIO_EVBE,
 +    NPCM7XX_GPIO_OBL0,
 +    NPCM7XX_GPIO_OBL1,
 +    NPCM7XX_GPIO_OBL2,
 +    NPCM7XX_GPIO_OBL3,
 +    NPCM7XX_GPIO_EVEN,
 +    NPCM7XX_GPIO_EVENS,
 +    NPCM7XX_GPIO_EVENC,
 +    NPCM7XX_GPIO_EVST,
 +    NPCM7XX_GPIO_SPLCK,
 +    NPCM7XX_GPIO_MPLCK,
 +    NPCM7XX_GPIO_IEM,
 +    NPCM7XX_GPIO_OSRC,
 +    NPCM7XX_GPIO_ODSC,
 +    NPCM7XX_GPIO_DOS = 0x68 / sizeof(uint32_t),
 +    NPCM7XX_GPIO_DOC,
 +    NPCM7XX_GPIO_OES,
 +    NPCM7XX_GPIO_OEC,
 +    NPCM7XX_GPIO_TLOCK2 = 0x7c / sizeof(uint32_t),
 +    NPCM7XX_GPIO_REGS_END,
 +};
 +
 +#define NPCM7XX_GPIO_REGS_SIZE (4 * KiB)
 +
 +#define NPCM7XX_GPIO_LOCK_MAGIC1 (0xc0defa73)
 +#define NPCM7XX_GPIO_LOCK_MAGIC2 (0xc0de1248)
 +
 +static void npcm7xx_gpio_update_events(NPCM7xxGPIOState *s, uint32_t din_diff)
 +{
 +    uint32_t din_new = s->regs[NPCM7XX_GPIO_DIN];
 +
 +    /* Trigger on high level */
 +    s->regs[NPCM7XX_GPIO_EVST] |= din_new & ~s->regs[NPCM7XX_GPIO_EVTYP];
 +    /* Trigger on both edges */
 +    s->regs[NPCM7XX_GPIO_EVST] |= (din_diff & s->regs[NPCM7XX_GPIO_EVTYP]
 +                                   & s->regs[NPCM7XX_GPIO_EVBE]);
 +    /* Trigger on rising edge */
 +    s->regs[NPCM7XX_GPIO_EVST] |= (din_diff & din_new
 +                                   & s->regs[NPCM7XX_GPIO_EVTYP]);
 +
 +    trace_npcm7xx_gpio_update_events(DEVICE(s)->canonical_path,
 +                                     s->regs[NPCM7XX_GPIO_EVST],
 +                                     s->regs[NPCM7XX_GPIO_EVEN]);
 +    qemu_set_irq(s->irq, !!(s->regs[NPCM7XX_GPIO_EVST]
 +                            & s->regs[NPCM7XX_GPIO_EVEN]));
 +}
 +
-+static void npcm7xx_gpio_update_pins(NPCM7xxGPIOState *s, uint32_t diff)
++void HELPER(mve_vadc)(CPUARMState *env, void *vd, void *vn, void *vm)
 +{
-+    uint32_t drive_en;
++    bool carry_in = env->vfp.xregs[ARM_VFP_FPSCR] & FPCR_C;
-+    uint32_t drive_lvl;
++    do_vadc(env, vd, vn, vm, 0, carry_in, false);
 +    uint32_t not_driven;
 +    uint32_t undefined;
 +    uint32_t pin_diff;
 +    uint32_t din_old;
 +
 +    /* Calculate level of each pin driven by GPIO controller. */
 +    drive_lvl = s->regs[NPCM7XX_GPIO_DOUT] ^ s->regs[NPCM7XX_GPIO_POL];
 +    /* If OTYP=1, only drive low (open drain) */
 +    drive_en = s->regs[NPCM7XX_GPIO_OE] & ~(s->regs[NPCM7XX_GPIO_OTYP]
 +                                            & drive_lvl);
 +    /*
 +     * If a pin is driven to opposite levels by the GPIO controller and the
 +     * external driver, the result is undefined.
 +     */
 +    undefined = drive_en & s->ext_driven & (drive_lvl ^ s->ext_level);
 +    if (undefined) {
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: pins have multiple drivers: 0x%" PRIx32 "\n",
 +                      DEVICE(s)->canonical_path, undefined);
 +    }
 +
 +    not_driven = ~(drive_en | s->ext_driven);
 +    pin_diff = s->pin_level;
 +
 +    /* Set pins to externally driven level. */
 +    s->pin_level = s->ext_level & s->ext_driven;
 +    /* Set internally driven pins, ignoring any conflicts. */
 +    s->pin_level |= drive_lvl & drive_en;
 +    /* Pull up undriven pins with internal pull-up enabled. */
 +    s->pin_level |= not_driven & s->regs[NPCM7XX_GPIO_PU];
 +    /* Pins not driven, pulled up or pulled down are undefined */
 +    undefined |= not_driven & ~(s->regs[NPCM7XX_GPIO_PU]
 +                                | s->regs[NPCM7XX_GPIO_PD]);
 +
 +    /* If any pins changed state, update the outgoing GPIOs. */
 +    pin_diff ^= s->pin_level;
 +    pin_diff |= undefined & diff;
 +    if (pin_diff) {
 +        int i;
 +
 +        for (i = 0; i < NPCM7XX_GPIO_NR_PINS; i++) {
 +            uint32_t mask = BIT(i);
 +            if (pin_diff & mask) {
 +                int level = (undefined & mask) ? -1 : !!(s->pin_level & mask);
 +                trace_npcm7xx_gpio_set_output(DEVICE(s)->canonical_path,
 +                                              i, level);
 +                qemu_set_irq(s->output[i], level);
 +            }
 +        }
 +    }
 +
 +    /* Calculate new value of DIN after masking and polarity setting. */
 +    din_old = s->regs[NPCM7XX_GPIO_DIN];
 +    s->regs[NPCM7XX_GPIO_DIN] = ((s->pin_level & s->regs[NPCM7XX_GPIO_IEM])
 +                                 ^ s->regs[NPCM7XX_GPIO_POL]);
 +
 +    /* See if any new events triggered because of all this. */
 +    npcm7xx_gpio_update_events(s, din_old ^ s->regs[NPCM7XX_GPIO_DIN]);
 +}
 +
-+static bool npcm7xx_gpio_is_locked(NPCM7xxGPIOState *s)
++void HELPER(mve_vsbc)(CPUARMState *env, void *vd, void *vn, void *vm)
 +{
-+    return s->regs[NPCM7XX_GPIO_TLOCK1] == 1;
++    bool carry_in = env->vfp.xregs[ARM_VFP_FPSCR] & FPCR_C;
 +    do_vadc(env, vd, vn, vm, -1, carry_in, false);
 +}
 +
-+static uint64_t npcm7xx_gpio_regs_read(void *opaque, hwaddr addr,
++
-+                                       unsigned int size)
++void HELPER(mve_vadci)(CPUARMState *env, void *vd, void *vn, void *vm)
 +{
-+    hwaddr reg = addr / sizeof(uint32_t);
++    do_vadc(env, vd, vn, vm, 0, 0, true);
 +    NPCM7xxGPIOState *s = opaque;
 +    uint64_t value = 0;
 +
 +    switch (reg) {
 +    case NPCM7XX_GPIO_TLOCK1 ... NPCM7XX_GPIO_EVEN:
 +    case NPCM7XX_GPIO_EVST ... NPCM7XX_GPIO_ODSC:
 +        value = s->regs[reg];
 +        break;
 +
 +    case NPCM7XX_GPIO_EVENS ... NPCM7XX_GPIO_EVENC:
 +    case NPCM7XX_GPIO_DOS ... NPCM7XX_GPIO_TLOCK2:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: read from write-only register 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, addr);
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: read from invalid offset 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, addr);
 +        break;
 +    }
 +
 +    trace_npcm7xx_gpio_read(DEVICE(s)->canonical_path, addr, value);
 +
 +    return value;
 +}
 +
-+static void npcm7xx_gpio_regs_write(void *opaque, hwaddr addr, uint64_t v,
++void HELPER(mve_vsbci)(CPUARMState *env, void *vd, void *vn, void *vm)
 +                                    unsigned int size)
 +{
-+    hwaddr reg = addr / sizeof(uint32_t);
++    do_vadc(env, vd, vn, vm, -1, 1, true);
 +    NPCM7xxGPIOState *s = opaque;
 +    uint32_t value = v;
 +    uint32_t diff;
 +
 +    trace_npcm7xx_gpio_write(DEVICE(s)->canonical_path, addr, v);
 +
 +    if (npcm7xx_gpio_is_locked(s)) {
 +        switch (reg) {
 +        case NPCM7XX_GPIO_TLOCK1:
 +            if (s->regs[NPCM7XX_GPIO_TLOCK2] == NPCM7XX_GPIO_LOCK_MAGIC2 &&
 +                value == NPCM7XX_GPIO_LOCK_MAGIC1) {
 +                s->regs[NPCM7XX_GPIO_TLOCK1] = 0;
 +                s->regs[NPCM7XX_GPIO_TLOCK2] = 0;
 +            }
 +            break;
 +
 +        case NPCM7XX_GPIO_TLOCK2:
 +            s->regs[reg] = value;
 +            break;
 +
 +        default:
 +            qemu_log_mask(LOG_GUEST_ERROR,
 +                          "%s: write to locked register @ 0x%" HWADDR_PRIx "\n",
 +                          DEVICE(s)->canonical_path, addr);
 +            break;
 +        }
 +
 +        return;
 +    }
 +
 +    diff = s->regs[reg] ^ value;
 +
 +    switch (reg) {
 +    case NPCM7XX_GPIO_TLOCK1:
 +    case NPCM7XX_GPIO_TLOCK2:
 +        s->regs[NPCM7XX_GPIO_TLOCK1] = 1;
 +        s->regs[NPCM7XX_GPIO_TLOCK2] = 0;
 +        break;
 +
 +    case NPCM7XX_GPIO_DIN:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: write to read-only register @ 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, addr);
 +        break;
 +
 +    case NPCM7XX_GPIO_POL:
 +    case NPCM7XX_GPIO_DOUT:
 +    case NPCM7XX_GPIO_OE:
 +    case NPCM7XX_GPIO_OTYP:
 +    case NPCM7XX_GPIO_PU:
 +    case NPCM7XX_GPIO_PD:
 +    case NPCM7XX_GPIO_IEM:
 +        s->regs[reg] = value;
 +        npcm7xx_gpio_update_pins(s, diff);
 +        break;
 +
 +    case NPCM7XX_GPIO_DOS:
 +        s->regs[NPCM7XX_GPIO_DOUT] |= value;
 +        npcm7xx_gpio_update_pins(s, value);
 +        break;
 +    case NPCM7XX_GPIO_DOC:
 +        s->regs[NPCM7XX_GPIO_DOUT] &= ~value;
 +        npcm7xx_gpio_update_pins(s, value);
 +        break;
 +    case NPCM7XX_GPIO_OES:
 +        s->regs[NPCM7XX_GPIO_OE] |= value;
 +        npcm7xx_gpio_update_pins(s, value);
 +        break;
 +    case NPCM7XX_GPIO_OEC:
 +        s->regs[NPCM7XX_GPIO_OE] &= ~value;
 +        npcm7xx_gpio_update_pins(s, value);
 +        break;
 +
 +    case NPCM7XX_GPIO_EVTYP:
 +    case NPCM7XX_GPIO_EVBE:
 +    case NPCM7XX_GPIO_EVEN:
 +        s->regs[reg] = value;
 +        npcm7xx_gpio_update_events(s, 0);
 +        break;
 +
 +    case NPCM7XX_GPIO_EVENS:
 +        s->regs[NPCM7XX_GPIO_EVEN] |= value;
 +        npcm7xx_gpio_update_events(s, 0);
 +        break;
 +    case NPCM7XX_GPIO_EVENC:
 +        s->regs[NPCM7XX_GPIO_EVEN] &= ~value;
 +        npcm7xx_gpio_update_events(s, 0);
 +        break;
 +
 +    case NPCM7XX_GPIO_EVST:
 +        s->regs[reg] &= ~value;
 +        npcm7xx_gpio_update_events(s, 0);
 +        break;
 +
 +    case NPCM7XX_GPIO_MP:
 +    case NPCM7XX_GPIO_DBNC:
 +    case NPCM7XX_GPIO_OSRC:
 +    case NPCM7XX_GPIO_ODSC:
 +        /* Nothing to do; just store the value. */
 +        s->regs[reg] = value;
 +        break;
 +
 +    case NPCM7XX_GPIO_OBL0:
 +    case NPCM7XX_GPIO_OBL1:
 +    case NPCM7XX_GPIO_OBL2:
 +    case NPCM7XX_GPIO_OBL3:
 +        s->regs[reg] = value;
 +        qemu_log_mask(LOG_UNIMP, "%s: Blinking is not implemented\n",
 +                      __func__);
 +        break;
 +
 +    case NPCM7XX_GPIO_SPLCK:
 +    case NPCM7XX_GPIO_MPLCK:
 +        qemu_log_mask(LOG_UNIMP, "%s: Per-pin lock is not implemented\n",
 +                      __func__);
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "%s: write to invalid offset 0x%" HWADDR_PRIx "\n",
 +                      DEVICE(s)->canonical_path, addr);
 +        break;
 +    }
 +}
 +
-+static const MemoryRegionOps npcm7xx_gpio_regs_ops = {
+ static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
-+    .read = npcm7xx_gpio_regs_read,
+ {
-+    .write = npcm7xx_gpio_regs_write,
+     if (val > max) {
-+    .endianness = DEVICE_NATIVE_ENDIAN,
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+    .valid = {
+index XXXXXXX..XXXXXXX 100644
-+        .min_access_size = 4,
+--- a/target/arm/translate-mve.c
-+        .max_access_size = 4,
++++ b/target/arm/translate-mve.c
-+        .unaligned = false,
+@@ -XXX,XX +XXX,XX @@ static bool trans_VQDMULLT(DisasContext *s, arg_2op *a)
-+    },
+     return do_2op(s, a, fns[a->size]);
-+};
+ }
-+
-+static void npcm7xx_gpio_set_input(void *opaque, int line, int level)
++/*
 + * VADC and VSBC: these perform an add-with-carry or subtract-with-carry
 + * of the 32-bit elements in each lane of the input vectors, where the
 + * carry-out of each add is the carry-in of the next.  The initial carry
 + * input is either fixed (0 for VADCI, 1 for VSBCI) or is from FPSCR.C
 + * (for VADC and VSBC); the carry out at the end is written back to FPSCR.C.
 + * These insns are subject to beat-wise execution.  Partial execution
 + * of an I=1 (initial carry input fixed) insn which does not
 + * execute the first beat must start with the current FPSCR.NZCV
 + * value, not the fixed constant input.
 + */
 +static bool trans_VADC(DisasContext *s, arg_2op *a)
 +{
-+    NPCM7xxGPIOState *s = opaque;
++    return do_2op(s, a, gen_helper_mve_vadc);
 +
 +    trace_npcm7xx_gpio_set_input(DEVICE(s)->canonical_path, line, level);
 +
 +    g_assert(line >= 0 && line < NPCM7XX_GPIO_NR_PINS);
 +
 +    s->ext_driven = deposit32(s->ext_driven, line, 1, level >= 0);
 +    s->ext_level = deposit32(s->ext_level, line, 1, level > 0);
 +
 +    npcm7xx_gpio_update_pins(s, BIT(line));
 +}
 +
-+static void npcm7xx_gpio_enter_reset(Object *obj, ResetType type)
++static bool trans_VADCI(DisasContext *s, arg_2op *a)
 +{
-+    NPCM7xxGPIOState *s = NPCM7XX_GPIO(obj);
++    if (mve_skip_first_beat(s)) {
-+
++        return trans_VADC(s, a);
-+    memset(s->regs, 0, sizeof(s->regs));
++    }
-+
++    return do_2op(s, a, gen_helper_mve_vadci);
 +    s->regs[NPCM7XX_GPIO_PU] = s->reset_pu;
 +    s->regs[NPCM7XX_GPIO_PD] = s->reset_pd;
 +    s->regs[NPCM7XX_GPIO_OSRC] = s->reset_osrc;
 +    s->regs[NPCM7XX_GPIO_ODSC] = s->reset_odsc;
 +}
 +
-+static void npcm7xx_gpio_hold_reset(Object *obj)
++static bool trans_VSBC(DisasContext *s, arg_2op *a)
 +{
-+    NPCM7xxGPIOState *s = NPCM7XX_GPIO(obj);
++    return do_2op(s, a, gen_helper_mve_vsbc);
 +
 +    npcm7xx_gpio_update_pins(s, -1);
 +}
 +
-+static void npcm7xx_gpio_init(Object *obj)
++static bool trans_VSBCI(DisasContext *s, arg_2op *a)
 +{
-+    NPCM7xxGPIOState *s = NPCM7XX_GPIO(obj);
++    if (mve_skip_first_beat(s)) {
-+    DeviceState *dev = DEVICE(obj);
++        return trans_VSBC(s, a);
-+
++    }
-+    memory_region_init_io(&s->mmio, obj, &npcm7xx_gpio_regs_ops, s,
++    return do_2op(s, a, gen_helper_mve_vsbci);
 +                          "regs", NPCM7XX_GPIO_REGS_SIZE);
 +    sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->mmio);
 +    sysbus_init_irq(SYS_BUS_DEVICE(obj), &s->irq);
 +
 +    qdev_init_gpio_in(dev, npcm7xx_gpio_set_input, NPCM7XX_GPIO_NR_PINS);
 +    qdev_init_gpio_out(dev, s->output, NPCM7XX_GPIO_NR_PINS);
 +}
 +
-+static const VMStateDescription vmstate_npcm7xx_gpio = {
+ static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
-+    .name = "npcm7xx-gpio",
+                           MVEGenTwoOpScalarFn fn)
-+    .version_id = 0,
+ {
 +    .minimum_version_id = 0,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT32(pin_level, NPCM7xxGPIOState),
 +        VMSTATE_UINT32(ext_level, NPCM7xxGPIOState),
 +        VMSTATE_UINT32(ext_driven, NPCM7xxGPIOState),
 +        VMSTATE_UINT32_ARRAY(regs, NPCM7xxGPIOState, NPCM7XX_GPIO_NR_REGS),
 +        VMSTATE_END_OF_LIST(),
 +    },
 +};
 +
 +static Property npcm7xx_gpio_properties[] = {
 +    /* Bit n set => pin n has pullup enabled by default. */
 +    DEFINE_PROP_UINT32("reset-pullup", NPCM7xxGPIOState, reset_pu, 0),
 +    /* Bit n set => pin n has pulldown enabled by default. */
 +    DEFINE_PROP_UINT32("reset-pulldown", NPCM7xxGPIOState, reset_pd, 0),
 +    /* Bit n set => pin n has high slew rate by default. */
 +    DEFINE_PROP_UINT32("reset-osrc", NPCM7xxGPIOState, reset_osrc, 0),
 +    /* Bit n set => pin n has high drive strength by default. */
 +    DEFINE_PROP_UINT32("reset-odsc", NPCM7xxGPIOState, reset_odsc, 0),
 +    DEFINE_PROP_END_OF_LIST(),
 +};
 +
 +static void npcm7xx_gpio_class_init(ObjectClass *klass, void *data)
 +{
 +    ResettableClass *reset = RESETTABLE_CLASS(klass);
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    QEMU_BUILD_BUG_ON(NPCM7XX_GPIO_REGS_END > NPCM7XX_GPIO_NR_REGS);
 +
 +    dc->desc = "NPCM7xx GPIO Controller";
 +    dc->vmsd = &vmstate_npcm7xx_gpio;
 +    reset->phases.enter = npcm7xx_gpio_enter_reset;
 +    reset->phases.hold = npcm7xx_gpio_hold_reset;
 +    device_class_set_props(dc, npcm7xx_gpio_properties);
 +}
 +
 +static const TypeInfo npcm7xx_gpio_types[] = {
 +    {
 +        .name = TYPE_NPCM7XX_GPIO,
 +        .parent = TYPE_SYS_BUS_DEVICE,
 +        .instance_size = sizeof(NPCM7xxGPIOState),
 +        .class_init = npcm7xx_gpio_class_init,
 +        .instance_init = npcm7xx_gpio_init,
 +    },
 +};
 +DEFINE_TYPES(npcm7xx_gpio_types);
 diff --git a/tests/qtest/npcm7xx_gpio-test.c b/tests/qtest/npcm7xx_gpio-test.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/tests/qtest/npcm7xx_gpio-test.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * QTest testcase for the Nuvoton NPCM7xx GPIO modules.
 + *
 + * Copyright 2020 Google LLC
 + *
 + * This program is free software; you can redistribute it and/or modify it
 + * under the terms of the GNU General Public License as published by the
 + * Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 + *
 + * This program is distributed in the hope that it will be useful, but WITHOUT
 + * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 + * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
 + * for more details.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "libqtest-single.h"
 +
 +#define NR_GPIO_DEVICES (8)
 +#define GPIO(x)         (0xf0010000 + (x) * 0x1000)
 +#define GPIO_IRQ(x)     (116 + (x))
 +
 +/* GPIO registers */
 +#define GP_N_TLOCK1     0x00
 +#define GP_N_DIN        0x04 /* Data IN */
 +#define GP_N_POL        0x08 /* Polarity */
 +#define GP_N_DOUT       0x0c /* Data OUT */
 +#define GP_N_OE         0x10 /* Output Enable */
 +#define GP_N_OTYP       0x14
 +#define GP_N_MP         0x18
 +#define GP_N_PU         0x1c /* Pull-up */
 +#define GP_N_PD         0x20 /* Pull-down */
 +#define GP_N_DBNC       0x24 /* Debounce */
 +#define GP_N_EVTYP      0x28 /* Event Type */
 +#define GP_N_EVBE       0x2c /* Event Both Edge */
 +#define GP_N_OBL0       0x30
 +#define GP_N_OBL1       0x34
 +#define GP_N_OBL2       0x38
 +#define GP_N_OBL3       0x3c
 +#define GP_N_EVEN       0x40 /* Event Enable */
 +#define GP_N_EVENS      0x44 /* Event Set (enable) */
 +#define GP_N_EVENC      0x48 /* Event Clear (disable) */
 +#define GP_N_EVST       0x4c /* Event Status */
 +#define GP_N_SPLCK      0x50
 +#define GP_N_MPLCK      0x54
 +#define GP_N_IEM        0x58 /* Input Enable */
 +#define GP_N_OSRC       0x5c
 +#define GP_N_ODSC       0x60
 +#define GP_N_DOS        0x68 /* Data OUT Set */
 +#define GP_N_DOC        0x6c /* Data OUT Clear */
 +#define GP_N_OES        0x70 /* Output Enable Set */
 +#define GP_N_OEC        0x74 /* Output Enable Clear */
 +#define GP_N_TLOCK2     0x7c
 +
 +static void gpio_unlock(int n)
 +{
 +    if (readl(GPIO(n) + GP_N_TLOCK1) != 0) {
 +        writel(GPIO(n) + GP_N_TLOCK2, 0xc0de1248);
 +        writel(GPIO(n) + GP_N_TLOCK1, 0xc0defa73);
 +    }
 +}
 +
 +/* Restore the GPIO controller to a sensible default state. */
 +static void gpio_reset(int n)
 +{
 +    gpio_unlock(0);
 +
 +    writel(GPIO(n) + GP_N_EVEN, 0x00000000);
 +    writel(GPIO(n) + GP_N_EVST, 0xffffffff);
 +    writel(GPIO(n) + GP_N_POL, 0x00000000);
 +    writel(GPIO(n) + GP_N_DOUT, 0x00000000);
 +    writel(GPIO(n) + GP_N_OE, 0x00000000);
 +    writel(GPIO(n) + GP_N_OTYP, 0x00000000);
 +    writel(GPIO(n) + GP_N_PU, 0xffffffff);
 +    writel(GPIO(n) + GP_N_PD, 0x00000000);
 +    writel(GPIO(n) + GP_N_IEM, 0xffffffff);
 +}
 +
 +static void test_dout_to_din(void)
 +{
 +    gpio_reset(0);
 +
 +    /* When output is enabled, DOUT should be reflected on DIN. */
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    /* PU and PD shouldn't have any impact on DIN. */
 +    writel(GPIO(0) + GP_N_PU, 0xffff0000);
 +    writel(GPIO(0) + GP_N_PD, 0x0000ffff);
 +    writel(GPIO(0) + GP_N_DOUT, 0x12345678);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0x12345678);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x12345678);
 +}
 +
 +static void test_pullup_pulldown(void)
 +{
 +    gpio_reset(0);
 +
 +    /*
 +     * When output is disabled, and PD is the inverse of PU, PU should be
 +     * reflected on DIN. If PD is not the inverse of PU, the state of DIN is
 +     * undefined, so we don't test that.
 +     */
 +    writel(GPIO(0) + GP_N_OE, 0x00000000);
 +    /* DOUT shouldn't have any impact on DIN. */
 +    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
 +    writel(GPIO(0) + GP_N_PU, 0x23456789);
 +    writel(GPIO(0) + GP_N_PD, ~0x23456789U);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_PU), ==, 0x23456789);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_PD), ==, ~0x23456789U);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x23456789);
 +}
 +
 +static void test_output_enable(void)
 +{
 +    gpio_reset(0);
 +
 +    /*
 +     * With all pins weakly pulled down, and DOUT all-ones, OE should be
 +     * reflected on DIN.
 +     */
 +    writel(GPIO(0) + GP_N_DOUT, 0xffffffff);
 +    writel(GPIO(0) + GP_N_PU, 0x00000000);
 +    writel(GPIO(0) + GP_N_PD, 0xffffffff);
 +    writel(GPIO(0) + GP_N_OE, 0x3456789a);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_OE), ==, 0x3456789a);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x3456789a);
 +
 +    writel(GPIO(0) + GP_N_OEC, 0x00030002);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_OE), ==, 0x34547898);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x34547898);
 +
 +    writel(GPIO(0) + GP_N_OES, 0x0000f001);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_OE), ==, 0x3454f899);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x3454f899);
 +}
 +
 +static void test_open_drain(void)
 +{
 +    gpio_reset(0);
 +
 +    /*
 +     * Upper half of DOUT drives a 1 only if the corresponding bit in OTYP is
 +     * not set. If OTYP is set, DIN is determined by PU/PD. Lower half of
 +     * DOUT always drives a 0 regardless of OTYP; PU/PD have no effect.  When
 +     * OE is 0, output is determined by PU/PD; OTYP has no effect.
 +     */
 +    writel(GPIO(0) + GP_N_OTYP, 0x456789ab);
 +    writel(GPIO(0) + GP_N_OE, 0xf0f0f0f0);
 +    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
 +    writel(GPIO(0) + GP_N_PU, 0xff00ff00);
 +    writel(GPIO(0) + GP_N_PD, 0x00ff00ff);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_OTYP), ==, 0x456789ab);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0xff900f00);
 +}
 +
 +static void test_polarity(void)
 +{
 +    gpio_reset(0);
 +
 +    /*
 +     * In push-pull mode, DIN should reflect DOUT because the signal is
 +     * inverted in both directions.
 +     */
 +    writel(GPIO(0) + GP_N_OTYP, 0x00000000);
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_DOUT, 0x56789abc);
 +    writel(GPIO(0) + GP_N_POL, 0x6789abcd);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_POL), ==, 0x6789abcd);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x56789abc);
 +
 +    /*
 +     * When turning off the drivers, DIN should reflect the inverse of the
 +     * pulled-up lines.
 +     */
 +    writel(GPIO(0) + GP_N_OE, 0x00000000);
 +    writel(GPIO(0) + GP_N_POL, 0xffffffff);
 +    writel(GPIO(0) + GP_N_PU, 0x789abcde);
 +    writel(GPIO(0) + GP_N_PD, ~0x789abcdeU);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, ~0x789abcdeU);
 +
 +    /*
 +     * In open-drain mode, DOUT=1 will appear to drive the pin high (since DIN
 +     * is inverted), while DOUT=0 will leave the pin floating.
 +     */
 +    writel(GPIO(0) + GP_N_OTYP, 0xffffffff);
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_PU, 0xffff0000);
 +    writel(GPIO(0) + GP_N_PD, 0x0000ffff);
 +    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0xff00ffff);
 +}
 +
 +static void test_input_mask(void)
 +{
 +    gpio_reset(0);
 +
 +    /* IEM=0 forces the input to zero before polarity inversion. */
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
 +    writel(GPIO(0) + GP_N_POL, 0xffff0000);
 +    writel(GPIO(0) + GP_N_IEM, 0x87654321);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0xff9a4300);
 +}
 +
 +static void test_temp_lock(void)
 +{
 +    gpio_reset(0);
 +
 +    writel(GPIO(0) + GP_N_DOUT, 0x98765432);
 +
 +    /* Make sure we're unlocked initially. */
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 0);
 +    /* Writing any value to TLOCK1 will lock. */
 +    writel(GPIO(0) + GP_N_TLOCK1, 0);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 1);
 +    writel(GPIO(0) + GP_N_DOUT, 0xa9876543);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0x98765432);
 +    /* Now, try to unlock. */
 +    gpio_unlock(0);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 0);
 +    writel(GPIO(0) + GP_N_DOUT, 0xa9876543);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0xa9876543);
 +
 +    /* Try it again, but write TLOCK2 to lock. */
 +    writel(GPIO(0) + GP_N_TLOCK2, 0);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 1);
 +    writel(GPIO(0) + GP_N_DOUT, 0x98765432);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0xa9876543);
 +    /* Now, try to unlock. */
 +    gpio_unlock(0);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 0);
 +    writel(GPIO(0) + GP_N_DOUT, 0x98765432);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0x98765432);
 +}
 +
 +static void test_events_level(void)
 +{
 +    gpio_reset(0);
 +
 +    writel(GPIO(0) + GP_N_EVTYP, 0x00000000);
 +    writel(GPIO(0) + GP_N_DOUT, 0xba987654);
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_EVST, 0xffffffff);
 +
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0xba987654);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_DOUT, 0x00000000);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0xba987654);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_EVST, 0x00007654);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0xba980000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_EVST, 0xba980000);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +}
 +
 +static void test_events_rising_edge(void)
 +{
 +    gpio_reset(0);
 +
 +    writel(GPIO(0) + GP_N_EVTYP, 0xffffffff);
 +    writel(GPIO(0) + GP_N_EVBE, 0x00000000);
 +    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_EVST, 0xffffffff);
 +
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x0000ff00);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_DOUT, 0x00ff0000);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00ffff00);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_EVST, 0x0000f000);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00ff0f00);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_EVST, 0x00ff0f00);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +}
 +
 +static void test_events_both_edges(void)
 +{
 +    gpio_reset(0);
 +
 +    writel(GPIO(0) + GP_N_EVTYP, 0xffffffff);
 +    writel(GPIO(0) + GP_N_EVBE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
 +    writel(GPIO(0) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(0) + GP_N_EVST, 0xffffffff);
 +
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00ffff00);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_DOUT, 0xef00ff08);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x10ffff08);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_EVST, 0x0000f000);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x10ff0f08);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +    writel(GPIO(0) + GP_N_EVST, 0x10ff0f08);
 +    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
 +}
 +
 +static void test_gpion_irq(gconstpointer test_data)
 +{
 +    intptr_t n = (intptr_t)test_data;
 +
 +    gpio_reset(n);
 +
 +    writel(GPIO(n) + GP_N_EVTYP, 0x00000000);
 +    writel(GPIO(n) + GP_N_DOUT, 0x00000000);
 +    writel(GPIO(n) + GP_N_OE, 0xffffffff);
 +    writel(GPIO(n) + GP_N_EVST, 0xffffffff);
 +    writel(GPIO(n) + GP_N_EVEN, 0x00000000);
 +
 +    /* Trigger an event; interrupts are masked. */
 +    g_assert_cmphex(readl(GPIO(n) + GP_N_EVST), ==, 0x00000000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +    writel(GPIO(n) + GP_N_DOS, 0x00008000);
 +    g_assert_cmphex(readl(GPIO(n) + GP_N_EVST), ==, 0x00008000);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +
 +    /* Unmask all event interrupts; verify that the interrupt fired. */
 +    writel(GPIO(n) + GP_N_EVEN, 0xffffffff);
 +    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +
 +    /* Clear the current bit, set a new bit, irq stays asserted. */
 +    writel(GPIO(n) + GP_N_DOC, 0x00008000);
 +    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +    writel(GPIO(n) + GP_N_DOS, 0x00000200);
 +    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +    writel(GPIO(n) + GP_N_EVST, 0x00008000);
 +    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +
 +    /* Mask/unmask the event that's currently active. */
 +    writel(GPIO(n) + GP_N_EVENC, 0x00000200);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +    writel(GPIO(n) + GP_N_EVENS, 0x00000200);
 +    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +
 +    /* Clear the input and the status bit, irq is deasserted. */
 +    writel(GPIO(n) + GP_N_DOC, 0x00000200);
 +    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +    writel(GPIO(n) + GP_N_EVST, 0x00000200);
 +    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
 +}
 +
 +int main(int argc, char **argv)
 +{
 +    int ret;
 +    int i;
 +
 +    g_test_init(&argc, &argv, NULL);
 +    g_test_set_nonfatal_assertions();
 +
 +    qtest_add_func("/npcm7xx_gpio/dout_to_din", test_dout_to_din);
 +    qtest_add_func("/npcm7xx_gpio/pullup_pulldown", test_pullup_pulldown);
 +    qtest_add_func("/npcm7xx_gpio/output_enable", test_output_enable);
 +    qtest_add_func("/npcm7xx_gpio/open_drain", test_open_drain);
 +    qtest_add_func("/npcm7xx_gpio/polarity", test_polarity);
 +    qtest_add_func("/npcm7xx_gpio/input_mask", test_input_mask);
 +    qtest_add_func("/npcm7xx_gpio/temp_lock", test_temp_lock);
 +    qtest_add_func("/npcm7xx_gpio/events/level", test_events_level);
 +    qtest_add_func("/npcm7xx_gpio/events/rising_edge", test_events_rising_edge);
 +    qtest_add_func("/npcm7xx_gpio/events/both_edges", test_events_both_edges);
 +
 +    for (i = 0; i < NR_GPIO_DEVICES; i++) {
 +        g_autofree char *test_name =
 +            g_strdup_printf("/npcm7xx_gpio/gpio[%d]/irq", i);
 +        qtest_add_data_func(test_name, (void *)(intptr_t)i, test_gpion_irq);
 +    }
 +
 +    qtest_start("-machine npcm750-evb");
 +    qtest_irq_intercept_in(global_qtest, "/machine/soc/a9mpcore/gic");
 +    ret = g_test_run();
 +    qtest_end();
 +
 +    return ret;
 +}
 diff --git a/hw/gpio/meson.build b/hw/gpio/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/gpio/meson.build
 +++ b/hw/gpio/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_PUV3', if_true: files('puv3_gpio.c'))
  softmmu_ss.add(when: 'CONFIG_ZAURUS', if_true: files('zaurus.c'))
  softmmu_ss.add(when: 'CONFIG_IMX', if_true: files('imx_gpio.c'))
 +softmmu_ss.add(when: 'CONFIG_NPCM7XX', if_true: files('npcm7xx_gpio.c'))
  softmmu_ss.add(when: 'CONFIG_NRF51_SOC', if_true: files('nrf51_gpio.c'))
  softmmu_ss.add(when: 'CONFIG_OMAP', if_true: files('omap_gpio.c'))
  softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files('bcm2835_gpio.c'))
 diff --git a/hw/gpio/trace-events b/hw/gpio/trace-events
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/gpio/trace-events
 +++ b/hw/gpio/trace-events
@@ -XXX,XX +XXX,XX @@
  # See docs/devel/tracing.txt for syntax documentation.
 +# npcm7xx_gpio.c
 +npcm7xx_gpio_read(const char *id, uint64_t offset, uint64_t value) " %s offset: 0x%04" PRIx64 " value 0x%08" PRIx64
 +npcm7xx_gpio_write(const char *id, uint64_t offset, uint64_t value) "%s offset: 0x%04" PRIx64 " value 0x%08" PRIx64
 +npcm7xx_gpio_set_input(const char *id, int32_t line, int32_t level) "%s line: %" PRIi32 " level: %" PRIi32
 +npcm7xx_gpio_set_output(const char *id, int32_t line, int32_t level) "%s line: %" PRIi32 " level: %" PRIi32
 +npcm7xx_gpio_update_events(const char *id, uint32_t evst, uint32_t even) "%s evst: 0x%08" PRIx32 " even: 0x%08" PRIx32
 +
  # nrf51_gpio.c
  nrf51_gpio_read(uint64_t offset, uint64_t r) "offset 0x%" PRIx64 " value 0x%" PRIx64
  nrf51_gpio_write(uint64_t offset, uint64_t value) "offset 0x%" PRIx64 " value 0x%" PRIx64
 diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/qtest/meson.build
 +++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qtests_sparc64 = \
    ['prom-env-test', 'boot-serial-test']
  qtests_npcm7xx = \
 -  ['npcm7xx_rng-test',
 +  ['npcm7xx_gpio-test',
 +   'npcm7xx_rng-test',
     'npcm7xx_timer-test',
     'npcm7xx_watchdog_timer-test']
  qtests_arm = \
 --
 .20.1

-[PULL 08/48] linux-user/elfload: Use Error for load_elf_image
+[PULL 52/57] target/arm: Implement MVE VCADD
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VCADD insn, which performs a complex add with
 rotate.  Note that the size=0b11 encoding is VSBC.
-This is a bit clearer than open-coding some of this
+The architecture grants some leeway for the "destination and Vm
-with a bare c string.
+source overlap" case for the size MO_32 case, but we choose not to
 make use of it, instead always calculating all 16 bytes worth of
 results before setting the destination register.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20201021173749.111103-9-richard.henderson@linaro.org
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210617121628.20116-42-peter.maydell@linaro.org
 ---
- linux-user/elfload.c | 37 ++++++++++++++++++++-----------------
+ target/arm/helper-mve.h    |  8 ++++++++
-file changed, 20 insertions(+), 17 deletions(-)
+ target/arm/mve.decode      |  9 +++++++--
  target/arm/mve_helper.c    | 29 +++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  7 +++++++
 files changed, 51 insertions(+), 2 deletions(-)
-diff --git a/linux-user/elfload.c b/linux-user/elfload.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/target/arm/helper-mve.h
-+++ b/linux-user/elfload.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vadci, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #include "qemu/guest-random.h"
+ DEF_HELPER_FLAGS_4(mve_vsbc, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #include "qemu/units.h"
+ DEF_HELPER_FLAGS_4(mve_vsbci, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #include "qemu/selfmap.h"
-+#include "qapi/error.h"
++DEF_HELPER_FLAGS_4(mve_vcadd90b, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
++DEF_HELPER_FLAGS_4(mve_vcadd90h, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
- #ifdef _ARCH_PPC64
++DEF_HELPER_FLAGS_4(mve_vcadd90w, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
  #undef ARCH_DLINFO
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
      struct elf_phdr *phdr;
      abi_ulong load_addr, load_bias, loaddr, hiaddr, error;
      int i, retval;
 -    const char *errmsg;
 +    Error *err = NULL;
      /* First of all, some simple consistency checks */
 -    errmsg = "Invalid ELF image for this architecture";
      if (!elf_check_ident(ehdr)) {
 +        error_setg(&err, "Invalid ELF image for this architecture");
          goto exit_errmsg;
      }
      bswap_ehdr(ehdr);
      if (!elf_check_ehdr(ehdr)) {
 +        error_setg(&err, "Invalid ELF image for this architecture");
          goto exit_errmsg;
      }
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
              g_autofree char *interp_name = NULL;
              if (*pinterp_name) {
 -                errmsg = "Multiple PT_INTERP entries";
 +                error_setg(&err, "Multiple PT_INTERP entries");
                  goto exit_errmsg;
              }
 +
-             interp_name = g_malloc(eppnt->p_filesz);
++DEF_HELPER_FLAGS_4(mve_vcadd270b, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--            if (!interp_name) {
++DEF_HELPER_FLAGS_4(mve_vcadd270h, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--                goto exit_perror;
++DEF_HELPER_FLAGS_4(mve_vcadd270w, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
--            }
++
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-             if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                 memcpy(interp_name, bprm_buf + eppnt->p_offset,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-                 retval = pread(image_fd, interp_name, eppnt->p_filesz,
+index XXXXXXX..XXXXXXX 100644
-                                eppnt->p_offset);
+--- a/target/arm/mve.decode
-                 if (retval != eppnt->p_filesz) {
++++ b/target/arm/mve.decode
--                    goto exit_perror;
+@@ -XXX,XX +XXX,XX @@ VRHADD_S         111 0 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
-+                    goto exit_read;
+ VRHADD_U         111 1 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
-                 }
-             }
+ VADC             1110 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
-             if (interp_name[eppnt->p_filesz - 1] != 0) {
+-VSBC             1111 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
--                errmsg = "Invalid PT_INTERP entry";
+ VADCI            1110 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
-+                error_setg(&err, "Invalid PT_INTERP entry");
+-VSBCI            1111 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
-                 goto exit_errmsg;
++
-             }
++{
-             *pinterp_name = g_steal_pointer(&interp_name);
++  VSBC           1111 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
++  VSBCI          1111 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
-                             (ehdr->e_type == ET_EXEC ? MAP_FIXED : 0),
++  VCADD90        1111 1110 0 . .. ... 0 ... 0 1111 . 0 . 0 ... 0 @2op
-                             -1, 0);
++  VCADD270       1111 1110 0 . .. ... 0 ... 1 1111 . 0 . 0 ... 0 @2op
-     if (load_addr == -1) {
++}
--        goto exit_perror;
-+        goto exit_mmap;
+ # Vector miscellaneous
-     }
-     load_bias = load_addr - loaddr;
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+--- a/target/arm/mve_helper.c
-                                     image_fd, eppnt->p_offset - vaddr_po);
++++ b/target/arm/mve_helper.c
+@@ -XXX,XX +XXX,XX @@ void HELPER(mve_vsbci)(CPUARMState *env, void *vd, void *vn, void *vm)
-                 if (error == -1) {
+     do_vadc(env, vd, vn, vm, -1, 1, true);
 -                    goto exit_perror;
 +                    goto exit_mmap;
                  }
              }
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
          } else if (eppnt->p_type == PT_MIPS_ABIFLAGS) {
              Mips_elf_abiflags_v0 abiflags;
              if (eppnt->p_filesz < sizeof(Mips_elf_abiflags_v0)) {
 -                errmsg = "Invalid PT_MIPS_ABIFLAGS entry";
 +                error_setg(&err, "Invalid PT_MIPS_ABIFLAGS entry");
                  goto exit_errmsg;
              }
              if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                  retval = pread(image_fd, &abiflags, sizeof(Mips_elf_abiflags_v0),
                                 eppnt->p_offset);
                  if (retval != sizeof(Mips_elf_abiflags_v0)) {
 -                    goto exit_perror;
 +                    goto exit_read;
                  }
              }
              bswap_mips_abiflags(&abiflags);
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
   exit_read:
      if (retval >= 0) {
 -        errmsg = "Incomplete read of file header";
 -        goto exit_errmsg;
 +        error_setg(&err, "Incomplete read of file header");
 +    } else {
 +        error_setg_errno(&err, errno, "Error reading file header");
      }
 - exit_perror:
 -    errmsg = strerror(errno);
 +    goto exit_errmsg;
 + exit_mmap:
 +    error_setg_errno(&err, errno, "Error mapping file");
 +    goto exit_errmsg;
   exit_errmsg:
 -    fprintf(stderr, "%s: %s\n", image_name, errmsg);
 +    error_reportf_err(err, "%s: ", image_name);
      exit(-1);
  }
++#define DO_VCADD(OP, ESIZE, TYPE, FN0, FN1)                             \
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn, void *vm) \
++    {                                                                   \
++        TYPE *d = vd, *n = vn, *m = vm;                                 \
++        uint16_t mask = mve_element_mask(env);                          \
++        unsigned e;                                                     \
++        TYPE r[16 / ESIZE];                                             \
++        /* Calculate all results first to avoid overwriting inputs */   \
++        for (e = 0; e < 16 / ESIZE; e++) {                              \
++            if (!(e & 1)) {                                             \
++                r[e] = FN0(n[H##ESIZE(e)], m[H##ESIZE(e + 1)]);         \
++            } else {                                                    \
++                r[e] = FN1(n[H##ESIZE(e)], m[H##ESIZE(e - 1)]);         \
++            }                                                           \
++        }                                                               \
++        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
++            mergemask(&d[H##ESIZE(e)], r[e], mask);                     \
++        }                                                               \
++        mve_advance_vpt(env);                                           \
++    }
++
++#define DO_VCADD_ALL(OP, FN0, FN1)              \
++    DO_VCADD(OP##b, 1, int8_t, FN0, FN1)        \
++    DO_VCADD(OP##h, 2, int16_t, FN0, FN1)       \
++    DO_VCADD(OP##w, 4, int32_t, FN0, FN1)
++
++DO_VCADD_ALL(vcadd90, DO_SUB, DO_ADD)
++DO_VCADD_ALL(vcadd270, DO_ADD, DO_SUB)
++
+ static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
+ {
+     if (val > max) {
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ DO_2OP(VQRDMLSDH, vqrdmlsdh)
+ DO_2OP(VQRDMLSDHX, vqrdmlsdhx)
+ DO_2OP(VRHADD_S, vrhadds)
+ DO_2OP(VRHADD_U, vrhaddu)
++/*
++ * VCADD Qd == Qm at size MO_32 is UNPREDICTABLE; we choose not to diagnose
++ * so we can reuse the DO_2OP macro. (Our implementation calculates the
++ * "expected" results in this case.)
++ */
++DO_2OP(VCADD90, vcadd90)
++DO_2OP(VCADD270, vcadd270)
+ static bool trans_VQDMULLB(DisasContext *s, arg_2op *a)
+ {
 --
 .20.1

-[PULL 13/48] hw/arm/highbank: Silence warnings about missing fallthrough statements
+[PULL 53/57] target/arm: Implement MVE VHCADD
-From: Thomas Huth <thuth@redhat.com>
+Implement the MVE VHCADD insn, which is similar to VCADD
 but performs a halving step. This one overlaps with VADC.
-When compiling with -Werror=implicit-fallthrough, gcc complains about
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-missing fallthrough annotations in this file. Looking at the code,
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-the fallthrough is very likely intended here, so add some comments
+Message-id: 20210617121628.20116-43-peter.maydell@linaro.org
-to silence the compiler warnings.
+---
  target/arm/helper-mve.h    | 8 ++++++++
  target/arm/mve.decode      | 8 ++++++--
  target/arm/mve_helper.c    | 2 ++
  target/arm/translate-mve.c | 4 +++-
 files changed, 19 insertions(+), 3 deletions(-)
-Signed-off-by: Thomas Huth <thuth@redhat.com>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Message-id: 20201020105938.23209-1-thuth@redhat.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/arm/highbank.c | 2 ++
 file changed, 2 insertions(+)
 diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/highbank.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/arm/highbank.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void hb_reset_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vcadd270b, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         address_space_stl_notdirty(&address_space_memory,
+ DEF_HELPER_FLAGS_4(mve_vcadd270h, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-                                    SMP_BOOT_REG + 0x30, 0,
+ DEF_HELPER_FLAGS_4(mve_vcadd270w, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-                                    MEMTXATTRS_UNSPECIFIED, NULL);
-+        /* fallthrough */
++DEF_HELPER_FLAGS_4(mve_vhcadd90b, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     case 3:
++DEF_HELPER_FLAGS_4(mve_vhcadd90h, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         address_space_stl_notdirty(&address_space_memory,
++DEF_HELPER_FLAGS_4(mve_vhcadd90w, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-                                    SMP_BOOT_REG + 0x20, 0,
++
-                                    MEMTXATTRS_UNSPECIFIED, NULL);
++DEF_HELPER_FLAGS_4(mve_vhcadd270b, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-+        /* fallthrough */
++DEF_HELPER_FLAGS_4(mve_vhcadd270h, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-     case 2:
++DEF_HELPER_FLAGS_4(mve_vhcadd270w, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
-         address_space_stl_notdirty(&address_space_memory,
++
-                                    SMP_BOOT_REG + 0x10, 0,
+ DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQDMULLT         111 . 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 1 @2op_sz28
  VRHADD_S         111 0 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
  VRHADD_U         111 1 1111 0 . .. ... 0 ... 0 0001 . 1 . 0 ... 0 @2op
 -VADC             1110 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
 -VADCI            1110 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
 +{
 +  VADC           1110 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
 +  VADCI          1110 1110 0 . 11 ... 0 ... 1 1111 . 0 . 0 ... 0 @2op_nosz
 +  VHCADD90       1110 1110 0 . .. ... 0 ... 0 1111 . 0 . 0 ... 0 @2op
 +  VHCADD270      1110 1110 0 . .. ... 0 ... 1 1111 . 0 . 0 ... 0 @2op
 +}
  {
    VSBC           1111 1110 0 . 11 ... 0 ... 0 1111 . 0 . 0 ... 0 @2op_nosz
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(mve_vsbci)(CPUARMState *env, void *vd, void *vn, void *vm)
  DO_VCADD_ALL(vcadd90, DO_SUB, DO_ADD)
  DO_VCADD_ALL(vcadd270, DO_ADD, DO_SUB)
 +DO_VCADD_ALL(vhcadd90, do_vhsub_s, do_vhadd_s)
 +DO_VCADD_ALL(vhcadd270, do_vhadd_s, do_vhsub_s)
  static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
  {
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VRHADD_U, vrhaddu)
  /*
   * VCADD Qd == Qm at size MO_32 is UNPREDICTABLE; we choose not to diagnose
   * so we can reuse the DO_2OP macro. (Our implementation calculates the
 - * "expected" results in this case.)
 + * "expected" results in this case.) Similarly for VHCADD.
   */
  DO_2OP(VCADD90, vcadd90)
  DO_2OP(VCADD270, vcadd270)
 +DO_2OP(VHCADD90, vhcadd90)
 +DO_2OP(VHCADD270, vhcadd270)
  static bool trans_VQDMULLB(DisasContext *s, arg_2op *a)
  {
 --
 .20.1

-[PULL 40/48] hw/misc/bcm2835_cprman: implement clock mux behaviour
+[PULL 54/57] target/arm: Implement MVE VADDV
-From: Luc Michel <luc@lmichel.fr>
+Implement the MVE VADDV insn, which performs an addition
 across vector lanes.
-A clock mux can be configured to select one of its 10 sources through
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-the CM_CTL register. It also embeds yet another clock divider, composed
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-of an integer part and a fractional part. The number of bits of each
+Message-id: 20210617121628.20116-44-peter.maydell@linaro.org
-part is mux dependent.
+---
  target/arm/helper-mve.h    |  7 +++++++
  target/arm/mve.decode      |  2 ++
  target/arm/mve_helper.c    | 24 +++++++++++++++++++++
  target/arm/translate-mve.c | 43 ++++++++++++++++++++++++++++++++++++++
 files changed, 76 insertions(+)
-Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  hw/misc/bcm2835_cprman.c | 53 +++++++++++++++++++++++++++++++++++++++-
 file changed, 52 insertions(+), 1 deletion(-)
 diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/misc/bcm2835_cprman.c
+--- a/target/arm/helper-mve.h
-+++ b/hw/misc/bcm2835_cprman.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_channel_info = {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrmlaldavhuw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
- /* clock mux */
+ DEF_HELPER_FLAGS_4(mve_vrmlsldavhsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+ DEF_HELPER_FLAGS_4(mve_vrmlsldavhxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
-+static bool clock_mux_is_enabled(CprmanClockMuxState *mux)
++
 +DEF_HELPER_FLAGS_3(mve_vaddvsb, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddvub, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddvsh, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
  VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
 +# Vector add across vector
 +VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
  # Predicate operations
  %mask_22_13      22:1 13:3
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_LDAVH(vrmlaldavhuw, 4, uint32_t, false, int128_add, int128_add, int128_make64
  DO_LDAVH(vrmlsldavhsw, 4, int32_t, false, int128_add, int128_sub, int128_makes64)
  DO_LDAVH(vrmlsldavhxsw, 4, int32_t, true, int128_add, int128_sub, int128_makes64)
 +
 +/* Vector add across vector */
 +#define DO_VADDV(OP, ESIZE, TYPE)                               \
 +    uint32_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vm, \
 +                                    uint32_t ra)                \
 +    {                                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        TYPE *m = vm;                                           \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            if (mask & 1) {                                     \
 +                ra += m[H##ESIZE(e)];                           \
 +            }                                                   \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +        return ra;                                              \
 +    }                                                           \
 +
 +DO_VADDV(vaddvsb, 1, uint8_t)
 +DO_VADDV(vaddvsh, 2, uint16_t)
 +DO_VADDV(vaddvsw, 4, uint32_t)
 +DO_VADDV(vaddvub, 1, uint8_t)
 +DO_VADDV(vaddvuh, 2, uint16_t)
 +DO_VADDV(vaddvuw, 4, uint32_t)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
 +typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VPST(DisasContext *s, arg_VPST *a)
      mve_update_and_store_eci(s);
      return true;
  }
 +
 +static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
 +{
-+    return FIELD_EX32(*mux->reg_ctl, CM_CLOCKx_CTL, ENABLE);
++    /* VADDV: vector add across vector */
-+}
++    static MVEGenVADDVFn * const fns[4][2] = {
 +        { gen_helper_mve_vaddvsb, gen_helper_mve_vaddvub },
 +        { gen_helper_mve_vaddvsh, gen_helper_mve_vaddvuh },
 +        { gen_helper_mve_vaddvsw, gen_helper_mve_vaddvuw },
 +        { NULL, NULL }
 +    };
 +    TCGv_ptr qm;
 +    TCGv_i32 rda;
 +
- static void clock_mux_update(CprmanClockMuxState *mux)
++    if (!dc_isar_feature(aa32_mve, s) ||
- {
++        a->size == 3) {
--    clock_update(mux->out, 0);
++        return false;
 +    uint64_t freq;
 +    uint32_t div, src = FIELD_EX32(*mux->reg_ctl, CM_CLOCKx_CTL, SRC);
 +    bool enabled = clock_mux_is_enabled(mux);
 +
 +    *mux->reg_ctl = FIELD_DP32(*mux->reg_ctl, CM_CLOCKx_CTL, BUSY, enabled);
 +
 +    if (!enabled) {
 +        clock_update(mux->out, 0);
 +        return;
 +    }
-+
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
-+    freq = clock_get_hz(mux->srcs[src]);
++        return true;
 +
 +    if (mux->int_bits == 0 && mux->frac_bits == 0) {
 +        clock_update_hz(mux->out, freq);
 +        return;
 +    }
 +
 +    /*
-+     * The divider has an integer and a fractional part. The size of each part
++     * This insn is subject to beat-wise execution. Partial execution
-+     * varies with the muxes (int_bits and frac_bits). Both parts are
++     * of an A=0 (no-accumulate) insn which does not execute the first
-+     * concatenated, with the integer part always starting at bit 12.
++     * beat must start with the current value of Rda, not zero.
 +     *
 +     *         31          12 11          0
 +     *        ------------------------------
 +     * CM_DIV |      |  int  |  frac  |    |
 +     *        ------------------------------
 +     *                <-----> <------>
 +     *                int_bits frac_bits
 +     */
-+    div = extract32(*mux->reg_div,
++    if (a->a || mve_skip_first_beat(s)) {
-+                    R_CM_CLOCKx_DIV_FRAC_LENGTH - mux->frac_bits,
++        /* Accumulate input from Rda */
-+                    mux->int_bits + mux->frac_bits);
++        rda = load_reg(s, a->rda);
-+
++    } else {
-+    if (!div) {
++        /* Accumulate starting at zero */
-+        clock_update(mux->out, 0);
++        rda = tcg_const_i32(0);
 +        return;
 +    }
 +
-+    freq = muldiv64(freq, 1 << mux->frac_bits, div);
++    qm = mve_qreg_ptr(a->qm);
 +    fns[a->size][a->u](rda, cpu_env, qm, rda);
 +    store_reg(s, a->rda, rda);
 +    tcg_temp_free_ptr(qm);
 +
-+    clock_update_hz(mux->out, freq);
++    mve_update_eci(s);
- }
++    return true;
++}
  static void clock_mux_src_update(void *opaque)
  {
      CprmanClockMuxState **backref = opaque;
      CprmanClockMuxState *s = *backref;
 +    CprmanClockMuxSource src = backref - s->backref;
 +
 +    if (FIELD_EX32(*s->reg_ctl, CM_CLOCKx_CTL, SRC) != src) {
 +        return;
 +    }
      clock_mux_update(s);
  }
 --
 .20.1

-[PULL 39/48] hw/misc/bcm2835_cprman: add a clock mux skeleton implementation
+[PULL 55/57] target/arm: Make VMOV scalar <-> gpreg beatwise for MVE
-From: Luc Michel <luc@lmichel.fr>
+In a CPU with MVE, the VMOV (vector lane to general-purpose register)
 and VMOV (general-purpose register to vector lane) insns are not
 predicated, but they are subject to beatwise execution if they
 are not in an IT block.
-The clock multiplexers are the last clock stage in the CPRMAN. Each mux
+Since our implementation always executes all 4 beats in one tick,
-outputs one clock signal that goes out of the CPRMAN to the SoC
+this means only that we need to handle PSR.ECI:
-peripherals.
+ * we must do the usual check for bad ECI state
  * we must advance ECI state if the insn succeeds
  * if ECI says we should not be executing the beat corresponding
    to the lane of the vector register being accessed then we
    should skip performing the move
-Each mux has at most 10 sources. The sources 0 to 3 are common to all
+Note that if PSR.ECI is non-zero then we cannot be in an IT block.
 muxes. They are:
 . ground (no clock signal)
 . the main oscillator (xosc)
 . "test debug 0" clock
 . "test debug 1" clock
-Test debug 0 and 1 are actual clock muxes that can be used as sources to
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-other muxes (for debug purpose).
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210617121628.20116-45-peter.maydell@linaro.org
 ---
  target/arm/translate-a32.h |  2 +
  target/arm/translate-mve.c |  4 +-
  target/arm/translate-vfp.c | 77 +++++++++++++++++++++++++++++++++++---
 files changed, 75 insertions(+), 8 deletions(-)
-Sources 4 to 9 are mux specific and can be unpopulated (grounded). Those
+diff --git a/target/arm/translate-a32.h b/target/arm/translate-a32.h
 sources are fed by the PLL channels outputs.
 One corner case exists for DSI0E and DSI0P muxes. They have their source
 number 4 connected to an intermediate multiplexer that can select
 between PLLA-DSI0 and PLLD-DSI0 channel. This multiplexer is called
 DSI0HSCK and is not a clock mux as such. It is really a simple mux from
 the hardware point of view (see https://elinux.org/The_Undocumented_Pi).
 This mux is not implemented in this commit.
 Note that there is some muxes for which sources are unknown (because of
 a lack of documentation). For those cases all the sources are connected
 to ground in this implementation.
 Each clock mux output is exported by the CPRMAN at the qdev level,
 adding the suffix '-out' to the mux name to form the output clock name.
 (E.g. the 'uart' mux sees its output exported as 'uart-out' at the
 CPRMAN level.)
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Luc Michel <luc@lmichel.fr>
 Tested-by: Guenter Roeck <linux@roeck-us.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/misc/bcm2835_cprman.h           |  85 +++++
  include/hw/misc/bcm2835_cprman_internals.h | 422 +++++++++++++++++++++
  hw/misc/bcm2835_cprman.c                   | 151 ++++++++
 files changed, 658 insertions(+)
 diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/misc/bcm2835_cprman.h
+--- a/target/arm/translate-a32.h
-+++ b/include/hw/misc/bcm2835_cprman.h
++++ b/target/arm/translate-a32.h
-@@ -XXX,XX +XXX,XX @@ typedef enum CprmanPllChannel {
+@@ -XXX,XX +XXX,XX @@ long neon_full_reg_offset(unsigned reg);
-     CPRMAN_PLLB_CHANNEL_ARM,
+ long neon_element_offset(int reg, int element, MemOp memop);
+ void gen_rev16(TCGv_i32 dest, TCGv_i32 var);
-     CPRMAN_NUM_PLL_CHANNEL,
+ void clear_eci_state(DisasContext *s);
 +bool mve_eci_check(DisasContext *s);
 +void mve_update_and_store_eci(DisasContext *s);
  static inline TCGv_i32 load_cpu_offset(int offset)
  {
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool mve_check_qreg_bank(DisasContext *s, int qmask)
      return qmask < 8;
  }
 -static bool mve_eci_check(DisasContext *s)
 +bool mve_eci_check(DisasContext *s)
  {
      /*
       * This is a beatwise insn: check that ECI is valid (not a
@@ -XXX,XX +XXX,XX @@ static void mve_update_eci(DisasContext *s)
      }
  }
 -static void mve_update_and_store_eci(DisasContext *s)
 +void mve_update_and_store_eci(DisasContext *s)
  {
      /*
       * For insns which don't call a helper function that will call
 diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c
 +++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
      return true;
  }
 +static bool mve_skip_vmov(DisasContext *s, int vn, int index, int size)
 +{
 +    /*
 +     * In a CPU with MVE, the VMOV (vector lane to general-purpose register)
 +     * and VMOV (general-purpose register to vector lane) insns are not
 +     * predicated, but they are subject to beatwise execution if they are
 +     * not in an IT block.
 +     *
 +     * Since our implementation always executes all 4 beats in one tick,
 +     * this means only that if PSR.ECI says we should not be executing
 +     * the beat corresponding to the lane of the vector register being
 +     * accessed then we should skip performing the move, and that we need
 +     * to do the usual check for bad ECI state and advance of ECI state.
 +     *
 +     * Note that if PSR.ECI is non-zero then we cannot be in an IT block.
 +     *
 +     * Return true if this VMOV scalar <-> gpreg should be skipped because
 +     * the MVE PSR.ECI state says we skip the beat where the store happens.
 +     */
 +
-+    /* Special values used when connecting clock sources to clocks */
++    /* Calculate the byte offset into Qn which we're going to access */
-+    CPRMAN_CLOCK_SRC_NORMAL = -1,
++    int ofs = (index << size) + ((vn & 1) * 8);
 +    CPRMAN_CLOCK_SRC_FORCE_GROUND = -2,
 +    CPRMAN_CLOCK_SRC_DSI0HSCK = -3,
  } CprmanPllChannel;
 +typedef enum CprmanClockMux {
 +    CPRMAN_CLOCK_GNRIC,
 +    CPRMAN_CLOCK_VPU,
 +    CPRMAN_CLOCK_SYS,
 +    CPRMAN_CLOCK_PERIA,
 +    CPRMAN_CLOCK_PERII,
 +    CPRMAN_CLOCK_H264,
 +    CPRMAN_CLOCK_ISP,
 +    CPRMAN_CLOCK_V3D,
 +    CPRMAN_CLOCK_CAM0,
 +    CPRMAN_CLOCK_CAM1,
 +    CPRMAN_CLOCK_CCP2,
 +    CPRMAN_CLOCK_DSI0E,
 +    CPRMAN_CLOCK_DSI0P,
 +    CPRMAN_CLOCK_DPI,
 +    CPRMAN_CLOCK_GP0,
 +    CPRMAN_CLOCK_GP1,
 +    CPRMAN_CLOCK_GP2,
 +    CPRMAN_CLOCK_HSM,
 +    CPRMAN_CLOCK_OTP,
 +    CPRMAN_CLOCK_PCM,
 +    CPRMAN_CLOCK_PWM,
 +    CPRMAN_CLOCK_SLIM,
 +    CPRMAN_CLOCK_SMI,
 +    CPRMAN_CLOCK_TEC,
 +    CPRMAN_CLOCK_TD0,
 +    CPRMAN_CLOCK_TD1,
 +    CPRMAN_CLOCK_TSENS,
 +    CPRMAN_CLOCK_TIMER,
 +    CPRMAN_CLOCK_UART,
 +    CPRMAN_CLOCK_VEC,
 +    CPRMAN_CLOCK_PULSE,
 +    CPRMAN_CLOCK_SDC,
 +    CPRMAN_CLOCK_ARM,
 +    CPRMAN_CLOCK_AVEO,
 +    CPRMAN_CLOCK_EMMC,
 +    CPRMAN_CLOCK_EMMC2,
 +
-+    CPRMAN_NUM_CLOCK_MUX
++    if (!dc_isar_feature(aa32_mve, s)) {
-+} CprmanClockMux;
++        return false;
 +
 +typedef enum CprmanClockMuxSource {
 +    CPRMAN_CLOCK_SRC_GND = 0,
 +    CPRMAN_CLOCK_SRC_XOSC,
 +    CPRMAN_CLOCK_SRC_TD0,
 +    CPRMAN_CLOCK_SRC_TD1,
 +    CPRMAN_CLOCK_SRC_PLLA,
 +    CPRMAN_CLOCK_SRC_PLLC,
 +    CPRMAN_CLOCK_SRC_PLLD,
 +    CPRMAN_CLOCK_SRC_PLLH,
 +    CPRMAN_CLOCK_SRC_PLLC_CORE1,
 +    CPRMAN_CLOCK_SRC_PLLC_CORE2,
 +
 +    CPRMAN_NUM_CLOCK_MUX_SRC
 +} CprmanClockMuxSource;
 +
  typedef struct CprmanPllState {
      /*< private >*/
      DeviceState parent_obj;
@@ -XXX,XX +XXX,XX @@ typedef struct CprmanPllChannelState {
      Clock *out;
  } CprmanPllChannelState;
 +typedef struct CprmanClockMuxState {
 +    /*< private >*/
 +    DeviceState parent_obj;
 +
 +    /*< public >*/
 +    CprmanClockMux id;
 +
 +    uint32_t *reg_ctl;
 +    uint32_t *reg_div;
 +    int int_bits;
 +    int frac_bits;
 +
 +    Clock *srcs[CPRMAN_NUM_CLOCK_MUX_SRC];
 +    Clock *out;
 +
 +    /*
 +     * Used by clock srcs update callback to retrieve both the clock and the
 +     * source number.
 +     */
 +    struct CprmanClockMuxState *backref[CPRMAN_NUM_CLOCK_MUX_SRC];
 +} CprmanClockMuxState;
 +
  struct BCM2835CprmanState {
      /*< private >*/
      SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
      CprmanPllState plls[CPRMAN_NUM_PLL];
      CprmanPllChannelState channels[CPRMAN_NUM_PLL_CHANNEL];
 +    CprmanClockMuxState clock_muxes[CPRMAN_NUM_CLOCK_MUX];
      uint32_t regs[CPRMAN_NUM_REGS];
      uint32_t xosc_freq;
      Clock *xosc;
 +    Clock *gnd;
  };
  #endif
 diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/misc/bcm2835_cprman_internals.h
 +++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
  #define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
  #define TYPE_CPRMAN_PLL_CHANNEL "bcm2835-cprman-pll-channel"
 +#define TYPE_CPRMAN_CLOCK_MUX "bcm2835-cprman-clock-mux"
  DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
                           TYPE_CPRMAN_PLL)
  DECLARE_INSTANCE_CHECKER(CprmanPllChannelState, CPRMAN_PLL_CHANNEL,
                           TYPE_CPRMAN_PLL_CHANNEL)
 +DECLARE_INSTANCE_CHECKER(CprmanClockMuxState, CPRMAN_CLOCK_MUX,
 +                         TYPE_CPRMAN_CLOCK_MUX)
  /* Register map */
@@ -XXX,XX +XXX,XX @@ REG32(A2W_PLLH_STS, 0x1660)
  REG32(A2W_PLLB_ARM, 0x13e0)
 +/* Clock muxes */
 +REG32(CM_GNRICCTL, 0x000)
 +    FIELD(CM_CLOCKx_CTL, SRC, 0, 4)
 +    FIELD(CM_CLOCKx_CTL, ENABLE, 4, 1)
 +    FIELD(CM_CLOCKx_CTL, KILL, 5, 1)
 +    FIELD(CM_CLOCKx_CTL, GATE, 6, 1)
 +    FIELD(CM_CLOCKx_CTL, BUSY, 7, 1)
 +    FIELD(CM_CLOCKx_CTL, BUSYD, 8, 1)
 +    FIELD(CM_CLOCKx_CTL, MASH, 9, 2)
 +    FIELD(CM_CLOCKx_CTL, FLIP, 11, 1)
 +REG32(CM_GNRICDIV, 0x004)
 +    FIELD(CM_CLOCKx_DIV, FRAC, 0, 12)
 +REG32(CM_VPUCTL, 0x008)
 +REG32(CM_VPUDIV, 0x00c)
 +REG32(CM_SYSCTL, 0x010)
 +REG32(CM_SYSDIV, 0x014)
 +REG32(CM_PERIACTL, 0x018)
 +REG32(CM_PERIADIV, 0x01c)
 +REG32(CM_PERIICTL, 0x020)
 +REG32(CM_PERIIDIV, 0x024)
 +REG32(CM_H264CTL, 0x028)
 +REG32(CM_H264DIV, 0x02c)
 +REG32(CM_ISPCTL, 0x030)
 +REG32(CM_ISPDIV, 0x034)
 +REG32(CM_V3DCTL, 0x038)
 +REG32(CM_V3DDIV, 0x03c)
 +REG32(CM_CAM0CTL, 0x040)
 +REG32(CM_CAM0DIV, 0x044)
 +REG32(CM_CAM1CTL, 0x048)
 +REG32(CM_CAM1DIV, 0x04c)
 +REG32(CM_CCP2CTL, 0x050)
 +REG32(CM_CCP2DIV, 0x054)
 +REG32(CM_DSI0ECTL, 0x058)
 +REG32(CM_DSI0EDIV, 0x05c)
 +REG32(CM_DSI0PCTL, 0x060)
 +REG32(CM_DSI0PDIV, 0x064)
 +REG32(CM_DPICTL, 0x068)
 +REG32(CM_DPIDIV, 0x06c)
 +REG32(CM_GP0CTL, 0x070)
 +REG32(CM_GP0DIV, 0x074)
 +REG32(CM_GP1CTL, 0x078)
 +REG32(CM_GP1DIV, 0x07c)
 +REG32(CM_GP2CTL, 0x080)
 +REG32(CM_GP2DIV, 0x084)
 +REG32(CM_HSMCTL, 0x088)
 +REG32(CM_HSMDIV, 0x08c)
 +REG32(CM_OTPCTL, 0x090)
 +REG32(CM_OTPDIV, 0x094)
 +REG32(CM_PCMCTL, 0x098)
 +REG32(CM_PCMDIV, 0x09c)
 +REG32(CM_PWMCTL, 0x0a0)
 +REG32(CM_PWMDIV, 0x0a4)
 +REG32(CM_SLIMCTL, 0x0a8)
 +REG32(CM_SLIMDIV, 0x0ac)
 +REG32(CM_SMICTL, 0x0b0)
 +REG32(CM_SMIDIV, 0x0b4)
 +REG32(CM_TCNTCTL, 0x0c0)
 +REG32(CM_TCNTCNT, 0x0c4)
 +REG32(CM_TECCTL, 0x0c8)
 +REG32(CM_TECDIV, 0x0cc)
 +REG32(CM_TD0CTL, 0x0d0)
 +REG32(CM_TD0DIV, 0x0d4)
 +REG32(CM_TD1CTL, 0x0d8)
 +REG32(CM_TD1DIV, 0x0dc)
 +REG32(CM_TSENSCTL, 0x0e0)
 +REG32(CM_TSENSDIV, 0x0e4)
 +REG32(CM_TIMERCTL, 0x0e8)
 +REG32(CM_TIMERDIV, 0x0ec)
 +REG32(CM_UARTCTL, 0x0f0)
 +REG32(CM_UARTDIV, 0x0f4)
 +REG32(CM_VECCTL, 0x0f8)
 +REG32(CM_VECDIV, 0x0fc)
 +REG32(CM_PULSECTL, 0x190)
 +REG32(CM_PULSEDIV, 0x194)
 +REG32(CM_SDCCTL, 0x1a8)
 +REG32(CM_SDCDIV, 0x1ac)
 +REG32(CM_ARMCTL, 0x1b0)
 +REG32(CM_AVEOCTL, 0x1b8)
 +REG32(CM_AVEODIV, 0x1bc)
 +REG32(CM_EMMCCTL, 0x1c0)
 +REG32(CM_EMMCDIV, 0x1c4)
 +REG32(CM_EMMC2CTL, 0x1d0)
 +REG32(CM_EMMC2DIV, 0x1d4)
 +
  /* misc registers */
  REG32(CM_LOCK, 0x114)
      FIELD(CM_LOCK, FLOCKH, 12, 1)
@@ -XXX,XX +XXX,XX @@ static inline void set_pll_channel_init_info(BCM2835CprmanState *s,
      channel->fixed_divider = PLL_CHANNEL_INIT_INFO[id].fixed_divider;
  }
 +/* Clock mux init info */
 +typedef struct ClockMuxInitInfo {
 +    const char *name;
 +    size_t cm_offset; /* cm_offset[0]->CM_CTL, cm_offset[1]->CM_DIV */
 +    int int_bits;
 +    int frac_bits;
 +
 +    CprmanPllChannel src_mapping[CPRMAN_NUM_CLOCK_MUX_SRC];
 +} ClockMuxInitInfo;
 +
 +/*
 + * Each clock mux can have up to 10 sources. Sources 0 to 3 are always the
 + * same (ground, xosc, td0, td1). Sources 4 to 9 are mux specific, and are not
 + * always populated. The following macros catch all those cases.
 + */
 +
 +/* Unknown mapping. Connect everything to ground */
 +#define SRC_MAPPING_INFO_unknown                          \
 +    .src_mapping = {                                      \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* gnd */          \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* xosc */         \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* test debug 0 */ \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* test debug 1 */ \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll a */        \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll c */        \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll d */        \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll h */        \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll c, core1 */ \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll c, core2 */ \
 +    }
 +
-+/* Only the oscillator and the two test debug clocks */
++    switch (s->eci) {
-+#define SRC_MAPPING_INFO_xosc          \
++    case ECI_NONE:
-+    .src_mapping = {                   \
++        return false;
-+        CPRMAN_CLOCK_SRC_NORMAL,       \
++    case ECI_A0:
-+        CPRMAN_CLOCK_SRC_NORMAL,       \
++        return ofs < 4;
-+        CPRMAN_CLOCK_SRC_NORMAL,       \
++    case ECI_A0A1:
-+        CPRMAN_CLOCK_SRC_NORMAL,       \
++        return ofs < 8;
-+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
++    case ECI_A0A1A2:
-+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
++    case ECI_A0A1A2B0:
-+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
++        return ofs < 12;
-+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
++    default:
-+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
++        g_assert_not_reached();
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +    }
 +
 +/* All the PLL "core" channels */
 +#define SRC_MAPPING_INFO_core      \
 +    .src_mapping = {               \
 +        CPRMAN_CLOCK_SRC_NORMAL,   \
 +        CPRMAN_CLOCK_SRC_NORMAL,   \
 +        CPRMAN_CLOCK_SRC_NORMAL,   \
 +        CPRMAN_CLOCK_SRC_NORMAL,   \
 +        CPRMAN_PLLA_CHANNEL_CORE,  \
 +        CPRMAN_PLLC_CHANNEL_CORE0, \
 +        CPRMAN_PLLD_CHANNEL_CORE,  \
 +        CPRMAN_PLLH_CHANNEL_AUX,   \
 +        CPRMAN_PLLC_CHANNEL_CORE1, \
 +        CPRMAN_PLLC_CHANNEL_CORE2, \
 +    }
 +
 +/* All the PLL "per" channels */
 +#define SRC_MAPPING_INFO_periph        \
 +    .src_mapping = {                   \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_PLLA_CHANNEL_PER,       \
 +        CPRMAN_PLLC_CHANNEL_PER,       \
 +        CPRMAN_PLLD_CHANNEL_PER,       \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +    }
 +
 +/*
 + * The DSI0 channels. This one got an intermediate mux between the PLL channels
 + * and the clock input.
 + */
 +#define SRC_MAPPING_INFO_dsi0          \
 +    .src_mapping = {                   \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_DSI0HSCK,     \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +    }
 +
 +/* The DSI1 channel */
 +#define SRC_MAPPING_INFO_dsi1          \
 +    .src_mapping = {                   \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_CLOCK_SRC_NORMAL,       \
 +        CPRMAN_PLLD_CHANNEL_DSI1,      \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
 +    }
 +
 +#define FILL_CLOCK_MUX_SRC_MAPPING_INIT_INFO(kind_) \
 +    SRC_MAPPING_INFO_ ## kind_
 +
 +#define FILL_CLOCK_MUX_INIT_INFO(clock_, kind_) \
 +    .cm_offset = R_CM_ ## clock_ ## CTL,        \
 +    FILL_CLOCK_MUX_SRC_MAPPING_INIT_INFO(kind_)
 +
 +static ClockMuxInitInfo CLOCK_MUX_INIT_INFO[] = {
 +    [CPRMAN_CLOCK_GNRIC] = {
 +        .name = "gnric",
 +        FILL_CLOCK_MUX_INIT_INFO(GNRIC, unknown),
 +    },
 +    [CPRMAN_CLOCK_VPU] = {
 +        .name = "vpu",
 +        .int_bits = 12,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(VPU, core),
 +    },
 +    [CPRMAN_CLOCK_SYS] = {
 +        .name = "sys",
 +        FILL_CLOCK_MUX_INIT_INFO(SYS, unknown),
 +    },
 +    [CPRMAN_CLOCK_PERIA] = {
 +        .name = "peria",
 +        FILL_CLOCK_MUX_INIT_INFO(PERIA, unknown),
 +    },
 +    [CPRMAN_CLOCK_PERII] = {
 +        .name = "perii",
 +        FILL_CLOCK_MUX_INIT_INFO(PERII, unknown),
 +    },
 +    [CPRMAN_CLOCK_H264] = {
 +        .name = "h264",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(H264, core),
 +    },
 +    [CPRMAN_CLOCK_ISP] = {
 +        .name = "isp",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(ISP, core),
 +    },
 +    [CPRMAN_CLOCK_V3D] = {
 +        .name = "v3d",
 +        FILL_CLOCK_MUX_INIT_INFO(V3D, core),
 +    },
 +    [CPRMAN_CLOCK_CAM0] = {
 +        .name = "cam0",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(CAM0, periph),
 +    },
 +    [CPRMAN_CLOCK_CAM1] = {
 +        .name = "cam1",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(CAM1, periph),
 +    },
 +    [CPRMAN_CLOCK_CCP2] = {
 +        .name = "ccp2",
 +        FILL_CLOCK_MUX_INIT_INFO(CCP2, unknown),
 +    },
 +    [CPRMAN_CLOCK_DSI0E] = {
 +        .name = "dsi0e",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(DSI0E, dsi0),
 +    },
 +    [CPRMAN_CLOCK_DSI0P] = {
 +        .name = "dsi0p",
 +        .int_bits = 0,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(DSI0P, dsi0),
 +    },
 +    [CPRMAN_CLOCK_DPI] = {
 +        .name = "dpi",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(DPI, periph),
 +    },
 +    [CPRMAN_CLOCK_GP0] = {
 +        .name = "gp0",
 +        .int_bits = 12,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(GP0, periph),
 +    },
 +    [CPRMAN_CLOCK_GP1] = {
 +        .name = "gp1",
 +        .int_bits = 12,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(GP1, periph),
 +    },
 +    [CPRMAN_CLOCK_GP2] = {
 +        .name = "gp2",
 +        .int_bits = 12,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(GP2, periph),
 +    },
 +    [CPRMAN_CLOCK_HSM] = {
 +        .name = "hsm",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(HSM, periph),
 +    },
 +    [CPRMAN_CLOCK_OTP] = {
 +        .name = "otp",
 +        .int_bits = 4,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(OTP, xosc),
 +    },
 +    [CPRMAN_CLOCK_PCM] = {
 +        .name = "pcm",
 +        .int_bits = 12,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(PCM, periph),
 +    },
 +    [CPRMAN_CLOCK_PWM] = {
 +        .name = "pwm",
 +        .int_bits = 12,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(PWM, periph),
 +    },
 +    [CPRMAN_CLOCK_SLIM] = {
 +        .name = "slim",
 +        .int_bits = 12,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(SLIM, periph),
 +    },
 +    [CPRMAN_CLOCK_SMI] = {
 +        .name = "smi",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(SMI, periph),
 +    },
 +    [CPRMAN_CLOCK_TEC] = {
 +        .name = "tec",
 +        .int_bits = 6,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(TEC, xosc),
 +    },
 +    [CPRMAN_CLOCK_TD0] = {
 +        .name = "td0",
 +        FILL_CLOCK_MUX_INIT_INFO(TD0, unknown),
 +    },
 +    [CPRMAN_CLOCK_TD1] = {
 +        .name = "td1",
 +        FILL_CLOCK_MUX_INIT_INFO(TD1, unknown),
 +    },
 +    [CPRMAN_CLOCK_TSENS] = {
 +        .name = "tsens",
 +        .int_bits = 5,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(TSENS, xosc),
 +    },
 +    [CPRMAN_CLOCK_TIMER] = {
 +        .name = "timer",
 +        .int_bits = 6,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(TIMER, xosc),
 +    },
 +    [CPRMAN_CLOCK_UART] = {
 +        .name = "uart",
 +        .int_bits = 10,
 +        .frac_bits = 12,
 +        FILL_CLOCK_MUX_INIT_INFO(UART, periph),
 +    },
 +    [CPRMAN_CLOCK_VEC] = {
 +        .name = "vec",
 +        .int_bits = 4,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(VEC, periph),
 +    },
 +    [CPRMAN_CLOCK_PULSE] = {
 +        .name = "pulse",
 +        FILL_CLOCK_MUX_INIT_INFO(PULSE, xosc),
 +    },
 +    [CPRMAN_CLOCK_SDC] = {
 +        .name = "sdram",
 +        .int_bits = 6,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(SDC, core),
 +    },
 +    [CPRMAN_CLOCK_ARM] = {
 +        .name = "arm",
 +        FILL_CLOCK_MUX_INIT_INFO(ARM, unknown),
 +    },
 +    [CPRMAN_CLOCK_AVEO] = {
 +        .name = "aveo",
 +        .int_bits = 4,
 +        .frac_bits = 0,
 +        FILL_CLOCK_MUX_INIT_INFO(AVEO, periph),
 +    },
 +    [CPRMAN_CLOCK_EMMC] = {
 +        .name = "emmc",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(EMMC, periph),
 +    },
 +    [CPRMAN_CLOCK_EMMC2] = {
 +        .name = "emmc2",
 +        .int_bits = 4,
 +        .frac_bits = 8,
 +        FILL_CLOCK_MUX_INIT_INFO(EMMC2, unknown),
 +    },
 +};
 +
 +#undef FILL_CLOCK_MUX_INIT_INFO
 +#undef FILL_CLOCK_MUX_SRC_MAPPING_INIT_INFO
 +#undef SRC_MAPPING_INFO_dsi1
 +#undef SRC_MAPPING_INFO_dsi0
 +#undef SRC_MAPPING_INFO_periph
 +#undef SRC_MAPPING_INFO_core
 +#undef SRC_MAPPING_INFO_xosc
 +#undef SRC_MAPPING_INFO_unknown
 +
 +static inline void set_clock_mux_init_info(BCM2835CprmanState *s,
 +                                           CprmanClockMuxState *mux,
 +                                           CprmanClockMux id)
 +{
 +    mux->id = id;
 +    mux->reg_ctl = &s->regs[CLOCK_MUX_INIT_INFO[id].cm_offset];
 +    mux->reg_div = &s->regs[CLOCK_MUX_INIT_INFO[id].cm_offset + 1];
 +    mux->int_bits = CLOCK_MUX_INIT_INFO[id].int_bits;
 +    mux->frac_bits = CLOCK_MUX_INIT_INFO[id].frac_bits;
 +}
 +
  #endif
 diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/bcm2835_cprman.c
 +++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
   *
   * The page at https://elinux.org/The_Undocumented_Pi gives the actual clock
   * tree configuration.
 + *
 + * The CPRMAN exposes clock outputs with the name of the clock mux suffixed
 + * with "-out" (e.g. "uart-out", "h264-out", ...).
   */
  #include "qemu/osdep.h"
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_channel_info = {
  };
 +/* clock mux */
 +
 +static void clock_mux_update(CprmanClockMuxState *mux)
 +{
 +    clock_update(mux->out, 0);
 +}
 +
 +static void clock_mux_src_update(void *opaque)
 +{
 +    CprmanClockMuxState **backref = opaque;
 +    CprmanClockMuxState *s = *backref;
 +
 +    clock_mux_update(s);
 +}
 +
 +static void clock_mux_init(Object *obj)
 +{
 +    CprmanClockMuxState *s = CPRMAN_CLOCK_MUX(obj);
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX_SRC; i++) {
 +        char *name = g_strdup_printf("srcs[%zu]", i);
 +        s->backref[i] = s;
 +        s->srcs[i] = qdev_init_clock_in(DEVICE(s), name,
 +                                        clock_mux_src_update,
 +                                        &s->backref[i]);
 +        g_free(name);
 +    }
 +
 +    s->out = qdev_init_clock_out(DEVICE(s), "out");
 +}
 +
 +static const VMStateDescription clock_mux_vmstate = {
 +    .name = TYPE_CPRMAN_CLOCK_MUX,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_ARRAY_CLOCK(srcs, CprmanClockMuxState,
 +                            CPRMAN_NUM_CLOCK_MUX_SRC),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
 +static void clock_mux_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->vmsd = &clock_mux_vmstate;
 +}
 +
 +static const TypeInfo cprman_clock_mux_info = {
 +    .name = TYPE_CPRMAN_CLOCK_MUX,
 +    .parent = TYPE_DEVICE,
 +    .instance_size = sizeof(CprmanClockMuxState),
 +    .class_init = clock_mux_class_init,
 +    .instance_init = clock_mux_init,
 +};
 +
 +
  /* CPRMAN "top level" model */
  static uint32_t get_cm_lock(const BCM2835CprmanState *s)
@@ -XXX,XX +XXX,XX @@ static inline void update_channel_from_a2w(BCM2835CprmanState *s, size_t idx)
      }
  }
 +static inline void update_mux_from_cm(BCM2835CprmanState *s, size_t idx)
 +{
 +    size_t i;
 +
 +    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
 +        if ((CLOCK_MUX_INIT_INFO[i].cm_offset == idx) ||
 +            (CLOCK_MUX_INIT_INFO[i].cm_offset + 4 == idx)) {
 +            /* matches CM_CTL or CM_DIV mux register */
 +            clock_mux_update(&s->clock_muxes[i]);
 +            return;
 +        }
 +    }
 +}
 +
- #define CASE_PLL_A2W_REGS(pll_) \
+ static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
-     case R_A2W_ ## pll_ ## _CTRL: \
+ {
-     case R_A2W_ ## pll_ ## _ANA0: \
+     /* VMOV scalar to general purpose register */
-@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
-     case R_A2W_PLLB_ARM:
+         return false;
          update_channel_from_a2w(s, idx);
          break;
 +
 +    case R_CM_GNRICCTL ... R_CM_SMIDIV:
 +    case R_CM_TCNTCNT ... R_CM_VECDIV:
 +    case R_CM_PULSECTL ... R_CM_PULSEDIV:
 +    case R_CM_SDCCTL ... R_CM_ARMCTL:
 +    case R_CM_AVEOCTL ... R_CM_EMMCDIV:
 +    case R_CM_EMMC2CTL ... R_CM_EMMC2DIV:
 +        update_mux_from_cm(s, idx);
 +        break;
      }
- }
++    if (dc_isar_feature(aa32_mve, s)) {
-@@ -XXX,XX +XXX,XX @@ static void cprman_reset(DeviceState *dev)
++        if (!mve_eci_check(s)) {
-         device_cold_reset(DEVICE(&s->channels[i]));
++            return true;
-     }
++        }
 +    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
 +        device_cold_reset(DEVICE(&s->clock_muxes[i]));
 +    }
 +
-     clock_update_hz(s->xosc, s->xosc_freq);
+     if (!vfp_access_check(s)) {
          return true;
      }
 -    tmp = tcg_temp_new_i32();
 -    read_neon_element32(tmp, a->vn, a->index, a->size | (a->u ? 0 : MO_SIGN));
 -    store_reg(s, a->rt, tmp);
 +    if (!mve_skip_vmov(s, a->vn, a->index, a->size)) {
 +        tmp = tcg_temp_new_i32();
 +        read_neon_element32(tmp, a->vn, a->index,
 +                            a->size | (a->u ? 0 : MO_SIGN));
 +        store_reg(s, a->rt, tmp);
 +    }
 +    if (dc_isar_feature(aa32_mve, s)) {
 +        mve_update_and_store_eci(s);
 +    }
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_from_gp(DisasContext *s, arg_VMOV_from_gp *a)
-         set_pll_channel_init_info(s, &s->channels[i], i);
+         return false;
      }
-+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
++    if (dc_isar_feature(aa32_mve, s)) {
-+        char *alias;
++        if (!mve_eci_check(s)) {
-+
++            return true;
-+        object_initialize_child(obj, CLOCK_MUX_INIT_INFO[i].name,
++        }
 +                                &s->clock_muxes[i],
 +                                TYPE_CPRMAN_CLOCK_MUX);
 +        set_clock_mux_init_info(s, &s->clock_muxes[i], i);
 +
 +        /* Expose muxes output as CPRMAN outputs */
 +        alias = g_strdup_printf("%s-out", CLOCK_MUX_INIT_INFO[i].name);
 +        qdev_alias_clock(DEVICE(&s->clock_muxes[i]), "out", DEVICE(obj), alias);
 +        g_free(alias);
 +    }
 +
-     s->xosc = clock_new(obj, "xosc");
+     if (!vfp_access_check(s)) {
-+    s->gnd = clock_new(obj, "gnd");
+         return true;
-+
+     }
-+    clock_set(s->gnd, 0);
+-    tmp = load_reg(s, a->rt);
-     memory_region_init_io(&s->iomem, obj, &cprman_ops,
+-    write_neon_element32(tmp, a->vn, a->index, a->size);
-                           s, "bcm2835-cprman", 0x2000);
+-    tcg_temp_free_i32(tmp);
-     sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->iomem);
++    if (!mve_skip_vmov(s, a->vn, a->index, a->size)) {
 +        tmp = load_reg(s, a->rt);
 +        write_neon_element32(tmp, a->vn, a->index, a->size);
 +        tcg_temp_free_i32(tmp);
 +    }
 +    if (dc_isar_feature(aa32_mve, s)) {
 +        mve_update_and_store_eci(s);
 +    }
      return true;
  }
-+static void connect_mux_sources(BCM2835CprmanState *s,
-+                                CprmanClockMuxState *mux,
-+                                const CprmanPllChannel *clk_mapping)
-+{
-+    size_t i;
-+    Clock *td0 = s->clock_muxes[CPRMAN_CLOCK_TD0].out;
-+    Clock *td1 = s->clock_muxes[CPRMAN_CLOCK_TD1].out;
-+
-+    /* For sources from 0 to 3. Source 4 to 9 are mux specific */
-+    Clock * const CLK_SRC_MAPPING[] = {
-+        [CPRMAN_CLOCK_SRC_GND] = s->gnd,
-+        [CPRMAN_CLOCK_SRC_XOSC] = s->xosc,
-+        [CPRMAN_CLOCK_SRC_TD0] = td0,
-+        [CPRMAN_CLOCK_SRC_TD1] = td1,
-+    };
-+
-+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX_SRC; i++) {
-+        CprmanPllChannel mapping = clk_mapping[i];
-+        Clock *src;
-+
-+        if (mapping == CPRMAN_CLOCK_SRC_FORCE_GROUND) {
-+            src = s->gnd;
-+        } else if (mapping == CPRMAN_CLOCK_SRC_DSI0HSCK) {
-+            src = s->gnd; /* TODO */
-+        } else if (i < CPRMAN_CLOCK_SRC_PLLA) {
-+            src = CLK_SRC_MAPPING[i];
-+        } else {
-+            src = s->channels[mapping].out;
-+        }
-+
-+        clock_set_source(mux->srcs[i], src);
-+    }
-+}
-+
- static void cprman_realize(DeviceState *dev, Error **errp)
- {
-     BCM2835CprmanState *s = CPRMAN(dev);
-@@ -XXX,XX +XXX,XX @@ static void cprman_realize(DeviceState *dev, Error **errp)
-             return;
-         }
-     }
-+
-+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
-+        CprmanClockMuxState *clock_mux = &s->clock_muxes[i];
-+
-+        connect_mux_sources(s, clock_mux, CLOCK_MUX_INIT_INFO[i].src_mapping);
-+
-+        if (!qdev_realize(DEVICE(clock_mux), NULL, errp)) {
-+            return;
-+        }
-+    }
- }
- static const VMStateDescription cprman_vmstate = {
-@@ -XXX,XX +XXX,XX @@ static void cprman_register_types(void)
-     type_register_static(&cprman_info);
-     type_register_static(&cprman_pll_info);
-     type_register_static(&cprman_pll_channel_info);
-+    type_register_static(&cprman_clock_mux_info);
- }
- type_init(cprman_register_types);
 --
 .20.1

-[PULL 15/48] Move npcm7xx_timer_reached_zero call out of npcm7xx_timer_pause
+[PULL 56/57] target/arm: Implement MTE3
-From: Havard Skinnemoen <hskinnemoen@google.com>
+From: Peter Collingbourne <pcc@google.com>
-This allows us to reuse npcm7xx_timer_pause for the watchdog timer.
+MTE3 introduces an asymmetric tag checking mode, in which loads are
 checked synchronously and stores are checked asynchronously. Add
 support for it.
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Signed-off-by: Peter Collingbourne <pcc@google.com>
-Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210616195614.11785-1-pcc@google.com
 [PMM: Add line to emulation.rst]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/timer/npcm7xx_timer.c | 6 +++---
+ docs/system/arm/emulation.rst |  1 +
-file changed, 3 insertions(+), 3 deletions(-)
+ target/arm/cpu64.c            |  2 +-
  target/arm/mte_helper.c       | 82 ++++++++++++++++++++++-------------
 files changed, 53 insertions(+), 32 deletions(-)
-diff --git a/hw/timer/npcm7xx_timer.c b/hw/timer/npcm7xx_timer.c
+diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
 index XXXXXXX..XXXXXXX 100644
---- a/hw/timer/npcm7xx_timer.c
+--- a/docs/system/arm/emulation.rst
-+++ b/hw/timer/npcm7xx_timer.c
++++ b/docs/system/arm/emulation.rst
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_pause(NPCM7xxTimer *t)
+@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
-     timer_del(&t->qtimer);
+ - FEAT_LSE (Large System Extensions)
-     now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
+ - FEAT_MTE (Memory Tagging Extension)
-     t->remaining_ns = t->expires_ns - now;
+ - FEAT_MTE2 (Memory Tagging Extension)
--    if (t->remaining_ns <= 0) {
++- FEAT_MTE3 (MTE Asymmetric Fault Handling)
--        npcm7xx_timer_reached_zero(t);
+ - FEAT_PAN (Privileged access never)
--    }
+ - FEAT_PAN2 (AT S1E1R and AT S1E1W instruction variants affected by PSTATE.PAN)
  - FEAT_PAuth (Pointer authentication)
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
           * during realize if the board provides no tag memory, much like
           * we do for EL2 with the virtualization=on property.
           */
 -        t = FIELD_DP64(t, ID_AA64PFR1, MTE, 2);
 +        t = FIELD_DP64(t, ID_AA64PFR1, MTE, 3);
          cpu->isar.id_aa64pfr1 = t;
          t = cpu->isar.id_aa64mmfr0;
 diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mte_helper.c
 +++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(stzgm_tags)(CPUARMState *env, uint64_t ptr, uint64_t val)
      }
  }
- /*
++static void mte_sync_check_fail(CPUARMState *env, uint32_t desc,
-@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
++                                uint64_t dirty_ptr, uintptr_t ra)
-         } else {
++{
-             t->tcsr &= ~NPCM7XX_TCSR_CACT;
++    int is_write, syn;
-             npcm7xx_timer_pause(t);
++
-+            if (t->remaining_ns <= 0) {
++    env->exception.vaddress = dirty_ptr;
-+                npcm7xx_timer_reached_zero(t);
++
-+            }
++    is_write = FIELD_EX32(desc, MTEDESC, WRITE);
-         }
++    syn = syn_data_abort_no_iss(arm_current_el(env) != 0, 0, 0, 0, 0, is_write,
 +                                0x11);
 +    raise_exception_ra(env, EXCP_DATA_ABORT, syn, exception_target_el(env), ra);
 +    g_assert_not_reached();
 +}
 +
 +static void mte_async_check_fail(CPUARMState *env, uint64_t dirty_ptr,
 +                                 uintptr_t ra, ARMMMUIdx arm_mmu_idx, int el)
 +{
 +    int select;
 +
 +    if (regime_has_2_ranges(arm_mmu_idx)) {
 +        select = extract64(dirty_ptr, 55, 1);
 +    } else {
 +        select = 0;
 +    }
 +    env->cp15.tfsr_el[el] |= 1 << select;
 +#ifdef CONFIG_USER_ONLY
 +    /*
 +     * Stand in for a timer irq, setting _TIF_MTE_ASYNC_FAULT,
 +     * which then sends a SIGSEGV when the thread is next scheduled.
 +     * This cpu will return to the main loop at the end of the TB,
 +     * which is rather sooner than "normal".  But the alternative
 +     * is waiting until the next syscall.
 +     */
 +    qemu_cpu_kick(env_cpu(env));
 +#endif
 +}
 +
  /* Record a tag check failure.  */
  static void mte_check_fail(CPUARMState *env, uint32_t desc,
                             uint64_t dirty_ptr, uintptr_t ra)
  {
      int mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
      ARMMMUIdx arm_mmu_idx = core_to_aa64_mmu_idx(mmu_idx);
 -    int el, reg_el, tcf, select, is_write, syn;
 +    int el, reg_el, tcf;
      uint64_t sctlr;
      reg_el = regime_el(env, arm_mmu_idx);
@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
      switch (tcf) {
      case 1:
          /* Tag check fail causes a synchronous exception. */
 -        env->exception.vaddress = dirty_ptr;
 -
 -        is_write = FIELD_EX32(desc, MTEDESC, WRITE);
 -        syn = syn_data_abort_no_iss(arm_current_el(env) != 0, 0, 0, 0, 0,
 -                                    is_write, 0x11);
 -        raise_exception_ra(env, EXCP_DATA_ABORT, syn,
 -                           exception_target_el(env), ra);
 -        /* noreturn, but fall through to the assert anyway */
 +        mte_sync_check_fail(env, desc, dirty_ptr, ra);
 +        break;
      case 0:
          /*
@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
      case 2:
          /* Tag check fail causes asynchronous flag set.  */
 -        if (regime_has_2_ranges(arm_mmu_idx)) {
 -            select = extract64(dirty_ptr, 55, 1);
 -        } else {
 -            select = 0;
 -        }
 -        env->cp15.tfsr_el[el] |= 1 << select;
 -#ifdef CONFIG_USER_ONLY
 -        /*
 -         * Stand in for a timer irq, setting _TIF_MTE_ASYNC_FAULT,
 -         * which then sends a SIGSEGV when the thread is next scheduled.
 -         * This cpu will return to the main loop at the end of the TB,
 -         * which is rather sooner than "normal".  But the alternative
 -         * is waiting until the next syscall.
 -         */
 -        qemu_cpu_kick(env_cpu(env));
 -#endif
 +        mte_async_check_fail(env, dirty_ptr, ra, arm_mmu_idx, el);
          break;
 -    default:
 -        /* Case 3: Reserved. */
 -        qemu_log_mask(LOG_GUEST_ERROR,
 -                      "Tag check failure with SCTLR_EL%d.TCF%s "
 -                      "set to reserved value %d\n",
 -                      reg_el, el ? "" : "0", tcf);
 +    case 3:
 +        /*
 +         * Tag check fail causes asynchronous flag set for stores, or
 +         * a synchronous exception for loads.
 +         */
 +        if (FIELD_EX32(desc, MTEDESC, WRITE)) {
 +            mte_async_check_fail(env, dirty_ptr, ra, arm_mmu_idx, el);
 +        } else {
 +            mte_sync_check_fail(env, desc, dirty_ptr, ra);
 +        }
          break;
      }
  }
 --
 .20.1

-[PULL 05/48] linux-user/elfload: Fix coding style in load_elf_image
+[PULL 57/57] docs/system: arm: Add nRF boards description
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Alexandre Iooss <erdnaxe@crans.org>
-Fixing this now will clarify following patches.
+This adds the target guide for BBC Micro:bit.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Information is taken from https://wiki.qemu.org/Features/MicroBit
-Message-id: 20201021173749.111103-6-richard.henderson@linaro.org
+and from hw/arm/nrf51_soc.c.
 Signed-off-by: Alexandre Iooss <erdnaxe@crans.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Joel Stanley <joel@jms.id.au>
+Message-id: 20210621075625.540471-1-erdnaxe@crans.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- linux-user/elfload.c | 12 +++++++++---
+ docs/system/arm/nrf.rst    | 51 ++++++++++++++++++++++++++++++++++++++
-file changed, 9 insertions(+), 3 deletions(-)
+ docs/system/target-arm.rst |  1 +
  MAINTAINERS                |  1 +
 files changed, 53 insertions(+)
  create mode 100644 docs/system/arm/nrf.rst
-diff --git a/linux-user/elfload.c b/linux-user/elfload.c
+diff --git a/docs/system/arm/nrf.rst b/docs/system/arm/nrf.rst
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/docs/system/arm/nrf.rst
@@ -XXX,XX +XXX,XX @@
 +Nordic nRF boards (``microbit``)
 +================================
 +
 +The `Nordic nRF`_ chips are a family of ARM-based System-on-Chip that
 +are designed to be used for low-power and short-range wireless solutions.
 +
 +.. _Nordic nRF: https://www.nordicsemi.com/Products
 +
 +The nRF51 series is the first series for short range wireless applications.
 +It is superseded by the nRF52 series.
 +The following machines are based on this chip :
 +
 +- ``microbit``       BBC micro:bit board with nRF51822 SoC
 +
 +There are other series such as nRF52, nRF53 and nRF91 which are currently not
 +supported by QEMU.
 +
 +Supported devices
 +-----------------
 +
 + * ARM Cortex-M0 (ARMv6-M)
 + * Serial ports (UART)
 + * Clock controller
 + * Timers
 + * Random Number Generator (RNG)
 + * GPIO controller
 + * NVMC
 + * SWI
 +
 +Missing devices
 +---------------
 +
 + * Watchdog
 + * Real-Time Clock (RTC) controller
 + * TWI (i2c)
 + * SPI controller
 + * Analog to Digital Converter (ADC)
 + * Quadrature decoder
 + * Radio
 +
 +Boot options
 +------------
 +
 +The Micro:bit machine can be started using the ``-device`` option to load a
 +firmware in `ihex format`_. Example:
 +
 +.. _ihex format: https://en.wikipedia.org/wiki/Intel_HEX
 +
 +.. code-block:: bash
 +
 +  $ qemu-system-arm -M microbit -device loader,file=test.hex
 diff --git a/docs/system/target-arm.rst b/docs/system/target-arm.rst
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/elfload.c
+--- a/docs/system/target-arm.rst
-+++ b/linux-user/elfload.c
++++ b/docs/system/target-arm.rst
-@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
+@@ -XXX,XX +XXX,XX @@ undocumented; you can get a complete list by running
-             abi_ulong vaddr, vaddr_po, vaddr_ps, vaddr_ef, vaddr_em, vaddr_len;
+    arm/digic
-             int elf_prot = 0;
+    arm/musicpal
+    arm/gumstix
--            if (eppnt->p_flags & PF_R) elf_prot =  PROT_READ;
++   arm/nrf
--            if (eppnt->p_flags & PF_W) elf_prot |= PROT_WRITE;
+    arm/nseries
--            if (eppnt->p_flags & PF_X) elf_prot |= PROT_EXEC;
+    arm/nuvoton
-+            if (eppnt->p_flags & PF_R) {
+    arm/orangepi
-+                elf_prot |= PROT_READ;
+diff --git a/MAINTAINERS b/MAINTAINERS
-+            }
+index XXXXXXX..XXXXXXX 100644
-+            if (eppnt->p_flags & PF_W) {
+--- a/MAINTAINERS
-+                elf_prot |= PROT_WRITE;
++++ b/MAINTAINERS
-+            }
+@@ -XXX,XX +XXX,XX @@ F: hw/*/microbit*.c
-+            if (eppnt->p_flags & PF_X) {
+ F: include/hw/*/nrf51*.h
-+                elf_prot |= PROT_EXEC;
+ F: include/hw/*/microbit*.h
-+            }
+ F: tests/qtest/microbit-test.c
++F: docs/system/arm/nrf.rst
-             vaddr = load_bias + eppnt->p_vaddr;
-             vaddr_po = TARGET_ELF_PAGEOFFSET(vaddr);
+ AVR Machines
  -------------
 --
 .20.1

Last minute pullreq for arm related patches; quite large because
there were several series that only just made it through code review
in time.

thanks
-- PMM

The following changes since commit 091e3e3dbc499d84c004e1c50bc9870af37f6e99:

Merge remote-tracking branch 'remotes/ericb/tags/pull-bitmaps-2020-10-26' into staging (2020-10-26 22:36:35 +0000)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20201027-1

for you to fetch changes up to 32bd322a0134ed89db00f2b9b3894982db3dedcb:

hw/timer/armv7m_systick: Rewrite to use ptimers (2020-10-27 11:15:31 +0000)

----------------------------------------------------------------
target-arm queue:
 * raspi: add model of cprman clock manager
 * sbsa-ref: add an SBSA generic watchdog device
 * arm/trace: Fix hex printing
 * raspi: Add models of Pi 3 model A+, Pi Zero and Pi A+
 * hw/arm/smmuv3: Set the restoration priority of the vSMMUv3 explicitly
 * Nuvoton NPCM7xx: Add USB, RNG, GPIO and watchdog support
 * hw/arm: fix min_cpus for xlnx-versal-virt platform
 * hw/arm/highbank: Silence warnings about missing fallthrough statements
 * linux-user: Support Aarch64 BTI
 * Armv7M systick: fix corner case bugs by rewriting to use ptimer

----------------------------------------------------------------
Dr. David Alan Gilbert (1):
      arm/trace: Fix hex printing

Hao Wu (1):
      hw/timer: Adding watchdog for NPCM7XX Timer.

Havard Skinnemoen (4):
      Move npcm7xx_timer_reached_zero call out of npcm7xx_timer_pause
      hw/misc: Add npcm7xx random number generator
      hw/arm/npcm7xx: Add EHCI and OHCI controllers
      hw/gpio: Add GPIO model for Nuvoton NPCM7xx

Luc Michel (14):
      hw/core/clock: provide the VMSTATE_ARRAY_CLOCK macro
      hw/core/clock: trace clock values in Hz instead of ns
      hw/arm/raspi: fix CPRMAN base address
      hw/arm/raspi: add a skeleton implementation of the CPRMAN
      hw/misc/bcm2835_cprman: add a PLL skeleton implementation
      hw/misc/bcm2835_cprman: implement PLLs behaviour
      hw/misc/bcm2835_cprman: add a PLL channel skeleton implementation
      hw/misc/bcm2835_cprman: implement PLL channels behaviour
      hw/misc/bcm2835_cprman: add a clock mux skeleton implementation
      hw/misc/bcm2835_cprman: implement clock mux behaviour
      hw/misc/bcm2835_cprman: add the DSI0HSCK multiplexer
      hw/misc/bcm2835_cprman: add sane reset values to the registers
      hw/char/pl011: add a clock input
      hw/arm/bcm2835_peripherals: connect the UART clock

Pavel Dovgalyuk (1):
      hw/arm: fix min_cpus for xlnx-versal-virt platform

Peter Maydell (2):
      hw/core/ptimer: Support ptimer being disabled by timer callback
      hw/timer/armv7m_systick: Rewrite to use ptimers

Philippe Mathieu-Daudé (10):
      linux-user/elfload: Avoid leaking interp_name using GLib memory API
      hw/arm/bcm2836: Restrict BCM283XInfo declaration to C source
      hw/arm/bcm2836: QOM'ify more by adding class_init() to each SoC type
      hw/arm/bcm2836: Introduce BCM283XClass::core_count
      hw/arm/bcm2836: Only provide "enabled-cpus" property to multicore SoCs
      hw/arm/bcm2836: Split out common realize() code
      hw/arm/bcm2836: Introduce the BCM2835 SoC
      hw/arm/raspi: Add the Raspberry Pi A+ machine
      hw/arm/raspi: Add the Raspberry Pi Zero machine
      hw/arm/raspi: Add the Raspberry Pi 3 model A+

Richard Henderson (11):
      linux-user/aarch64: Reset btype for signals
      linux-user: Set PAGE_TARGET_1 for TARGET_PROT_BTI
      include/elf: Add defines related to GNU property notes for AArch64
      linux-user/elfload: Fix coding style in load_elf_image
      linux-user/elfload: Adjust iteration over phdr
      linux-user/elfload: Move PT_INTERP detection to first loop
      linux-user/elfload: Use Error for load_elf_image
      linux-user/elfload: Use Error for load_elf_interp
      linux-user/elfload: Parse NT_GNU_PROPERTY_TYPE_0 notes
      linux-user/elfload: Parse GNU_PROPERTY_AARCH64_FEATURE_1_AND
      tests/tcg/aarch64: Add bti smoke tests

Shashi Mallela (2):
      hw/watchdog: Implement SBSA watchdog device
      hw/arm/sbsa-ref: add SBSA watchdog device

Thomas Huth (1):
      hw/arm/highbank: Silence warnings about missing fallthrough statements

Zenghui Yu (1):
      hw/arm/smmuv3: Set the restoration priority of the vSMMUv3 explicitly

docs/system/arm/nuvoton.rst                |    6 +-
 hw/usb/hcd-ehci.h                          |    1 +
 include/elf.h                              |   22 +
 include/exec/cpu-all.h                     |    2 +
 include/hw/arm/bcm2835_peripherals.h       |    5 +-
 include/hw/arm/bcm2836.h                   |    9 +-
 include/hw/arm/npcm7xx.h                   |    8 +
 include/hw/arm/raspi_platform.h            |    5 +-
 include/hw/char/pl011.h                    |    1 +
 include/hw/clock.h                         |    5 +
 include/hw/gpio/npcm7xx_gpio.h             |   55 ++
 include/hw/misc/bcm2835_cprman.h           |  210 ++++++
 include/hw/misc/bcm2835_cprman_internals.h | 1019 ++++++++++++++++++++++++++++
 include/hw/misc/npcm7xx_clk.h              |    2 +
 include/hw/misc/npcm7xx_rng.h              |   34 +
 include/hw/timer/armv7m_systick.h          |    3 +-
 include/hw/timer/npcm7xx_timer.h           |   48 +-
 include/hw/watchdog/sbsa_gwdt.h            |   79 +++
 linux-user/qemu.h                          |    4 +
 linux-user/syscall_defs.h                  |    4 +
 target/arm/cpu.h                           |    5 +
 hw/arm/bcm2835_peripherals.c               |   15 +-
 hw/arm/bcm2836.c                           |  182 +++--
 hw/arm/highbank.c                          |    2 +
 hw/arm/npcm7xx.c                           |  126 +++-
 hw/arm/raspi.c                             |   41 ++
 hw/arm/sbsa-ref.c                          |   23 +
 hw/arm/smmuv3.c                            |    1 +
 hw/arm/xlnx-versal-virt.c                  |    1 +
 hw/char/pl011.c                            |   45 ++
 hw/core/clock.c                            |    6 +-
 hw/core/ptimer.c                           |    4 +
 hw/gpio/npcm7xx_gpio.c                     |  424 ++++++++++++
 hw/misc/bcm2835_cprman.c                   |  808 ++++++++++++++++++++++
 hw/misc/npcm7xx_clk.c                      |   28 +
 hw/misc/npcm7xx_rng.c                      |  180 +++++
 hw/timer/armv7m_systick.c                  |  124 ++--
 hw/timer/npcm7xx_timer.c                   |  270 ++++++--
 hw/usb/hcd-ehci-sysbus.c                   |   19 +
 hw/watchdog/sbsa_gwdt.c                    |  293 ++++++++
 linux-user/aarch64/signal.c                |   10 +-
 linux-user/elfload.c                       |  326 +++++++--
 linux-user/mmap.c                          |   16 +
 target/arm/translate-a64.c                 |    6 +-
 tests/qtest/npcm7xx_gpio-test.c            |  385 +++++++++++
 tests/qtest/npcm7xx_rng-test.c             |  278 ++++++++
 tests/qtest/npcm7xx_watchdog_timer-test.c  |  319 +++++++++
 tests/tcg/aarch64/bti-1.c                  |   62 ++
 tests/tcg/aarch64/bti-2.c                  |  116 ++++
 tests/tcg/aarch64/bti-crt.inc.c            |   51 ++
 MAINTAINERS                                |    1 +
 hw/arm/Kconfig                             |    1 +
 hw/arm/trace-events                        |    2 +-
 hw/char/trace-events                       |    1 +
 hw/core/trace-events                       |    4 +-
 hw/gpio/meson.build                        |    1 +
 hw/gpio/trace-events                       |    7 +
 hw/misc/meson.build                        |    2 +
 hw/misc/trace-events                       |    9 +
 hw/watchdog/Kconfig                        |    3 +
 hw/watchdog/meson.build                    |    1 +
 tests/qtest/meson.build                    |    6 +-
 tests/tcg/aarch64/Makefile.target          |   10 +
 tests/tcg/configure.sh                     |    4 +
 64 files changed, 5461 insertions(+), 279 deletions(-)
 create mode 100644 include/hw/gpio/npcm7xx_gpio.h
 create mode 100644 include/hw/misc/bcm2835_cprman.h
 create mode 100644 include/hw/misc/bcm2835_cprman_internals.h
 create mode 100644 include/hw/misc/npcm7xx_rng.h
 create mode 100644 include/hw/watchdog/sbsa_gwdt.h
 create mode 100644 hw/gpio/npcm7xx_gpio.c
 create mode 100644 hw/misc/bcm2835_cprman.c
 create mode 100644 hw/misc/npcm7xx_rng.c
 create mode 100644 hw/watchdog/sbsa_gwdt.c
 create mode 100644 tests/qtest/npcm7xx_gpio-test.c
 create mode 100644 tests/qtest/npcm7xx_rng-test.c
 create mode 100644 tests/qtest/npcm7xx_watchdog_timer-test.c
 create mode 100644 tests/tcg/aarch64/bti-1.c
 create mode 100644 tests/tcg/aarch64/bti-2.c
 create mode 100644 tests/tcg/aarch64/bti-crt.inc.c

From: Richard Henderson <richard.henderson@linaro.org>

The kernel sets btype for the signal handler as if for a call.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/aarch64/signal.c | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/linux-user/aarch64/signal.c b/linux-user/aarch64/signal.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/aarch64/signal.c
+++ b/linux-user/aarch64/signal.c
@@ -XXX,XX +XXX,XX @@ static void target_setup_frame(int usig, struct target_sigaction *ka,
             + offsetof(struct target_rt_frame_record, tramp);
     }
     env->xregs[0] = usig;
-    env->xregs[31] = frame_addr;
     env->xregs[29] = frame_addr + fr_ofs;
-    env->pc = ka->_sa_handler;
     env->xregs[30] = return_addr;
+    env->xregs[31] = frame_addr;
+    env->pc = ka->_sa_handler;
+
+    /* Invoke the signal handler as if by indirect call.  */
+    if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
+        env->btype = 2;
+    }
+
     if (info) {
         tswap_siginfo(&frame->info, info);
         env->xregs[1] = frame_addr + offsetof(struct target_rt_sigframe, info);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Transform the prot bit to a qemu internal page bit, and save
it in the page tables.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/exec/cpu-all.h     |  2 ++
 linux-user/syscall_defs.h  |  4 ++++
 target/arm/cpu.h           |  5 +++++
 linux-user/mmap.c          | 16 ++++++++++++++++
 target/arm/translate-a64.c |  6 +++---
 5 files changed, 30 insertions(+), 3 deletions(-)

diff --git a/include/exec/cpu-all.h b/include/exec/cpu-all.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-all.h
+++ b/include/exec/cpu-all.h
@@ -XXX,XX +XXX,XX @@ extern intptr_t qemu_host_page_mask;
 /* FIXME: Code that sets/uses this is broken and needs to go away.  */
 #define PAGE_RESERVED  0x0020
 #endif
+/* Target-specific bits that will be used via page_get_flags().  */
+#define PAGE_TARGET_1  0x0080
 
 #if defined(CONFIG_USER_ONLY)
 void page_dump(FILE *f);
diff --git a/linux-user/syscall_defs.h b/linux-user/syscall_defs.h
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/syscall_defs.h
+++ b/linux-user/syscall_defs.h
@@ -XXX,XX +XXX,XX @@ struct target_winsize {
 #define TARGET_PROT_SEM         0x08
 #endif
 
+#ifdef TARGET_AARCH64
+#define TARGET_PROT_BTI         0x10
+#endif
+
 /* Common */
 #define TARGET_MAP_SHARED	0x01		/* Share changes */
 #define TARGET_MAP_PRIVATE	0x02		/* Changes are private */
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline MemTxAttrs *typecheck_memtxattrs(MemTxAttrs *x)
 #define arm_tlb_bti_gp(x) (typecheck_memtxattrs(x)->target_tlb_bit0)
 #define arm_tlb_mte_tagged(x) (typecheck_memtxattrs(x)->target_tlb_bit1)
 
+/*
+ * AArch64 usage of the PAGE_TARGET_* bits for linux-user.
+ */
+#define PAGE_BTI  PAGE_TARGET_1
+
 /*
  * Naming convention for isar_feature functions:
  * Functions which test 32-bit ID registers should have _aa32_ in
diff --git a/linux-user/mmap.c b/linux-user/mmap.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/mmap.c
+++ b/linux-user/mmap.c
@@ -XXX,XX +XXX,XX @@ static int validate_prot_to_pageflags(int *host_prot, int prot)
     *host_prot = (prot & (PROT_READ | PROT_WRITE))
                | (prot & PROT_EXEC ? PROT_READ : 0);
 
+#ifdef TARGET_AARCH64
+    /*
+     * The PROT_BTI bit is only accepted if the cpu supports the feature.
+     * Since this is the unusual case, don't bother checking unless
+     * the bit has been requested.  If set and valid, record the bit
+     * within QEMU's page_flags.
+     */
+    if (prot & TARGET_PROT_BTI) {
+        ARMCPU *cpu = ARM_CPU(thread_cpu);
+        if (cpu_isar_feature(aa64_bti, cpu)) {
+            valid |= TARGET_PROT_BTI;
+            page_flags |= PAGE_BTI;
+        }
+    }
+#endif
+
     return prot & ~valid ? 0 : page_flags;
 }
 
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
  */
 static bool is_guarded_page(CPUARMState *env, DisasContext *s)
 {
-#ifdef CONFIG_USER_ONLY
-    return false;  /* FIXME */
-#else
     uint64_t addr = s->base.pc_first;
+#ifdef CONFIG_USER_ONLY
+    return page_get_flags(addr) & PAGE_BTI;
+#else
     int mmu_idx = arm_to_core_mmu_idx(s->mmu_idx);
     unsigned int index = tlb_index(env, mmu_idx, addr);
     CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

These are all of the defines required to parse
GNU_PROPERTY_AARCH64_FEATURE_1_AND, copied from binutils.
Other missing defines related to other GNU program headers
and notes are elided for now.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/elf.h | 22 ++++++++++++++++++++++
 1 file changed, 22 insertions(+)

diff --git a/include/elf.h b/include/elf.h
index XXXXXXX..XXXXXXX 100644
--- a/include/elf.h
+++ b/include/elf.h
@@ -XXX,XX +XXX,XX @@ typedef int64_t  Elf64_Sxword;
 #define PT_NOTE    4
 #define PT_SHLIB   5
 #define PT_PHDR    6
+#define PT_LOOS    0x60000000
+#define PT_HIOS    0x6fffffff
 #define PT_LOPROC  0x70000000
 #define PT_HIPROC  0x7fffffff
 
+#define PT_GNU_PROPERTY   (PT_LOOS + 0x474e553)
+
 #define PT_MIPS_REGINFO   0x70000000
 #define PT_MIPS_RTPROC    0x70000001
 #define PT_MIPS_OPTIONS   0x70000002
@@ -XXX,XX +XXX,XX @@ typedef struct elf64_shdr {
 #define NT_ARM_SYSTEM_CALL      0x404   /* ARM system call number */
 #define NT_ARM_SVE      0x405           /* ARM Scalable Vector Extension regs */
 
+/* Defined note types for GNU systems.  */
+
+#define NT_GNU_PROPERTY_TYPE_0  5       /* Program property */
+
+/* Values used in GNU .note.gnu.property notes (NT_GNU_PROPERTY_TYPE_0).  */
+
+#define GNU_PROPERTY_STACK_SIZE                 1
+#define GNU_PROPERTY_NO_COPY_ON_PROTECTED       2
+
+#define GNU_PROPERTY_LOPROC                     0xc0000000
+#define GNU_PROPERTY_HIPROC                     0xdfffffff
+#define GNU_PROPERTY_LOUSER                     0xe0000000
+#define GNU_PROPERTY_HIUSER                     0xffffffff
+
+#define GNU_PROPERTY_AARCH64_FEATURE_1_AND      0xc0000000
+#define GNU_PROPERTY_AARCH64_FEATURE_1_BTI      (1u << 0)
+#define GNU_PROPERTY_AARCH64_FEATURE_1_PAC      (1u << 1)
+
 /*
  * Physical entry point into the kernel.
  *
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

Fix an unlikely memory leak in load_elf_image().

Fixes: bf858897b7 ("linux-user: Re-use load_elf_image for the main binary.")
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-5-richard.henderson@linaro.org
Message-Id: <20201003174944.1972444-1-f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                 info->brk = vaddr_em;
             }
         } else if (eppnt->p_type == PT_INTERP && pinterp_name) {
-            char *interp_name;
+            g_autofree char *interp_name = NULL;
 
             if (*pinterp_name) {
                 errmsg = "Multiple PT_INTERP entries";
                 goto exit_errmsg;
             }
-            interp_name = malloc(eppnt->p_filesz);
+            interp_name = g_malloc(eppnt->p_filesz);
             if (!interp_name) {
                 goto exit_perror;
             }
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                 errmsg = "Invalid PT_INTERP entry";
                 goto exit_errmsg;
             }
-            *pinterp_name = interp_name;
+            *pinterp_name = g_steal_pointer(&interp_name);
 #ifdef TARGET_MIPS
         } else if (eppnt->p_type == PT_MIPS_ABIFLAGS) {
             Mips_elf_abiflags_v0 abiflags;
@@ -XXX,XX +XXX,XX @@ int load_elf_binary(struct linux_binprm *bprm, struct image_info *info)
     if (elf_interpreter) {
         info->load_bias = interp_info.load_bias;
         info->entry = interp_info.entry;
-        free(elf_interpreter);
+        g_free(elf_interpreter);
     }
 
 #ifdef USE_ELF_CORE_DUMP
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Fixing this now will clarify following patches.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-6-richard.henderson@linaro.org
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 12 +++++++++---
 1 file changed, 9 insertions(+), 3 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
             abi_ulong vaddr, vaddr_po, vaddr_ps, vaddr_ef, vaddr_em, vaddr_len;
             int elf_prot = 0;
 
-            if (eppnt->p_flags & PF_R) elf_prot =  PROT_READ;
-            if (eppnt->p_flags & PF_W) elf_prot |= PROT_WRITE;
-            if (eppnt->p_flags & PF_X) elf_prot |= PROT_EXEC;
+            if (eppnt->p_flags & PF_R) {
+                elf_prot |= PROT_READ;
+            }
+            if (eppnt->p_flags & PF_W) {
+                elf_prot |= PROT_WRITE;
+            }
+            if (eppnt->p_flags & PF_X) {
+                elf_prot |= PROT_EXEC;
+            }
 
             vaddr = load_bias + eppnt->p_vaddr;
             vaddr_po = TARGET_ELF_PAGEOFFSET(vaddr);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The second loop uses a loop induction variable, and the first
does not.  Transform the first to match the second, to simplify
a following patch moving code between them.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-7-richard.henderson@linaro.org
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
     loaddr = -1, hiaddr = 0;
     info->alignment = 0;
     for (i = 0; i < ehdr->e_phnum; ++i) {
-        if (phdr[i].p_type == PT_LOAD) {
-            abi_ulong a = phdr[i].p_vaddr - phdr[i].p_offset;
+        struct elf_phdr *eppnt = phdr + i;
+        if (eppnt->p_type == PT_LOAD) {
+            abi_ulong a = eppnt->p_vaddr - eppnt->p_offset;
             if (a < loaddr) {
                 loaddr = a;
             }
-            a = phdr[i].p_vaddr + phdr[i].p_memsz;
+            a = eppnt->p_vaddr + eppnt->p_memsz;
             if (a > hiaddr) {
                 hiaddr = a;
             }
             ++info->nsegs;
-            info->alignment |= phdr[i].p_align;
+            info->alignment |= eppnt->p_align;
         }
     }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

For BTI, we need to know if the executable is static or dynamic,
which means looking for PT_INTERP earlier.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-8-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 60 +++++++++++++++++++++++---------------------
 1 file changed, 31 insertions(+), 29 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
 
     mmap_lock();
 
-    /* Find the maximum size of the image and allocate an appropriate
-       amount of memory to handle that.  */
+    /*
+     * Find the maximum size of the image and allocate an appropriate
+     * amount of memory to handle that.  Locate the interpreter, if any.
+     */
     loaddr = -1, hiaddr = 0;
     info->alignment = 0;
     for (i = 0; i < ehdr->e_phnum; ++i) {
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
             }
             ++info->nsegs;
             info->alignment |= eppnt->p_align;
+        } else if (eppnt->p_type == PT_INTERP && pinterp_name) {
+            g_autofree char *interp_name = NULL;
+
+            if (*pinterp_name) {
+                errmsg = "Multiple PT_INTERP entries";
+                goto exit_errmsg;
+            }
+            interp_name = g_malloc(eppnt->p_filesz);
+            if (!interp_name) {
+                goto exit_perror;
+            }
+
+            if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
+                memcpy(interp_name, bprm_buf + eppnt->p_offset,
+                       eppnt->p_filesz);
+            } else {
+                retval = pread(image_fd, interp_name, eppnt->p_filesz,
+                               eppnt->p_offset);
+                if (retval != eppnt->p_filesz) {
+                    goto exit_perror;
+                }
+            }
+            if (interp_name[eppnt->p_filesz - 1] != 0) {
+                errmsg = "Invalid PT_INTERP entry";
+                goto exit_errmsg;
+            }
+            *pinterp_name = g_steal_pointer(&interp_name);
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
             if (vaddr_em > info->brk) {
                 info->brk = vaddr_em;
             }
-        } else if (eppnt->p_type == PT_INTERP && pinterp_name) {
-            g_autofree char *interp_name = NULL;
-
-            if (*pinterp_name) {
-                errmsg = "Multiple PT_INTERP entries";
-                goto exit_errmsg;
-            }
-            interp_name = g_malloc(eppnt->p_filesz);
-            if (!interp_name) {
-                goto exit_perror;
-            }
-
-            if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
-                memcpy(interp_name, bprm_buf + eppnt->p_offset,
-                       eppnt->p_filesz);
-            } else {
-                retval = pread(image_fd, interp_name, eppnt->p_filesz,
-                               eppnt->p_offset);
-                if (retval != eppnt->p_filesz) {
-                    goto exit_perror;
-                }
-            }
-            if (interp_name[eppnt->p_filesz - 1] != 0) {
-                errmsg = "Invalid PT_INTERP entry";
-                goto exit_errmsg;
-            }
-            *pinterp_name = g_steal_pointer(&interp_name);
 #ifdef TARGET_MIPS
         } else if (eppnt->p_type == PT_MIPS_ABIFLAGS) {
             Mips_elf_abiflags_v0 abiflags;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is a bit clearer than open-coding some of this
with a bare c string.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-9-richard.henderson@linaro.org
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 37 ++++++++++++++++++++-----------------
 1 file changed, 20 insertions(+), 17 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/guest-random.h"
 #include "qemu/units.h"
 #include "qemu/selfmap.h"
+#include "qapi/error.h"
 
 #ifdef _ARCH_PPC64
 #undef ARCH_DLINFO
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
     struct elf_phdr *phdr;
     abi_ulong load_addr, load_bias, loaddr, hiaddr, error;
     int i, retval;
-    const char *errmsg;
+    Error *err = NULL;
 
     /* First of all, some simple consistency checks */
-    errmsg = "Invalid ELF image for this architecture";
     if (!elf_check_ident(ehdr)) {
+        error_setg(&err, "Invalid ELF image for this architecture");
         goto exit_errmsg;
     }
     bswap_ehdr(ehdr);
     if (!elf_check_ehdr(ehdr)) {
+        error_setg(&err, "Invalid ELF image for this architecture");
         goto exit_errmsg;
     }
 
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
             g_autofree char *interp_name = NULL;
 
             if (*pinterp_name) {
-                errmsg = "Multiple PT_INTERP entries";
+                error_setg(&err, "Multiple PT_INTERP entries");
                 goto exit_errmsg;
             }
+
             interp_name = g_malloc(eppnt->p_filesz);
-            if (!interp_name) {
-                goto exit_perror;
-            }
 
             if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
                 memcpy(interp_name, bprm_buf + eppnt->p_offset,
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                 retval = pread(image_fd, interp_name, eppnt->p_filesz,
                                eppnt->p_offset);
                 if (retval != eppnt->p_filesz) {
-                    goto exit_perror;
+                    goto exit_read;
                 }
             }
             if (interp_name[eppnt->p_filesz - 1] != 0) {
-                errmsg = "Invalid PT_INTERP entry";
+                error_setg(&err, "Invalid PT_INTERP entry");
                 goto exit_errmsg;
             }
             *pinterp_name = g_steal_pointer(&interp_name);
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                             (ehdr->e_type == ET_EXEC ? MAP_FIXED : 0),
                             -1, 0);
     if (load_addr == -1) {
-        goto exit_perror;
+        goto exit_mmap;
     }
     load_bias = load_addr - loaddr;
 
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                                     image_fd, eppnt->p_offset - vaddr_po);
 
                 if (error == -1) {
-                    goto exit_perror;
+                    goto exit_mmap;
                 }
             }
 
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
         } else if (eppnt->p_type == PT_MIPS_ABIFLAGS) {
             Mips_elf_abiflags_v0 abiflags;
             if (eppnt->p_filesz < sizeof(Mips_elf_abiflags_v0)) {
-                errmsg = "Invalid PT_MIPS_ABIFLAGS entry";
+                error_setg(&err, "Invalid PT_MIPS_ABIFLAGS entry");
                 goto exit_errmsg;
             }
             if (eppnt->p_offset + eppnt->p_filesz <= BPRM_BUF_SIZE) {
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                 retval = pread(image_fd, &abiflags, sizeof(Mips_elf_abiflags_v0),
                                eppnt->p_offset);
                 if (retval != sizeof(Mips_elf_abiflags_v0)) {
-                    goto exit_perror;
+                    goto exit_read;
                 }
             }
             bswap_mips_abiflags(&abiflags);
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
 
  exit_read:
     if (retval >= 0) {
-        errmsg = "Incomplete read of file header";
-        goto exit_errmsg;
+        error_setg(&err, "Incomplete read of file header");
+    } else {
+        error_setg_errno(&err, errno, "Error reading file header");
     }
- exit_perror:
-    errmsg = strerror(errno);
+    goto exit_errmsg;
+ exit_mmap:
+    error_setg_errno(&err, errno, "Error mapping file");
+    goto exit_errmsg;
  exit_errmsg:
-    fprintf(stderr, "%s: %s\n", image_name, errmsg);
+    error_reportf_err(err, "%s: ", image_name);
     exit(-1);
 }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is slightly clearer than just using strerror, though
the different forms produced by error_setg_file_open and
error_setg_errno isn't entirely convenient.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-10-richard.henderson@linaro.org
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void load_elf_interp(const char *filename, struct image_info *info,
                             char bprm_buf[BPRM_BUF_SIZE])
 {
     int fd, retval;
+    Error *err = NULL;
 
     fd = open(path(filename), O_RDONLY);
     if (fd < 0) {
-        goto exit_perror;
+        error_setg_file_open(&err, errno, filename);
+        error_report_err(err);
+        exit(-1);
     }
 
     retval = read(fd, bprm_buf, BPRM_BUF_SIZE);
     if (retval < 0) {
-        goto exit_perror;
+        error_setg_errno(&err, errno, "Error reading file header");
+        error_reportf_err(err, "%s: ", filename);
+        exit(-1);
     }
+
     if (retval < BPRM_BUF_SIZE) {
         memset(bprm_buf + retval, 0, BPRM_BUF_SIZE - retval);
     }
 
     load_elf_image(filename, fd, info, NULL, bprm_buf);
-    return;
-
- exit_perror:
-    fprintf(stderr, "%s: %s\n", filename, strerror(errno));
-    exit(-1);
 }
 
 static int symfind(const void *s0, const void *s1)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is generic support, with the code disabled for all targets.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-11-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/qemu.h    |   4 ++
 linux-user/elfload.c | 157 +++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 161 insertions(+)

diff --git a/linux-user/qemu.h b/linux-user/qemu.h
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/qemu.h
+++ b/linux-user/qemu.h
@@ -XXX,XX +XXX,XX @@ struct image_info {
         abi_ulong       interpreter_loadmap_addr;
         abi_ulong       interpreter_pt_dynamic_addr;
         struct image_info *other_info;
+
+        /* For target-specific processing of NT_GNU_PROPERTY_TYPE_0. */
+        uint32_t        note_flags;
+
 #ifdef TARGET_MIPS
         int             fp_abi;
         int             interp_fp_abi;
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void elf_core_copy_regs(target_elf_gregset_t *regs,
 
 #include "elf.h"
 
+static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
+                                    const uint32_t *data,
+                                    struct image_info *info,
+                                    Error **errp)
+{
+    g_assert_not_reached();
+}
+#define ARCH_USE_GNU_PROPERTY 0
+
 struct exec
 {
     unsigned int a_info;   /* Use macros N_MAGIC, etc for access */
@@ -XXX,XX +XXX,XX @@ void probe_guest_base(const char *image_name, abi_ulong guest_loaddr,
                   "@ 0x%" PRIx64 "\n", (uint64_t)guest_base);
 }
 
+enum {
+    /* The string "GNU\0" as a magic number. */
+    GNU0_MAGIC = const_le32('G' | 'N' << 8 | 'U' << 16),
+    NOTE_DATA_SZ = 1 * KiB,
+    NOTE_NAME_SZ = 4,
+    ELF_GNU_PROPERTY_ALIGN = ELF_CLASS == ELFCLASS32 ? 4 : 8,
+};
+
+/*
+ * Process a single gnu_property entry.
+ * Return false for error.
+ */
+static bool parse_elf_property(const uint32_t *data, int *off, int datasz,
+                               struct image_info *info, bool have_prev_type,
+                               uint32_t *prev_type, Error **errp)
+{
+    uint32_t pr_type, pr_datasz, step;
+
+    if (*off > datasz || !QEMU_IS_ALIGNED(*off, ELF_GNU_PROPERTY_ALIGN)) {
+        goto error_data;
+    }
+    datasz -= *off;
+    data += *off / sizeof(uint32_t);
+
+    if (datasz < 2 * sizeof(uint32_t)) {
+        goto error_data;
+    }
+    pr_type = data[0];
+    pr_datasz = data[1];
+    data += 2;
+    datasz -= 2 * sizeof(uint32_t);
+    step = ROUND_UP(pr_datasz, ELF_GNU_PROPERTY_ALIGN);
+    if (step > datasz) {
+        goto error_data;
+    }
+
+    /* Properties are supposed to be unique and sorted on pr_type. */
+    if (have_prev_type && pr_type <= *prev_type) {
+        if (pr_type == *prev_type) {
+            error_setg(errp, "Duplicate property in PT_GNU_PROPERTY");
+        } else {
+            error_setg(errp, "Unsorted property in PT_GNU_PROPERTY");
+        }
+        return false;
+    }
+    *prev_type = pr_type;
+
+    if (!arch_parse_elf_property(pr_type, pr_datasz, data, info, errp)) {
+        return false;
+    }
+
+    *off += 2 * sizeof(uint32_t) + step;
+    return true;
+
+ error_data:
+    error_setg(errp, "Ill-formed property in PT_GNU_PROPERTY");
+    return false;
+}
+
+/* Process NT_GNU_PROPERTY_TYPE_0. */
+static bool parse_elf_properties(int image_fd,
+                                 struct image_info *info,
+                                 const struct elf_phdr *phdr,
+                                 char bprm_buf[BPRM_BUF_SIZE],
+                                 Error **errp)
+{
+    union {
+        struct elf_note nhdr;
+        uint32_t data[NOTE_DATA_SZ / sizeof(uint32_t)];
+    } note;
+
+    int n, off, datasz;
+    bool have_prev_type;
+    uint32_t prev_type;
+
+    /* Unless the arch requires properties, ignore them. */
+    if (!ARCH_USE_GNU_PROPERTY) {
+        return true;
+    }
+
+    /* If the properties are crazy large, that's too bad. */
+    n = phdr->p_filesz;
+    if (n > sizeof(note)) {
+        error_setg(errp, "PT_GNU_PROPERTY too large");
+        return false;
+    }
+    if (n < sizeof(note.nhdr)) {
+        error_setg(errp, "PT_GNU_PROPERTY too small");
+        return false;
+    }
+
+    if (phdr->p_offset + n <= BPRM_BUF_SIZE) {
+        memcpy(&note, bprm_buf + phdr->p_offset, n);
+    } else {
+        ssize_t len = pread(image_fd, &note, n, phdr->p_offset);
+        if (len != n) {
+            error_setg_errno(errp, errno, "Error reading file header");
+            return false;
+        }
+    }
+
+    /*
+     * The contents of a valid PT_GNU_PROPERTY is a sequence
+     * of uint32_t -- swap them all now.
+     */
+#ifdef BSWAP_NEEDED
+    for (int i = 0; i < n / 4; i++) {
+        bswap32s(note.data + i);
+    }
+#endif
+
+    /*
+     * Note that nhdr is 3 words, and that the "name" described by namesz
+     * immediately follows nhdr and is thus at the 4th word.  Further, all
+     * of the inputs to the kernel's round_up are multiples of 4.
+     */
+    if (note.nhdr.n_type != NT_GNU_PROPERTY_TYPE_0 ||
+        note.nhdr.n_namesz != NOTE_NAME_SZ ||
+        note.data[3] != GNU0_MAGIC) {
+        error_setg(errp, "Invalid note in PT_GNU_PROPERTY");
+        return false;
+    }
+    off = sizeof(note.nhdr) + NOTE_NAME_SZ;
+
+    datasz = note.nhdr.n_descsz + off;
+    if (datasz > n) {
+        error_setg(errp, "Invalid note size in PT_GNU_PROPERTY");
+        return false;
+    }
+
+    have_prev_type = false;
+    prev_type = 0;
+    while (1) {
+        if (off == datasz) {
+            return true;  /* end, exit ok */
+        }
+        if (!parse_elf_property(note.data, &off, datasz, info,
+                                have_prev_type, &prev_type, errp)) {
+            return false;
+        }
+        have_prev_type = true;
+    }
+}
+
 /* Load an ELF image into the address space.
 
    IMAGE_NAME is the filename of the image, to use in error messages.
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                 goto exit_errmsg;
             }
             *pinterp_name = g_steal_pointer(&interp_name);
+        } else if (eppnt->p_type == PT_GNU_PROPERTY) {
+            if (!parse_elf_properties(image_fd, info, eppnt, bprm_buf, &err)) {
+                goto exit_errmsg;
+            }
         }
     }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Use the new generic support for NT_GNU_PROPERTY_TYPE_0.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-12-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 linux-user/elfload.c | 48 ++++++++++++++++++++++++++++++++++++++++++--
 1 file changed, 46 insertions(+), 2 deletions(-)

diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static void elf_core_copy_regs(target_elf_gregset_t *regs,
 
 #include "elf.h"
 
+/* We must delay the following stanzas until after "elf.h". */
+#if defined(TARGET_AARCH64)
+
+static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
+                                    const uint32_t *data,
+                                    struct image_info *info,
+                                    Error **errp)
+{
+    if (pr_type == GNU_PROPERTY_AARCH64_FEATURE_1_AND) {
+        if (pr_datasz != sizeof(uint32_t)) {
+            error_setg(errp, "Ill-formed GNU_PROPERTY_AARCH64_FEATURE_1_AND");
+            return false;
+        }
+        /* We will extract GNU_PROPERTY_AARCH64_FEATURE_1_BTI later. */
+        info->note_flags = *data;
+    }
+    return true;
+}
+#define ARCH_USE_GNU_PROPERTY 1
+
+#else
+
 static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
                                     const uint32_t *data,
                                     struct image_info *info,
@@ -XXX,XX +XXX,XX @@ static bool arch_parse_elf_property(uint32_t pr_type, uint32_t pr_datasz,
 }
 #define ARCH_USE_GNU_PROPERTY 0
 
+#endif
+
 struct exec
 {
     unsigned int a_info;   /* Use macros N_MAGIC, etc for access */
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
     struct elfhdr *ehdr = (struct elfhdr *)bprm_buf;
     struct elf_phdr *phdr;
     abi_ulong load_addr, load_bias, loaddr, hiaddr, error;
-    int i, retval;
+    int i, retval, prot_exec;
     Error *err = NULL;
 
     /* First of all, some simple consistency checks */
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
     info->brk = 0;
     info->elf_flags = ehdr->e_flags;
 
+    prot_exec = PROT_EXEC;
+#ifdef TARGET_AARCH64
+    /*
+     * If the BTI feature is present, this indicates that the executable
+     * pages of the startup binary should be mapped with PROT_BTI, so that
+     * branch targets are enforced.
+     *
+     * The startup binary is either the interpreter or the static executable.
+     * The interpreter is responsible for all pages of a dynamic executable.
+     *
+     * Elf notes are backward compatible to older cpus.
+     * Do not enable BTI unless it is supported.
+     */
+    if ((info->note_flags & GNU_PROPERTY_AARCH64_FEATURE_1_BTI)
+        && (pinterp_name == NULL || *pinterp_name == 0)
+        && cpu_isar_feature(aa64_bti, ARM_CPU(thread_cpu))) {
+        prot_exec |= TARGET_PROT_BTI;
+    }
+#endif
+
     for (i = 0; i < ehdr->e_phnum; i++) {
         struct elf_phdr *eppnt = phdr + i;
         if (eppnt->p_type == PT_LOAD) {
@@ -XXX,XX +XXX,XX @@ static void load_elf_image(const char *image_name, int image_fd,
                 elf_prot |= PROT_WRITE;
             }
             if (eppnt->p_flags & PF_X) {
-                elf_prot |= PROT_EXEC;
+                elf_prot |= prot_exec;
             }
 
             vaddr = load_bias + eppnt->p_vaddr;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The note test requires gcc 10 for -mbranch-protection=standard.
The mmap test uses PROT_BTI and does not require special compiler support.

Acked-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20201021173749.111103-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/tcg/aarch64/bti-1.c         |  62 ++++++++++++++++
 tests/tcg/aarch64/bti-2.c         | 116 ++++++++++++++++++++++++++++++
 tests/tcg/aarch64/bti-crt.inc.c   |  51 +++++++++++++
 tests/tcg/aarch64/Makefile.target |  10 +++
 tests/tcg/configure.sh            |   4 ++
 5 files changed, 243 insertions(+)
 create mode 100644 tests/tcg/aarch64/bti-1.c
 create mode 100644 tests/tcg/aarch64/bti-2.c
 create mode 100644 tests/tcg/aarch64/bti-crt.inc.c

diff --git a/tests/tcg/aarch64/bti-1.c b/tests/tcg/aarch64/bti-1.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/tcg/aarch64/bti-1.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Branch target identification, basic notskip cases.
+ */
+
+#include "bti-crt.inc.c"
+
+static void skip2_sigill(int sig, siginfo_t *info, ucontext_t *uc)
+{
+    uc->uc_mcontext.pc += 8;
+    uc->uc_mcontext.pstate = 1;
+}
+
+#define NOP       "nop"
+#define BTI_N     "hint #32"
+#define BTI_C     "hint #34"
+#define BTI_J     "hint #36"
+#define BTI_JC    "hint #38"
+
+#define BTYPE_1(DEST) \
+    asm("mov %0,#1; adr x16, 1f; br x16; 1: " DEST "; mov %0,#0" \
+        : "=r"(skipped) : : "x16")
+
+#define BTYPE_2(DEST) \
+    asm("mov %0,#1; adr x16, 1f; blr x16; 1: " DEST "; mov %0,#0" \
+        : "=r"(skipped) : : "x16", "x30")
+
+#define BTYPE_3(DEST) \
+    asm("mov %0,#1; adr x15, 1f; br x15; 1: " DEST "; mov %0,#0" \
+        : "=r"(skipped) : : "x15")
+
+#define TEST(WHICH, DEST, EXPECT) \
+    do { WHICH(DEST); fail += skipped ^ EXPECT; } while (0)
+
+
+int main()
+{
+    int fail = 0;
+    int skipped;
+
+    /* Signal-like with SA_SIGINFO.  */
+    signal_info(SIGILL, skip2_sigill);
+
+    TEST(BTYPE_1, NOP, 1);
+    TEST(BTYPE_1, BTI_N, 1);
+    TEST(BTYPE_1, BTI_C, 0);
+    TEST(BTYPE_1, BTI_J, 0);
+    TEST(BTYPE_1, BTI_JC, 0);
+
+    TEST(BTYPE_2, NOP, 1);
+    TEST(BTYPE_2, BTI_N, 1);
+    TEST(BTYPE_2, BTI_C, 0);
+    TEST(BTYPE_2, BTI_J, 1);
+    TEST(BTYPE_2, BTI_JC, 0);
+
+    TEST(BTYPE_3, NOP, 1);
+    TEST(BTYPE_3, BTI_N, 1);
+    TEST(BTYPE_3, BTI_C, 1);
+    TEST(BTYPE_3, BTI_J, 0);
+    TEST(BTYPE_3, BTI_JC, 0);
+
+    return fail;
+}
diff --git a/tests/tcg/aarch64/bti-2.c b/tests/tcg/aarch64/bti-2.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/tcg/aarch64/bti-2.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Branch target identification, basic notskip cases.
+ */
+
+#include <stdio.h>
+#include <signal.h>
+#include <string.h>
+#include <unistd.h>
+#include <sys/mman.h>
+
+#ifndef PROT_BTI
+#define PROT_BTI  0x10
+#endif
+
+static void skip2_sigill(int sig, siginfo_t *info, void *vuc)
+{
+    ucontext_t *uc = vuc;
+    uc->uc_mcontext.pc += 8;
+    uc->uc_mcontext.pstate = 1;
+}
+
+#define NOP       "nop"
+#define BTI_N     "hint #32"
+#define BTI_C     "hint #34"
+#define BTI_J     "hint #36"
+#define BTI_JC    "hint #38"
+
+#define BTYPE_1(DEST)    \
+    "mov x1, #1\n\t"     \
+    "adr x16, 1f\n\t"    \
+    "br x16\n"           \
+"1: " DEST "\n\t"        \
+    "mov x1, #0"
+
+#define BTYPE_2(DEST)    \
+    "mov x1, #1\n\t"     \
+    "adr x16, 1f\n\t"    \
+    "blr x16\n"          \
+"1: " DEST "\n\t"        \
+    "mov x1, #0"
+
+#define BTYPE_3(DEST)    \
+    "mov x1, #1\n\t"     \
+    "adr x15, 1f\n\t"    \
+    "br x15\n"           \
+"1: " DEST "\n\t"        \
+    "mov x1, #0"
+
+#define TEST(WHICH, DEST, EXPECT) \
+    WHICH(DEST) "\n"              \
+    ".if " #EXPECT "\n\t"         \
+    "eor x1, x1," #EXPECT "\n"    \
+    ".endif\n\t"                  \
+    "add x0, x0, x1\n\t"
+
+asm("\n"
+"test_begin:\n\t"
+    BTI_C "\n\t"
+    "mov x2, x30\n\t"
+    "mov x0, #0\n\t"
+
+    TEST(BTYPE_1, NOP, 1)
+    TEST(BTYPE_1, BTI_N, 1)
+    TEST(BTYPE_1, BTI_C, 0)
+    TEST(BTYPE_1, BTI_J, 0)
+    TEST(BTYPE_1, BTI_JC, 0)
+
+    TEST(BTYPE_2, NOP, 1)
+    TEST(BTYPE_2, BTI_N, 1)
+    TEST(BTYPE_2, BTI_C, 0)
+    TEST(BTYPE_2, BTI_J, 1)
+    TEST(BTYPE_2, BTI_JC, 0)
+
+    TEST(BTYPE_3, NOP, 1)
+    TEST(BTYPE_3, BTI_N, 1)
+    TEST(BTYPE_3, BTI_C, 1)
+    TEST(BTYPE_3, BTI_J, 0)
+    TEST(BTYPE_3, BTI_JC, 0)
+
+    "ret x2\n"
+"test_end:"
+);
+
+int main()
+{
+    struct sigaction sa;
+    void *tb, *te;
+
+    void *p = mmap(0, getpagesize(),
+                   PROT_EXEC | PROT_READ | PROT_WRITE | PROT_BTI,
+                   MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
+    if (p == MAP_FAILED) {
+        perror("mmap");
+        return 1;
+    }
+
+    memset(&sa, 0, sizeof(sa));
+    sa.sa_sigaction = skip2_sigill;
+    sa.sa_flags = SA_SIGINFO;
+    if (sigaction(SIGILL, &sa, NULL) < 0) {
+        perror("sigaction");
+        return 1;
+    }
+
+    /*
+     * ??? With "extern char test_begin[]", some compiler versions
+     * will use :got references, and some linker versions will
+     * resolve this reference to a static symbol incorrectly.
+     * Bypass this error by using a pc-relative reference directly.
+     */
+    asm("adr %0, test_begin; adr %1, test_end" : "=r"(tb), "=r"(te));
+
+    memcpy(p, tb, te - tb);
+
+    return ((int (*)(void))p)();
+}
diff --git a/tests/tcg/aarch64/bti-crt.inc.c b/tests/tcg/aarch64/bti-crt.inc.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/tcg/aarch64/bti-crt.inc.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Minimal user-environment for testing BTI.
+ *
+ * Normal libc is not (yet) built with BTI support enabled,
+ * and so could generate a BTI TRAP before ever reaching main.
+ */
+
+#include <stdlib.h>
+#include <signal.h>
+#include <ucontext.h>
+#include <asm/unistd.h>
+
+int main(void);
+
+void _start(void)
+{
+    exit(main());
+}
+
+void exit(int ret)
+{
+    register int x0 __asm__("x0") = ret;
+    register int x8 __asm__("x8") = __NR_exit;
+
+    asm volatile("svc #0" : : "r"(x0), "r"(x8));
+    __builtin_unreachable();
+}
+
+/*
+ * Irritatingly, the user API struct sigaction does not match the
+ * kernel API struct sigaction.  So for simplicity, isolate the
+ * kernel ABI here, and make this act like signal.
+ */
+void signal_info(int sig, void (*fn)(int, siginfo_t *, ucontext_t *))
+{
+    struct kernel_sigaction {
+        void (*handler)(int, siginfo_t *, ucontext_t *);
+        unsigned long flags;
+        unsigned long restorer;
+        unsigned long mask;
+    } sa = { fn, SA_SIGINFO, 0, 0 };
+
+    register int x0 __asm__("x0") = sig;
+    register void *x1 __asm__("x1") = &sa;
+    register void *x2 __asm__("x2") = 0;
+    register int x3 __asm__("x3") = sizeof(unsigned long);
+    register int x8 __asm__("x8") = __NR_rt_sigaction;
+
+    asm volatile("svc #0"
+                 : : "r"(x0), "r"(x1), "r"(x2), "r"(x3), "r"(x8) : "memory");
+}
diff --git a/tests/tcg/aarch64/Makefile.target b/tests/tcg/aarch64/Makefile.target
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/aarch64/Makefile.target
+++ b/tests/tcg/aarch64/Makefile.target
@@ -XXX,XX +XXX,XX @@ run-pauth-%: QEMU_OPTS += -cpu max
 run-plugin-pauth-%: QEMU_OPTS += -cpu max
 endif
 
+# BTI Tests
+# bti-1 tests the elf notes, so we require special compiler support.
+ifneq ($(DOCKER_IMAGE)$(CROSS_CC_HAS_ARMV8_BTI),)
+AARCH64_TESTS += bti-1
+bti-1: CFLAGS += -mbranch-protection=standard
+bti-1: LDFLAGS += -nostdlib
+endif
+# bti-2 tests PROT_BTI, so no special compiler support required.
+AARCH64_TESTS += bti-2
+
 # Semihosting smoke test for linux-user
 AARCH64_TESTS += semihosting
 run-semihosting: semihosting
diff --git a/tests/tcg/configure.sh b/tests/tcg/configure.sh
index XXXXXXX..XXXXXXX 100755
--- a/tests/tcg/configure.sh
+++ b/tests/tcg/configure.sh
@@ -XXX,XX +XXX,XX @@ for target in $target_list; do
                -march=armv8.3-a -o $TMPE $TMPC; then
                 echo "CROSS_CC_HAS_ARMV8_3=y" >> $config_target_mak
             fi
+            if do_compiler "$target_compiler" $target_compiler_cflags \
+               -mbranch-protection=standard -o $TMPE $TMPC; then
+                echo "CROSS_CC_HAS_ARMV8_BTI=y" >> $config_target_mak
+            fi
         ;;
     esac
 
-- 
2.20.1

From: Thomas Huth <thuth@redhat.com>

When compiling with -Werror=implicit-fallthrough, gcc complains about
missing fallthrough annotations in this file. Looking at the code,
the fallthrough is very likely intended here, so add some comments
to silence the compiler warnings.

Signed-off-by: Thomas Huth <thuth@redhat.com>
Message-id: 20201020105938.23209-1-thuth@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/highbank.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/highbank.c
+++ b/hw/arm/highbank.c
@@ -XXX,XX +XXX,XX @@ static void hb_reset_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
         address_space_stl_notdirty(&address_space_memory,
                                    SMP_BOOT_REG + 0x30, 0,
                                    MEMTXATTRS_UNSPECIFIED, NULL);
+        /* fallthrough */
     case 3:
         address_space_stl_notdirty(&address_space_memory,
                                    SMP_BOOT_REG + 0x20, 0,
                                    MEMTXATTRS_UNSPECIFIED, NULL);
+        /* fallthrough */
     case 2:
         address_space_stl_notdirty(&address_space_memory,
                                    SMP_BOOT_REG + 0x10, 0,
-- 
2.20.1

From: Pavel Dovgalyuk <pavel.dovgalyuk@ispras.ru>

This patch sets min_cpus field for xlnx-versal-virt platform,
because it always creates XLNX_VERSAL_NR_ACPUS cpus even with
-smp 1 command line option.

Signed-off-by: Pavel Dovgalyuk <pavel.dovgalyuk@ispras.ru>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 160343854912.8460.17915238517799132371.stgit@pasha-ThinkPad-X280
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/xlnx-versal-virt.c | 1 +
 1 file changed, 1 insertion(+)

diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@ static void versal_virt_machine_class_init(ObjectClass *oc, void *data)
 
     mc->desc = "Xilinx Versal Virtual development board";
     mc->init = versal_virt_init;
+    mc->min_cpus = XLNX_VERSAL_NR_ACPUS;
     mc->max_cpus = XLNX_VERSAL_NR_ACPUS;
     mc->default_cpus = XLNX_VERSAL_NR_ACPUS;
     mc->no_cdrom = true;
-- 
2.20.1

From: Havard Skinnemoen <hskinnemoen@google.com>

This allows us to reuse npcm7xx_timer_pause for the watchdog timer.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/timer/npcm7xx_timer.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/hw/timer/npcm7xx_timer.c b/hw/timer/npcm7xx_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/npcm7xx_timer.c
+++ b/hw/timer/npcm7xx_timer.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_pause(NPCM7xxTimer *t)
     timer_del(&t->qtimer);
     now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
     t->remaining_ns = t->expires_ns - now;
-    if (t->remaining_ns <= 0) {
-        npcm7xx_timer_reached_zero(t);
-    }
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
         } else {
             t->tcsr &= ~NPCM7XX_TCSR_CACT;
             npcm7xx_timer_pause(t);
+            if (t->remaining_ns <= 0) {
+                npcm7xx_timer_reached_zero(t);
+            }
         }
     }
 }
-- 
2.20.1

From: Hao Wu <wuhaotsh@google.com>

The watchdog is part of NPCM7XX's timer module. Its behavior is
controlled by the WTCR register in the timer.

When enabled, the watchdog issues an interrupt signal after a pre-set
amount of cycles, and issues a reset signal shortly after that.

Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Hao Wu <wuhaotsh@google.com>
Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: deleted blank line at end of npcm_watchdog_timer-test.c]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/misc/npcm7xx_clk.h             |   2 +
 include/hw/timer/npcm7xx_timer.h          |  48 +++-
 hw/arm/npcm7xx.c                          |  12 +
 hw/misc/npcm7xx_clk.c                     |  28 ++
 hw/timer/npcm7xx_timer.c                  | 266 ++++++++++++++----
 tests/qtest/npcm7xx_watchdog_timer-test.c | 319 ++++++++++++++++++++++
 MAINTAINERS                               |   1 +
 tests/qtest/meson.build                   |   2 +-
 8 files changed, 624 insertions(+), 54 deletions(-)
 create mode 100644 tests/qtest/npcm7xx_watchdog_timer-test.c

diff --git a/include/hw/misc/npcm7xx_clk.h b/include/hw/misc/npcm7xx_clk.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/npcm7xx_clk.h
+++ b/include/hw/misc/npcm7xx_clk.h
@@ -XXX,XX +XXX,XX @@
  */
 #define NPCM7XX_CLK_NR_REGS             (0x70 / sizeof(uint32_t))
 
+#define NPCM7XX_WATCHDOG_RESET_GPIO_IN "npcm7xx-clk-watchdog-reset-gpio-in"
+
 typedef struct NPCM7xxCLKState {
     SysBusDevice parent;
 
diff --git a/include/hw/timer/npcm7xx_timer.h b/include/hw/timer/npcm7xx_timer.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/timer/npcm7xx_timer.h
+++ b/include/hw/timer/npcm7xx_timer.h
@@ -XXX,XX +XXX,XX @@
  */
 #define NPCM7XX_TIMER_NR_REGS (0x54 / sizeof(uint32_t))
 
+/* The basic watchdog timer period is 2^14 clock cycles. */
+#define NPCM7XX_WATCHDOG_BASETIME_SHIFT 14
+
+#define NPCM7XX_WATCHDOG_RESET_GPIO_OUT "npcm7xx-clk-watchdog-reset-gpio-out"
+
 typedef struct NPCM7xxTimerCtrlState NPCM7xxTimerCtrlState;
 
 /**
- * struct NPCM7xxTimer - Individual timer state.
- * @irq: GIC interrupt line to fire on expiration (if enabled).
+ * struct NPCM7xxBaseTimer - Basic functionality that both regular timer and
+ * watchdog timer use.
  * @qtimer: QEMU timer that notifies us on expiration.
  * @expires_ns: Absolute virtual expiration time.
  * @remaining_ns: Remaining time until expiration if timer is paused.
+ */
+typedef struct NPCM7xxBaseTimer {
+    QEMUTimer   qtimer;
+    int64_t     expires_ns;
+    int64_t     remaining_ns;
+} NPCM7xxBaseTimer;
+
+/**
+ * struct NPCM7xxTimer - Individual timer state.
+ * @ctrl: The timer module that owns this timer.
+ * @irq: GIC interrupt line to fire on expiration (if enabled).
+ * @base_timer: The basic timer functionality for this timer.
  * @tcsr: The Timer Control and Status Register.
  * @ticr: The Timer Initial Count Register.
  */
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxTimer {
     NPCM7xxTimerCtrlState *ctrl;
 
     qemu_irq    irq;
-    QEMUTimer   qtimer;
-    int64_t     expires_ns;
-    int64_t     remaining_ns;
+    NPCM7xxBaseTimer base_timer;
 
     uint32_t    tcsr;
     uint32_t    ticr;
 } NPCM7xxTimer;
 
+/**
+ * struct NPCM7xxWatchdogTimer - The watchdog timer state.
+ * @ctrl: The timer module that owns this timer.
+ * @irq: GIC interrupt line to fire on expiration (if enabled).
+ * @reset_signal: The GPIO used to send a reset signal.
+ * @base_timer: The basic timer functionality for this timer.
+ * @wtcr: The Watchdog Timer Control Register.
+ */
+typedef struct NPCM7xxWatchdogTimer {
+    NPCM7xxTimerCtrlState *ctrl;
+
+    qemu_irq            irq;
+    qemu_irq            reset_signal;
+    NPCM7xxBaseTimer base_timer;
+
+    uint32_t            wtcr;
+} NPCM7xxWatchdogTimer;
+
 /**
  * struct NPCM7xxTimerCtrlState - Timer Module device state.
  * @parent: System bus device.
  * @iomem: Memory region through which registers are accessed.
+ * @index: The index of this timer module.
  * @tisr: The Timer Interrupt Status Register.
- * @wtcr: The Watchdog Timer Control Register.
  * @timer: The five individual timers managed by this module.
+ * @watchdog_timer: The watchdog timer managed by this module.
  */
 struct NPCM7xxTimerCtrlState {
     SysBusDevice parent;
@@ -XXX,XX +XXX,XX @@ struct NPCM7xxTimerCtrlState {
     MemoryRegion iomem;
 
     uint32_t    tisr;
-    uint32_t    wtcr;
 
     NPCM7xxTimer timer[NPCM7XX_TIMERS_PER_CTRL];
+    NPCM7xxWatchdogTimer watchdog_timer;
 };
 
 #define TYPE_NPCM7XX_TIMER "npcm7xx-timer"
diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
     NPCM7XX_TIMER12_IRQ,
     NPCM7XX_TIMER13_IRQ,
     NPCM7XX_TIMER14_IRQ,
+    NPCM7XX_WDG0_IRQ            = 47,   /* Timer Module 0 Watchdog */
+    NPCM7XX_WDG1_IRQ,                   /* Timer Module 1 Watchdog */
+    NPCM7XX_WDG2_IRQ,                   /* Timer Module 2 Watchdog */
 };
 
 /* Total number of GIC interrupts, including internal Cortex-A9 interrupts. */
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
             qemu_irq irq = npcm7xx_irq(s, first_irq + j);
             sysbus_connect_irq(sbd, j, irq);
         }
+
+        /* IRQ for watchdogs */
+        sysbus_connect_irq(sbd, NPCM7XX_TIMERS_PER_CTRL,
+                npcm7xx_irq(s, NPCM7XX_WDG0_IRQ + i));
+        /* GPIO that connects clk module with watchdog */
+        qdev_connect_gpio_out_named(DEVICE(&s->tim[i]),
+                NPCM7XX_WATCHDOG_RESET_GPIO_OUT, 0,
+                qdev_get_gpio_in_named(DEVICE(&s->clk),
+                        NPCM7XX_WATCHDOG_RESET_GPIO_IN, i));
     }
 
     /* UART0..3 (16550 compatible) */
diff --git a/hw/misc/npcm7xx_clk.c b/hw/misc/npcm7xx_clk.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/npcm7xx_clk.c
+++ b/hw/misc/npcm7xx_clk.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/osdep.h"
 
 #include "hw/misc/npcm7xx_clk.h"
+#include "hw/timer/npcm7xx_timer.h"
 #include "migration/vmstate.h"
 #include "qemu/error-report.h"
 #include "qemu/log.h"
@@ -XXX,XX +XXX,XX @@
 #include "qemu/timer.h"
 #include "qemu/units.h"
 #include "trace.h"
+#include "sysemu/watchdog.h"
 
 #define PLLCON_LOKI     BIT(31)
 #define PLLCON_LOKS     BIT(30)
@@ -XXX,XX +XXX,XX @@ static const uint32_t cold_reset_values[NPCM7XX_CLK_NR_REGS] = {
     [NPCM7XX_CLK_AHBCKFI]       = 0x000000c8,
 };
 
+/* Register Field Definitions */
+#define NPCM7XX_CLK_WDRCR_CA9C  BIT(0) /* Cortex A9 Cores */
+
+/* The number of watchdogs that can trigger a reset. */
+#define NPCM7XX_NR_WATCHDOGS    (3)
+
 static uint64_t npcm7xx_clk_read(void *opaque, hwaddr offset, unsigned size)
 {
     uint32_t reg = offset / sizeof(uint32_t);
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_clk_write(void *opaque, hwaddr offset,
     s->regs[reg] = value;
 }
 
+/* Perform reset action triggered by a watchdog */
+static void npcm7xx_clk_perform_watchdog_reset(void *opaque, int n,
+        int level)
+{
+    NPCM7xxCLKState *clk = NPCM7XX_CLK(opaque);
+    uint32_t rcr;
+
+    g_assert(n >= 0 && n <= NPCM7XX_NR_WATCHDOGS);
+    rcr = clk->regs[NPCM7XX_CLK_WD0RCR + n];
+    if (rcr & NPCM7XX_CLK_WDRCR_CA9C) {
+        watchdog_perform_action();
+    } else {
+        qemu_log_mask(LOG_UNIMP,
+                "%s: only CPU reset is implemented. (requested 0x%" PRIx32")\n",
+                __func__, rcr);
+    }
+}
+
 static const struct MemoryRegionOps npcm7xx_clk_ops = {
     .read       = npcm7xx_clk_read,
     .write      = npcm7xx_clk_write,
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_clk_init(Object *obj)
     memory_region_init_io(&s->iomem, obj, &npcm7xx_clk_ops, s,
                           TYPE_NPCM7XX_CLK, 4 * KiB);
     sysbus_init_mmio(&s->parent, &s->iomem);
+    qdev_init_gpio_in_named(DEVICE(s), npcm7xx_clk_perform_watchdog_reset,
+            NPCM7XX_WATCHDOG_RESET_GPIO_IN, NPCM7XX_NR_WATCHDOGS);
 }
 
 static const VMStateDescription vmstate_npcm7xx_clk = {
diff --git a/hw/timer/npcm7xx_timer.c b/hw/timer/npcm7xx_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/npcm7xx_timer.c
+++ b/hw/timer/npcm7xx_timer.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/osdep.h"
 
 #include "hw/irq.h"
+#include "hw/qdev-properties.h"
 #include "hw/misc/npcm7xx_clk.h"
 #include "hw/timer/npcm7xx_timer.h"
 #include "migration/vmstate.h"
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxTimerRegisters {
 #define NPCM7XX_TCSR_PRESCALE_START     0
 #define NPCM7XX_TCSR_PRESCALE_LEN       8
 
+#define NPCM7XX_WTCR_WTCLK(rv)          extract32(rv, 10, 2)
+#define NPCM7XX_WTCR_FREEZE_EN          BIT(9)
+#define NPCM7XX_WTCR_WTE                BIT(7)
+#define NPCM7XX_WTCR_WTIE               BIT(6)
+#define NPCM7XX_WTCR_WTIS(rv)           extract32(rv, 4, 2)
+#define NPCM7XX_WTCR_WTIF               BIT(3)
+#define NPCM7XX_WTCR_WTRF               BIT(2)
+#define NPCM7XX_WTCR_WTRE               BIT(1)
+#define NPCM7XX_WTCR_WTR                BIT(0)
+
+/*
+ * The number of clock cycles between interrupt and reset in watchdog, used
+ * by the software to handle the interrupt before system is reset.
+ */
+#define NPCM7XX_WATCHDOG_INTERRUPT_TO_RESET_CYCLES 1024
+
+/* Start or resume the timer. */
+static void npcm7xx_timer_start(NPCM7xxBaseTimer *t)
+{
+    int64_t now;
+
+    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
+    t->expires_ns = now + t->remaining_ns;
+    timer_mod(&t->qtimer, t->expires_ns);
+}
+
+/* Stop counting. Record the time remaining so we can continue later. */
+static void npcm7xx_timer_pause(NPCM7xxBaseTimer *t)
+{
+    int64_t now;
+
+    timer_del(&t->qtimer);
+    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
+    t->remaining_ns = t->expires_ns - now;
+}
+
+/* Delete the timer and reset it to default state. */
+static void npcm7xx_timer_clear(NPCM7xxBaseTimer *t)
+{
+    timer_del(&t->qtimer);
+    t->expires_ns = 0;
+    t->remaining_ns = 0;
+}
+
 /*
  * Returns the index of timer in the tc->timer array. This can be used to
  * locate the registers that belong to this timer.
@@ -XXX,XX +XXX,XX @@ static uint32_t npcm7xx_timer_ns_to_count(NPCM7xxTimer *t, int64_t ns)
     return count;
 }
 
+static uint32_t npcm7xx_watchdog_timer_prescaler(const NPCM7xxWatchdogTimer *t)
+{
+    switch (NPCM7XX_WTCR_WTCLK(t->wtcr)) {
+    case 0:
+        return 1;
+    case 1:
+        return 256;
+    case 2:
+        return 2048;
+    case 3:
+        return 65536;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void npcm7xx_watchdog_timer_reset_cycles(NPCM7xxWatchdogTimer *t,
+        int64_t cycles)
+{
+    uint32_t prescaler = npcm7xx_watchdog_timer_prescaler(t);
+    int64_t ns = (NANOSECONDS_PER_SECOND / NPCM7XX_TIMER_REF_HZ) * cycles;
+
+    /*
+     * The reset function always clears the current timer. The caller of the
+     * this needs to decide whether to start the watchdog timer based on
+     * specific flag in WTCR.
+     */
+    npcm7xx_timer_clear(&t->base_timer);
+
+    ns *= prescaler;
+    t->base_timer.remaining_ns = ns;
+}
+
+static void npcm7xx_watchdog_timer_reset(NPCM7xxWatchdogTimer *t)
+{
+    int64_t cycles = 1;
+    uint32_t s = NPCM7XX_WTCR_WTIS(t->wtcr);
+
+    g_assert(s <= 3);
+
+    cycles <<= NPCM7XX_WATCHDOG_BASETIME_SHIFT;
+    cycles <<= 2 * s;
+
+    npcm7xx_watchdog_timer_reset_cycles(t, cycles);
+}
+
 /*
  * Raise the interrupt line if there's a pending interrupt and interrupts are
  * enabled for this timer. If not, lower it.
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_check_interrupt(NPCM7xxTimer *t)
     trace_npcm7xx_timer_irq(DEVICE(tc)->canonical_path, index, pending);
 }
 
-/* Start or resume the timer. */
-static void npcm7xx_timer_start(NPCM7xxTimer *t)
-{
-    int64_t now;
-
-    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
-    t->expires_ns = now + t->remaining_ns;
-    timer_mod(&t->qtimer, t->expires_ns);
-}
-
 /*
  * Called when the counter reaches zero. Sets the interrupt flag, and either
  * restarts or disables the timer.
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_reached_zero(NPCM7xxTimer *t)
     tc->tisr |= BIT(index);
 
     if (t->tcsr & NPCM7XX_TCSR_PERIODIC) {
-        t->remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
+        t->base_timer.remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
         if (t->tcsr & NPCM7XX_TCSR_CEN) {
-            npcm7xx_timer_start(t);
+            npcm7xx_timer_start(&t->base_timer);
         }
     } else {
         t->tcsr &= ~(NPCM7XX_TCSR_CEN | NPCM7XX_TCSR_CACT);
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_reached_zero(NPCM7xxTimer *t)
     npcm7xx_timer_check_interrupt(t);
 }
 
-/* Stop counting. Record the time remaining so we can continue later. */
-static void npcm7xx_timer_pause(NPCM7xxTimer *t)
-{
-    int64_t now;
-
-    timer_del(&t->qtimer);
-    now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
-    t->remaining_ns = t->expires_ns - now;
-}
 
 /*
  * Restart the timer from its initial value. If the timer was enabled and stays
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_pause(NPCM7xxTimer *t)
  */
 static void npcm7xx_timer_restart(NPCM7xxTimer *t, uint32_t old_tcsr)
 {
-    t->remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
+    t->base_timer.remaining_ns = npcm7xx_timer_count_to_ns(t, t->ticr);
 
     if (old_tcsr & t->tcsr & NPCM7XX_TCSR_CEN) {
-        npcm7xx_timer_start(t);
+        npcm7xx_timer_start(&t->base_timer);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static uint32_t npcm7xx_timer_read_tdr(NPCM7xxTimer *t)
     if (t->tcsr & NPCM7XX_TCSR_CEN) {
         int64_t now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
 
-        return npcm7xx_timer_ns_to_count(t, t->expires_ns - now);
+        return npcm7xx_timer_ns_to_count(t, t->base_timer.expires_ns - now);
     }
 
-    return npcm7xx_timer_ns_to_count(t, t->remaining_ns);
+    return npcm7xx_timer_ns_to_count(t, t->base_timer.remaining_ns);
 }
 
 static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
 
     if (npcm7xx_tcsr_prescaler(old_tcsr) != npcm7xx_tcsr_prescaler(new_tcsr)) {
         /* Recalculate time remaining based on the current TDR value. */
-        t->remaining_ns = npcm7xx_timer_count_to_ns(t, tdr);
+        t->base_timer.remaining_ns = npcm7xx_timer_count_to_ns(t, tdr);
         if (old_tcsr & t->tcsr & NPCM7XX_TCSR_CEN) {
-            npcm7xx_timer_start(t);
+            npcm7xx_timer_start(&t->base_timer);
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tcsr(NPCM7xxTimer *t, uint32_t new_tcsr)
     if ((old_tcsr ^ new_tcsr) & NPCM7XX_TCSR_CEN) {
         if (new_tcsr & NPCM7XX_TCSR_CEN) {
             t->tcsr |= NPCM7XX_TCSR_CACT;
-            npcm7xx_timer_start(t);
+            npcm7xx_timer_start(&t->base_timer);
         } else {
             t->tcsr &= ~NPCM7XX_TCSR_CACT;
-            npcm7xx_timer_pause(t);
-            if (t->remaining_ns <= 0) {
+            npcm7xx_timer_pause(&t->base_timer);
+            if (t->base_timer.remaining_ns <= 0) {
                 npcm7xx_timer_reached_zero(t);
             }
         }
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write_tisr(NPCM7xxTimerCtrlState *s, uint32_t value)
         if (value & (1U << i)) {
             npcm7xx_timer_check_interrupt(&s->timer[i]);
         }
+
     }
 }
 
+static void npcm7xx_timer_write_wtcr(NPCM7xxWatchdogTimer *t, uint32_t new_wtcr)
+{
+    uint32_t old_wtcr = t->wtcr;
+
+    /*
+     * WTIF and WTRF are cleared by writing 1. Writing 0 makes these bits
+     * unchanged.
+     */
+    if (new_wtcr & NPCM7XX_WTCR_WTIF) {
+        new_wtcr &= ~NPCM7XX_WTCR_WTIF;
+    } else if (old_wtcr & NPCM7XX_WTCR_WTIF) {
+        new_wtcr |= NPCM7XX_WTCR_WTIF;
+    }
+    if (new_wtcr & NPCM7XX_WTCR_WTRF) {
+        new_wtcr &= ~NPCM7XX_WTCR_WTRF;
+    } else if (old_wtcr & NPCM7XX_WTCR_WTRF) {
+        new_wtcr |= NPCM7XX_WTCR_WTRF;
+    }
+
+    t->wtcr = new_wtcr;
+
+    if (new_wtcr & NPCM7XX_WTCR_WTR) {
+        t->wtcr &= ~NPCM7XX_WTCR_WTR;
+        npcm7xx_watchdog_timer_reset(t);
+        if (new_wtcr & NPCM7XX_WTCR_WTE) {
+            npcm7xx_timer_start(&t->base_timer);
+        }
+    } else if ((old_wtcr ^ new_wtcr) & NPCM7XX_WTCR_WTE) {
+        if (new_wtcr & NPCM7XX_WTCR_WTE) {
+            npcm7xx_timer_start(&t->base_timer);
+        } else {
+            npcm7xx_timer_pause(&t->base_timer);
+        }
+    }
+
+}
+
 static hwaddr npcm7xx_tcsr_index(hwaddr reg)
 {
     switch (reg) {
@@ -XXX,XX +XXX,XX @@ static uint64_t npcm7xx_timer_read(void *opaque, hwaddr offset, unsigned size)
         break;
 
     case NPCM7XX_TIMER_WTCR:
-        value = s->wtcr;
+        value = s->watchdog_timer.wtcr;
         break;
 
     default:
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_write(void *opaque, hwaddr offset,
         return;
 
     case NPCM7XX_TIMER_WTCR:
-        qemu_log_mask(LOG_UNIMP, "%s: WTCR write not implemented: 0x%08x\n",
-                      __func__, value);
+        npcm7xx_timer_write_wtcr(&s->watchdog_timer, value);
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_enter_reset(Object *obj, ResetType type)
     for (i = 0; i < NPCM7XX_TIMERS_PER_CTRL; i++) {
         NPCM7xxTimer *t = &s->timer[i];
 
-        timer_del(&t->qtimer);
-        t->expires_ns = 0;
-        t->remaining_ns = 0;
+        npcm7xx_timer_clear(&t->base_timer);
         t->tcsr = 0x00000005;
         t->ticr = 0x00000000;
     }
 
     s->tisr = 0x00000000;
-    s->wtcr = 0x00000400;
+    /*
+     * Set WTCLK to 1(default) and reset all flags except WTRF.
+     * WTRF is not reset during a core domain reset.
+     */
+    s->watchdog_timer.wtcr = 0x00000400 | (s->watchdog_timer.wtcr &
+            NPCM7XX_WTCR_WTRF);
+}
+
+static void npcm7xx_watchdog_timer_expired(void *opaque)
+{
+    NPCM7xxWatchdogTimer *t = opaque;
+
+    if (t->wtcr & NPCM7XX_WTCR_WTE) {
+        if (t->wtcr & NPCM7XX_WTCR_WTIF) {
+            if (t->wtcr & NPCM7XX_WTCR_WTRE) {
+                t->wtcr |= NPCM7XX_WTCR_WTRF;
+                /* send reset signal to CLK module*/
+                qemu_irq_raise(t->reset_signal);
+            }
+        } else {
+            t->wtcr |= NPCM7XX_WTCR_WTIF;
+            if (t->wtcr & NPCM7XX_WTCR_WTIE) {
+                /* send interrupt */
+                qemu_irq_raise(t->irq);
+            }
+            npcm7xx_watchdog_timer_reset_cycles(t,
+                    NPCM7XX_WATCHDOG_INTERRUPT_TO_RESET_CYCLES);
+            npcm7xx_timer_start(&t->base_timer);
+        }
+    }
 }
 
 static void npcm7xx_timer_hold_reset(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_hold_reset(Object *obj)
     for (i = 0; i < NPCM7XX_TIMERS_PER_CTRL; i++) {
         qemu_irq_lower(s->timer[i].irq);
     }
+    qemu_irq_lower(s->watchdog_timer.irq);
 }
 
 static void npcm7xx_timer_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_timer_realize(DeviceState *dev, Error **errp)
     NPCM7xxTimerCtrlState *s = NPCM7XX_TIMER(dev);
     SysBusDevice *sbd = &s->parent;
     int i;
+    NPCM7xxWatchdogTimer *w;
 
     for (i = 0; i < NPCM7XX_TIMERS_PER_CTRL; i++) {
         NPCM7xxTimer *t = &s->timer[i];
         t->ctrl = s;
-        timer_init_ns(&t->qtimer, QEMU_CLOCK_VIRTUAL, npcm7xx_timer_expired, t);
+        timer_init_ns(&t->base_timer.qtimer, QEMU_CLOCK_VIRTUAL,
+                npcm7xx_timer_expired, t);
         sysbus_init_irq(sbd, &t->irq);
     }
 
+    w = &s->watchdog_timer;
+    w->ctrl = s;
+    timer_init_ns(&w->base_timer.qtimer, QEMU_CLOCK_VIRTUAL,
+            npcm7xx_watchdog_timer_expired, w);
+    sysbus_init_irq(sbd, &w->irq);
+
     memory_region_init_io(&s->iomem, OBJECT(s), &npcm7xx_timer_ops, s,
                           TYPE_NPCM7XX_TIMER, 4 * KiB);
     sysbus_init_mmio(sbd, &s->iomem);
+    qdev_init_gpio_out_named(dev, &w->reset_signal,
+            NPCM7XX_WATCHDOG_RESET_GPIO_OUT, 1);
 }
 
-static const VMStateDescription vmstate_npcm7xx_timer = {
-    .name = "npcm7xx-timer",
+static const VMStateDescription vmstate_npcm7xx_base_timer = {
+    .name = "npcm7xx-base-timer",
     .version_id = 0,
     .minimum_version_id = 0,
     .fields = (VMStateField[]) {
-        VMSTATE_TIMER(qtimer, NPCM7xxTimer),
-        VMSTATE_INT64(expires_ns, NPCM7xxTimer),
-        VMSTATE_INT64(remaining_ns, NPCM7xxTimer),
+        VMSTATE_TIMER(qtimer, NPCM7xxBaseTimer),
+        VMSTATE_INT64(expires_ns, NPCM7xxBaseTimer),
+        VMSTATE_INT64(remaining_ns, NPCM7xxBaseTimer),
+        VMSTATE_END_OF_LIST(),
+    },
+};
+
+static const VMStateDescription vmstate_npcm7xx_timer = {
+    .name = "npcm7xx-timer",
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_STRUCT(base_timer, NPCM7xxTimer,
+                             0, vmstate_npcm7xx_base_timer,
+                             NPCM7xxBaseTimer),
         VMSTATE_UINT32(tcsr, NPCM7xxTimer),
         VMSTATE_UINT32(ticr, NPCM7xxTimer),
         VMSTATE_END_OF_LIST(),
     },
 };
 
-static const VMStateDescription vmstate_npcm7xx_timer_ctrl = {
-    .name = "npcm7xx-timer-ctrl",
+static const VMStateDescription vmstate_npcm7xx_watchdog_timer = {
+    .name = "npcm7xx-watchdog-timer",
     .version_id = 0,
     .minimum_version_id = 0,
+    .fields = (VMStateField[]) {
+        VMSTATE_STRUCT(base_timer, NPCM7xxWatchdogTimer,
+                             0, vmstate_npcm7xx_base_timer,
+                             NPCM7xxBaseTimer),
+        VMSTATE_UINT32(wtcr, NPCM7xxWatchdogTimer),
+        VMSTATE_END_OF_LIST(),
+    },
+};
+
+static const VMStateDescription vmstate_npcm7xx_timer_ctrl = {
+    .name = "npcm7xx-timer-ctrl",
+    .version_id = 1,
+    .minimum_version_id = 1,
     .fields = (VMStateField[]) {
         VMSTATE_UINT32(tisr, NPCM7xxTimerCtrlState),
-        VMSTATE_UINT32(wtcr, NPCM7xxTimerCtrlState),
         VMSTATE_STRUCT_ARRAY(timer, NPCM7xxTimerCtrlState,
                              NPCM7XX_TIMERS_PER_CTRL, 0, vmstate_npcm7xx_timer,
                              NPCM7xxTimer),
+        VMSTATE_STRUCT(watchdog_timer, NPCM7xxTimerCtrlState,
+                             0, vmstate_npcm7xx_watchdog_timer,
+                             NPCM7xxWatchdogTimer),
         VMSTATE_END_OF_LIST(),
     },
 };
diff --git a/tests/qtest/npcm7xx_watchdog_timer-test.c b/tests/qtest/npcm7xx_watchdog_timer-test.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/qtest/npcm7xx_watchdog_timer-test.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QTests for Nuvoton NPCM7xx Timer Watchdog Modules.
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/timer.h"
+
+#include "libqos/libqtest.h"
+#include "qapi/qmp/qdict.h"
+
+#define WTCR_OFFSET     0x1c
+#define REF_HZ          (25000000)
+
+/* WTCR bit fields */
+#define WTCLK(rv)       ((rv) << 10)
+#define WTE             BIT(7)
+#define WTIE            BIT(6)
+#define WTIS(rv)        ((rv) << 4)
+#define WTIF            BIT(3)
+#define WTRF            BIT(2)
+#define WTRE            BIT(1)
+#define WTR             BIT(0)
+
+typedef struct Watchdog {
+    int irq;
+    uint64_t base_addr;
+} Watchdog;
+
+static const Watchdog watchdog_list[] = {
+    {
+        .irq        = 47,
+        .base_addr  = 0xf0008000
+    },
+    {
+        .irq        = 48,
+        .base_addr  = 0xf0009000
+    },
+    {
+        .irq        = 49,
+        .base_addr  = 0xf000a000
+    }
+};
+
+static int watchdog_index(const Watchdog *wd)
+{
+    ptrdiff_t diff = wd - watchdog_list;
+
+    g_assert(diff >= 0 && diff < ARRAY_SIZE(watchdog_list));
+
+    return diff;
+}
+
+static uint32_t watchdog_read_wtcr(QTestState *qts, const Watchdog *wd)
+{
+    return qtest_readl(qts, wd->base_addr + WTCR_OFFSET);
+}
+
+static void watchdog_write_wtcr(QTestState *qts, const Watchdog *wd,
+        uint32_t value)
+{
+    qtest_writel(qts, wd->base_addr + WTCR_OFFSET, value);
+}
+
+static uint32_t watchdog_prescaler(QTestState *qts, const Watchdog *wd)
+{
+    switch (extract32(watchdog_read_wtcr(qts, wd), 10, 2)) {
+    case 0:
+        return 1;
+    case 1:
+        return 256;
+    case 2:
+        return 2048;
+    case 3:
+        return 65536;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static QDict *get_watchdog_action(QTestState *qts)
+{
+    QDict *ev = qtest_qmp_eventwait_ref(qts, "WATCHDOG");
+    QDict *data;
+
+    data = qdict_get_qdict(ev, "data");
+    qobject_ref(data);
+    qobject_unref(ev);
+    return data;
+}
+
+#define RESET_CYCLES 1024
+static uint32_t watchdog_interrupt_cycles(QTestState *qts, const Watchdog *wd)
+{
+    uint32_t wtis = extract32(watchdog_read_wtcr(qts, wd), 4, 2);
+    return 1 << (14 + 2 * wtis);
+}
+
+static int64_t watchdog_calculate_steps(uint32_t count, uint32_t prescale)
+{
+    return (NANOSECONDS_PER_SECOND / REF_HZ) * count * prescale;
+}
+
+static int64_t watchdog_interrupt_steps(QTestState *qts, const Watchdog *wd)
+{
+    return watchdog_calculate_steps(watchdog_interrupt_cycles(qts, wd),
+            watchdog_prescaler(qts, wd));
+}
+
+/* Check wtcr can be reset to default value */
+static void test_init(gconstpointer watchdog)
+{
+    const Watchdog *wd = watchdog;
+    QTestState *qts = qtest_init("-machine quanta-gsj");
+
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+
+    watchdog_write_wtcr(qts, wd, WTCLK(1) | WTRF | WTIF | WTR);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(1));
+
+    qtest_quit(qts);
+}
+
+/* Check a watchdog can generate interrupt and reset actions */
+static void test_reset_action(gconstpointer watchdog)
+{
+    const Watchdog *wd = watchdog;
+    QTestState *qts = qtest_init("-machine quanta-gsj");
+    QDict *ad;
+
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+
+    watchdog_write_wtcr(qts, wd,
+            WTCLK(0) | WTE | WTRF | WTRE | WTIF | WTIE | WTR);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==,
+            WTCLK(0) | WTE | WTRE | WTIE);
+
+    /* Check a watchdog can generate an interrupt */
+    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==,
+            WTCLK(0) | WTE | WTIF | WTIE | WTRE);
+    g_assert_true(qtest_get_irq(qts, wd->irq));
+
+    /* Check a watchdog can generate a reset signal */
+    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
+                watchdog_prescaler(qts, wd)));
+    ad = get_watchdog_action(qts);
+    /* The signal is a reset signal */
+    g_assert_false(strcmp(qdict_get_str(ad, "action"), "reset"));
+    qobject_unref(ad);
+    qtest_qmp_eventwait(qts, "RESET");
+    /*
+     * Make sure WTCR is reset to default except for WTRF bit which shouldn't
+     * be reset.
+     */
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(1) | WTRF);
+    qtest_quit(qts);
+}
+
+/* Check a watchdog works with all possible WTCLK prescalers and WTIS cycles */
+static void test_prescaler(gconstpointer watchdog)
+{
+    const Watchdog *wd = watchdog;
+
+    for (int wtclk = 0; wtclk < 4; ++wtclk) {
+        for (int wtis = 0; wtis < 4; ++wtis) {
+            QTestState *qts = qtest_init("-machine quanta-gsj");
+
+            qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+            watchdog_write_wtcr(qts, wd,
+                    WTCLK(wtclk) | WTE | WTIF | WTIS(wtis) | WTIE | WTR);
+            /*
+             * The interrupt doesn't fire until watchdog_interrupt_steps()
+             * cycles passed
+             */
+            qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd) - 1);
+            g_assert_false(watchdog_read_wtcr(qts, wd) & WTIF);
+            g_assert_false(qtest_get_irq(qts, wd->irq));
+            qtest_clock_step(qts, 1);
+            g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
+            g_assert_true(qtest_get_irq(qts, wd->irq));
+
+            qtest_quit(qts);
+        }
+    }
+}
+
+/*
+ * Check a watchdog doesn't fire if corresponding flags (WTIE and WTRE) are not
+ * set.
+ */
+static void test_enabling_flags(gconstpointer watchdog)
+{
+    const Watchdog *wd = watchdog;
+    QTestState *qts;
+
+    /* Neither WTIE or WTRE is set, no interrupt or reset should happen */
+    qts = qtest_init("-machine quanta-gsj");
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTRF | WTR);
+    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
+    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
+    g_assert_false(qtest_get_irq(qts, wd->irq));
+    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
+                watchdog_prescaler(qts, wd)));
+    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
+    g_assert_false(watchdog_read_wtcr(qts, wd) & WTRF);
+    qtest_quit(qts);
+
+    /* Only WTIE is set, interrupt is triggered but reset should not happen */
+    qts = qtest_init("-machine quanta-gsj");
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTIE | WTRF | WTR);
+    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
+    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
+    g_assert_true(qtest_get_irq(qts, wd->irq));
+    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
+                watchdog_prescaler(qts, wd)));
+    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
+    g_assert_false(watchdog_read_wtcr(qts, wd) & WTRF);
+    qtest_quit(qts);
+
+    /* Only WTRE is set, interrupt is triggered but reset should not happen */
+    qts = qtest_init("-machine quanta-gsj");
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTRE | WTRF | WTR);
+    qtest_clock_step(qts, watchdog_interrupt_steps(qts, wd));
+    g_assert_true(watchdog_read_wtcr(qts, wd) & WTIF);
+    g_assert_false(qtest_get_irq(qts, wd->irq));
+    qtest_clock_step(qts, watchdog_calculate_steps(RESET_CYCLES,
+                watchdog_prescaler(qts, wd)));
+    g_assert_false(strcmp(qdict_get_str(get_watchdog_action(qts), "action"),
+                "reset"));
+    qtest_qmp_eventwait(qts, "RESET");
+    qtest_quit(qts);
+
+    /*
+     * The case when both flags are set is already tested in
+     * test_reset_action().
+     */
+}
+
+/* Check a watchdog can pause and resume by setting WTE bits */
+static void test_pause(gconstpointer watchdog)
+{
+    const Watchdog *wd = watchdog;
+    QTestState *qts;
+    int64_t remaining_steps, steps;
+
+    qts = qtest_init("-machine quanta-gsj");
+    qtest_irq_intercept_in(qts, "/machine/soc/a9mpcore/gic");
+    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIF | WTIE | WTRF | WTR);
+    remaining_steps = watchdog_interrupt_steps(qts, wd);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTE | WTIE);
+
+    /* Run for half of the execution period. */
+    steps = remaining_steps / 2;
+    remaining_steps -= steps;
+    qtest_clock_step(qts, steps);
+
+    /* Pause the watchdog */
+    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTIE);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTIE);
+
+    /* Run for a long period of time, the watchdog shouldn't fire */
+    qtest_clock_step(qts, steps << 4);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTIE);
+    g_assert_false(qtest_get_irq(qts, wd->irq));
+
+    /* Resume the watchdog */
+    watchdog_write_wtcr(qts, wd, WTCLK(0) | WTE | WTIE);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==, WTCLK(0) | WTE | WTIE);
+
+    /* Run for the reset of the execution period, the watchdog should fire */
+    qtest_clock_step(qts, remaining_steps);
+    g_assert_cmphex(watchdog_read_wtcr(qts, wd), ==,
+            WTCLK(0) | WTE | WTIF | WTIE);
+    g_assert_true(qtest_get_irq(qts, wd->irq));
+
+    qtest_quit(qts);
+}
+
+static void watchdog_add_test(const char *name, const Watchdog* wd,
+        GTestDataFunc fn)
+{
+    g_autofree char *full_name = g_strdup_printf(
+            "npcm7xx_watchdog_timer[%d]/%s", watchdog_index(wd), name);
+    qtest_add_data_func(full_name, wd, fn);
+}
+#define add_test(name, td) watchdog_add_test(#name, td, test_##name)
+
+int main(int argc, char **argv)
+{
+    g_test_init(&argc, &argv, NULL);
+    g_test_set_nonfatal_assertions();
+
+    for (int i = 0; i < ARRAY_SIZE(watchdog_list); ++i) {
+        const Watchdog *wd = &watchdog_list[i];
+
+        add_test(init, wd);
+        add_test(reset_action, wd);
+        add_test(prescaler, wd);
+        add_test(enabling_flags, wd);
+        add_test(pause, wd);
+    }
+
+    return g_test_run();
+}
diff --git a/MAINTAINERS b/MAINTAINERS
index XXXXXXX..XXXXXXX 100644
--- a/MAINTAINERS
+++ b/MAINTAINERS
@@ -XXX,XX +XXX,XX @@ L: qemu-arm@nongnu.org
 S: Supported
 F: hw/*/npcm7xx*
 F: include/hw/*/npcm7xx*
+F: tests/qtest/npcm7xx*
 F: pc-bios/npcm7xx_bootrom.bin
 F: roms/vbootrom
 
diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/meson.build
+++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qtests_sparc64 = \
   (config_all_devices.has_key('CONFIG_ISA_TESTDEV') ? ['endianness-test'] : []) +            \
   ['prom-env-test', 'boot-serial-test']
 
-qtests_npcm7xx = ['npcm7xx_timer-test']
+qtests_npcm7xx = ['npcm7xx_timer-test', 'npcm7xx_watchdog_timer-test']
 qtests_arm = \
   (config_all_devices.has_key('CONFIG_PFLASH_CFI02') ? ['pflash-cfi02-test'] : []) +         \
   (config_all_devices.has_key('CONFIG_NPCM7XX') ? qtests_npcm7xx : []) + \
-- 
2.20.1

From: Havard Skinnemoen <hskinnemoen@google.com>

The RNG module returns a byte of randomness when the Data Valid bit is
set.

This implementation ignores the prescaler setting, and loads a new value
into RNGD every time RNGCS is read while the RNG is enabled and random
data is available.

A qtest featuring some simple randomness tests is included.

Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/nuvoton.rst    |   2 +-
 include/hw/arm/npcm7xx.h       |   2 +
 include/hw/misc/npcm7xx_rng.h  |  34 ++++
 hw/arm/npcm7xx.c               |   7 +-
 hw/misc/npcm7xx_rng.c          | 180 +++++++++++++++++++++
 tests/qtest/npcm7xx_rng-test.c | 278 +++++++++++++++++++++++++++++++++
 hw/misc/meson.build            |   1 +
 hw/misc/trace-events           |   4 +
 tests/qtest/meson.build        |   5 +-
 9 files changed, 510 insertions(+), 3 deletions(-)
 create mode 100644 include/hw/misc/npcm7xx_rng.h
 create mode 100644 hw/misc/npcm7xx_rng.c
 create mode 100644 tests/qtest/npcm7xx_rng-test.c

diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/nuvoton.rst
+++ b/docs/system/arm/nuvoton.rst
@@ -XXX,XX +XXX,XX @@ Supported devices
  * DDR4 memory controller (dummy interface indicating memory training is done)
  * OTP controllers (no protection features)
  * Flash Interface Unit (FIU; no protection features)
+ * Random Number Generator (RNG)
 
 Missing devices
 ---------------
@@ -XXX,XX +XXX,XX @@ Missing devices
  * Peripheral SPI controller (PSPI)
  * Analog to Digital Converter (ADC)
  * SD/MMC host
- * Random Number Generator (RNG)
  * PECI interface
  * Pulse Width Modulation (PWM)
  * Tachometer
diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/npcm7xx.h
+++ b/include/hw/arm/npcm7xx.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/mem/npcm7xx_mc.h"
 #include "hw/misc/npcm7xx_clk.h"
 #include "hw/misc/npcm7xx_gcr.h"
+#include "hw/misc/npcm7xx_rng.h"
 #include "hw/nvram/npcm7xx_otp.h"
 #include "hw/timer/npcm7xx_timer.h"
 #include "hw/ssi/npcm7xx_fiu.h"
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
     NPCM7xxOTPState     key_storage;
     NPCM7xxOTPState     fuse_array;
     NPCM7xxMCState      mc;
+    NPCM7xxRNGState     rng;
     NPCM7xxFIUState     fiu[2];
 } NPCM7xxState;
 
diff --git a/include/hw/misc/npcm7xx_rng.h b/include/hw/misc/npcm7xx_rng.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/misc/npcm7xx_rng.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Nuvoton NPCM7xx Random Number Generator.
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+#ifndef NPCM7XX_RNG_H
+#define NPCM7XX_RNG_H
+
+#include "hw/sysbus.h"
+
+typedef struct NPCM7xxRNGState {
+    SysBusDevice parent;
+
+    MemoryRegion iomem;
+
+    uint8_t rngcs;
+    uint8_t rngd;
+    uint8_t rngmode;
+} NPCM7xxRNGState;
+
+#define TYPE_NPCM7XX_RNG "npcm7xx-rng"
+#define NPCM7XX_RNG(obj) OBJECT_CHECK(NPCM7xxRNGState, (obj), TYPE_NPCM7XX_RNG)
+
+#endif /* NPCM7XX_RNG_H */
diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@
 #define NPCM7XX_GCR_BA          (0xf0800000)
 #define NPCM7XX_CLK_BA          (0xf0801000)
 #define NPCM7XX_MC_BA           (0xf0824000)
+#define NPCM7XX_RNG_BA          (0xf000b000)
 
 /* Internal AHB SRAM */
 #define NPCM7XX_RAM3_BA         (0xc0008000)
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
     object_initialize_child(obj, "otp2", &s->fuse_array,
                             TYPE_NPCM7XX_FUSE_ARRAY);
     object_initialize_child(obj, "mc", &s->mc, TYPE_NPCM7XX_MC);
+    object_initialize_child(obj, "rng", &s->rng, TYPE_NPCM7XX_RNG);
 
     for (i = 0; i < ARRAY_SIZE(s->tim); i++) {
         object_initialize_child(obj, "tim[*]", &s->tim[i], TYPE_NPCM7XX_TIMER);
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
                        serial_hd(i), DEVICE_LITTLE_ENDIAN);
     }
 
+    /* Random Number Generator. Cannot fail. */
+    sysbus_realize(SYS_BUS_DEVICE(&s->rng), &error_abort);
+    sysbus_mmio_map(SYS_BUS_DEVICE(&s->rng), 0, NPCM7XX_RNG_BA);
+
     /*
      * Flash Interface Unit (FIU). Can fail if incorrect number of chip selects
      * specified, but this is a programming error.
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
     create_unimplemented_device("npcm7xx.vdmx",         0xe0800000,   4 * KiB);
     create_unimplemented_device("npcm7xx.pcierc",       0xe1000000,  64 * KiB);
     create_unimplemented_device("npcm7xx.kcs",          0xf0007000,   4 * KiB);
-    create_unimplemented_device("npcm7xx.rng",          0xf000b000,   4 * KiB);
     create_unimplemented_device("npcm7xx.adc",          0xf000c000,   4 * KiB);
     create_unimplemented_device("npcm7xx.gfxi",         0xf000e000,   4 * KiB);
     create_unimplemented_device("npcm7xx.gpio[0]",      0xf0010000,   4 * KiB);
diff --git a/hw/misc/npcm7xx_rng.c b/hw/misc/npcm7xx_rng.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/misc/npcm7xx_rng.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Nuvoton NPCM7xx Random Number Generator.
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+
+#include "qemu/osdep.h"
+
+#include "hw/misc/npcm7xx_rng.h"
+#include "migration/vmstate.h"
+#include "qemu/bitops.h"
+#include "qemu/guest-random.h"
+#include "qemu/log.h"
+#include "qemu/module.h"
+#include "qemu/units.h"
+
+#include "trace.h"
+
+#define NPCM7XX_RNG_REGS_SIZE   (4 * KiB)
+
+#define NPCM7XX_RNGCS           (0x00)
+#define NPCM7XX_RNGCS_CLKP(rv)      extract32(rv, 2, 4)
+#define NPCM7XX_RNGCS_DVALID        BIT(1)
+#define NPCM7XX_RNGCS_RNGE          BIT(0)
+
+#define NPCM7XX_RNGD            (0x04)
+#define NPCM7XX_RNGMODE         (0x08)
+#define NPCM7XX_RNGMODE_NORMAL      (0x02)
+
+static bool npcm7xx_rng_is_enabled(NPCM7xxRNGState *s)
+{
+    return (s->rngcs & NPCM7XX_RNGCS_RNGE) &&
+        (s->rngmode == NPCM7XX_RNGMODE_NORMAL);
+}
+
+static uint64_t npcm7xx_rng_read(void *opaque, hwaddr offset, unsigned size)
+{
+    NPCM7xxRNGState *s = opaque;
+    uint64_t value = 0;
+
+    switch (offset) {
+    case NPCM7XX_RNGCS:
+        /*
+         * If the RNG is enabled, but we don't have any valid random data, try
+         * obtaining some and update the DVALID bit accordingly.
+         */
+        if (!npcm7xx_rng_is_enabled(s)) {
+            s->rngcs &= ~NPCM7XX_RNGCS_DVALID;
+        } else if (!(s->rngcs & NPCM7XX_RNGCS_DVALID)) {
+            uint8_t byte = 0;
+
+            if (qemu_guest_getrandom(&byte, sizeof(byte), NULL) == 0) {
+                s->rngd = byte;
+                s->rngcs |= NPCM7XX_RNGCS_DVALID;
+            }
+        }
+        value = s->rngcs;
+        break;
+    case NPCM7XX_RNGD:
+        if (npcm7xx_rng_is_enabled(s) && s->rngcs & NPCM7XX_RNGCS_DVALID) {
+            s->rngcs &= ~NPCM7XX_RNGCS_DVALID;
+            value = s->rngd;
+            s->rngd = 0;
+        }
+        break;
+    case NPCM7XX_RNGMODE:
+        value = s->rngmode;
+        break;
+
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: read from invalid offset 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, offset);
+        break;
+    }
+
+    trace_npcm7xx_rng_read(offset, value, size);
+
+    return value;
+}
+
+static void npcm7xx_rng_write(void *opaque, hwaddr offset, uint64_t value,
+                              unsigned size)
+{
+    NPCM7xxRNGState *s = opaque;
+
+    trace_npcm7xx_rng_write(offset, value, size);
+
+    switch (offset) {
+    case NPCM7XX_RNGCS:
+        s->rngcs &= NPCM7XX_RNGCS_DVALID;
+        s->rngcs |= value & ~NPCM7XX_RNGCS_DVALID;
+        break;
+    case NPCM7XX_RNGD:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: write to read-only register @ 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, offset);
+        break;
+    case NPCM7XX_RNGMODE:
+        s->rngmode = value;
+        break;
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: write to invalid offset 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, offset);
+        break;
+    }
+}
+
+static const MemoryRegionOps npcm7xx_rng_ops = {
+    .read = npcm7xx_rng_read,
+    .write = npcm7xx_rng_write,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid = {
+        .min_access_size = 1,
+        .max_access_size = 4,
+        .unaligned = false,
+    },
+};
+
+static void npcm7xx_rng_enter_reset(Object *obj, ResetType type)
+{
+    NPCM7xxRNGState *s = NPCM7XX_RNG(obj);
+
+    s->rngcs = 0;
+    s->rngd = 0;
+    s->rngmode = 0;
+}
+
+static void npcm7xx_rng_init(Object *obj)
+{
+    NPCM7xxRNGState *s = NPCM7XX_RNG(obj);
+
+    memory_region_init_io(&s->iomem, obj, &npcm7xx_rng_ops, s, "regs",
+                          NPCM7XX_RNG_REGS_SIZE);
+    sysbus_init_mmio(&s->parent, &s->iomem);
+}
+
+static const VMStateDescription vmstate_npcm7xx_rng = {
+    .name = "npcm7xx-rng",
+    .version_id = 0,
+    .minimum_version_id = 0,
+    .fields = (VMStateField[]) {
+        VMSTATE_UINT8(rngcs, NPCM7xxRNGState),
+        VMSTATE_UINT8(rngd, NPCM7xxRNGState),
+        VMSTATE_UINT8(rngmode, NPCM7xxRNGState),
+        VMSTATE_END_OF_LIST(),
+    },
+};
+
+static void npcm7xx_rng_class_init(ObjectClass *klass, void *data)
+{
+    ResettableClass *rc = RESETTABLE_CLASS(klass);
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->desc = "NPCM7xx Random Number Generator";
+    dc->vmsd = &vmstate_npcm7xx_rng;
+    rc->phases.enter = npcm7xx_rng_enter_reset;
+}
+
+static const TypeInfo npcm7xx_rng_types[] = {
+    {
+        .name = TYPE_NPCM7XX_RNG,
+        .parent = TYPE_SYS_BUS_DEVICE,
+        .instance_size = sizeof(NPCM7xxRNGState),
+        .class_init = npcm7xx_rng_class_init,
+        .instance_init = npcm7xx_rng_init,
+    },
+};
+DEFINE_TYPES(npcm7xx_rng_types);
diff --git a/tests/qtest/npcm7xx_rng-test.c b/tests/qtest/npcm7xx_rng-test.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/qtest/npcm7xx_rng-test.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QTest testcase for the Nuvoton NPCM7xx Random Number Generator
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+
+#include "qemu/osdep.h"
+
+#include <math.h>
+
+#include "libqtest-single.h"
+#include "qemu/bitops.h"
+
+#define RNG_BASE_ADDR   0xf000b000
+
+/* Control and Status Register */
+#define RNGCS   0x00
+# define DVALID     BIT(1)  /* Data Valid */
+# define RNGE       BIT(0)  /* RNG Enable */
+/* Data Register */
+#define RNGD    0x04
+/* Mode Register */
+#define RNGMODE 0x08
+# define ROSEL_NORMAL   (2) /* RNG only works in this mode */
+
+/* Number of bits to collect for randomness tests. */
+#define TEST_INPUT_BITS  (128)
+
+static void rng_writeb(unsigned int offset, uint8_t value)
+{
+    writeb(RNG_BASE_ADDR + offset, value);
+}
+
+static uint8_t rng_readb(unsigned int offset)
+{
+    return readb(RNG_BASE_ADDR + offset);
+}
+
+/* Disable RNG and set normal ring oscillator mode. */
+static void rng_reset(void)
+{
+    rng_writeb(RNGCS, 0);
+    rng_writeb(RNGMODE, ROSEL_NORMAL);
+}
+
+/* Reset RNG and then enable it. */
+static void rng_reset_enable(void)
+{
+    rng_reset();
+    rng_writeb(RNGCS, RNGE);
+}
+
+/* Wait until Data Valid bit is set. */
+static bool rng_wait_ready(void)
+{
+    /* qemu_guest_getrandom may fail. Assume it won't fail 10 times in a row. */
+    int retries = 10;
+
+    while (retries-- > 0) {
+        if (rng_readb(RNGCS) & DVALID) {
+            return true;
+        }
+    }
+
+    return false;
+}
+
+/*
+ * Perform a frequency (monobit) test, as defined by NIST SP 800-22, on the
+ * sequence in buf and return the P-value. This represents the probability of a
+ * truly random sequence having the same proportion of zeros and ones as the
+ * sequence in buf.
+ *
+ * An RNG which always returns 0x00 or 0xff, or has some bits stuck at 0 or 1,
+ * will fail this test. However, an RNG which always returns 0x55, 0xf0 or some
+ * other value with an equal number of zeroes and ones will pass.
+ */
+static double calc_monobit_p(const uint8_t *buf, unsigned int len)
+{
+    unsigned int i;
+    double s_obs;
+    int sn = 0;
+
+    for (i = 0; i < len; i++) {
+        /*
+         * Each 1 counts as 1, each 0 counts as -1.
+         * s = cp - (8 - cp) = 2 * cp - 8
+         */
+        sn += 2 * ctpop8(buf[i]) - 8;
+    }
+
+    s_obs = abs(sn) / sqrt(len * BITS_PER_BYTE);
+
+    return erfc(s_obs / sqrt(2));
+}
+
+/*
+ * Perform a runs test, as defined by NIST SP 800-22, and return the P-value.
+ * This represents the probability of a truly random sequence having the same
+ * number of runs (i.e. uninterrupted sequences of identical bits) as the
+ * sequence in buf.
+ */
+static double calc_runs_p(const unsigned long *buf, unsigned int nr_bits)
+{
+    unsigned int j;
+    unsigned int k;
+    int nr_ones = 0;
+    int vn_obs = 0;
+    double pi;
+
+    g_assert(nr_bits % BITS_PER_LONG == 0);
+
+    for (j = 0; j < nr_bits / BITS_PER_LONG; j++) {
+        nr_ones += __builtin_popcountl(buf[j]);
+    }
+    pi = (double)nr_ones / nr_bits;
+
+    for (k = 0; k < nr_bits - 1; k++) {
+        vn_obs += !(test_bit(k, buf) ^ test_bit(k + 1, buf));
+    }
+    vn_obs += 1;
+
+    return erfc(fabs(vn_obs - 2 * nr_bits * pi * (1.0 - pi))
+                / (2 * sqrt(2 * nr_bits) * pi * (1.0 - pi)));
+}
+
+/*
+ * Verifies that DVALID is clear, and RNGD reads zero, when RNGE is cleared,
+ * and DVALID eventually becomes set when RNGE is set.
+ */
+static void test_enable_disable(void)
+{
+    /* Disable: DVALID should not be set, and RNGD should read zero */
+    rng_reset();
+    g_assert_cmphex(rng_readb(RNGCS), ==, 0);
+    g_assert_cmphex(rng_readb(RNGD), ==, 0);
+
+    /* Enable: DVALID should be set, but we can't make assumptions about RNGD */
+    rng_writeb(RNGCS, RNGE);
+    g_assert_true(rng_wait_ready());
+    g_assert_cmphex(rng_readb(RNGCS), ==, DVALID | RNGE);
+
+    /* Disable: DVALID should not be set, and RNGD should read zero */
+    rng_writeb(RNGCS, 0);
+    g_assert_cmphex(rng_readb(RNGCS), ==, 0);
+    g_assert_cmphex(rng_readb(RNGD), ==, 0);
+}
+
+/*
+ * Verifies that the RNG only produces data when RNGMODE is set to 'normal'
+ * ring oscillator mode.
+ */
+static void test_rosel(void)
+{
+    rng_reset_enable();
+    g_assert_true(rng_wait_ready());
+    rng_writeb(RNGMODE, 0);
+    g_assert_false(rng_wait_ready());
+    rng_writeb(RNGMODE, ROSEL_NORMAL);
+    g_assert_true(rng_wait_ready());
+    rng_writeb(RNGMODE, 0);
+    g_assert_false(rng_wait_ready());
+}
+
+/*
+ * Verifies that a continuous sequence of bits collected after enabling the RNG
+ * satisfies a monobit test.
+ */
+static void test_continuous_monobit(void)
+{
+    uint8_t buf[TEST_INPUT_BITS / BITS_PER_BYTE];
+    unsigned int i;
+
+    rng_reset_enable();
+    for (i = 0; i < sizeof(buf); i++) {
+        g_assert_true(rng_wait_ready());
+        buf[i] = rng_readb(RNGD);
+    }
+
+    g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
+}
+
+/*
+ * Verifies that a continuous sequence of bits collected after enabling the RNG
+ * satisfies a runs test.
+ */
+static void test_continuous_runs(void)
+{
+    union {
+        unsigned long l[TEST_INPUT_BITS / BITS_PER_LONG];
+        uint8_t c[TEST_INPUT_BITS / BITS_PER_BYTE];
+    } buf;
+    unsigned int i;
+
+    rng_reset_enable();
+    for (i = 0; i < sizeof(buf); i++) {
+        g_assert_true(rng_wait_ready());
+        buf.c[i] = rng_readb(RNGD);
+    }
+
+    g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
+}
+
+/*
+ * Verifies that the first data byte collected after enabling the RNG satisfies
+ * a monobit test.
+ */
+static void test_first_byte_monobit(void)
+{
+    /* Enable, collect one byte, disable. Repeat until we have 100 bits. */
+    uint8_t buf[TEST_INPUT_BITS / BITS_PER_BYTE];
+    unsigned int i;
+
+    rng_reset();
+    for (i = 0; i < sizeof(buf); i++) {
+        rng_writeb(RNGCS, RNGE);
+        g_assert_true(rng_wait_ready());
+        buf[i] = rng_readb(RNGD);
+        rng_writeb(RNGCS, 0);
+    }
+
+    g_assert_cmpfloat(calc_monobit_p(buf, sizeof(buf)), >, 0.01);
+}
+
+/*
+ * Verifies that the first data byte collected after enabling the RNG satisfies
+ * a runs test.
+ */
+static void test_first_byte_runs(void)
+{
+    /* Enable, collect one byte, disable. Repeat until we have 100 bits. */
+    union {
+        unsigned long l[TEST_INPUT_BITS / BITS_PER_LONG];
+        uint8_t c[TEST_INPUT_BITS / BITS_PER_BYTE];
+    } buf;
+    unsigned int i;
+
+    rng_reset();
+    for (i = 0; i < sizeof(buf); i++) {
+        rng_writeb(RNGCS, RNGE);
+        g_assert_true(rng_wait_ready());
+        buf.c[i] = rng_readb(RNGD);
+        rng_writeb(RNGCS, 0);
+    }
+
+    g_assert_cmpfloat(calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE), >, 0.01);
+}
+
+int main(int argc, char **argv)
+{
+    int ret;
+
+    g_test_init(&argc, &argv, NULL);
+    g_test_set_nonfatal_assertions();
+
+    qtest_add_func("npcm7xx_rng/enable_disable", test_enable_disable);
+    qtest_add_func("npcm7xx_rng/rosel", test_rosel);
+    qtest_add_func("npcm7xx_rng/continuous/monobit", test_continuous_monobit);
+    qtest_add_func("npcm7xx_rng/continuous/runs", test_continuous_runs);
+    qtest_add_func("npcm7xx_rng/first_byte/monobit", test_first_byte_monobit);
+    qtest_add_func("npcm7xx_rng/first_byte/runs", test_first_byte_runs);
+
+    qtest_start("-machine npcm750-evb");
+    ret = g_test_run();
+    qtest_end();
+
+    return ret;
+}
diff --git a/hw/misc/meson.build b/hw/misc/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/meson.build
+++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_MAINSTONE', if_true: files('mst_fpga.c'))
 softmmu_ss.add(when: 'CONFIG_NPCM7XX', if_true: files(
   'npcm7xx_clk.c',
   'npcm7xx_gcr.c',
+  'npcm7xx_rng.c',
 ))
 softmmu_ss.add(when: 'CONFIG_OMAP', if_true: files(
   'omap_clk.c',
diff --git a/hw/misc/trace-events b/hw/misc/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/trace-events
+++ b/hw/misc/trace-events
@@ -XXX,XX +XXX,XX @@ npcm7xx_clk_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " valu
 npcm7xx_gcr_read(uint64_t offset, uint32_t value) " offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
 npcm7xx_gcr_write(uint64_t offset, uint32_t value) "offset: 0x%04" PRIx64 " value: 0x%08" PRIx32
 
+# npcm7xx_rng.c
+npcm7xx_rng_read(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
+npcm7xx_rng_write(uint64_t offset, uint64_t value, unsigned size) "offset: 0x%04" PRIx64 " value: 0x%02" PRIx64 " size: %u"
+
 # stm32f4xx_syscfg.c
 stm32f4xx_syscfg_set_irq(int gpio, int line, int level) "Interupt: GPIO: %d, Line: %d; Level: %d"
 stm32f4xx_pulse_exti(int irq) "Pulse EXTI: %d"
diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/meson.build
+++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qtests_sparc64 = \
   (config_all_devices.has_key('CONFIG_ISA_TESTDEV') ? ['endianness-test'] : []) +            \
   ['prom-env-test', 'boot-serial-test']
 
-qtests_npcm7xx = ['npcm7xx_timer-test', 'npcm7xx_watchdog_timer-test']
+qtests_npcm7xx = \
+  ['npcm7xx_rng-test',
+   'npcm7xx_timer-test',
+   'npcm7xx_watchdog_timer-test']
 qtests_arm = \
   (config_all_devices.has_key('CONFIG_PFLASH_CFI02') ? ['pflash-cfi02-test'] : []) +         \
   (config_all_devices.has_key('CONFIG_NPCM7XX') ? qtests_npcm7xx : []) + \
-- 
2.20.1

From: Havard Skinnemoen <hskinnemoen@google.com>

The NPCM730 and NPCM750 chips have a single USB host port shared between
a USB 2.0 EHCI host controller and a USB 1.1 OHCI host controller. This
adds support for both of them.

Testing notes:
  * With -device usb-kbd, qemu will automatically insert a full-speed
    hub, and the keyboard becomes controlled by the OHCI controller.
  * With -device usb-kbd,bus=usb-bus.0,port=1, the keyboard is directly
    attached to the port without any hubs, and the device becomes
    controlled by the EHCI controller since it's high speed capable.
  * With -device usb-kbd,bus=usb-bus.0,port=1,usb_version=1, the
    keyboard is directly attached to the port, but it only advertises
    itself as full-speed capable, so it becomes controlled by the OHCI
    controller.

In all cases, the keyboard device enumerates correctly.

Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Reviewed-by: Gerd Hoffmann <kraxel@redhat.com>
Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/nuvoton.rst |  2 +-
 hw/usb/hcd-ehci.h           |  1 +
 include/hw/arm/npcm7xx.h    |  4 ++++
 hw/arm/npcm7xx.c            | 27 +++++++++++++++++++++++++--
 hw/usb/hcd-ehci-sysbus.c    | 19 +++++++++++++++++++
 5 files changed, 50 insertions(+), 3 deletions(-)

From: Havard Skinnemoen <hskinnemoen@google.com>

The NPCM7xx chips have multiple GPIO controllers that are mostly
identical except for some minor differences like the reset values of
some registers. Each controller controls up to 32 pins.

Each individual pin is modeled as a pair of unnamed GPIOs -- one for
emitting the actual pin state, and one for driving the pin externally.
Like the nRF51 GPIO controller, a gpio level may be negative, which
means the pin is not driven, or floating.

Reviewed-by: Tyrone Ting <kfting@nuvoton.com>
Signed-off-by: Havard Skinnemoen <hskinnemoen@google.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/nuvoton.rst     |   2 +-
 include/hw/arm/npcm7xx.h        |   2 +
 include/hw/gpio/npcm7xx_gpio.h  |  55 +++++
 hw/arm/npcm7xx.c                |  80 ++++++
 hw/gpio/npcm7xx_gpio.c          | 424 ++++++++++++++++++++++++++++++++
 tests/qtest/npcm7xx_gpio-test.c | 385 +++++++++++++++++++++++++++++
 hw/gpio/meson.build             |   1 +
 hw/gpio/trace-events            |   7 +
 tests/qtest/meson.build         |   3 +-
 9 files changed, 957 insertions(+), 2 deletions(-)
 create mode 100644 include/hw/gpio/npcm7xx_gpio.h
 create mode 100644 hw/gpio/npcm7xx_gpio.c
 create mode 100644 tests/qtest/npcm7xx_gpio-test.c

diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/nuvoton.rst
+++ b/docs/system/arm/nuvoton.rst
@@ -XXX,XX +XXX,XX @@ Supported devices
  * Flash Interface Unit (FIU; no protection features)
  * Random Number Generator (RNG)
  * USB host (USBH)
+ * GPIO controller
 
 Missing devices
 ---------------
 
- * GPIO controller
  * LPC/eSPI host-to-BMC interface, including
 
    * Keyboard and mouse controller interface (KBCI)
diff --git a/include/hw/arm/npcm7xx.h b/include/hw/arm/npcm7xx.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/npcm7xx.h
+++ b/include/hw/arm/npcm7xx.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/boards.h"
 #include "hw/cpu/a9mpcore.h"
+#include "hw/gpio/npcm7xx_gpio.h"
 #include "hw/mem/npcm7xx_mc.h"
 #include "hw/misc/npcm7xx_clk.h"
 #include "hw/misc/npcm7xx_gcr.h"
@@ -XXX,XX +XXX,XX @@ typedef struct NPCM7xxState {
     NPCM7xxOTPState     fuse_array;
     NPCM7xxMCState      mc;
     NPCM7xxRNGState     rng;
+    NPCM7xxGPIOState    gpio[8];
     EHCISysBusState     ehci;
     OHCISysBusState     ohci;
     NPCM7xxFIUState     fiu[2];
diff --git a/include/hw/gpio/npcm7xx_gpio.h b/include/hw/gpio/npcm7xx_gpio.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/gpio/npcm7xx_gpio.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Nuvoton NPCM7xx General Purpose Input / Output (GPIO)
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU General Public License
+ * version 2 as published by the Free Software Foundation.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+ * GNU General Public License for more details.
+ */
+#ifndef NPCM7XX_GPIO_H
+#define NPCM7XX_GPIO_H
+
+#include "exec/memory.h"
+#include "hw/sysbus.h"
+
+/* Number of pins managed by each controller. */
+#define NPCM7XX_GPIO_NR_PINS (32)
+
+/*
+ * Number of registers in our device state structure. Don't change this without
+ * incrementing the version_id in the vmstate.
+ */
+#define NPCM7XX_GPIO_NR_REGS (0x80 / sizeof(uint32_t))
+
+typedef struct NPCM7xxGPIOState {
+    SysBusDevice parent;
+
+    /* Properties to be defined by the SoC */
+    uint32_t reset_pu;
+    uint32_t reset_pd;
+    uint32_t reset_osrc;
+    uint32_t reset_odsc;
+
+    MemoryRegion mmio;
+
+    qemu_irq irq;
+    qemu_irq output[NPCM7XX_GPIO_NR_PINS];
+
+    uint32_t pin_level;
+    uint32_t ext_level;
+    uint32_t ext_driven;
+
+    uint32_t regs[NPCM7XX_GPIO_NR_REGS];
+} NPCM7xxGPIOState;
+
+#define TYPE_NPCM7XX_GPIO "npcm7xx-gpio"
+#define NPCM7XX_GPIO(obj) \
+    OBJECT_CHECK(NPCM7xxGPIOState, (obj), TYPE_NPCM7XX_GPIO)
+
+#endif /* NPCM7XX_GPIO_H */
diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ enum NPCM7xxInterrupt {
     NPCM7XX_WDG2_IRQ,                   /* Timer Module 2 Watchdog */
     NPCM7XX_EHCI_IRQ            = 61,
     NPCM7XX_OHCI_IRQ            = 62,
+    NPCM7XX_GPIO0_IRQ           = 116,
+    NPCM7XX_GPIO1_IRQ,
+    NPCM7XX_GPIO2_IRQ,
+    NPCM7XX_GPIO3_IRQ,
+    NPCM7XX_GPIO4_IRQ,
+    NPCM7XX_GPIO5_IRQ,
+    NPCM7XX_GPIO6_IRQ,
+    NPCM7XX_GPIO7_IRQ,
 };
 
 /* Total number of GIC interrupts, including internal Cortex-A9 interrupts. */
@@ -XXX,XX +XXX,XX @@ static const hwaddr npcm7xx_fiu3_flash_addr[] = {
     0xb8000000, /* CS3 */
 };
 
+static const struct {
+    hwaddr regs_addr;
+    uint32_t unconnected_pins;
+    uint32_t reset_pu;
+    uint32_t reset_pd;
+    uint32_t reset_osrc;
+    uint32_t reset_odsc;
+} npcm7xx_gpio[] = {
+    {
+        .regs_addr = 0xf0010000,
+        .reset_pu = 0xff03ffff,
+        .reset_pd = 0x00fc0000,
+    }, {
+        .regs_addr = 0xf0011000,
+        .unconnected_pins = 0x0000001e,
+        .reset_pu = 0xfefffe07,
+        .reset_pd = 0x010001e0,
+    }, {
+        .regs_addr = 0xf0012000,
+        .reset_pu = 0x780fffff,
+        .reset_pd = 0x07f00000,
+        .reset_odsc = 0x00700000,
+    }, {
+        .regs_addr = 0xf0013000,
+        .reset_pu = 0x00fc0000,
+        .reset_pd = 0xff000000,
+    }, {
+        .regs_addr = 0xf0014000,
+        .reset_pu = 0xffffffff,
+    }, {
+        .regs_addr = 0xf0015000,
+        .reset_pu = 0xbf83f801,
+        .reset_pd = 0x007c0000,
+        .reset_osrc = 0x000000f1,
+        .reset_odsc = 0x3f9f80f1,
+    }, {
+        .regs_addr = 0xf0016000,
+        .reset_pu = 0xfc00f801,
+        .reset_pd = 0x000007fe,
+        .reset_odsc = 0x00000800,
+    }, {
+        .regs_addr = 0xf0017000,
+        .unconnected_pins = 0xffffff00,
+        .reset_pu = 0x0000007f,
+        .reset_osrc = 0x0000007f,
+        .reset_odsc = 0x0000007f,
+    },
+};
+
 static const struct {
     const char *name;
     hwaddr regs_addr;
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_init(Object *obj)
         object_initialize_child(obj, "tim[*]", &s->tim[i], TYPE_NPCM7XX_TIMER);
     }
 
+    for (i = 0; i < ARRAY_SIZE(s->gpio); i++) {
+        object_initialize_child(obj, "gpio[*]", &s->gpio[i], TYPE_NPCM7XX_GPIO);
+    }
+
     object_initialize_child(obj, "ehci", &s->ehci, TYPE_NPCM7XX_EHCI);
     object_initialize_child(obj, "ohci", &s->ohci, TYPE_SYSBUS_OHCI);
 
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
     sysbus_realize(SYS_BUS_DEVICE(&s->rng), &error_abort);
     sysbus_mmio_map(SYS_BUS_DEVICE(&s->rng), 0, NPCM7XX_RNG_BA);
 
+    /* GPIO modules. Cannot fail. */
+    QEMU_BUILD_BUG_ON(ARRAY_SIZE(npcm7xx_gpio) != ARRAY_SIZE(s->gpio));
+    for (i = 0; i < ARRAY_SIZE(s->gpio); i++) {
+        Object *obj = OBJECT(&s->gpio[i]);
+
+        object_property_set_uint(obj, "reset-pullup",
+                                 npcm7xx_gpio[i].reset_pu, &error_abort);
+        object_property_set_uint(obj, "reset-pulldown",
+                                 npcm7xx_gpio[i].reset_pd, &error_abort);
+        object_property_set_uint(obj, "reset-osrc",
+                                 npcm7xx_gpio[i].reset_osrc, &error_abort);
+        object_property_set_uint(obj, "reset-odsc",
+                                 npcm7xx_gpio[i].reset_odsc, &error_abort);
+        sysbus_realize(SYS_BUS_DEVICE(obj), &error_abort);
+        sysbus_mmio_map(SYS_BUS_DEVICE(obj), 0, npcm7xx_gpio[i].regs_addr);
+        sysbus_connect_irq(SYS_BUS_DEVICE(obj), 0,
+                           npcm7xx_irq(s, NPCM7XX_GPIO0_IRQ + i));
+    }
+
     /* USB Host */
     object_property_set_bool(OBJECT(&s->ehci), "companion-enable", true,
                              &error_abort);
diff --git a/hw/gpio/npcm7xx_gpio.c b/hw/gpio/npcm7xx_gpio.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/gpio/npcm7xx_gpio.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Nuvoton NPCM7xx General Purpose Input / Output (GPIO)
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU General Public License
+ * version 2 as published by the Free Software Foundation.
+ *
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+ * GNU General Public License for more details.
+ */
+
+#include "qemu/osdep.h"
+
+#include "hw/gpio/npcm7xx_gpio.h"
+#include "hw/irq.h"
+#include "hw/qdev-properties.h"
+#include "migration/vmstate.h"
+#include "qapi/error.h"
+#include "qemu/log.h"
+#include "qemu/module.h"
+#include "qemu/units.h"
+#include "trace.h"
+
+/* 32-bit register indices. */
+enum NPCM7xxGPIORegister {
+    NPCM7XX_GPIO_TLOCK1,
+    NPCM7XX_GPIO_DIN,
+    NPCM7XX_GPIO_POL,
+    NPCM7XX_GPIO_DOUT,
+    NPCM7XX_GPIO_OE,
+    NPCM7XX_GPIO_OTYP,
+    NPCM7XX_GPIO_MP,
+    NPCM7XX_GPIO_PU,
+    NPCM7XX_GPIO_PD,
+    NPCM7XX_GPIO_DBNC,
+    NPCM7XX_GPIO_EVTYP,
+    NPCM7XX_GPIO_EVBE,
+    NPCM7XX_GPIO_OBL0,
+    NPCM7XX_GPIO_OBL1,
+    NPCM7XX_GPIO_OBL2,
+    NPCM7XX_GPIO_OBL3,
+    NPCM7XX_GPIO_EVEN,
+    NPCM7XX_GPIO_EVENS,
+    NPCM7XX_GPIO_EVENC,
+    NPCM7XX_GPIO_EVST,
+    NPCM7XX_GPIO_SPLCK,
+    NPCM7XX_GPIO_MPLCK,
+    NPCM7XX_GPIO_IEM,
+    NPCM7XX_GPIO_OSRC,
+    NPCM7XX_GPIO_ODSC,
+    NPCM7XX_GPIO_DOS = 0x68 / sizeof(uint32_t),
+    NPCM7XX_GPIO_DOC,
+    NPCM7XX_GPIO_OES,
+    NPCM7XX_GPIO_OEC,
+    NPCM7XX_GPIO_TLOCK2 = 0x7c / sizeof(uint32_t),
+    NPCM7XX_GPIO_REGS_END,
+};
+
+#define NPCM7XX_GPIO_REGS_SIZE (4 * KiB)
+
+#define NPCM7XX_GPIO_LOCK_MAGIC1 (0xc0defa73)
+#define NPCM7XX_GPIO_LOCK_MAGIC2 (0xc0de1248)
+
+static void npcm7xx_gpio_update_events(NPCM7xxGPIOState *s, uint32_t din_diff)
+{
+    uint32_t din_new = s->regs[NPCM7XX_GPIO_DIN];
+
+    /* Trigger on high level */
+    s->regs[NPCM7XX_GPIO_EVST] |= din_new & ~s->regs[NPCM7XX_GPIO_EVTYP];
+    /* Trigger on both edges */
+    s->regs[NPCM7XX_GPIO_EVST] |= (din_diff & s->regs[NPCM7XX_GPIO_EVTYP]
+                                   & s->regs[NPCM7XX_GPIO_EVBE]);
+    /* Trigger on rising edge */
+    s->regs[NPCM7XX_GPIO_EVST] |= (din_diff & din_new
+                                   & s->regs[NPCM7XX_GPIO_EVTYP]);
+
+    trace_npcm7xx_gpio_update_events(DEVICE(s)->canonical_path,
+                                     s->regs[NPCM7XX_GPIO_EVST],
+                                     s->regs[NPCM7XX_GPIO_EVEN]);
+    qemu_set_irq(s->irq, !!(s->regs[NPCM7XX_GPIO_EVST]
+                            & s->regs[NPCM7XX_GPIO_EVEN]));
+}
+
+static void npcm7xx_gpio_update_pins(NPCM7xxGPIOState *s, uint32_t diff)
+{
+    uint32_t drive_en;
+    uint32_t drive_lvl;
+    uint32_t not_driven;
+    uint32_t undefined;
+    uint32_t pin_diff;
+    uint32_t din_old;
+
+    /* Calculate level of each pin driven by GPIO controller. */
+    drive_lvl = s->regs[NPCM7XX_GPIO_DOUT] ^ s->regs[NPCM7XX_GPIO_POL];
+    /* If OTYP=1, only drive low (open drain) */
+    drive_en = s->regs[NPCM7XX_GPIO_OE] & ~(s->regs[NPCM7XX_GPIO_OTYP]
+                                            & drive_lvl);
+    /*
+     * If a pin is driven to opposite levels by the GPIO controller and the
+     * external driver, the result is undefined.
+     */
+    undefined = drive_en & s->ext_driven & (drive_lvl ^ s->ext_level);
+    if (undefined) {
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: pins have multiple drivers: 0x%" PRIx32 "\n",
+                      DEVICE(s)->canonical_path, undefined);
+    }
+
+    not_driven = ~(drive_en | s->ext_driven);
+    pin_diff = s->pin_level;
+
+    /* Set pins to externally driven level. */
+    s->pin_level = s->ext_level & s->ext_driven;
+    /* Set internally driven pins, ignoring any conflicts. */
+    s->pin_level |= drive_lvl & drive_en;
+    /* Pull up undriven pins with internal pull-up enabled. */
+    s->pin_level |= not_driven & s->regs[NPCM7XX_GPIO_PU];
+    /* Pins not driven, pulled up or pulled down are undefined */
+    undefined |= not_driven & ~(s->regs[NPCM7XX_GPIO_PU]
+                                | s->regs[NPCM7XX_GPIO_PD]);
+
+    /* If any pins changed state, update the outgoing GPIOs. */
+    pin_diff ^= s->pin_level;
+    pin_diff |= undefined & diff;
+    if (pin_diff) {
+        int i;
+
+        for (i = 0; i < NPCM7XX_GPIO_NR_PINS; i++) {
+            uint32_t mask = BIT(i);
+            if (pin_diff & mask) {
+                int level = (undefined & mask) ? -1 : !!(s->pin_level & mask);
+                trace_npcm7xx_gpio_set_output(DEVICE(s)->canonical_path,
+                                              i, level);
+                qemu_set_irq(s->output[i], level);
+            }
+        }
+    }
+
+    /* Calculate new value of DIN after masking and polarity setting. */
+    din_old = s->regs[NPCM7XX_GPIO_DIN];
+    s->regs[NPCM7XX_GPIO_DIN] = ((s->pin_level & s->regs[NPCM7XX_GPIO_IEM])
+                                 ^ s->regs[NPCM7XX_GPIO_POL]);
+
+    /* See if any new events triggered because of all this. */
+    npcm7xx_gpio_update_events(s, din_old ^ s->regs[NPCM7XX_GPIO_DIN]);
+}
+
+static bool npcm7xx_gpio_is_locked(NPCM7xxGPIOState *s)
+{
+    return s->regs[NPCM7XX_GPIO_TLOCK1] == 1;
+}
+
+static uint64_t npcm7xx_gpio_regs_read(void *opaque, hwaddr addr,
+                                       unsigned int size)
+{
+    hwaddr reg = addr / sizeof(uint32_t);
+    NPCM7xxGPIOState *s = opaque;
+    uint64_t value = 0;
+
+    switch (reg) {
+    case NPCM7XX_GPIO_TLOCK1 ... NPCM7XX_GPIO_EVEN:
+    case NPCM7XX_GPIO_EVST ... NPCM7XX_GPIO_ODSC:
+        value = s->regs[reg];
+        break;
+
+    case NPCM7XX_GPIO_EVENS ... NPCM7XX_GPIO_EVENC:
+    case NPCM7XX_GPIO_DOS ... NPCM7XX_GPIO_TLOCK2:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: read from write-only register 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, addr);
+        break;
+
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: read from invalid offset 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, addr);
+        break;
+    }
+
+    trace_npcm7xx_gpio_read(DEVICE(s)->canonical_path, addr, value);
+
+    return value;
+}
+
+static void npcm7xx_gpio_regs_write(void *opaque, hwaddr addr, uint64_t v,
+                                    unsigned int size)
+{
+    hwaddr reg = addr / sizeof(uint32_t);
+    NPCM7xxGPIOState *s = opaque;
+    uint32_t value = v;
+    uint32_t diff;
+
+    trace_npcm7xx_gpio_write(DEVICE(s)->canonical_path, addr, v);
+
+    if (npcm7xx_gpio_is_locked(s)) {
+        switch (reg) {
+        case NPCM7XX_GPIO_TLOCK1:
+            if (s->regs[NPCM7XX_GPIO_TLOCK2] == NPCM7XX_GPIO_LOCK_MAGIC2 &&
+                value == NPCM7XX_GPIO_LOCK_MAGIC1) {
+                s->regs[NPCM7XX_GPIO_TLOCK1] = 0;
+                s->regs[NPCM7XX_GPIO_TLOCK2] = 0;
+            }
+            break;
+
+        case NPCM7XX_GPIO_TLOCK2:
+            s->regs[reg] = value;
+            break;
+
+        default:
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "%s: write to locked register @ 0x%" HWADDR_PRIx "\n",
+                          DEVICE(s)->canonical_path, addr);
+            break;
+        }
+
+        return;
+    }
+
+    diff = s->regs[reg] ^ value;
+
+    switch (reg) {
+    case NPCM7XX_GPIO_TLOCK1:
+    case NPCM7XX_GPIO_TLOCK2:
+        s->regs[NPCM7XX_GPIO_TLOCK1] = 1;
+        s->regs[NPCM7XX_GPIO_TLOCK2] = 0;
+        break;
+
+    case NPCM7XX_GPIO_DIN:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: write to read-only register @ 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, addr);
+        break;
+
+    case NPCM7XX_GPIO_POL:
+    case NPCM7XX_GPIO_DOUT:
+    case NPCM7XX_GPIO_OE:
+    case NPCM7XX_GPIO_OTYP:
+    case NPCM7XX_GPIO_PU:
+    case NPCM7XX_GPIO_PD:
+    case NPCM7XX_GPIO_IEM:
+        s->regs[reg] = value;
+        npcm7xx_gpio_update_pins(s, diff);
+        break;
+
+    case NPCM7XX_GPIO_DOS:
+        s->regs[NPCM7XX_GPIO_DOUT] |= value;
+        npcm7xx_gpio_update_pins(s, value);
+        break;
+    case NPCM7XX_GPIO_DOC:
+        s->regs[NPCM7XX_GPIO_DOUT] &= ~value;
+        npcm7xx_gpio_update_pins(s, value);
+        break;
+    case NPCM7XX_GPIO_OES:
+        s->regs[NPCM7XX_GPIO_OE] |= value;
+        npcm7xx_gpio_update_pins(s, value);
+        break;
+    case NPCM7XX_GPIO_OEC:
+        s->regs[NPCM7XX_GPIO_OE] &= ~value;
+        npcm7xx_gpio_update_pins(s, value);
+        break;
+
+    case NPCM7XX_GPIO_EVTYP:
+    case NPCM7XX_GPIO_EVBE:
+    case NPCM7XX_GPIO_EVEN:
+        s->regs[reg] = value;
+        npcm7xx_gpio_update_events(s, 0);
+        break;
+
+    case NPCM7XX_GPIO_EVENS:
+        s->regs[NPCM7XX_GPIO_EVEN] |= value;
+        npcm7xx_gpio_update_events(s, 0);
+        break;
+    case NPCM7XX_GPIO_EVENC:
+        s->regs[NPCM7XX_GPIO_EVEN] &= ~value;
+        npcm7xx_gpio_update_events(s, 0);
+        break;
+
+    case NPCM7XX_GPIO_EVST:
+        s->regs[reg] &= ~value;
+        npcm7xx_gpio_update_events(s, 0);
+        break;
+
+    case NPCM7XX_GPIO_MP:
+    case NPCM7XX_GPIO_DBNC:
+    case NPCM7XX_GPIO_OSRC:
+    case NPCM7XX_GPIO_ODSC:
+        /* Nothing to do; just store the value. */
+        s->regs[reg] = value;
+        break;
+
+    case NPCM7XX_GPIO_OBL0:
+    case NPCM7XX_GPIO_OBL1:
+    case NPCM7XX_GPIO_OBL2:
+    case NPCM7XX_GPIO_OBL3:
+        s->regs[reg] = value;
+        qemu_log_mask(LOG_UNIMP, "%s: Blinking is not implemented\n",
+                      __func__);
+        break;
+
+    case NPCM7XX_GPIO_SPLCK:
+    case NPCM7XX_GPIO_MPLCK:
+        qemu_log_mask(LOG_UNIMP, "%s: Per-pin lock is not implemented\n",
+                      __func__);
+        break;
+
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: write to invalid offset 0x%" HWADDR_PRIx "\n",
+                      DEVICE(s)->canonical_path, addr);
+        break;
+    }
+}
+
+static const MemoryRegionOps npcm7xx_gpio_regs_ops = {
+    .read = npcm7xx_gpio_regs_read,
+    .write = npcm7xx_gpio_regs_write,
+    .endianness = DEVICE_NATIVE_ENDIAN,
+    .valid = {
+        .min_access_size = 4,
+        .max_access_size = 4,
+        .unaligned = false,
+    },
+};
+
+static void npcm7xx_gpio_set_input(void *opaque, int line, int level)
+{
+    NPCM7xxGPIOState *s = opaque;
+
+    trace_npcm7xx_gpio_set_input(DEVICE(s)->canonical_path, line, level);
+
+    g_assert(line >= 0 && line < NPCM7XX_GPIO_NR_PINS);
+
+    s->ext_driven = deposit32(s->ext_driven, line, 1, level >= 0);
+    s->ext_level = deposit32(s->ext_level, line, 1, level > 0);
+
+    npcm7xx_gpio_update_pins(s, BIT(line));
+}
+
+static void npcm7xx_gpio_enter_reset(Object *obj, ResetType type)
+{
+    NPCM7xxGPIOState *s = NPCM7XX_GPIO(obj);
+
+    memset(s->regs, 0, sizeof(s->regs));
+
+    s->regs[NPCM7XX_GPIO_PU] = s->reset_pu;
+    s->regs[NPCM7XX_GPIO_PD] = s->reset_pd;
+    s->regs[NPCM7XX_GPIO_OSRC] = s->reset_osrc;
+    s->regs[NPCM7XX_GPIO_ODSC] = s->reset_odsc;
+}
+
+static void npcm7xx_gpio_hold_reset(Object *obj)
+{
+    NPCM7xxGPIOState *s = NPCM7XX_GPIO(obj);
+
+    npcm7xx_gpio_update_pins(s, -1);
+}
+
+static void npcm7xx_gpio_init(Object *obj)
+{
+    NPCM7xxGPIOState *s = NPCM7XX_GPIO(obj);
+    DeviceState *dev = DEVICE(obj);
+
+    memory_region_init_io(&s->mmio, obj, &npcm7xx_gpio_regs_ops, s,
+                          "regs", NPCM7XX_GPIO_REGS_SIZE);
+    sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->mmio);
+    sysbus_init_irq(SYS_BUS_DEVICE(obj), &s->irq);
+
+    qdev_init_gpio_in(dev, npcm7xx_gpio_set_input, NPCM7XX_GPIO_NR_PINS);
+    qdev_init_gpio_out(dev, s->output, NPCM7XX_GPIO_NR_PINS);
+}
+
+static const VMStateDescription vmstate_npcm7xx_gpio = {
+    .name = "npcm7xx-gpio",
+    .version_id = 0,
+    .minimum_version_id = 0,
+    .fields = (VMStateField[]) {
+        VMSTATE_UINT32(pin_level, NPCM7xxGPIOState),
+        VMSTATE_UINT32(ext_level, NPCM7xxGPIOState),
+        VMSTATE_UINT32(ext_driven, NPCM7xxGPIOState),
+        VMSTATE_UINT32_ARRAY(regs, NPCM7xxGPIOState, NPCM7XX_GPIO_NR_REGS),
+        VMSTATE_END_OF_LIST(),
+    },
+};
+
+static Property npcm7xx_gpio_properties[] = {
+    /* Bit n set => pin n has pullup enabled by default. */
+    DEFINE_PROP_UINT32("reset-pullup", NPCM7xxGPIOState, reset_pu, 0),
+    /* Bit n set => pin n has pulldown enabled by default. */
+    DEFINE_PROP_UINT32("reset-pulldown", NPCM7xxGPIOState, reset_pd, 0),
+    /* Bit n set => pin n has high slew rate by default. */
+    DEFINE_PROP_UINT32("reset-osrc", NPCM7xxGPIOState, reset_osrc, 0),
+    /* Bit n set => pin n has high drive strength by default. */
+    DEFINE_PROP_UINT32("reset-odsc", NPCM7xxGPIOState, reset_odsc, 0),
+    DEFINE_PROP_END_OF_LIST(),
+};
+
+static void npcm7xx_gpio_class_init(ObjectClass *klass, void *data)
+{
+    ResettableClass *reset = RESETTABLE_CLASS(klass);
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    QEMU_BUILD_BUG_ON(NPCM7XX_GPIO_REGS_END > NPCM7XX_GPIO_NR_REGS);
+
+    dc->desc = "NPCM7xx GPIO Controller";
+    dc->vmsd = &vmstate_npcm7xx_gpio;
+    reset->phases.enter = npcm7xx_gpio_enter_reset;
+    reset->phases.hold = npcm7xx_gpio_hold_reset;
+    device_class_set_props(dc, npcm7xx_gpio_properties);
+}
+
+static const TypeInfo npcm7xx_gpio_types[] = {
+    {
+        .name = TYPE_NPCM7XX_GPIO,
+        .parent = TYPE_SYS_BUS_DEVICE,
+        .instance_size = sizeof(NPCM7xxGPIOState),
+        .class_init = npcm7xx_gpio_class_init,
+        .instance_init = npcm7xx_gpio_init,
+    },
+};
+DEFINE_TYPES(npcm7xx_gpio_types);
diff --git a/tests/qtest/npcm7xx_gpio-test.c b/tests/qtest/npcm7xx_gpio-test.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/qtest/npcm7xx_gpio-test.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QTest testcase for the Nuvoton NPCM7xx GPIO modules.
+ *
+ * Copyright 2020 Google LLC
+ *
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU General Public License as published by the
+ * Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * This program is distributed in the hope that it will be useful, but WITHOUT
+ * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
+ * FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
+ * for more details.
+ */
+
+#include "qemu/osdep.h"
+#include "libqtest-single.h"
+
+#define NR_GPIO_DEVICES (8)
+#define GPIO(x)         (0xf0010000 + (x) * 0x1000)
+#define GPIO_IRQ(x)     (116 + (x))
+
+/* GPIO registers */
+#define GP_N_TLOCK1     0x00
+#define GP_N_DIN        0x04 /* Data IN */
+#define GP_N_POL        0x08 /* Polarity */
+#define GP_N_DOUT       0x0c /* Data OUT */
+#define GP_N_OE         0x10 /* Output Enable */
+#define GP_N_OTYP       0x14
+#define GP_N_MP         0x18
+#define GP_N_PU         0x1c /* Pull-up */
+#define GP_N_PD         0x20 /* Pull-down */
+#define GP_N_DBNC       0x24 /* Debounce */
+#define GP_N_EVTYP      0x28 /* Event Type */
+#define GP_N_EVBE       0x2c /* Event Both Edge */
+#define GP_N_OBL0       0x30
+#define GP_N_OBL1       0x34
+#define GP_N_OBL2       0x38
+#define GP_N_OBL3       0x3c
+#define GP_N_EVEN       0x40 /* Event Enable */
+#define GP_N_EVENS      0x44 /* Event Set (enable) */
+#define GP_N_EVENC      0x48 /* Event Clear (disable) */
+#define GP_N_EVST       0x4c /* Event Status */
+#define GP_N_SPLCK      0x50
+#define GP_N_MPLCK      0x54
+#define GP_N_IEM        0x58 /* Input Enable */
+#define GP_N_OSRC       0x5c
+#define GP_N_ODSC       0x60
+#define GP_N_DOS        0x68 /* Data OUT Set */
+#define GP_N_DOC        0x6c /* Data OUT Clear */
+#define GP_N_OES        0x70 /* Output Enable Set */
+#define GP_N_OEC        0x74 /* Output Enable Clear */
+#define GP_N_TLOCK2     0x7c
+
+static void gpio_unlock(int n)
+{
+    if (readl(GPIO(n) + GP_N_TLOCK1) != 0) {
+        writel(GPIO(n) + GP_N_TLOCK2, 0xc0de1248);
+        writel(GPIO(n) + GP_N_TLOCK1, 0xc0defa73);
+    }
+}
+
+/* Restore the GPIO controller to a sensible default state. */
+static void gpio_reset(int n)
+{
+    gpio_unlock(0);
+
+    writel(GPIO(n) + GP_N_EVEN, 0x00000000);
+    writel(GPIO(n) + GP_N_EVST, 0xffffffff);
+    writel(GPIO(n) + GP_N_POL, 0x00000000);
+    writel(GPIO(n) + GP_N_DOUT, 0x00000000);
+    writel(GPIO(n) + GP_N_OE, 0x00000000);
+    writel(GPIO(n) + GP_N_OTYP, 0x00000000);
+    writel(GPIO(n) + GP_N_PU, 0xffffffff);
+    writel(GPIO(n) + GP_N_PD, 0x00000000);
+    writel(GPIO(n) + GP_N_IEM, 0xffffffff);
+}
+
+static void test_dout_to_din(void)
+{
+    gpio_reset(0);
+
+    /* When output is enabled, DOUT should be reflected on DIN. */
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    /* PU and PD shouldn't have any impact on DIN. */
+    writel(GPIO(0) + GP_N_PU, 0xffff0000);
+    writel(GPIO(0) + GP_N_PD, 0x0000ffff);
+    writel(GPIO(0) + GP_N_DOUT, 0x12345678);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0x12345678);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x12345678);
+}
+
+static void test_pullup_pulldown(void)
+{
+    gpio_reset(0);
+
+    /*
+     * When output is disabled, and PD is the inverse of PU, PU should be
+     * reflected on DIN. If PD is not the inverse of PU, the state of DIN is
+     * undefined, so we don't test that.
+     */
+    writel(GPIO(0) + GP_N_OE, 0x00000000);
+    /* DOUT shouldn't have any impact on DIN. */
+    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
+    writel(GPIO(0) + GP_N_PU, 0x23456789);
+    writel(GPIO(0) + GP_N_PD, ~0x23456789U);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_PU), ==, 0x23456789);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_PD), ==, ~0x23456789U);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x23456789);
+}
+
+static void test_output_enable(void)
+{
+    gpio_reset(0);
+
+    /*
+     * With all pins weakly pulled down, and DOUT all-ones, OE should be
+     * reflected on DIN.
+     */
+    writel(GPIO(0) + GP_N_DOUT, 0xffffffff);
+    writel(GPIO(0) + GP_N_PU, 0x00000000);
+    writel(GPIO(0) + GP_N_PD, 0xffffffff);
+    writel(GPIO(0) + GP_N_OE, 0x3456789a);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_OE), ==, 0x3456789a);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x3456789a);
+
+    writel(GPIO(0) + GP_N_OEC, 0x00030002);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_OE), ==, 0x34547898);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x34547898);
+
+    writel(GPIO(0) + GP_N_OES, 0x0000f001);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_OE), ==, 0x3454f899);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x3454f899);
+}
+
+static void test_open_drain(void)
+{
+    gpio_reset(0);
+
+    /*
+     * Upper half of DOUT drives a 1 only if the corresponding bit in OTYP is
+     * not set. If OTYP is set, DIN is determined by PU/PD. Lower half of
+     * DOUT always drives a 0 regardless of OTYP; PU/PD have no effect.  When
+     * OE is 0, output is determined by PU/PD; OTYP has no effect.
+     */
+    writel(GPIO(0) + GP_N_OTYP, 0x456789ab);
+    writel(GPIO(0) + GP_N_OE, 0xf0f0f0f0);
+    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
+    writel(GPIO(0) + GP_N_PU, 0xff00ff00);
+    writel(GPIO(0) + GP_N_PD, 0x00ff00ff);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_OTYP), ==, 0x456789ab);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0xff900f00);
+}
+
+static void test_polarity(void)
+{
+    gpio_reset(0);
+
+    /*
+     * In push-pull mode, DIN should reflect DOUT because the signal is
+     * inverted in both directions.
+     */
+    writel(GPIO(0) + GP_N_OTYP, 0x00000000);
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    writel(GPIO(0) + GP_N_DOUT, 0x56789abc);
+    writel(GPIO(0) + GP_N_POL, 0x6789abcd);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_POL), ==, 0x6789abcd);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0x56789abc);
+
+    /*
+     * When turning off the drivers, DIN should reflect the inverse of the
+     * pulled-up lines.
+     */
+    writel(GPIO(0) + GP_N_OE, 0x00000000);
+    writel(GPIO(0) + GP_N_POL, 0xffffffff);
+    writel(GPIO(0) + GP_N_PU, 0x789abcde);
+    writel(GPIO(0) + GP_N_PD, ~0x789abcdeU);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, ~0x789abcdeU);
+
+    /*
+     * In open-drain mode, DOUT=1 will appear to drive the pin high (since DIN
+     * is inverted), while DOUT=0 will leave the pin floating.
+     */
+    writel(GPIO(0) + GP_N_OTYP, 0xffffffff);
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    writel(GPIO(0) + GP_N_PU, 0xffff0000);
+    writel(GPIO(0) + GP_N_PD, 0x0000ffff);
+    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0xff00ffff);
+}
+
+static void test_input_mask(void)
+{
+    gpio_reset(0);
+
+    /* IEM=0 forces the input to zero before polarity inversion. */
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
+    writel(GPIO(0) + GP_N_POL, 0xffff0000);
+    writel(GPIO(0) + GP_N_IEM, 0x87654321);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DIN), ==, 0xff9a4300);
+}
+
+static void test_temp_lock(void)
+{
+    gpio_reset(0);
+
+    writel(GPIO(0) + GP_N_DOUT, 0x98765432);
+
+    /* Make sure we're unlocked initially. */
+    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 0);
+    /* Writing any value to TLOCK1 will lock. */
+    writel(GPIO(0) + GP_N_TLOCK1, 0);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 1);
+    writel(GPIO(0) + GP_N_DOUT, 0xa9876543);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0x98765432);
+    /* Now, try to unlock. */
+    gpio_unlock(0);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 0);
+    writel(GPIO(0) + GP_N_DOUT, 0xa9876543);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0xa9876543);
+
+    /* Try it again, but write TLOCK2 to lock. */
+    writel(GPIO(0) + GP_N_TLOCK2, 0);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 1);
+    writel(GPIO(0) + GP_N_DOUT, 0x98765432);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0xa9876543);
+    /* Now, try to unlock. */
+    gpio_unlock(0);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_TLOCK1), ==, 0);
+    writel(GPIO(0) + GP_N_DOUT, 0x98765432);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_DOUT), ==, 0x98765432);
+}
+
+static void test_events_level(void)
+{
+    gpio_reset(0);
+
+    writel(GPIO(0) + GP_N_EVTYP, 0x00000000);
+    writel(GPIO(0) + GP_N_DOUT, 0xba987654);
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    writel(GPIO(0) + GP_N_EVST, 0xffffffff);
+
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0xba987654);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_DOUT, 0x00000000);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0xba987654);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_EVST, 0x00007654);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0xba980000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_EVST, 0xba980000);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+}
+
+static void test_events_rising_edge(void)
+{
+    gpio_reset(0);
+
+    writel(GPIO(0) + GP_N_EVTYP, 0xffffffff);
+    writel(GPIO(0) + GP_N_EVBE, 0x00000000);
+    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    writel(GPIO(0) + GP_N_EVST, 0xffffffff);
+
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x0000ff00);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_DOUT, 0x00ff0000);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00ffff00);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_EVST, 0x0000f000);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00ff0f00);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_EVST, 0x00ff0f00);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+}
+
+static void test_events_both_edges(void)
+{
+    gpio_reset(0);
+
+    writel(GPIO(0) + GP_N_EVTYP, 0xffffffff);
+    writel(GPIO(0) + GP_N_EVBE, 0xffffffff);
+    writel(GPIO(0) + GP_N_DOUT, 0xffff0000);
+    writel(GPIO(0) + GP_N_OE, 0xffffffff);
+    writel(GPIO(0) + GP_N_EVST, 0xffffffff);
+
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_DOUT, 0xff00ff00);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00ffff00);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_DOUT, 0xef00ff08);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x10ffff08);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_EVST, 0x0000f000);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x10ff0f08);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+    writel(GPIO(0) + GP_N_EVST, 0x10ff0f08);
+    g_assert_cmphex(readl(GPIO(0) + GP_N_EVST), ==, 0x00000000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(0)));
+}
+
+static void test_gpion_irq(gconstpointer test_data)
+{
+    intptr_t n = (intptr_t)test_data;
+
+    gpio_reset(n);
+
+    writel(GPIO(n) + GP_N_EVTYP, 0x00000000);
+    writel(GPIO(n) + GP_N_DOUT, 0x00000000);
+    writel(GPIO(n) + GP_N_OE, 0xffffffff);
+    writel(GPIO(n) + GP_N_EVST, 0xffffffff);
+    writel(GPIO(n) + GP_N_EVEN, 0x00000000);
+
+    /* Trigger an event; interrupts are masked. */
+    g_assert_cmphex(readl(GPIO(n) + GP_N_EVST), ==, 0x00000000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+    writel(GPIO(n) + GP_N_DOS, 0x00008000);
+    g_assert_cmphex(readl(GPIO(n) + GP_N_EVST), ==, 0x00008000);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+
+    /* Unmask all event interrupts; verify that the interrupt fired. */
+    writel(GPIO(n) + GP_N_EVEN, 0xffffffff);
+    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+
+    /* Clear the current bit, set a new bit, irq stays asserted. */
+    writel(GPIO(n) + GP_N_DOC, 0x00008000);
+    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+    writel(GPIO(n) + GP_N_DOS, 0x00000200);
+    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+    writel(GPIO(n) + GP_N_EVST, 0x00008000);
+    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+
+    /* Mask/unmask the event that's currently active. */
+    writel(GPIO(n) + GP_N_EVENC, 0x00000200);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+    writel(GPIO(n) + GP_N_EVENS, 0x00000200);
+    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+
+    /* Clear the input and the status bit, irq is deasserted. */
+    writel(GPIO(n) + GP_N_DOC, 0x00000200);
+    g_assert_true(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+    writel(GPIO(n) + GP_N_EVST, 0x00000200);
+    g_assert_false(qtest_get_irq(global_qtest, GPIO_IRQ(n)));
+}
+
+int main(int argc, char **argv)
+{
+    int ret;
+    int i;
+
+    g_test_init(&argc, &argv, NULL);
+    g_test_set_nonfatal_assertions();
+
+    qtest_add_func("/npcm7xx_gpio/dout_to_din", test_dout_to_din);
+    qtest_add_func("/npcm7xx_gpio/pullup_pulldown", test_pullup_pulldown);
+    qtest_add_func("/npcm7xx_gpio/output_enable", test_output_enable);
+    qtest_add_func("/npcm7xx_gpio/open_drain", test_open_drain);
+    qtest_add_func("/npcm7xx_gpio/polarity", test_polarity);
+    qtest_add_func("/npcm7xx_gpio/input_mask", test_input_mask);
+    qtest_add_func("/npcm7xx_gpio/temp_lock", test_temp_lock);
+    qtest_add_func("/npcm7xx_gpio/events/level", test_events_level);
+    qtest_add_func("/npcm7xx_gpio/events/rising_edge", test_events_rising_edge);
+    qtest_add_func("/npcm7xx_gpio/events/both_edges", test_events_both_edges);
+
+    for (i = 0; i < NR_GPIO_DEVICES; i++) {
+        g_autofree char *test_name =
+            g_strdup_printf("/npcm7xx_gpio/gpio[%d]/irq", i);
+        qtest_add_data_func(test_name, (void *)(intptr_t)i, test_gpion_irq);
+    }
+
+    qtest_start("-machine npcm750-evb");
+    qtest_irq_intercept_in(global_qtest, "/machine/soc/a9mpcore/gic");
+    ret = g_test_run();
+    qtest_end();
+
+    return ret;
+}
diff --git a/hw/gpio/meson.build b/hw/gpio/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/gpio/meson.build
+++ b/hw/gpio/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_PUV3', if_true: files('puv3_gpio.c'))
 softmmu_ss.add(when: 'CONFIG_ZAURUS', if_true: files('zaurus.c'))
 
 softmmu_ss.add(when: 'CONFIG_IMX', if_true: files('imx_gpio.c'))
+softmmu_ss.add(when: 'CONFIG_NPCM7XX', if_true: files('npcm7xx_gpio.c'))
 softmmu_ss.add(when: 'CONFIG_NRF51_SOC', if_true: files('nrf51_gpio.c'))
 softmmu_ss.add(when: 'CONFIG_OMAP', if_true: files('omap_gpio.c'))
 softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files('bcm2835_gpio.c'))
diff --git a/hw/gpio/trace-events b/hw/gpio/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/gpio/trace-events
+++ b/hw/gpio/trace-events
@@ -XXX,XX +XXX,XX @@
 # See docs/devel/tracing.txt for syntax documentation.
 
+# npcm7xx_gpio.c
+npcm7xx_gpio_read(const char *id, uint64_t offset, uint64_t value) " %s offset: 0x%04" PRIx64 " value 0x%08" PRIx64
+npcm7xx_gpio_write(const char *id, uint64_t offset, uint64_t value) "%s offset: 0x%04" PRIx64 " value 0x%08" PRIx64
+npcm7xx_gpio_set_input(const char *id, int32_t line, int32_t level) "%s line: %" PRIi32 " level: %" PRIi32
+npcm7xx_gpio_set_output(const char *id, int32_t line, int32_t level) "%s line: %" PRIi32 " level: %" PRIi32
+npcm7xx_gpio_update_events(const char *id, uint32_t evst, uint32_t even) "%s evst: 0x%08" PRIx32 " even: 0x%08" PRIx32
+
 # nrf51_gpio.c
 nrf51_gpio_read(uint64_t offset, uint64_t r) "offset 0x%" PRIx64 " value 0x%" PRIx64
 nrf51_gpio_write(uint64_t offset, uint64_t value) "offset 0x%" PRIx64 " value 0x%" PRIx64
diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/meson.build
+++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qtests_sparc64 = \
   ['prom-env-test', 'boot-serial-test']
 
 qtests_npcm7xx = \
-  ['npcm7xx_rng-test',
+  ['npcm7xx_gpio-test',
+   'npcm7xx_rng-test',
    'npcm7xx_timer-test',
    'npcm7xx_watchdog_timer-test']
 qtests_arm = \
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

No code out of bcm2836.c uses (or requires) the BCM283XInfo
declarations. Move it locally to the C source file.

Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-2-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/bcm2836.h |  8 --------
 hw/arm/bcm2836.c         | 14 ++++++++++++++
 2 files changed, 14 insertions(+), 8 deletions(-)

diff --git a/include/hw/arm/bcm2836.h b/include/hw/arm/bcm2836.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/bcm2836.h
+++ b/include/hw/arm/bcm2836.h
@@ -XXX,XX +XXX,XX @@ struct BCM283XState {
     BCM2835PeripheralState peripherals;
 };
 
-typedef struct BCM283XInfo BCM283XInfo;
-
-struct BCM283XClass {
-    DeviceClass parent_class;
-    const BCM283XInfo *info;
-};
-
-
 #endif /* BCM2836_H */
diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2836.c
+++ b/hw/arm/bcm2836.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/arm/raspi_platform.h"
 #include "hw/sysbus.h"
 
+typedef struct BCM283XInfo BCM283XInfo;
+
+typedef struct BCM283XClass {
+    /*< private >*/
+    DeviceClass parent_class;
+    /*< public >*/
+    const BCM283XInfo *info;
+} BCM283XClass;
+
 struct BCM283XInfo {
     const char *name;
     const char *cpu_type;
@@ -XXX,XX +XXX,XX @@ struct BCM283XInfo {
     int clusterid;
 };
 
+#define BCM283X_CLASS(klass) \
+    OBJECT_CLASS_CHECK(BCM283XClass, (klass), TYPE_BCM283X)
+#define BCM283X_GET_CLASS(obj) \
+    OBJECT_GET_CLASS(BCM283XClass, (obj), TYPE_BCM283X)
+
 static const BCM283XInfo bcm283x_socs[] = {
     {
         .name = TYPE_BCM2836,
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

Remove usage of TypeInfo::class_data. Instead fill the fields in
the corresponding class_init().

So far all children use the same values for almost all fields,
but we are going to add the BCM2711/BCM2838 SoC for the raspi4
machine which use different fields.

Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-3-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/bcm2836.c | 108 ++++++++++++++++++++++-------------------------
 1 file changed, 51 insertions(+), 57 deletions(-)

diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2836.c
+++ b/hw/arm/bcm2836.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/arm/raspi_platform.h"
 #include "hw/sysbus.h"
 
-typedef struct BCM283XInfo BCM283XInfo;
-
 typedef struct BCM283XClass {
     /*< private >*/
     DeviceClass parent_class;
     /*< public >*/
-    const BCM283XInfo *info;
-} BCM283XClass;
-
-struct BCM283XInfo {
     const char *name;
     const char *cpu_type;
     hwaddr peri_base; /* Peripheral base address seen by the CPU */
     hwaddr ctrl_base; /* Interrupt controller and mailboxes etc. */
     int clusterid;
-};
+} BCM283XClass;
 
 #define BCM283X_CLASS(klass) \
     OBJECT_CLASS_CHECK(BCM283XClass, (klass), TYPE_BCM283X)
 #define BCM283X_GET_CLASS(obj) \
     OBJECT_GET_CLASS(BCM283XClass, (obj), TYPE_BCM283X)
 
-static const BCM283XInfo bcm283x_socs[] = {
-    {
-        .name = TYPE_BCM2836,
-        .cpu_type = ARM_CPU_TYPE_NAME("cortex-a7"),
-        .peri_base = 0x3f000000,
-        .ctrl_base = 0x40000000,
-        .clusterid = 0xf,
-    },
-#ifdef TARGET_AARCH64
-    {
-        .name = TYPE_BCM2837,
-        .cpu_type = ARM_CPU_TYPE_NAME("cortex-a53"),
-        .peri_base = 0x3f000000,
-        .ctrl_base = 0x40000000,
-        .clusterid = 0x0,
-    },
-#endif
-};
-
 static void bcm2836_init(Object *obj)
 {
     BCM283XState *s = BCM283X(obj);
     BCM283XClass *bc = BCM283X_GET_CLASS(obj);
-    const BCM283XInfo *info = bc->info;
     int n;
 
     for (n = 0; n < BCM283X_NCPUS; n++) {
         object_initialize_child(obj, "cpu[*]", &s->cpu[n].core,
-                                info->cpu_type);
+                                bc->cpu_type);
     }
 
     object_initialize_child(obj, "control", &s->control, TYPE_BCM2836_CONTROL);
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
 {
     BCM283XState *s = BCM283X(dev);
     BCM283XClass *bc = BCM283X_GET_CLASS(dev);
-    const BCM283XInfo *info = bc->info;
     Object *obj;
     int n;
 
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
                               "sd-bus");
 
     sysbus_mmio_map_overlap(SYS_BUS_DEVICE(&s->peripherals), 0,
-                            info->peri_base, 1);
+                            bc->peri_base, 1);
 
     /* bcm2836 interrupt controller (and mailboxes, etc.) */
     if (!sysbus_realize(SYS_BUS_DEVICE(&s->control), errp)) {
         return;
     }
 
-    sysbus_mmio_map(SYS_BUS_DEVICE(&s->control), 0, info->ctrl_base);
+    sysbus_mmio_map(SYS_BUS_DEVICE(&s->control), 0, bc->ctrl_base);
 
     sysbus_connect_irq(SYS_BUS_DEVICE(&s->peripherals), 0,
         qdev_get_gpio_in_named(DEVICE(&s->control), "gpu-irq", 0));
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
 
     for (n = 0; n < BCM283X_NCPUS; n++) {
         /* TODO: this should be converted to a property of ARM_CPU */
-        s->cpu[n].core.mp_affinity = (info->clusterid << 8) | n;
+        s->cpu[n].core.mp_affinity = (bc->clusterid << 8) | n;
 
         /* set periphbase/CBAR value for CPU-local registers */
         if (!object_property_set_int(OBJECT(&s->cpu[n].core), "reset-cbar",
-                                     info->peri_base, errp)) {
+                                     bc->peri_base, errp)) {
             return;
         }
 
@@ -XXX,XX +XXX,XX @@ static Property bcm2836_props[] = {
 static void bcm283x_class_init(ObjectClass *oc, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(oc);
-    BCM283XClass *bc = BCM283X_CLASS(oc);
 
-    bc->info = data;
-    dc->realize = bcm2836_realize;
-    device_class_set_props(dc, bcm2836_props);
     /* Reason: Must be wired up in code (see raspi_init() function) */
     dc->user_creatable = false;
 }
 
-static const TypeInfo bcm283x_type_info = {
-    .name = TYPE_BCM283X,
-    .parent = TYPE_DEVICE,
-    .instance_size = sizeof(BCM283XState),
-    .instance_init = bcm2836_init,
-    .class_size = sizeof(BCM283XClass),
-    .abstract = true,
+static void bcm2836_class_init(ObjectClass *oc, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(oc);
+    BCM283XClass *bc = BCM283X_CLASS(oc);
+
+    bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a7");
+    bc->peri_base = 0x3f000000;
+    bc->ctrl_base = 0x40000000;
+    bc->clusterid = 0xf;
+    dc->realize = bcm2836_realize;
+    device_class_set_props(dc, bcm2836_props);
 };
 
-static void bcm2836_register_types(void)
+#ifdef TARGET_AARCH64
+static void bcm2837_class_init(ObjectClass *oc, void *data)
 {
-    int i;
+    DeviceClass *dc = DEVICE_CLASS(oc);
+    BCM283XClass *bc = BCM283X_CLASS(oc);
 
-    type_register_static(&bcm283x_type_info);
-    for (i = 0; i < ARRAY_SIZE(bcm283x_socs); i++) {
-        TypeInfo ti = {
-            .name = bcm283x_socs[i].name,
-            .parent = TYPE_BCM283X,
-            .class_init = bcm283x_class_init,
-            .class_data = (void *) &bcm283x_socs[i],
-        };
-        type_register(&ti);
+    bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a53");
+    bc->peri_base = 0x3f000000;
+    bc->ctrl_base = 0x40000000;
+    bc->clusterid = 0x0;
+    dc->realize = bcm2836_realize;
+    device_class_set_props(dc, bcm2836_props);
+};
+#endif
+
+static const TypeInfo bcm283x_types[] = {
+    {
+        .name           = TYPE_BCM2836,
+        .parent         = TYPE_BCM283X,
+        .class_init     = bcm2836_class_init,
+#ifdef TARGET_AARCH64
+    }, {
+        .name           = TYPE_BCM2837,
+        .parent         = TYPE_BCM283X,
+        .class_init     = bcm2837_class_init,
+#endif
+    }, {
+        .name           = TYPE_BCM283X,
+        .parent         = TYPE_DEVICE,
+        .instance_size  = sizeof(BCM283XState),
+        .instance_init  = bcm2836_init,
+        .class_size     = sizeof(BCM283XClass),
+        .class_init     = bcm283x_class_init,
+        .abstract       = true,
     }
-}
+};
 
-type_init(bcm2836_register_types)
+DEFINE_TYPES(bcm283x_types)
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

The BCM2835 has only one core. Introduce the core_count field to
be able to use values different than BCM283X_NCPUS (4).

Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-4-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/bcm2836.c | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2836.c
+++ b/hw/arm/bcm2836.c
@@ -XXX,XX +XXX,XX @@ typedef struct BCM283XClass {
     /*< public >*/
     const char *name;
     const char *cpu_type;
+    unsigned core_count;
     hwaddr peri_base; /* Peripheral base address seen by the CPU */
     hwaddr ctrl_base; /* Interrupt controller and mailboxes etc. */
     int clusterid;
@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
     BCM283XClass *bc = BCM283X_GET_CLASS(obj);
     int n;
 
-    for (n = 0; n < BCM283X_NCPUS; n++) {
+    for (n = 0; n < bc->core_count; n++) {
         object_initialize_child(obj, "cpu[*]", &s->cpu[n].core,
                                 bc->cpu_type);
     }
@@ -XXX,XX +XXX,XX @@ static void bcm2836_class_init(ObjectClass *oc, void *data)
     BCM283XClass *bc = BCM283X_CLASS(oc);
 
     bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a7");
+    bc->core_count = BCM283X_NCPUS;
     bc->peri_base = 0x3f000000;
     bc->ctrl_base = 0x40000000;
     bc->clusterid = 0xf;
@@ -XXX,XX +XXX,XX @@ static void bcm2837_class_init(ObjectClass *oc, void *data)
     BCM283XClass *bc = BCM283X_CLASS(oc);
 
     bc->cpu_type = ARM_CPU_TYPE_NAME("cortex-a53");
+    bc->core_count = BCM283X_NCPUS;
     bc->peri_base = 0x3f000000;
     bc->ctrl_base = 0x40000000;
     bc->clusterid = 0x0;
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

It makes no sense to set enabled-cpus=0 on single core SoCs.

Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-5-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/bcm2836.c | 15 +++++++--------
 1 file changed, 7 insertions(+), 8 deletions(-)

diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2836.c
+++ b/hw/arm/bcm2836.c
@@ -XXX,XX +XXX,XX @@ typedef struct BCM283XClass {
 #define BCM283X_GET_CLASS(obj) \
     OBJECT_GET_CLASS(BCM283XClass, (obj), TYPE_BCM283X)
 
+static Property bcm2836_enabled_cores_property =
+    DEFINE_PROP_UINT32("enabled-cpus", BCM283XState, enabled_cpus, 0);
+
 static void bcm2836_init(Object *obj)
 {
     BCM283XState *s = BCM283X(obj);
@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
         object_initialize_child(obj, "cpu[*]", &s->cpu[n].core,
                                 bc->cpu_type);
     }
+    if (bc->core_count > 1) {
+        qdev_property_add_static(DEVICE(obj), &bcm2836_enabled_cores_property);
+        qdev_prop_set_uint32(DEVICE(obj), "enabled-cpus", bc->core_count);
+    }
 
     object_initialize_child(obj, "control", &s->control, TYPE_BCM2836_CONTROL);
 
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
     }
 }
 
-static Property bcm2836_props[] = {
-    DEFINE_PROP_UINT32("enabled-cpus", BCM283XState, enabled_cpus,
-                       BCM283X_NCPUS),
-    DEFINE_PROP_END_OF_LIST()
-};
-
 static void bcm283x_class_init(ObjectClass *oc, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(oc);
@@ -XXX,XX +XXX,XX @@ static void bcm2836_class_init(ObjectClass *oc, void *data)
     bc->ctrl_base = 0x40000000;
     bc->clusterid = 0xf;
     dc->realize = bcm2836_realize;
-    device_class_set_props(dc, bcm2836_props);
 };
 
 #ifdef TARGET_AARCH64
@@ -XXX,XX +XXX,XX @@ static void bcm2837_class_init(ObjectClass *oc, void *data)
     bc->ctrl_base = 0x40000000;
     bc->clusterid = 0x0;
     dc->realize = bcm2836_realize;
-    device_class_set_props(dc, bcm2836_props);
 };
 #endif
 
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

The realize() function is clearly composed of two parts,
each described by a comment:

void realize()
  {
     /* common peripherals from bcm2835 */
     ...
     /* bcm2836 interrupt controller (and mailboxes, etc.) */
     ...
   }

Split the two part, so we can reuse the common part with other
SoCs from this family.

Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-6-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/bcm2836.c | 22 ++++++++++++++++++----
 1 file changed, 18 insertions(+), 4 deletions(-)

diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2836.c
+++ b/hw/arm/bcm2836.c
@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
         qdev_prop_set_uint32(DEVICE(obj), "enabled-cpus", bc->core_count);
     }
 
-    object_initialize_child(obj, "control", &s->control, TYPE_BCM2836_CONTROL);
+    if (bc->ctrl_base) {
+        object_initialize_child(obj, "control", &s->control,
+                                TYPE_BCM2836_CONTROL);
+    }
 
     object_initialize_child(obj, "peripherals", &s->peripherals,
                             TYPE_BCM2835_PERIPHERALS);
@@ -XXX,XX +XXX,XX @@ static void bcm2836_init(Object *obj)
                               "vcram-size");
 }
 
-static void bcm2836_realize(DeviceState *dev, Error **errp)
+static bool bcm283x_common_realize(DeviceState *dev, Error **errp)
 {
     BCM283XState *s = BCM283X(dev);
     BCM283XClass *bc = BCM283X_GET_CLASS(dev);
     Object *obj;
-    int n;
 
     /* common peripherals from bcm2835 */
 
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
     object_property_add_const_link(OBJECT(&s->peripherals), "ram", obj);
 
     if (!sysbus_realize(SYS_BUS_DEVICE(&s->peripherals), errp)) {
-        return;
+        return false;
     }
 
     object_property_add_alias(OBJECT(s), "sd-bus", OBJECT(&s->peripherals),
@@ -XXX,XX +XXX,XX @@ static void bcm2836_realize(DeviceState *dev, Error **errp)
 
     sysbus_mmio_map_overlap(SYS_BUS_DEVICE(&s->peripherals), 0,
                             bc->peri_base, 1);
+    return true;
+}
+
+static void bcm2836_realize(DeviceState *dev, Error **errp)
+{
+    BCM283XState *s = BCM283X(dev);
+    BCM283XClass *bc = BCM283X_GET_CLASS(dev);
+    int n;
+
+    if (!bcm283x_common_realize(dev, errp)) {
+        return;
+    }
 
     /* bcm2836 interrupt controller (and mailboxes, etc.) */
     if (!sysbus_realize(SYS_BUS_DEVICE(&s->control), errp)) {
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-7-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/bcm2836.h |  1 +
 hw/arm/bcm2836.c         | 34 ++++++++++++++++++++++++++++++++++
 hw/arm/raspi.c           |  2 ++
 3 files changed, 37 insertions(+)

diff --git a/include/hw/arm/bcm2836.h b/include/hw/arm/bcm2836.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/bcm2836.h
+++ b/include/hw/arm/bcm2836.h
@@ -XXX,XX +XXX,XX @@ OBJECT_DECLARE_TYPE(BCM283XState, BCM283XClass, BCM283X)
  * them, code using these devices should always handle them via the
  * BCM283x base class, so they have no BCM2836(obj) etc macros.
  */
+#define TYPE_BCM2835 "bcm2835"
 #define TYPE_BCM2836 "bcm2836"
 #define TYPE_BCM2837 "bcm2837"
 
diff --git a/hw/arm/bcm2836.c b/hw/arm/bcm2836.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2836.c
+++ b/hw/arm/bcm2836.c
@@ -XXX,XX +XXX,XX @@ static bool bcm283x_common_realize(DeviceState *dev, Error **errp)
     return true;
 }
 
+static void bcm2835_realize(DeviceState *dev, Error **errp)
+{
+    BCM283XState *s = BCM283X(dev);
+
+    if (!bcm283x_common_realize(dev, errp)) {
+        return;
+    }
+
+    if (!qdev_realize(DEVICE(&s->cpu[0].core), NULL, errp)) {
+        return;
+    }
+
+    /* Connect irq/fiq outputs from the interrupt controller. */
+    sysbus_connect_irq(SYS_BUS_DEVICE(&s->peripherals), 0,
+            qdev_get_gpio_in(DEVICE(&s->cpu[0].core), ARM_CPU_IRQ));
+    sysbus_connect_irq(SYS_BUS_DEVICE(&s->peripherals), 1,
+            qdev_get_gpio_in(DEVICE(&s->cpu[0].core), ARM_CPU_FIQ));
+}
+
 static void bcm2836_realize(DeviceState *dev, Error **errp)
 {
     BCM283XState *s = BCM283X(dev);
@@ -XXX,XX +XXX,XX @@ static void bcm283x_class_init(ObjectClass *oc, void *data)
     dc->user_creatable = false;
 }
 
+static void bcm2835_class_init(ObjectClass *oc, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(oc);
+    BCM283XClass *bc = BCM283X_CLASS(oc);
+
+    bc->cpu_type = ARM_CPU_TYPE_NAME("arm1176");
+    bc->core_count = 1;
+    bc->peri_base = 0x20000000;
+    dc->realize = bcm2835_realize;
+};
+
 static void bcm2836_class_init(ObjectClass *oc, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(oc);
@@ -XXX,XX +XXX,XX @@ static void bcm2837_class_init(ObjectClass *oc, void *data)
 
 static const TypeInfo bcm283x_types[] = {
     {
+        .name           = TYPE_BCM2835,
+        .parent         = TYPE_BCM283X,
+        .class_init     = bcm2835_class_init,
+    }, {
         .name           = TYPE_BCM2836,
         .parent         = TYPE_BCM283X,
         .class_init     = bcm2836_class_init,
diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/raspi.c
+++ b/hw/arm/raspi.c
@@ -XXX,XX +XXX,XX @@ FIELD(REV_CODE, MEMORY_SIZE,       20, 3);
 FIELD(REV_CODE, STYLE,             23, 1);
 
 typedef enum RaspiProcessorId {
+    PROCESSOR_ID_BCM2835 = 0,
     PROCESSOR_ID_BCM2836 = 1,
     PROCESSOR_ID_BCM2837 = 2,
 } RaspiProcessorId;
@@ -XXX,XX +XXX,XX @@ static const struct {
     const char *type;
     int cores_count;
 } soc_property[] = {
+    [PROCESSOR_ID_BCM2835] = {TYPE_BCM2835, 1},
     [PROCESSOR_ID_BCM2836] = {TYPE_BCM2836, BCM283X_NCPUS},
     [PROCESSOR_ID_BCM2837] = {TYPE_BCM2837, BCM283X_NCPUS},
 };
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

The Pi A is almost the first machine released.
It uses a BCM2835 SoC which includes a ARMv6Z core.

Example booting the machine using content from [*]
(we use the device tree from the B model):

$ qemu-system-arm -M raspi1ap -serial stdio \
      -kernel raspberrypi/firmware/boot/kernel.img \
      -dtb raspberrypi/firmware/boot/bcm2708-rpi-b-plus.dtb \
      -append 'earlycon=pl011,0x20201000 console=ttyAMA0'
  [    0.000000] Booting Linux on physical CPU 0x0
  [    0.000000] Linux version 4.19.118+ (dom@buildbot) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1311 Mon Apr 27 14:16:15 BST 2020
  [    0.000000] CPU: ARMv6-compatible processor [410fb767] revision 7 (ARMv7), cr=00c5387d
  [    0.000000] CPU: VIPT aliasing data cache, unknown instruction cache
  [    0.000000] OF: fdt: Machine model: Raspberry Pi Model B+
  ...

[*] http://archive.raspberrypi.org/debian/pool/main/r/raspberrypi-firmware/raspberrypi-kernel_1.20200512-2_armhf.deb

Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-8-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/raspi.c | 13 +++++++++++++
 1 file changed, 13 insertions(+)

diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/raspi.c
+++ b/hw/arm/raspi.c
@@ -XXX,XX +XXX,XX @@ static void raspi_machine_class_common_init(MachineClass *mc,
     mc->default_ram_id = "ram";
 };
 
+static void raspi1ap_machine_class_init(ObjectClass *oc, void *data)
+{
+    MachineClass *mc = MACHINE_CLASS(oc);
+    RaspiMachineClass *rmc = RASPI_MACHINE_CLASS(oc);
+
+    rmc->board_rev = 0x900021; /* Revision 1.1 */
+    raspi_machine_class_common_init(mc, rmc->board_rev);
+};
+
 static void raspi2b_machine_class_init(ObjectClass *oc, void *data)
 {
     MachineClass *mc = MACHINE_CLASS(oc);
@@ -XXX,XX +XXX,XX @@ static void raspi3b_machine_class_init(ObjectClass *oc, void *data)
 
 static const TypeInfo raspi_machine_types[] = {
     {
+        .name           = MACHINE_TYPE_NAME("raspi1ap"),
+        .parent         = TYPE_RASPI_MACHINE,
+        .class_init     = raspi1ap_machine_class_init,
+    }, {
         .name           = MACHINE_TYPE_NAME("raspi2b"),
         .parent         = TYPE_RASPI_MACHINE,
         .class_init     = raspi2b_machine_class_init,
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

Similarly to the Pi A, the Pi Zero uses a BCM2835 SoC (ARMv6Z core).

The only difference between the revision 1.2 and 1.3 is the latter
exposes a CSI camera connector. As we do not implement the Unicam
peripheral, there is no point in exposing a camera connector :)
Therefore we choose to model the 1.2 revision.

Example booting the machine using content from [*]:

$ qemu-system-arm -M raspi0 -serial stdio \
      -kernel raspberrypi/firmware/boot/kernel.img \
      -dtb raspberrypi/firmware/boot/bcm2708-rpi-zero.dtb \
      -append 'printk.time=0 earlycon=pl011,0x20201000 console=ttyAMA0'
  [    0.000000] Booting Linux on physical CPU 0x0
  [    0.000000] Linux version 4.19.118+ (dom@buildbot) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1311 Mon Apr 27 14:16:15 BST 2020
  [    0.000000] CPU: ARMv6-compatible processor [410fb767] revision 7 (ARMv7), cr=00c5387d
  [    0.000000] CPU: VIPT aliasing data cache, unknown instruction cache
  [    0.000000] OF: fdt: Machine model: Raspberry Pi Zero
  ...

[*] http://archive.raspberrypi.org/debian/pool/main/r/raspberrypi-firmware/raspberrypi-kernel_1.20200512-2_armhf.deb

Reviewed-by: Luc Michel <luc.michel@greensocs.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-9-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/raspi.c | 13 +++++++++++++
 1 file changed, 13 insertions(+)

diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/raspi.c
+++ b/hw/arm/raspi.c
@@ -XXX,XX +XXX,XX @@ static void raspi_machine_class_common_init(MachineClass *mc,
     mc->default_ram_id = "ram";
 };
 
+static void raspi0_machine_class_init(ObjectClass *oc, void *data)
+{
+    MachineClass *mc = MACHINE_CLASS(oc);
+    RaspiMachineClass *rmc = RASPI_MACHINE_CLASS(oc);
+
+    rmc->board_rev = 0x920092; /* Revision 1.2 */
+    raspi_machine_class_common_init(mc, rmc->board_rev);
+};
+
 static void raspi1ap_machine_class_init(ObjectClass *oc, void *data)
 {
     MachineClass *mc = MACHINE_CLASS(oc);
@@ -XXX,XX +XXX,XX @@ static void raspi3b_machine_class_init(ObjectClass *oc, void *data)
 
 static const TypeInfo raspi_machine_types[] = {
     {
+        .name           = MACHINE_TYPE_NAME("raspi0"),
+        .parent         = TYPE_RASPI_MACHINE,
+        .class_init     = raspi0_machine_class_init,
+    }, {
         .name           = MACHINE_TYPE_NAME("raspi1ap"),
         .parent         = TYPE_RASPI_MACHINE,
         .class_init     = raspi1ap_machine_class_init,
-- 
2.20.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

The Pi 3A+ is a stripped down version of the 3B:
- 512 MiB of RAM instead of 1 GiB
- no on-board ethernet chipset

Add it as it is a closer match to what we model.

Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201024170127.3592182-10-f4bug@amsat.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/raspi.c | 13 +++++++++++++
 1 file changed, 13 insertions(+)

diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/raspi.c
+++ b/hw/arm/raspi.c
@@ -XXX,XX +XXX,XX @@ static void raspi2b_machine_class_init(ObjectClass *oc, void *data)
 };
 
 #ifdef TARGET_AARCH64
+static void raspi3ap_machine_class_init(ObjectClass *oc, void *data)
+{
+    MachineClass *mc = MACHINE_CLASS(oc);
+    RaspiMachineClass *rmc = RASPI_MACHINE_CLASS(oc);
+
+    rmc->board_rev = 0x9020e0; /* Revision 1.0 */
+    raspi_machine_class_common_init(mc, rmc->board_rev);
+};
+
 static void raspi3b_machine_class_init(ObjectClass *oc, void *data)
 {
     MachineClass *mc = MACHINE_CLASS(oc);
@@ -XXX,XX +XXX,XX @@ static const TypeInfo raspi_machine_types[] = {
         .parent         = TYPE_RASPI_MACHINE,
         .class_init     = raspi2b_machine_class_init,
 #ifdef TARGET_AARCH64
+    }, {
+        .name           = MACHINE_TYPE_NAME("raspi3ap"),
+        .parent         = TYPE_RASPI_MACHINE,
+        .class_init     = raspi3ap_machine_class_init,
     }, {
         .name           = MACHINE_TYPE_NAME("raspi3b"),
         .parent         = TYPE_RASPI_MACHINE,
-- 
2.20.1

From: "Dr. David Alan Gilbert" <dgilbert@redhat.com>

Use of 0x%d - make up our mind as 0x%x

Signed-off-by: Dr. David Alan Gilbert <dgilbert@redhat.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Acked-by: Eric Auger <eric.auger@redhat.com>
Message-id: 20201014193355.53074-1-dgilbert@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/trace-events | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/trace-events b/hw/arm/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/trace-events
+++ b/hw/arm/trace-events
@@ -XXX,XX +XXX,XX @@ smmuv3_get_cd(uint64_t addr) "CD addr: 0x%"PRIx64
 smmuv3_decode_cd(uint32_t oas) "oas=%d"
 smmuv3_decode_cd_tt(int i, uint32_t tsz, uint64_t ttb, uint32_t granule_sz, bool had) "TT[%d]:tsz:%d ttb:0x%"PRIx64" granule_sz:%d had:%d"
 smmuv3_cmdq_cfgi_ste(int streamid) "streamid =%d"
-smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%d - end=0x%d"
+smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%x - end=0x%x"
 smmuv3_cmdq_cfgi_cd(uint32_t sid) "streamid = %d"
 smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid %d (hits=%d, misses=%d, hit rate=%d)"
 smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid %d (hits=%d, misses=%d, hit rate=%d)"
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Damien Hedde <damien.hedde@greensocs.com>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/clock.h | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/include/hw/clock.h b/include/hw/clock.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/clock.h
+++ b/include/hw/clock.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_clock;
     VMSTATE_CLOCK_V(field, state, 0)
 #define VMSTATE_CLOCK_V(field, state, version) \
     VMSTATE_STRUCT_POINTER_V(field, state, version, vmstate_clock, Clock)
+#define VMSTATE_ARRAY_CLOCK(field, state, num) \
+    VMSTATE_ARRAY_CLOCK_V(field, state, num, 0)
+#define VMSTATE_ARRAY_CLOCK_V(field, state, num, version)          \
+    VMSTATE_ARRAY_OF_POINTER_TO_STRUCT(field, state, num, version, \
+                                       vmstate_clock, Clock)
 
 /**
  * clock_setup_canonical_path:
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

The nanosecond unit greatly limits the dynamic range we can display in
clock value traces, for values in the order of 1GHz and more. The
internal representation can go way beyond this value and it is quite
common for today's clocks to be within those ranges.

For example, a frequency between 500MHz+ and 1GHz will be displayed as
1ns. Beyond 1GHz, it will show up as 0ns.

Replace nanosecond periods traces with frequencies in the Hz unit
to have more dynamic range in the trace output.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Damien Hedde <damien.hedde@greensocs.com>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/core/clock.c      | 6 +++---
 hw/core/trace-events | 4 ++--
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/hw/core/clock.c b/hw/core/clock.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/core/clock.c
+++ b/hw/core/clock.c
@@ -XXX,XX +XXX,XX @@ bool clock_set(Clock *clk, uint64_t period)
     if (clk->period == period) {
         return false;
     }
-    trace_clock_set(CLOCK_PATH(clk), CLOCK_PERIOD_TO_NS(clk->period),
-                    CLOCK_PERIOD_TO_NS(period));
+    trace_clock_set(CLOCK_PATH(clk), CLOCK_PERIOD_TO_HZ(clk->period),
+                    CLOCK_PERIOD_TO_HZ(period));
     clk->period = period;
 
     return true;
@@ -XXX,XX +XXX,XX @@ static void clock_propagate_period(Clock *clk, bool call_callbacks)
         if (child->period != clk->period) {
             child->period = clk->period;
             trace_clock_update(CLOCK_PATH(child), CLOCK_PATH(clk),
-                               CLOCK_PERIOD_TO_NS(clk->period),
+                               CLOCK_PERIOD_TO_HZ(clk->period),
                                call_callbacks);
             if (call_callbacks && child->callback) {
                 child->callback(child->callback_opaque);
diff --git a/hw/core/trace-events b/hw/core/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/core/trace-events
+++ b/hw/core/trace-events
@@ -XXX,XX +XXX,XX @@ resettable_transitional_function(void *obj, const char *objtype) "obj=%p(%s)"
 # clock.c
 clock_set_source(const char *clk, const char *src) "'%s', src='%s'"
 clock_disconnect(const char *clk) "'%s'"
-clock_set(const char *clk, uint64_t old, uint64_t new) "'%s', ns=%"PRIu64"->%"PRIu64
+clock_set(const char *clk, uint64_t old, uint64_t new) "'%s', %"PRIu64"Hz->%"PRIu64"Hz"
 clock_propagate(const char *clk) "'%s'"
-clock_update(const char *clk, const char *src, uint64_t val, int cb) "'%s', src='%s', ns=%"PRIu64", cb=%d"
+clock_update(const char *clk, const char *src, uint64_t hz, int cb) "'%s', src='%s', val=%"PRIu64"Hz cb=%d"
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

The CPRMAN (clock controller) was mapped at the watchdog/power manager
address. It was also split into two unimplemented peripherals (CM and
A2W) but this is really the same one, as shown by this extract of the
Raspberry Pi 3 Linux device tree:

watchdog@7e100000 {
            compatible = "brcm,bcm2835-pm\0brcm,bcm2835-pm-wdt";
            [...]
            reg = <0x7e100000 0x114 0x7e00a000 0x24>;
            [...]
    };

[...]
    cprman@7e101000 {
            compatible = "brcm,bcm2835-cprman";
            [...]
            reg = <0x7e101000 0x2000>;
            [...]
    };

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/bcm2835_peripherals.h | 2 +-
 include/hw/arm/raspi_platform.h      | 5 ++---
 hw/arm/bcm2835_peripherals.c         | 4 ++--
 3 files changed, 5 insertions(+), 6 deletions(-)

diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/bcm2835_peripherals.h
+++ b/include/hw/arm/bcm2835_peripherals.h
@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
     BCM2835MphiState mphi;
     UnimplementedDeviceState txp;
     UnimplementedDeviceState armtmr;
+    UnimplementedDeviceState powermgt;
     UnimplementedDeviceState cprman;
-    UnimplementedDeviceState a2w;
     PL011State uart0;
     BCM2835AuxState aux;
     BCM2835FBState fb;
diff --git a/include/hw/arm/raspi_platform.h b/include/hw/arm/raspi_platform.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/raspi_platform.h
+++ b/include/hw/arm/raspi_platform.h
@@ -XXX,XX +XXX,XX @@
 #define ARMCTRL_TIMER0_1_OFFSET (ARM_OFFSET + 0x400) /* Timer 0 and 1 (SP804) */
 #define ARMCTRL_0_SBM_OFFSET    (ARM_OFFSET + 0x800) /* User 0 (ARM) Semaphores
                                                       * Doorbells & Mailboxes */
-#define CPRMAN_OFFSET           0x100000 /* Power Management, Watchdog */
-#define CM_OFFSET               0x101000 /* Clock Management */
-#define A2W_OFFSET              0x102000 /* Reset controller */
+#define PM_OFFSET               0x100000 /* Power Management */
+#define CPRMAN_OFFSET           0x101000 /* Clock Management */
 #define AVS_OFFSET              0x103000 /* Audio Video Standard */
 #define RNG_OFFSET              0x104000
 #define GPIO_OFFSET             0x200000
diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2835_peripherals.c
+++ b/hw/arm/bcm2835_peripherals.c
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
 
     create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
     create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
-    create_unimp(s, &s->cprman, "bcm2835-cprman", CPRMAN_OFFSET, 0x1000);
-    create_unimp(s, &s->a2w, "bcm2835-a2w", A2W_OFFSET, 0x1000);
+    create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
+    create_unimp(s, &s->cprman, "bcm2835-cprman", CPRMAN_OFFSET, 0x2000);
     create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
     create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
     create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

The BCM2835 CPRMAN is the clock manager of the SoC. It is composed of a
main oscillator, and several sub-components (PLLs, multiplexers, ...) to
generate the BCM2835 clock tree.

This commit adds a skeleton of the CPRMAN, with a dummy register
read/write implementation. It embeds the main oscillator (xosc) from
which all the clocks will be derived.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/bcm2835_peripherals.h       |   3 +-
 include/hw/misc/bcm2835_cprman.h           |  37 +++++
 include/hw/misc/bcm2835_cprman_internals.h |  24 +++
 hw/arm/bcm2835_peripherals.c               |  11 +-
 hw/misc/bcm2835_cprman.c                   | 163 +++++++++++++++++++++
 hw/misc/meson.build                        |   1 +
 hw/misc/trace-events                       |   5 +
 7 files changed, 242 insertions(+), 2 deletions(-)
 create mode 100644 include/hw/misc/bcm2835_cprman.h
 create mode 100644 include/hw/misc/bcm2835_cprman_internals.h
 create mode 100644 hw/misc/bcm2835_cprman.c

diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/bcm2835_peripherals.h
+++ b/include/hw/arm/bcm2835_peripherals.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/misc/bcm2835_mbox.h"
 #include "hw/misc/bcm2835_mphi.h"
 #include "hw/misc/bcm2835_thermal.h"
+#include "hw/misc/bcm2835_cprman.h"
 #include "hw/sd/sdhci.h"
 #include "hw/sd/bcm2835_sdhost.h"
 #include "hw/gpio/bcm2835_gpio.h"
@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
     UnimplementedDeviceState txp;
     UnimplementedDeviceState armtmr;
     UnimplementedDeviceState powermgt;
-    UnimplementedDeviceState cprman;
+    BCM2835CprmanState cprman;
     PL011State uart0;
     BCM2835AuxState aux;
     BCM2835FBState fb;
diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/misc/bcm2835_cprman.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * BCM2835 CPRMAN clock manager
+ *
+ * Copyright (c) 2020 Luc Michel <luc@lmichel.fr>
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#ifndef HW_MISC_CPRMAN_H
+#define HW_MISC_CPRMAN_H
+
+#include "hw/sysbus.h"
+#include "hw/qdev-clock.h"
+
+#define TYPE_BCM2835_CPRMAN "bcm2835-cprman"
+
+typedef struct BCM2835CprmanState BCM2835CprmanState;
+
+DECLARE_INSTANCE_CHECKER(BCM2835CprmanState, CPRMAN,
+                         TYPE_BCM2835_CPRMAN)
+
+#define CPRMAN_NUM_REGS (0x2000 / sizeof(uint32_t))
+
+struct BCM2835CprmanState {
+    /*< private >*/
+    SysBusDevice parent_obj;
+
+    /*< public >*/
+    MemoryRegion iomem;
+
+    uint32_t regs[CPRMAN_NUM_REGS];
+    uint32_t xosc_freq;
+
+    Clock *xosc;
+};
+
+#endif
diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * BCM2835 CPRMAN clock manager
+ *
+ * Copyright (c) 2020 Luc Michel <luc@lmichel.fr>
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#ifndef HW_MISC_CPRMAN_INTERNALS_H
+#define HW_MISC_CPRMAN_INTERNALS_H
+
+#include "hw/registerfields.h"
+#include "hw/misc/bcm2835_cprman.h"
+
+/* Register map */
+
+/*
+ * This field is common to all registers. Each register write value must match
+ * the CPRMAN_PASSWORD magic value in its 8 MSB.
+ */
+FIELD(CPRMAN, PASSWORD, 24, 8)
+#define CPRMAN_PASSWORD 0x5a
+
+#endif
diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2835_peripherals.c
+++ b/hw/arm/bcm2835_peripherals.c
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_init(Object *obj)
     /* DWC2 */
     object_initialize_child(obj, "dwc2", &s->dwc2, TYPE_DWC2_USB);
 
+    /* CPRMAN clock manager */
+    object_initialize_child(obj, "cprman", &s->cprman, TYPE_BCM2835_CPRMAN);
+
     object_property_add_const_link(OBJECT(&s->dwc2), "dma-mr",
                                    OBJECT(&s->gpu_bus_mr));
 }
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
         return;
     }
 
+    /* CPRMAN clock manager */
+    if (!sysbus_realize(SYS_BUS_DEVICE(&s->cprman), errp)) {
+        return;
+    }
+    memory_region_add_subregion(&s->peri_mr, CPRMAN_OFFSET,
+                sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->cprman), 0));
+
     memory_region_add_subregion(&s->peri_mr, ARMCTRL_IC_OFFSET,
                 sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->ic), 0));
     sysbus_pass_irq(SYS_BUS_DEVICE(s), SYS_BUS_DEVICE(&s->ic));
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
     create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
     create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
     create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
-    create_unimp(s, &s->cprman, "bcm2835-cprman", CPRMAN_OFFSET, 0x2000);
     create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
     create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
     create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * BCM2835 CPRMAN clock manager
+ *
+ * Copyright (c) 2020 Luc Michel <luc@lmichel.fr>
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+/*
+ * This peripheral is roughly divided into 3 main parts:
+ *   - the PLLs
+ *   - the PLL channels
+ *   - the clock muxes
+ *
+ * A main oscillator (xosc) feeds all the PLLs. Each PLLs has one or more
+ * channels. Those channel are then connected to the clock muxes. Each mux has
+ * multiples sources (usually the xosc, some of the PLL channels and some "test
+ * debug" clocks). A mux is configured to select a given source through its
+ * control register. Each mux has one output clock that also goes out of the
+ * CPRMAN. This output clock usually connects to another peripheral in the SoC
+ * (so a given mux is dedicated to a peripheral).
+ *
+ * At each level (PLL, channel and mux), the clock can be altered through
+ * dividers (and multipliers in case of the PLLs), and can be disabled (in this
+ * case, the next levels see no clock).
+ *
+ * This can be sum-up as follows (this is an example and not the actual BCM2835
+ * clock tree):
+ *
+ *          /-->[PLL]-|->[PLL channel]--...            [mux]--> to peripherals
+ *          |         |->[PLL channel]  muxes takes    [mux]
+ *          |         \->[PLL channel]  inputs from    [mux]
+ *          |                           some channels  [mux]
+ * [xosc]---|-->[PLL]-|->[PLL channel]  and other srcs [mux]
+ *          |         \->[PLL channel]           ...-->[mux]
+ *          |                                          [mux]
+ *          \-->[PLL]--->[PLL channel]                 [mux]
+ *
+ * The page at https://elinux.org/The_Undocumented_Pi gives the actual clock
+ * tree configuration.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/log.h"
+#include "migration/vmstate.h"
+#include "hw/qdev-properties.h"
+#include "hw/misc/bcm2835_cprman.h"
+#include "hw/misc/bcm2835_cprman_internals.h"
+#include "trace.h"
+
+/* CPRMAN "top level" model */
+
+static uint64_t cprman_read(void *opaque, hwaddr offset,
+                            unsigned size)
+{
+    BCM2835CprmanState *s = CPRMAN(opaque);
+    uint64_t r = 0;
+    size_t idx = offset / sizeof(uint32_t);
+
+    switch (idx) {
+    default:
+        r = s->regs[idx];
+    }
+
+    trace_bcm2835_cprman_read(offset, r);
+    return r;
+}
+
+static void cprman_write(void *opaque, hwaddr offset,
+                         uint64_t value, unsigned size)
+{
+    BCM2835CprmanState *s = CPRMAN(opaque);
+    size_t idx = offset / sizeof(uint32_t);
+
+    if (FIELD_EX32(value, CPRMAN, PASSWORD) != CPRMAN_PASSWORD) {
+        trace_bcm2835_cprman_write_invalid_magic(offset, value);
+        return;
+    }
+
+    value &= ~R_CPRMAN_PASSWORD_MASK;
+
+    trace_bcm2835_cprman_write(offset, value);
+    s->regs[idx] = value;
+
+}
+
+static const MemoryRegionOps cprman_ops = {
+    .read = cprman_read,
+    .write = cprman_write,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid = {
+        /*
+         * Although this hasn't been checked against real hardware, nor the
+         * information can be found in a datasheet, it seems reasonable because
+         * of the "PASSWORD" magic value found in every registers.
+         */
+        .min_access_size        = 4,
+        .max_access_size        = 4,
+        .unaligned              = false,
+    },
+    .impl = {
+        .max_access_size = 4,
+    },
+};
+
+static void cprman_reset(DeviceState *dev)
+{
+    BCM2835CprmanState *s = CPRMAN(dev);
+
+    memset(s->regs, 0, sizeof(s->regs));
+
+    clock_update_hz(s->xosc, s->xosc_freq);
+}
+
+static void cprman_init(Object *obj)
+{
+    BCM2835CprmanState *s = CPRMAN(obj);
+
+    s->xosc = clock_new(obj, "xosc");
+
+    memory_region_init_io(&s->iomem, obj, &cprman_ops,
+                          s, "bcm2835-cprman", 0x2000);
+    sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->iomem);
+}
+
+static const VMStateDescription cprman_vmstate = {
+    .name = TYPE_BCM2835_CPRMAN,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_UINT32_ARRAY(regs, BCM2835CprmanState, CPRMAN_NUM_REGS),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+static Property cprman_properties[] = {
+    DEFINE_PROP_UINT32("xosc-freq-hz", BCM2835CprmanState, xosc_freq, 19200000),
+    DEFINE_PROP_END_OF_LIST()
+};
+
+static void cprman_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->reset = cprman_reset;
+    dc->vmsd = &cprman_vmstate;
+    device_class_set_props(dc, cprman_properties);
+}
+
+static const TypeInfo cprman_info = {
+    .name = TYPE_BCM2835_CPRMAN,
+    .parent = TYPE_SYS_BUS_DEVICE,
+    .instance_size = sizeof(BCM2835CprmanState),
+    .class_init = cprman_class_init,
+    .instance_init = cprman_init,
+};
+
+static void cprman_register_types(void)
+{
+    type_register_static(&cprman_info);
+}
+
+type_init(cprman_register_types);
diff --git a/hw/misc/meson.build b/hw/misc/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/meson.build
+++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
   'bcm2835_property.c',
   'bcm2835_rng.c',
   'bcm2835_thermal.c',
+  'bcm2835_cprman.c',
 ))
 softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
 softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
diff --git a/hw/misc/trace-events b/hw/misc/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/trace-events
+++ b/hw/misc/trace-events
@@ -XXX,XX +XXX,XX @@ grlib_apb_pnp_read(uint64_t addr, uint32_t value) "APB PnP read addr:0x%03"PRIx6
 # pca9552.c
 pca955x_gpio_status(const char *description, const char *buf) "%s GPIOs 0-15 [%s]"
 pca955x_gpio_change(const char *description, unsigned id, unsigned prev_state, unsigned current_state) "%s GPIO id:%u status: %u -> %u"
+
+# bcm2835_cprman.c
+bcm2835_cprman_read(uint64_t offset, uint64_t value) "offset:0x%" PRIx64 " value:0x%" PRIx64
+bcm2835_cprman_write(uint64_t offset, uint64_t value) "offset:0x%" PRIx64 " value:0x%" PRIx64
+bcm2835_cprman_write_invalid_magic(uint64_t offset, uint64_t value) "offset:0x%" PRIx64 " value:0x%" PRIx64
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

There are 5 PLLs in the CPRMAN, namely PLL A, C, D, H and B. All of them
take the xosc clock as input and produce a new clock.

This commit adds a skeleton implementation for the PLLs as sub-devices
of the CPRMAN. The PLLs are instantiated and connected internally to the
main oscillator.

Each PLL has 6 registers : CM, A2W_CTRL, A2W_ANA[0,1,2,3], A2W_FRAC. A
write to any of them triggers a call to the (not yet implemented)
pll_update function.

If the main oscillator changes frequency, an update is also triggered.

diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman.h
+++ b/include/hw/misc/bcm2835_cprman.h
@@ -XXX,XX +XXX,XX @@ DECLARE_INSTANCE_CHECKER(BCM2835CprmanState, CPRMAN,
 
 #define CPRMAN_NUM_REGS (0x2000 / sizeof(uint32_t))
 
+typedef enum CprmanPll {
+    CPRMAN_PLLA = 0,
+    CPRMAN_PLLC,
+    CPRMAN_PLLD,
+    CPRMAN_PLLH,
+    CPRMAN_PLLB,
+
+    CPRMAN_NUM_PLL
+} CprmanPll;
+
+typedef struct CprmanPllState {
+    /*< private >*/
+    DeviceState parent_obj;
+
+    /*< public >*/
+    CprmanPll id;
+
+    uint32_t *reg_cm;
+    uint32_t *reg_a2w_ctrl;
+    uint32_t *reg_a2w_ana; /* ANA[0] .. ANA[3] */
+    uint32_t prediv_mask; /* prediv bit in ana[1] */
+    uint32_t *reg_a2w_frac;
+
+    Clock *xosc_in;
+    Clock *out;
+} CprmanPllState;
+
 struct BCM2835CprmanState {
     /*< private >*/
     SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
     /*< public >*/
     MemoryRegion iomem;
 
+    CprmanPllState plls[CPRMAN_NUM_PLL];
+
     uint32_t regs[CPRMAN_NUM_REGS];
     uint32_t xosc_freq;
 
diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman_internals.h
+++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/registerfields.h"
 #include "hw/misc/bcm2835_cprman.h"
 
+#define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
+
+DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
+                         TYPE_CPRMAN_PLL)
+
 /* Register map */
 
+/* PLLs */
+REG32(CM_PLLA, 0x104)
+    FIELD(CM_PLLA, LOADDSI0, 0, 1)
+    FIELD(CM_PLLA, HOLDDSI0, 1, 1)
+    FIELD(CM_PLLA, LOADCCP2, 2, 1)
+    FIELD(CM_PLLA, HOLDCCP2, 3, 1)
+    FIELD(CM_PLLA, LOADCORE, 4, 1)
+    FIELD(CM_PLLA, HOLDCORE, 5, 1)
+    FIELD(CM_PLLA, LOADPER, 6, 1)
+    FIELD(CM_PLLA, HOLDPER, 7, 1)
+    FIELD(CM_PLLx, ANARST, 8, 1)
+REG32(CM_PLLC, 0x108)
+    FIELD(CM_PLLC, LOADCORE0, 0, 1)
+    FIELD(CM_PLLC, HOLDCORE0, 1, 1)
+    FIELD(CM_PLLC, LOADCORE1, 2, 1)
+    FIELD(CM_PLLC, HOLDCORE1, 3, 1)
+    FIELD(CM_PLLC, LOADCORE2, 4, 1)
+    FIELD(CM_PLLC, HOLDCORE2, 5, 1)
+    FIELD(CM_PLLC, LOADPER, 6, 1)
+    FIELD(CM_PLLC, HOLDPER, 7, 1)
+REG32(CM_PLLD, 0x10c)
+    FIELD(CM_PLLD, LOADDSI0, 0, 1)
+    FIELD(CM_PLLD, HOLDDSI0, 1, 1)
+    FIELD(CM_PLLD, LOADDSI1, 2, 1)
+    FIELD(CM_PLLD, HOLDDSI1, 3, 1)
+    FIELD(CM_PLLD, LOADCORE, 4, 1)
+    FIELD(CM_PLLD, HOLDCORE, 5, 1)
+    FIELD(CM_PLLD, LOADPER, 6, 1)
+    FIELD(CM_PLLD, HOLDPER, 7, 1)
+REG32(CM_PLLH, 0x110)
+    FIELD(CM_PLLH, LOADPIX, 0, 1)
+    FIELD(CM_PLLH, LOADAUX, 1, 1)
+    FIELD(CM_PLLH, LOADRCAL, 2, 1)
+REG32(CM_PLLB, 0x170)
+    FIELD(CM_PLLB, LOADARM, 0, 1)
+    FIELD(CM_PLLB, HOLDARM, 1, 1)
+
+REG32(A2W_PLLA_CTRL, 0x1100)
+    FIELD(A2W_PLLx_CTRL, NDIV, 0, 10)
+    FIELD(A2W_PLLx_CTRL, PDIV, 12, 3)
+    FIELD(A2W_PLLx_CTRL, PWRDN, 16, 1)
+    FIELD(A2W_PLLx_CTRL, PRST_DISABLE, 17, 1)
+REG32(A2W_PLLC_CTRL, 0x1120)
+REG32(A2W_PLLD_CTRL, 0x1140)
+REG32(A2W_PLLH_CTRL, 0x1160)
+REG32(A2W_PLLB_CTRL, 0x11e0)
+
+REG32(A2W_PLLA_ANA0, 0x1010)
+REG32(A2W_PLLA_ANA1, 0x1014)
+    FIELD(A2W_PLLx_ANA1, FB_PREDIV, 14, 1)
+REG32(A2W_PLLA_ANA2, 0x1018)
+REG32(A2W_PLLA_ANA3, 0x101c)
+
+REG32(A2W_PLLC_ANA0, 0x1030)
+REG32(A2W_PLLC_ANA1, 0x1034)
+REG32(A2W_PLLC_ANA2, 0x1038)
+REG32(A2W_PLLC_ANA3, 0x103c)
+
+REG32(A2W_PLLD_ANA0, 0x1050)
+REG32(A2W_PLLD_ANA1, 0x1054)
+REG32(A2W_PLLD_ANA2, 0x1058)
+REG32(A2W_PLLD_ANA3, 0x105c)
+
+REG32(A2W_PLLH_ANA0, 0x1070)
+REG32(A2W_PLLH_ANA1, 0x1074)
+    FIELD(A2W_PLLH_ANA1, FB_PREDIV, 11, 1)
+REG32(A2W_PLLH_ANA2, 0x1078)
+REG32(A2W_PLLH_ANA3, 0x107c)
+
+REG32(A2W_PLLB_ANA0, 0x10f0)
+REG32(A2W_PLLB_ANA1, 0x10f4)
+REG32(A2W_PLLB_ANA2, 0x10f8)
+REG32(A2W_PLLB_ANA3, 0x10fc)
+
+REG32(A2W_PLLA_FRAC, 0x1200)
+    FIELD(A2W_PLLx_FRAC, FRAC, 0, 20)
+REG32(A2W_PLLC_FRAC, 0x1220)
+REG32(A2W_PLLD_FRAC, 0x1240)
+REG32(A2W_PLLH_FRAC, 0x1260)
+REG32(A2W_PLLB_FRAC, 0x12e0)
+
 /*
  * This field is common to all registers. Each register write value must match
  * the CPRMAN_PASSWORD magic value in its 8 MSB.
@@ -XXX,XX +XXX,XX @@
 FIELD(CPRMAN, PASSWORD, 24, 8)
 #define CPRMAN_PASSWORD 0x5a
 
+/* PLL init info */
+typedef struct PLLInitInfo {
+    const char *name;
+    size_t cm_offset;
+    size_t a2w_ctrl_offset;
+    size_t a2w_ana_offset;
+    uint32_t prediv_mask; /* Prediv bit in ana[1] */
+    size_t a2w_frac_offset;
+} PLLInitInfo;
+
+#define FILL_PLL_INIT_INFO(pll_)                \
+    .cm_offset = R_CM_ ## pll_,                 \
+    .a2w_ctrl_offset = R_A2W_ ## pll_ ## _CTRL, \
+    .a2w_ana_offset = R_A2W_ ## pll_ ## _ANA0,  \
+    .a2w_frac_offset = R_A2W_ ## pll_ ## _FRAC
+
+static const PLLInitInfo PLL_INIT_INFO[] = {
+    [CPRMAN_PLLA] = {
+        .name = "plla",
+        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
+        FILL_PLL_INIT_INFO(PLLA),
+    },
+    [CPRMAN_PLLC] = {
+        .name = "pllc",
+        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
+        FILL_PLL_INIT_INFO(PLLC),
+    },
+    [CPRMAN_PLLD] = {
+        .name = "plld",
+        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
+        FILL_PLL_INIT_INFO(PLLD),
+    },
+    [CPRMAN_PLLH] = {
+        .name = "pllh",
+        .prediv_mask = R_A2W_PLLH_ANA1_FB_PREDIV_MASK,
+        FILL_PLL_INIT_INFO(PLLH),
+    },
+    [CPRMAN_PLLB] = {
+        .name = "pllb",
+        .prediv_mask = R_A2W_PLLx_ANA1_FB_PREDIV_MASK,
+        FILL_PLL_INIT_INFO(PLLB),
+    },
+};
+
+#undef FILL_PLL_CHANNEL_INIT_INFO
+
+static inline void set_pll_init_info(BCM2835CprmanState *s,
+                                     CprmanPllState *pll,
+                                     CprmanPll id)
+{
+    pll->id = id;
+    pll->reg_cm = &s->regs[PLL_INIT_INFO[id].cm_offset];
+    pll->reg_a2w_ctrl = &s->regs[PLL_INIT_INFO[id].a2w_ctrl_offset];
+    pll->reg_a2w_ana = &s->regs[PLL_INIT_INFO[id].a2w_ana_offset];
+    pll->prediv_mask = PLL_INIT_INFO[id].prediv_mask;
+    pll->reg_a2w_frac = &s->regs[PLL_INIT_INFO[id].a2w_frac_offset];
+}
+
 #endif
diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/bcm2835_cprman.c
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/misc/bcm2835_cprman_internals.h"
 #include "trace.h"
 
+/* PLL */
+
+static void pll_update(CprmanPllState *pll)
+{
+    clock_update(pll->out, 0);
+}
+
+static void pll_xosc_update(void *opaque)
+{
+    pll_update(CPRMAN_PLL(opaque));
+}
+
+static void pll_init(Object *obj)
+{
+    CprmanPllState *s = CPRMAN_PLL(obj);
+
+    s->xosc_in = qdev_init_clock_in(DEVICE(s), "xosc-in", pll_xosc_update, s);
+    s->out = qdev_init_clock_out(DEVICE(s), "out");
+}
+
+static const VMStateDescription pll_vmstate = {
+    .name = TYPE_CPRMAN_PLL,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_CLOCK(xosc_in, CprmanPllState),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+static void pll_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->vmsd = &pll_vmstate;
+}
+
+static const TypeInfo cprman_pll_info = {
+    .name = TYPE_CPRMAN_PLL,
+    .parent = TYPE_DEVICE,
+    .instance_size = sizeof(CprmanPllState),
+    .class_init = pll_class_init,
+    .instance_init = pll_init,
+};
+
+
 /* CPRMAN "top level" model */
 
 static uint64_t cprman_read(void *opaque, hwaddr offset,
@@ -XXX,XX +XXX,XX @@ static uint64_t cprman_read(void *opaque, hwaddr offset,
     return r;
 }
 
+#define CASE_PLL_REGS(pll_)       \
+    case R_CM_ ## pll_:           \
+    case R_A2W_ ## pll_ ## _CTRL: \
+    case R_A2W_ ## pll_ ## _ANA0: \
+    case R_A2W_ ## pll_ ## _ANA1: \
+    case R_A2W_ ## pll_ ## _ANA2: \
+    case R_A2W_ ## pll_ ## _ANA3: \
+    case R_A2W_ ## pll_ ## _FRAC
+
 static void cprman_write(void *opaque, hwaddr offset,
                          uint64_t value, unsigned size)
 {
@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
     trace_bcm2835_cprman_write(offset, value);
     s->regs[idx] = value;
 
+    switch (idx) {
+    CASE_PLL_REGS(PLLA) :
+        pll_update(&s->plls[CPRMAN_PLLA]);
+        break;
+
+    CASE_PLL_REGS(PLLC) :
+        pll_update(&s->plls[CPRMAN_PLLC]);
+        break;
+
+    CASE_PLL_REGS(PLLD) :
+        pll_update(&s->plls[CPRMAN_PLLD]);
+        break;
+
+    CASE_PLL_REGS(PLLH) :
+        pll_update(&s->plls[CPRMAN_PLLH]);
+        break;
+
+    CASE_PLL_REGS(PLLB) :
+        pll_update(&s->plls[CPRMAN_PLLB]);
+        break;
+    }
 }
 
+#undef CASE_PLL_REGS
+
 static const MemoryRegionOps cprman_ops = {
     .read = cprman_read,
     .write = cprman_write,
@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps cprman_ops = {
 static void cprman_reset(DeviceState *dev)
 {
     BCM2835CprmanState *s = CPRMAN(dev);
+    size_t i;
 
     memset(s->regs, 0, sizeof(s->regs));
 
+    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
+        device_cold_reset(DEVICE(&s->plls[i]));
+    }
+
     clock_update_hz(s->xosc, s->xosc_freq);
 }
 
 static void cprman_init(Object *obj)
 {
     BCM2835CprmanState *s = CPRMAN(obj);
+    size_t i;
+
+    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
+        object_initialize_child(obj, PLL_INIT_INFO[i].name,
+                                &s->plls[i], TYPE_CPRMAN_PLL);
+        set_pll_init_info(s, &s->plls[i], i);
+    }
 
     s->xosc = clock_new(obj, "xosc");
 
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
     sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->iomem);
 }
 
+static void cprman_realize(DeviceState *dev, Error **errp)
+{
+    BCM2835CprmanState *s = CPRMAN(dev);
+    size_t i;
+
+    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
+        CprmanPllState *pll = &s->plls[i];
+
+        clock_set_source(pll->xosc_in, s->xosc);
+
+        if (!qdev_realize(DEVICE(pll), NULL, errp)) {
+            return;
+        }
+    }
+}
+
 static const VMStateDescription cprman_vmstate = {
     .name = TYPE_BCM2835_CPRMAN,
     .version_id = 1,
@@ -XXX,XX +XXX,XX @@ static void cprman_class_init(ObjectClass *klass, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(klass);
 
+    dc->realize = cprman_realize;
     dc->reset = cprman_reset;
     dc->vmsd = &cprman_vmstate;
     device_class_set_props(dc, cprman_properties);
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_info = {
 static void cprman_register_types(void)
 {
     type_register_static(&cprman_info);
+    type_register_static(&cprman_pll_info);
 }
 
 type_init(cprman_register_types);
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

The CPRMAN PLLs generate a clock based on a prescaler, a multiplier and
a divider. The prescaler doubles the parent (xosc) frequency, then the
multiplier/divider are applied. The multiplier has an integer and a
fractional part.

This commit also implements the CPRMAN CM_LOCK register. This register
reports which PLL is currently locked. We consider a PLL has being
locked as soon as it is enabled (on real hardware, there is a delay
after turning a PLL on, for it to stabilize).

From: Luc Michel <luc@lmichel.fr>

PLLs are composed of multiple channels. Each channel outputs one clock
signal. They are modeled as one device taking the PLL generated clock as
input, and outputting a new clock.

A channel shares the CM register with its parent PLL, and has its own
A2W_CTRL register. A write to the CM register will trigger an update of
the PLL and all its channels, while a write to an A2W_CTRL channel
register will update the required channel only.

diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman.h
+++ b/include/hw/misc/bcm2835_cprman.h
@@ -XXX,XX +XXX,XX @@ typedef enum CprmanPll {
     CPRMAN_NUM_PLL
 } CprmanPll;
 
+typedef enum CprmanPllChannel {
+    CPRMAN_PLLA_CHANNEL_DSI0 = 0,
+    CPRMAN_PLLA_CHANNEL_CORE,
+    CPRMAN_PLLA_CHANNEL_PER,
+    CPRMAN_PLLA_CHANNEL_CCP2,
+
+    CPRMAN_PLLC_CHANNEL_CORE2,
+    CPRMAN_PLLC_CHANNEL_CORE1,
+    CPRMAN_PLLC_CHANNEL_PER,
+    CPRMAN_PLLC_CHANNEL_CORE0,
+
+    CPRMAN_PLLD_CHANNEL_DSI0,
+    CPRMAN_PLLD_CHANNEL_CORE,
+    CPRMAN_PLLD_CHANNEL_PER,
+    CPRMAN_PLLD_CHANNEL_DSI1,
+
+    CPRMAN_PLLH_CHANNEL_AUX,
+    CPRMAN_PLLH_CHANNEL_RCAL,
+    CPRMAN_PLLH_CHANNEL_PIX,
+
+    CPRMAN_PLLB_CHANNEL_ARM,
+
+    CPRMAN_NUM_PLL_CHANNEL,
+} CprmanPllChannel;
+
 typedef struct CprmanPllState {
     /*< private >*/
     DeviceState parent_obj;
@@ -XXX,XX +XXX,XX @@ typedef struct CprmanPllState {
     Clock *out;
 } CprmanPllState;
 
+typedef struct CprmanPllChannelState {
+    /*< private >*/
+    DeviceState parent_obj;
+
+    /*< public >*/
+    CprmanPllChannel id;
+    CprmanPll parent;
+
+    uint32_t *reg_cm;
+    uint32_t hold_mask;
+    uint32_t load_mask;
+    uint32_t *reg_a2w_ctrl;
+    int fixed_divider;
+
+    Clock *pll_in;
+    Clock *out;
+} CprmanPllChannelState;
+
 struct BCM2835CprmanState {
     /*< private >*/
     SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
     MemoryRegion iomem;
 
     CprmanPllState plls[CPRMAN_NUM_PLL];
+    CprmanPllChannelState channels[CPRMAN_NUM_PLL_CHANNEL];
 
     uint32_t regs[CPRMAN_NUM_REGS];
     uint32_t xosc_freq;
diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman_internals.h
+++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/misc/bcm2835_cprman.h"
 
 #define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
+#define TYPE_CPRMAN_PLL_CHANNEL "bcm2835-cprman-pll-channel"
 
 DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
                          TYPE_CPRMAN_PLL)
+DECLARE_INSTANCE_CHECKER(CprmanPllChannelState, CPRMAN_PLL_CHANNEL,
+                         TYPE_CPRMAN_PLL_CHANNEL)
 
 /* Register map */
 
@@ -XXX,XX +XXX,XX @@ REG32(A2W_PLLD_FRAC, 0x1240)
 REG32(A2W_PLLH_FRAC, 0x1260)
 REG32(A2W_PLLB_FRAC, 0x12e0)
 
+/* PLL channels */
+REG32(A2W_PLLA_DSI0, 0x1300)
+    FIELD(A2W_PLLx_CHANNELy, DIV, 0, 8)
+    FIELD(A2W_PLLx_CHANNELy, DISABLE, 8, 1)
+REG32(A2W_PLLA_CORE, 0x1400)
+REG32(A2W_PLLA_PER, 0x1500)
+REG32(A2W_PLLA_CCP2, 0x1600)
+
+REG32(A2W_PLLC_CORE2, 0x1320)
+REG32(A2W_PLLC_CORE1, 0x1420)
+REG32(A2W_PLLC_PER, 0x1520)
+REG32(A2W_PLLC_CORE0, 0x1620)
+
+REG32(A2W_PLLD_DSI0, 0x1340)
+REG32(A2W_PLLD_CORE, 0x1440)
+REG32(A2W_PLLD_PER, 0x1540)
+REG32(A2W_PLLD_DSI1, 0x1640)
+
+REG32(A2W_PLLH_AUX, 0x1360)
+REG32(A2W_PLLH_RCAL, 0x1460)
+REG32(A2W_PLLH_PIX, 0x1560)
+REG32(A2W_PLLH_STS, 0x1660)
+
+REG32(A2W_PLLB_ARM, 0x13e0)
+
 /* misc registers */
 REG32(CM_LOCK, 0x114)
     FIELD(CM_LOCK, FLOCKH, 12, 1)
@@ -XXX,XX +XXX,XX @@ static inline void set_pll_init_info(BCM2835CprmanState *s,
     pll->reg_a2w_frac = &s->regs[PLL_INIT_INFO[id].a2w_frac_offset];
 }
 
+
+/* PLL channel init info */
+typedef struct PLLChannelInitInfo {
+    const char *name;
+    CprmanPll parent;
+    size_t cm_offset;
+    uint32_t cm_hold_mask;
+    uint32_t cm_load_mask;
+    size_t a2w_ctrl_offset;
+    unsigned int fixed_divider;
+} PLLChannelInitInfo;
+
+#define FILL_PLL_CHANNEL_INIT_INFO_common(pll_, channel_)            \
+    .parent = CPRMAN_ ## pll_,                                       \
+    .cm_offset = R_CM_ ## pll_,                                      \
+    .cm_load_mask = R_CM_ ## pll_ ## _ ## LOAD ## channel_ ## _MASK, \
+    .a2w_ctrl_offset = R_A2W_ ## pll_ ## _ ## channel_
+
+#define FILL_PLL_CHANNEL_INIT_INFO(pll_, channel_)                   \
+    FILL_PLL_CHANNEL_INIT_INFO_common(pll_, channel_),               \
+    .cm_hold_mask = R_CM_ ## pll_ ## _ ## HOLD ## channel_ ## _MASK, \
+    .fixed_divider = 1
+
+#define FILL_PLL_CHANNEL_INIT_INFO_nohold(pll_, channel_) \
+    FILL_PLL_CHANNEL_INIT_INFO_common(pll_, channel_),    \
+    .cm_hold_mask = 0
+
+static PLLChannelInitInfo PLL_CHANNEL_INIT_INFO[] = {
+    [CPRMAN_PLLA_CHANNEL_DSI0] = {
+        .name = "plla-dsi0",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLA, DSI0),
+    },
+    [CPRMAN_PLLA_CHANNEL_CORE] = {
+        .name = "plla-core",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLA, CORE),
+    },
+    [CPRMAN_PLLA_CHANNEL_PER] = {
+        .name = "plla-per",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLA, PER),
+    },
+    [CPRMAN_PLLA_CHANNEL_CCP2] = {
+        .name = "plla-ccp2",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLA, CCP2),
+    },
+
+    [CPRMAN_PLLC_CHANNEL_CORE2] = {
+        .name = "pllc-core2",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLC, CORE2),
+    },
+    [CPRMAN_PLLC_CHANNEL_CORE1] = {
+        .name = "pllc-core1",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLC, CORE1),
+    },
+    [CPRMAN_PLLC_CHANNEL_PER] = {
+        .name = "pllc-per",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLC, PER),
+    },
+    [CPRMAN_PLLC_CHANNEL_CORE0] = {
+        .name = "pllc-core0",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLC, CORE0),
+    },
+
+    [CPRMAN_PLLD_CHANNEL_DSI0] = {
+        .name = "plld-dsi0",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLD, DSI0),
+    },
+    [CPRMAN_PLLD_CHANNEL_CORE] = {
+        .name = "plld-core",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLD, CORE),
+    },
+    [CPRMAN_PLLD_CHANNEL_PER] = {
+        .name = "plld-per",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLD, PER),
+    },
+    [CPRMAN_PLLD_CHANNEL_DSI1] = {
+        .name = "plld-dsi1",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLD, DSI1),
+    },
+
+    [CPRMAN_PLLH_CHANNEL_AUX] = {
+        .name = "pllh-aux",
+        .fixed_divider = 1,
+        FILL_PLL_CHANNEL_INIT_INFO_nohold(PLLH, AUX),
+    },
+    [CPRMAN_PLLH_CHANNEL_RCAL] = {
+        .name = "pllh-rcal",
+        .fixed_divider = 10,
+        FILL_PLL_CHANNEL_INIT_INFO_nohold(PLLH, RCAL),
+    },
+    [CPRMAN_PLLH_CHANNEL_PIX] = {
+        .name = "pllh-pix",
+        .fixed_divider = 10,
+        FILL_PLL_CHANNEL_INIT_INFO_nohold(PLLH, PIX),
+    },
+
+    [CPRMAN_PLLB_CHANNEL_ARM] = {
+        .name = "pllb-arm",
+        FILL_PLL_CHANNEL_INIT_INFO(PLLB, ARM),
+    },
+};
+
+#undef FILL_PLL_CHANNEL_INIT_INFO_nohold
+#undef FILL_PLL_CHANNEL_INIT_INFO
+#undef FILL_PLL_CHANNEL_INIT_INFO_common
+
+static inline void set_pll_channel_init_info(BCM2835CprmanState *s,
+                                             CprmanPllChannelState *channel,
+                                             CprmanPllChannel id)
+{
+    channel->id = id;
+    channel->parent = PLL_CHANNEL_INIT_INFO[id].parent;
+    channel->reg_cm = &s->regs[PLL_CHANNEL_INIT_INFO[id].cm_offset];
+    channel->hold_mask = PLL_CHANNEL_INIT_INFO[id].cm_hold_mask;
+    channel->load_mask = PLL_CHANNEL_INIT_INFO[id].cm_load_mask;
+    channel->reg_a2w_ctrl = &s->regs[PLL_CHANNEL_INIT_INFO[id].a2w_ctrl_offset];
+    channel->fixed_divider = PLL_CHANNEL_INIT_INFO[id].fixed_divider;
+}
+
 #endif
diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/bcm2835_cprman.c
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_info = {
 };
 
 
+/* PLL channel */
+
+static void pll_channel_update(CprmanPllChannelState *channel)
+{
+    clock_update(channel->out, 0);
+}
+
+/* Update a PLL and all its channels */
+static void pll_update_all_channels(BCM2835CprmanState *s,
+                                    CprmanPllState *pll)
+{
+    size_t i;
+
+    pll_update(pll);
+
+    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
+        CprmanPllChannelState *channel = &s->channels[i];
+        if (channel->parent == pll->id) {
+            pll_channel_update(channel);
+        }
+    }
+}
+
+static void pll_channel_pll_in_update(void *opaque)
+{
+    pll_channel_update(CPRMAN_PLL_CHANNEL(opaque));
+}
+
+static void pll_channel_init(Object *obj)
+{
+    CprmanPllChannelState *s = CPRMAN_PLL_CHANNEL(obj);
+
+    s->pll_in = qdev_init_clock_in(DEVICE(s), "pll-in",
+                                   pll_channel_pll_in_update, s);
+    s->out = qdev_init_clock_out(DEVICE(s), "out");
+}
+
+static const VMStateDescription pll_channel_vmstate = {
+    .name = TYPE_CPRMAN_PLL_CHANNEL,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_CLOCK(pll_in, CprmanPllChannelState),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+static void pll_channel_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->vmsd = &pll_channel_vmstate;
+}
+
+static const TypeInfo cprman_pll_channel_info = {
+    .name = TYPE_CPRMAN_PLL_CHANNEL,
+    .parent = TYPE_DEVICE,
+    .instance_size = sizeof(CprmanPllChannelState),
+    .class_init = pll_channel_class_init,
+    .instance_init = pll_channel_init,
+};
+
+
 /* CPRMAN "top level" model */
 
 static uint32_t get_cm_lock(const BCM2835CprmanState *s)
@@ -XXX,XX +XXX,XX @@ static uint64_t cprman_read(void *opaque, hwaddr offset,
     return r;
 }
 
-#define CASE_PLL_REGS(pll_)       \
-    case R_CM_ ## pll_:           \
+static inline void update_pll_and_channels_from_cm(BCM2835CprmanState *s,
+                                                   size_t idx)
+{
+    size_t i;
+
+    for (i = 0; i < CPRMAN_NUM_PLL; i++) {
+        if (PLL_INIT_INFO[i].cm_offset == idx) {
+            pll_update_all_channels(s, &s->plls[i]);
+            return;
+        }
+    }
+}
+
+static inline void update_channel_from_a2w(BCM2835CprmanState *s, size_t idx)
+{
+    size_t i;
+
+    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
+        if (PLL_CHANNEL_INIT_INFO[i].a2w_ctrl_offset == idx) {
+            pll_channel_update(&s->channels[i]);
+            return;
+        }
+    }
+}
+
+#define CASE_PLL_A2W_REGS(pll_) \
     case R_A2W_ ## pll_ ## _CTRL: \
     case R_A2W_ ## pll_ ## _ANA0: \
     case R_A2W_ ## pll_ ## _ANA1: \
@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
     s->regs[idx] = value;
 
     switch (idx) {
-    CASE_PLL_REGS(PLLA) :
+    case R_CM_PLLA ... R_CM_PLLH:
+    case R_CM_PLLB:
+        /*
+         * A given CM_PLLx register is shared by both the PLL and the channels
+         * of this PLL.
+         */
+        update_pll_and_channels_from_cm(s, idx);
+        break;
+
+    CASE_PLL_A2W_REGS(PLLA) :
         pll_update(&s->plls[CPRMAN_PLLA]);
         break;
 
-    CASE_PLL_REGS(PLLC) :
+    CASE_PLL_A2W_REGS(PLLC) :
         pll_update(&s->plls[CPRMAN_PLLC]);
         break;
 
-    CASE_PLL_REGS(PLLD) :
+    CASE_PLL_A2W_REGS(PLLD) :
         pll_update(&s->plls[CPRMAN_PLLD]);
         break;
 
-    CASE_PLL_REGS(PLLH) :
+    CASE_PLL_A2W_REGS(PLLH) :
         pll_update(&s->plls[CPRMAN_PLLH]);
         break;
 
-    CASE_PLL_REGS(PLLB) :
+    CASE_PLL_A2W_REGS(PLLB) :
         pll_update(&s->plls[CPRMAN_PLLB]);
         break;
+
+    case R_A2W_PLLA_DSI0:
+    case R_A2W_PLLA_CORE:
+    case R_A2W_PLLA_PER:
+    case R_A2W_PLLA_CCP2:
+    case R_A2W_PLLC_CORE2:
+    case R_A2W_PLLC_CORE1:
+    case R_A2W_PLLC_PER:
+    case R_A2W_PLLC_CORE0:
+    case R_A2W_PLLD_DSI0:
+    case R_A2W_PLLD_CORE:
+    case R_A2W_PLLD_PER:
+    case R_A2W_PLLD_DSI1:
+    case R_A2W_PLLH_AUX:
+    case R_A2W_PLLH_RCAL:
+    case R_A2W_PLLH_PIX:
+    case R_A2W_PLLB_ARM:
+        update_channel_from_a2w(s, idx);
+        break;
     }
 }
 
-#undef CASE_PLL_REGS
+#undef CASE_PLL_A2W_REGS
 
 static const MemoryRegionOps cprman_ops = {
     .read = cprman_read,
@@ -XXX,XX +XXX,XX @@ static void cprman_reset(DeviceState *dev)
         device_cold_reset(DEVICE(&s->plls[i]));
     }
 
+    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
+        device_cold_reset(DEVICE(&s->channels[i]));
+    }
+
     clock_update_hz(s->xosc, s->xosc_freq);
 }
 
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
         set_pll_init_info(s, &s->plls[i], i);
     }
 
+    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
+        object_initialize_child(obj, PLL_CHANNEL_INIT_INFO[i].name,
+                                &s->channels[i],
+                                TYPE_CPRMAN_PLL_CHANNEL);
+        set_pll_channel_init_info(s, &s->channels[i], i);
+    }
+
     s->xosc = clock_new(obj, "xosc");
 
     memory_region_init_io(&s->iomem, obj, &cprman_ops,
@@ -XXX,XX +XXX,XX @@ static void cprman_realize(DeviceState *dev, Error **errp)
             return;
         }
     }
+
+    for (i = 0; i < CPRMAN_NUM_PLL_CHANNEL; i++) {
+        CprmanPllChannelState *channel = &s->channels[i];
+        CprmanPll parent = PLL_CHANNEL_INIT_INFO[i].parent;
+        Clock *parent_clk = s->plls[parent].out;
+
+        clock_set_source(channel->pll_in, parent_clk);
+
+        if (!qdev_realize(DEVICE(channel), NULL, errp)) {
+            return;
+        }
+    }
 }
 
 static const VMStateDescription cprman_vmstate = {
@@ -XXX,XX +XXX,XX @@ static void cprman_register_types(void)
 {
     type_register_static(&cprman_info);
     type_register_static(&cprman_pll_info);
+    type_register_static(&cprman_pll_channel_info);
 }
 
 type_init(cprman_register_types);
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

A PLL channel is able to further divide the generated PLL frequency.
The divider is given in the CTRL_A2W register. Some channels have an
additional fixed divider which is always applied to the signal.

Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/bcm2835_cprman.c | 33 ++++++++++++++++++++++++++++++++-
 1 file changed, 32 insertions(+), 1 deletion(-)

From: Luc Michel <luc@lmichel.fr>

The clock multiplexers are the last clock stage in the CPRMAN. Each mux
outputs one clock signal that goes out of the CPRMAN to the SoC
peripherals.

Each mux has at most 10 sources. The sources 0 to 3 are common to all
muxes. They are:
   0. ground (no clock signal)
   1. the main oscillator (xosc)
   2. "test debug 0" clock
   3. "test debug 1" clock

Test debug 0 and 1 are actual clock muxes that can be used as sources to
other muxes (for debug purpose).

Sources 4 to 9 are mux specific and can be unpopulated (grounded). Those
sources are fed by the PLL channels outputs.

One corner case exists for DSI0E and DSI0P muxes. They have their source
number 4 connected to an intermediate multiplexer that can select
between PLLA-DSI0 and PLLD-DSI0 channel. This multiplexer is called
DSI0HSCK and is not a clock mux as such. It is really a simple mux from
the hardware point of view (see https://elinux.org/The_Undocumented_Pi).
This mux is not implemented in this commit.

Note that there is some muxes for which sources are unknown (because of
a lack of documentation). For those cases all the sources are connected
to ground in this implementation.

Each clock mux output is exported by the CPRMAN at the qdev level,
adding the suffix '-out' to the mux name to form the output clock name.
(E.g. the 'uart' mux sees its output exported as 'uart-out' at the
CPRMAN level.)

Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/misc/bcm2835_cprman.h           |  85 +++++
 include/hw/misc/bcm2835_cprman_internals.h | 422 +++++++++++++++++++++
 hw/misc/bcm2835_cprman.c                   | 151 ++++++++
 3 files changed, 658 insertions(+)

diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman.h
+++ b/include/hw/misc/bcm2835_cprman.h
@@ -XXX,XX +XXX,XX @@ typedef enum CprmanPllChannel {
     CPRMAN_PLLB_CHANNEL_ARM,
 
     CPRMAN_NUM_PLL_CHANNEL,
+
+    /* Special values used when connecting clock sources to clocks */
+    CPRMAN_CLOCK_SRC_NORMAL = -1,
+    CPRMAN_CLOCK_SRC_FORCE_GROUND = -2,
+    CPRMAN_CLOCK_SRC_DSI0HSCK = -3,
 } CprmanPllChannel;
 
+typedef enum CprmanClockMux {
+    CPRMAN_CLOCK_GNRIC,
+    CPRMAN_CLOCK_VPU,
+    CPRMAN_CLOCK_SYS,
+    CPRMAN_CLOCK_PERIA,
+    CPRMAN_CLOCK_PERII,
+    CPRMAN_CLOCK_H264,
+    CPRMAN_CLOCK_ISP,
+    CPRMAN_CLOCK_V3D,
+    CPRMAN_CLOCK_CAM0,
+    CPRMAN_CLOCK_CAM1,
+    CPRMAN_CLOCK_CCP2,
+    CPRMAN_CLOCK_DSI0E,
+    CPRMAN_CLOCK_DSI0P,
+    CPRMAN_CLOCK_DPI,
+    CPRMAN_CLOCK_GP0,
+    CPRMAN_CLOCK_GP1,
+    CPRMAN_CLOCK_GP2,
+    CPRMAN_CLOCK_HSM,
+    CPRMAN_CLOCK_OTP,
+    CPRMAN_CLOCK_PCM,
+    CPRMAN_CLOCK_PWM,
+    CPRMAN_CLOCK_SLIM,
+    CPRMAN_CLOCK_SMI,
+    CPRMAN_CLOCK_TEC,
+    CPRMAN_CLOCK_TD0,
+    CPRMAN_CLOCK_TD1,
+    CPRMAN_CLOCK_TSENS,
+    CPRMAN_CLOCK_TIMER,
+    CPRMAN_CLOCK_UART,
+    CPRMAN_CLOCK_VEC,
+    CPRMAN_CLOCK_PULSE,
+    CPRMAN_CLOCK_SDC,
+    CPRMAN_CLOCK_ARM,
+    CPRMAN_CLOCK_AVEO,
+    CPRMAN_CLOCK_EMMC,
+    CPRMAN_CLOCK_EMMC2,
+
+    CPRMAN_NUM_CLOCK_MUX
+} CprmanClockMux;
+
+typedef enum CprmanClockMuxSource {
+    CPRMAN_CLOCK_SRC_GND = 0,
+    CPRMAN_CLOCK_SRC_XOSC,
+    CPRMAN_CLOCK_SRC_TD0,
+    CPRMAN_CLOCK_SRC_TD1,
+    CPRMAN_CLOCK_SRC_PLLA,
+    CPRMAN_CLOCK_SRC_PLLC,
+    CPRMAN_CLOCK_SRC_PLLD,
+    CPRMAN_CLOCK_SRC_PLLH,
+    CPRMAN_CLOCK_SRC_PLLC_CORE1,
+    CPRMAN_CLOCK_SRC_PLLC_CORE2,
+
+    CPRMAN_NUM_CLOCK_MUX_SRC
+} CprmanClockMuxSource;
+
 typedef struct CprmanPllState {
     /*< private >*/
     DeviceState parent_obj;
@@ -XXX,XX +XXX,XX @@ typedef struct CprmanPllChannelState {
     Clock *out;
 } CprmanPllChannelState;
 
+typedef struct CprmanClockMuxState {
+    /*< private >*/
+    DeviceState parent_obj;
+
+    /*< public >*/
+    CprmanClockMux id;
+
+    uint32_t *reg_ctl;
+    uint32_t *reg_div;
+    int int_bits;
+    int frac_bits;
+
+    Clock *srcs[CPRMAN_NUM_CLOCK_MUX_SRC];
+    Clock *out;
+
+    /*
+     * Used by clock srcs update callback to retrieve both the clock and the
+     * source number.
+     */
+    struct CprmanClockMuxState *backref[CPRMAN_NUM_CLOCK_MUX_SRC];
+} CprmanClockMuxState;
+
 struct BCM2835CprmanState {
     /*< private >*/
     SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
 
     CprmanPllState plls[CPRMAN_NUM_PLL];
     CprmanPllChannelState channels[CPRMAN_NUM_PLL_CHANNEL];
+    CprmanClockMuxState clock_muxes[CPRMAN_NUM_CLOCK_MUX];
 
     uint32_t regs[CPRMAN_NUM_REGS];
     uint32_t xosc_freq;
 
     Clock *xosc;
+    Clock *gnd;
 };
 
 #endif
diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman_internals.h
+++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
 
 #define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
 #define TYPE_CPRMAN_PLL_CHANNEL "bcm2835-cprman-pll-channel"
+#define TYPE_CPRMAN_CLOCK_MUX "bcm2835-cprman-clock-mux"
 
 DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
                          TYPE_CPRMAN_PLL)
 DECLARE_INSTANCE_CHECKER(CprmanPllChannelState, CPRMAN_PLL_CHANNEL,
                          TYPE_CPRMAN_PLL_CHANNEL)
+DECLARE_INSTANCE_CHECKER(CprmanClockMuxState, CPRMAN_CLOCK_MUX,
+                         TYPE_CPRMAN_CLOCK_MUX)
 
 /* Register map */
 
@@ -XXX,XX +XXX,XX @@ REG32(A2W_PLLH_STS, 0x1660)
 
 REG32(A2W_PLLB_ARM, 0x13e0)
 
+/* Clock muxes */
+REG32(CM_GNRICCTL, 0x000)
+    FIELD(CM_CLOCKx_CTL, SRC, 0, 4)
+    FIELD(CM_CLOCKx_CTL, ENABLE, 4, 1)
+    FIELD(CM_CLOCKx_CTL, KILL, 5, 1)
+    FIELD(CM_CLOCKx_CTL, GATE, 6, 1)
+    FIELD(CM_CLOCKx_CTL, BUSY, 7, 1)
+    FIELD(CM_CLOCKx_CTL, BUSYD, 8, 1)
+    FIELD(CM_CLOCKx_CTL, MASH, 9, 2)
+    FIELD(CM_CLOCKx_CTL, FLIP, 11, 1)
+REG32(CM_GNRICDIV, 0x004)
+    FIELD(CM_CLOCKx_DIV, FRAC, 0, 12)
+REG32(CM_VPUCTL, 0x008)
+REG32(CM_VPUDIV, 0x00c)
+REG32(CM_SYSCTL, 0x010)
+REG32(CM_SYSDIV, 0x014)
+REG32(CM_PERIACTL, 0x018)
+REG32(CM_PERIADIV, 0x01c)
+REG32(CM_PERIICTL, 0x020)
+REG32(CM_PERIIDIV, 0x024)
+REG32(CM_H264CTL, 0x028)
+REG32(CM_H264DIV, 0x02c)
+REG32(CM_ISPCTL, 0x030)
+REG32(CM_ISPDIV, 0x034)
+REG32(CM_V3DCTL, 0x038)
+REG32(CM_V3DDIV, 0x03c)
+REG32(CM_CAM0CTL, 0x040)
+REG32(CM_CAM0DIV, 0x044)
+REG32(CM_CAM1CTL, 0x048)
+REG32(CM_CAM1DIV, 0x04c)
+REG32(CM_CCP2CTL, 0x050)
+REG32(CM_CCP2DIV, 0x054)
+REG32(CM_DSI0ECTL, 0x058)
+REG32(CM_DSI0EDIV, 0x05c)
+REG32(CM_DSI0PCTL, 0x060)
+REG32(CM_DSI0PDIV, 0x064)
+REG32(CM_DPICTL, 0x068)
+REG32(CM_DPIDIV, 0x06c)
+REG32(CM_GP0CTL, 0x070)
+REG32(CM_GP0DIV, 0x074)
+REG32(CM_GP1CTL, 0x078)
+REG32(CM_GP1DIV, 0x07c)
+REG32(CM_GP2CTL, 0x080)
+REG32(CM_GP2DIV, 0x084)
+REG32(CM_HSMCTL, 0x088)
+REG32(CM_HSMDIV, 0x08c)
+REG32(CM_OTPCTL, 0x090)
+REG32(CM_OTPDIV, 0x094)
+REG32(CM_PCMCTL, 0x098)
+REG32(CM_PCMDIV, 0x09c)
+REG32(CM_PWMCTL, 0x0a0)
+REG32(CM_PWMDIV, 0x0a4)
+REG32(CM_SLIMCTL, 0x0a8)
+REG32(CM_SLIMDIV, 0x0ac)
+REG32(CM_SMICTL, 0x0b0)
+REG32(CM_SMIDIV, 0x0b4)
+REG32(CM_TCNTCTL, 0x0c0)
+REG32(CM_TCNTCNT, 0x0c4)
+REG32(CM_TECCTL, 0x0c8)
+REG32(CM_TECDIV, 0x0cc)
+REG32(CM_TD0CTL, 0x0d0)
+REG32(CM_TD0DIV, 0x0d4)
+REG32(CM_TD1CTL, 0x0d8)
+REG32(CM_TD1DIV, 0x0dc)
+REG32(CM_TSENSCTL, 0x0e0)
+REG32(CM_TSENSDIV, 0x0e4)
+REG32(CM_TIMERCTL, 0x0e8)
+REG32(CM_TIMERDIV, 0x0ec)
+REG32(CM_UARTCTL, 0x0f0)
+REG32(CM_UARTDIV, 0x0f4)
+REG32(CM_VECCTL, 0x0f8)
+REG32(CM_VECDIV, 0x0fc)
+REG32(CM_PULSECTL, 0x190)
+REG32(CM_PULSEDIV, 0x194)
+REG32(CM_SDCCTL, 0x1a8)
+REG32(CM_SDCDIV, 0x1ac)
+REG32(CM_ARMCTL, 0x1b0)
+REG32(CM_AVEOCTL, 0x1b8)
+REG32(CM_AVEODIV, 0x1bc)
+REG32(CM_EMMCCTL, 0x1c0)
+REG32(CM_EMMCDIV, 0x1c4)
+REG32(CM_EMMC2CTL, 0x1d0)
+REG32(CM_EMMC2DIV, 0x1d4)
+
 /* misc registers */
 REG32(CM_LOCK, 0x114)
     FIELD(CM_LOCK, FLOCKH, 12, 1)
@@ -XXX,XX +XXX,XX @@ static inline void set_pll_channel_init_info(BCM2835CprmanState *s,
     channel->fixed_divider = PLL_CHANNEL_INIT_INFO[id].fixed_divider;
 }
 
+/* Clock mux init info */
+typedef struct ClockMuxInitInfo {
+    const char *name;
+    size_t cm_offset; /* cm_offset[0]->CM_CTL, cm_offset[1]->CM_DIV */
+    int int_bits;
+    int frac_bits;
+
+    CprmanPllChannel src_mapping[CPRMAN_NUM_CLOCK_MUX_SRC];
+} ClockMuxInitInfo;
+
+/*
+ * Each clock mux can have up to 10 sources. Sources 0 to 3 are always the
+ * same (ground, xosc, td0, td1). Sources 4 to 9 are mux specific, and are not
+ * always populated. The following macros catch all those cases.
+ */
+
+/* Unknown mapping. Connect everything to ground */
+#define SRC_MAPPING_INFO_unknown                          \
+    .src_mapping = {                                      \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* gnd */          \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* xosc */         \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* test debug 0 */ \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* test debug 1 */ \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll a */        \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll c */        \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll d */        \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll h */        \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll c, core1 */ \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, /* pll c, core2 */ \
+    }
+
+/* Only the oscillator and the two test debug clocks */
+#define SRC_MAPPING_INFO_xosc          \
+    .src_mapping = {                   \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+    }
+
+/* All the PLL "core" channels */
+#define SRC_MAPPING_INFO_core      \
+    .src_mapping = {               \
+        CPRMAN_CLOCK_SRC_NORMAL,   \
+        CPRMAN_CLOCK_SRC_NORMAL,   \
+        CPRMAN_CLOCK_SRC_NORMAL,   \
+        CPRMAN_CLOCK_SRC_NORMAL,   \
+        CPRMAN_PLLA_CHANNEL_CORE,  \
+        CPRMAN_PLLC_CHANNEL_CORE0, \
+        CPRMAN_PLLD_CHANNEL_CORE,  \
+        CPRMAN_PLLH_CHANNEL_AUX,   \
+        CPRMAN_PLLC_CHANNEL_CORE1, \
+        CPRMAN_PLLC_CHANNEL_CORE2, \
+    }
+
+/* All the PLL "per" channels */
+#define SRC_MAPPING_INFO_periph        \
+    .src_mapping = {                   \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_PLLA_CHANNEL_PER,       \
+        CPRMAN_PLLC_CHANNEL_PER,       \
+        CPRMAN_PLLD_CHANNEL_PER,       \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+    }
+
+/*
+ * The DSI0 channels. This one got an intermediate mux between the PLL channels
+ * and the clock input.
+ */
+#define SRC_MAPPING_INFO_dsi0          \
+    .src_mapping = {                   \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_DSI0HSCK,     \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+    }
+
+/* The DSI1 channel */
+#define SRC_MAPPING_INFO_dsi1          \
+    .src_mapping = {                   \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_CLOCK_SRC_NORMAL,       \
+        CPRMAN_PLLD_CHANNEL_DSI1,      \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+        CPRMAN_CLOCK_SRC_FORCE_GROUND, \
+    }
+
+#define FILL_CLOCK_MUX_SRC_MAPPING_INIT_INFO(kind_) \
+    SRC_MAPPING_INFO_ ## kind_
+
+#define FILL_CLOCK_MUX_INIT_INFO(clock_, kind_) \
+    .cm_offset = R_CM_ ## clock_ ## CTL,        \
+    FILL_CLOCK_MUX_SRC_MAPPING_INIT_INFO(kind_)
+
+static ClockMuxInitInfo CLOCK_MUX_INIT_INFO[] = {
+    [CPRMAN_CLOCK_GNRIC] = {
+        .name = "gnric",
+        FILL_CLOCK_MUX_INIT_INFO(GNRIC, unknown),
+    },
+    [CPRMAN_CLOCK_VPU] = {
+        .name = "vpu",
+        .int_bits = 12,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(VPU, core),
+    },
+    [CPRMAN_CLOCK_SYS] = {
+        .name = "sys",
+        FILL_CLOCK_MUX_INIT_INFO(SYS, unknown),
+    },
+    [CPRMAN_CLOCK_PERIA] = {
+        .name = "peria",
+        FILL_CLOCK_MUX_INIT_INFO(PERIA, unknown),
+    },
+    [CPRMAN_CLOCK_PERII] = {
+        .name = "perii",
+        FILL_CLOCK_MUX_INIT_INFO(PERII, unknown),
+    },
+    [CPRMAN_CLOCK_H264] = {
+        .name = "h264",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(H264, core),
+    },
+    [CPRMAN_CLOCK_ISP] = {
+        .name = "isp",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(ISP, core),
+    },
+    [CPRMAN_CLOCK_V3D] = {
+        .name = "v3d",
+        FILL_CLOCK_MUX_INIT_INFO(V3D, core),
+    },
+    [CPRMAN_CLOCK_CAM0] = {
+        .name = "cam0",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(CAM0, periph),
+    },
+    [CPRMAN_CLOCK_CAM1] = {
+        .name = "cam1",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(CAM1, periph),
+    },
+    [CPRMAN_CLOCK_CCP2] = {
+        .name = "ccp2",
+        FILL_CLOCK_MUX_INIT_INFO(CCP2, unknown),
+    },
+    [CPRMAN_CLOCK_DSI0E] = {
+        .name = "dsi0e",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(DSI0E, dsi0),
+    },
+    [CPRMAN_CLOCK_DSI0P] = {
+        .name = "dsi0p",
+        .int_bits = 0,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(DSI0P, dsi0),
+    },
+    [CPRMAN_CLOCK_DPI] = {
+        .name = "dpi",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(DPI, periph),
+    },
+    [CPRMAN_CLOCK_GP0] = {
+        .name = "gp0",
+        .int_bits = 12,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(GP0, periph),
+    },
+    [CPRMAN_CLOCK_GP1] = {
+        .name = "gp1",
+        .int_bits = 12,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(GP1, periph),
+    },
+    [CPRMAN_CLOCK_GP2] = {
+        .name = "gp2",
+        .int_bits = 12,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(GP2, periph),
+    },
+    [CPRMAN_CLOCK_HSM] = {
+        .name = "hsm",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(HSM, periph),
+    },
+    [CPRMAN_CLOCK_OTP] = {
+        .name = "otp",
+        .int_bits = 4,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(OTP, xosc),
+    },
+    [CPRMAN_CLOCK_PCM] = {
+        .name = "pcm",
+        .int_bits = 12,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(PCM, periph),
+    },
+    [CPRMAN_CLOCK_PWM] = {
+        .name = "pwm",
+        .int_bits = 12,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(PWM, periph),
+    },
+    [CPRMAN_CLOCK_SLIM] = {
+        .name = "slim",
+        .int_bits = 12,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(SLIM, periph),
+    },
+    [CPRMAN_CLOCK_SMI] = {
+        .name = "smi",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(SMI, periph),
+    },
+    [CPRMAN_CLOCK_TEC] = {
+        .name = "tec",
+        .int_bits = 6,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(TEC, xosc),
+    },
+    [CPRMAN_CLOCK_TD0] = {
+        .name = "td0",
+        FILL_CLOCK_MUX_INIT_INFO(TD0, unknown),
+    },
+    [CPRMAN_CLOCK_TD1] = {
+        .name = "td1",
+        FILL_CLOCK_MUX_INIT_INFO(TD1, unknown),
+    },
+    [CPRMAN_CLOCK_TSENS] = {
+        .name = "tsens",
+        .int_bits = 5,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(TSENS, xosc),
+    },
+    [CPRMAN_CLOCK_TIMER] = {
+        .name = "timer",
+        .int_bits = 6,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(TIMER, xosc),
+    },
+    [CPRMAN_CLOCK_UART] = {
+        .name = "uart",
+        .int_bits = 10,
+        .frac_bits = 12,
+        FILL_CLOCK_MUX_INIT_INFO(UART, periph),
+    },
+    [CPRMAN_CLOCK_VEC] = {
+        .name = "vec",
+        .int_bits = 4,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(VEC, periph),
+    },
+    [CPRMAN_CLOCK_PULSE] = {
+        .name = "pulse",
+        FILL_CLOCK_MUX_INIT_INFO(PULSE, xosc),
+    },
+    [CPRMAN_CLOCK_SDC] = {
+        .name = "sdram",
+        .int_bits = 6,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(SDC, core),
+    },
+    [CPRMAN_CLOCK_ARM] = {
+        .name = "arm",
+        FILL_CLOCK_MUX_INIT_INFO(ARM, unknown),
+    },
+    [CPRMAN_CLOCK_AVEO] = {
+        .name = "aveo",
+        .int_bits = 4,
+        .frac_bits = 0,
+        FILL_CLOCK_MUX_INIT_INFO(AVEO, periph),
+    },
+    [CPRMAN_CLOCK_EMMC] = {
+        .name = "emmc",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(EMMC, periph),
+    },
+    [CPRMAN_CLOCK_EMMC2] = {
+        .name = "emmc2",
+        .int_bits = 4,
+        .frac_bits = 8,
+        FILL_CLOCK_MUX_INIT_INFO(EMMC2, unknown),
+    },
+};
+
+#undef FILL_CLOCK_MUX_INIT_INFO
+#undef FILL_CLOCK_MUX_SRC_MAPPING_INIT_INFO
+#undef SRC_MAPPING_INFO_dsi1
+#undef SRC_MAPPING_INFO_dsi0
+#undef SRC_MAPPING_INFO_periph
+#undef SRC_MAPPING_INFO_core
+#undef SRC_MAPPING_INFO_xosc
+#undef SRC_MAPPING_INFO_unknown
+
+static inline void set_clock_mux_init_info(BCM2835CprmanState *s,
+                                           CprmanClockMuxState *mux,
+                                           CprmanClockMux id)
+{
+    mux->id = id;
+    mux->reg_ctl = &s->regs[CLOCK_MUX_INIT_INFO[id].cm_offset];
+    mux->reg_div = &s->regs[CLOCK_MUX_INIT_INFO[id].cm_offset + 1];
+    mux->int_bits = CLOCK_MUX_INIT_INFO[id].int_bits;
+    mux->frac_bits = CLOCK_MUX_INIT_INFO[id].frac_bits;
+}
+
 #endif
diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/bcm2835_cprman.c
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
  *
  * The page at https://elinux.org/The_Undocumented_Pi gives the actual clock
  * tree configuration.
+ *
+ * The CPRMAN exposes clock outputs with the name of the clock mux suffixed
+ * with "-out" (e.g. "uart-out", "h264-out", ...).
  */
 
 #include "qemu/osdep.h"
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_channel_info = {
 };
 
 
+/* clock mux */
+
+static void clock_mux_update(CprmanClockMuxState *mux)
+{
+    clock_update(mux->out, 0);
+}
+
+static void clock_mux_src_update(void *opaque)
+{
+    CprmanClockMuxState **backref = opaque;
+    CprmanClockMuxState *s = *backref;
+
+    clock_mux_update(s);
+}
+
+static void clock_mux_init(Object *obj)
+{
+    CprmanClockMuxState *s = CPRMAN_CLOCK_MUX(obj);
+    size_t i;
+
+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX_SRC; i++) {
+        char *name = g_strdup_printf("srcs[%zu]", i);
+        s->backref[i] = s;
+        s->srcs[i] = qdev_init_clock_in(DEVICE(s), name,
+                                        clock_mux_src_update,
+                                        &s->backref[i]);
+        g_free(name);
+    }
+
+    s->out = qdev_init_clock_out(DEVICE(s), "out");
+}
+
+static const VMStateDescription clock_mux_vmstate = {
+    .name = TYPE_CPRMAN_CLOCK_MUX,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_ARRAY_CLOCK(srcs, CprmanClockMuxState,
+                            CPRMAN_NUM_CLOCK_MUX_SRC),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+static void clock_mux_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->vmsd = &clock_mux_vmstate;
+}
+
+static const TypeInfo cprman_clock_mux_info = {
+    .name = TYPE_CPRMAN_CLOCK_MUX,
+    .parent = TYPE_DEVICE,
+    .instance_size = sizeof(CprmanClockMuxState),
+    .class_init = clock_mux_class_init,
+    .instance_init = clock_mux_init,
+};
+
+
 /* CPRMAN "top level" model */
 
 static uint32_t get_cm_lock(const BCM2835CprmanState *s)
@@ -XXX,XX +XXX,XX @@ static inline void update_channel_from_a2w(BCM2835CprmanState *s, size_t idx)
     }
 }
 
+static inline void update_mux_from_cm(BCM2835CprmanState *s, size_t idx)
+{
+    size_t i;
+
+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
+        if ((CLOCK_MUX_INIT_INFO[i].cm_offset == idx) ||
+            (CLOCK_MUX_INIT_INFO[i].cm_offset + 4 == idx)) {
+            /* matches CM_CTL or CM_DIV mux register */
+            clock_mux_update(&s->clock_muxes[i]);
+            return;
+        }
+    }
+}
+
 #define CASE_PLL_A2W_REGS(pll_) \
     case R_A2W_ ## pll_ ## _CTRL: \
     case R_A2W_ ## pll_ ## _ANA0: \
@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
     case R_A2W_PLLB_ARM:
         update_channel_from_a2w(s, idx);
         break;
+
+    case R_CM_GNRICCTL ... R_CM_SMIDIV:
+    case R_CM_TCNTCNT ... R_CM_VECDIV:
+    case R_CM_PULSECTL ... R_CM_PULSEDIV:
+    case R_CM_SDCCTL ... R_CM_ARMCTL:
+    case R_CM_AVEOCTL ... R_CM_EMMCDIV:
+    case R_CM_EMMC2CTL ... R_CM_EMMC2DIV:
+        update_mux_from_cm(s, idx);
+        break;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void cprman_reset(DeviceState *dev)
         device_cold_reset(DEVICE(&s->channels[i]));
     }
 
+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
+        device_cold_reset(DEVICE(&s->clock_muxes[i]));
+    }
+
     clock_update_hz(s->xosc, s->xosc_freq);
 }
 
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
         set_pll_channel_init_info(s, &s->channels[i], i);
     }
 
+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
+        char *alias;
+
+        object_initialize_child(obj, CLOCK_MUX_INIT_INFO[i].name,
+                                &s->clock_muxes[i],
+                                TYPE_CPRMAN_CLOCK_MUX);
+        set_clock_mux_init_info(s, &s->clock_muxes[i], i);
+
+        /* Expose muxes output as CPRMAN outputs */
+        alias = g_strdup_printf("%s-out", CLOCK_MUX_INIT_INFO[i].name);
+        qdev_alias_clock(DEVICE(&s->clock_muxes[i]), "out", DEVICE(obj), alias);
+        g_free(alias);
+    }
+
     s->xosc = clock_new(obj, "xosc");
+    s->gnd = clock_new(obj, "gnd");
+
+    clock_set(s->gnd, 0);
 
     memory_region_init_io(&s->iomem, obj, &cprman_ops,
                           s, "bcm2835-cprman", 0x2000);
     sysbus_init_mmio(SYS_BUS_DEVICE(obj), &s->iomem);
 }
 
+static void connect_mux_sources(BCM2835CprmanState *s,
+                                CprmanClockMuxState *mux,
+                                const CprmanPllChannel *clk_mapping)
+{
+    size_t i;
+    Clock *td0 = s->clock_muxes[CPRMAN_CLOCK_TD0].out;
+    Clock *td1 = s->clock_muxes[CPRMAN_CLOCK_TD1].out;
+
+    /* For sources from 0 to 3. Source 4 to 9 are mux specific */
+    Clock * const CLK_SRC_MAPPING[] = {
+        [CPRMAN_CLOCK_SRC_GND] = s->gnd,
+        [CPRMAN_CLOCK_SRC_XOSC] = s->xosc,
+        [CPRMAN_CLOCK_SRC_TD0] = td0,
+        [CPRMAN_CLOCK_SRC_TD1] = td1,
+    };
+
+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX_SRC; i++) {
+        CprmanPllChannel mapping = clk_mapping[i];
+        Clock *src;
+
+        if (mapping == CPRMAN_CLOCK_SRC_FORCE_GROUND) {
+            src = s->gnd;
+        } else if (mapping == CPRMAN_CLOCK_SRC_DSI0HSCK) {
+            src = s->gnd; /* TODO */
+        } else if (i < CPRMAN_CLOCK_SRC_PLLA) {
+            src = CLK_SRC_MAPPING[i];
+        } else {
+            src = s->channels[mapping].out;
+        }
+
+        clock_set_source(mux->srcs[i], src);
+    }
+}
+
 static void cprman_realize(DeviceState *dev, Error **errp)
 {
     BCM2835CprmanState *s = CPRMAN(dev);
@@ -XXX,XX +XXX,XX @@ static void cprman_realize(DeviceState *dev, Error **errp)
             return;
         }
     }
+
+    for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
+        CprmanClockMuxState *clock_mux = &s->clock_muxes[i];
+
+        connect_mux_sources(s, clock_mux, CLOCK_MUX_INIT_INFO[i].src_mapping);
+
+        if (!qdev_realize(DEVICE(clock_mux), NULL, errp)) {
+            return;
+        }
+    }
 }
 
 static const VMStateDescription cprman_vmstate = {
@@ -XXX,XX +XXX,XX @@ static void cprman_register_types(void)
     type_register_static(&cprman_info);
     type_register_static(&cprman_pll_info);
     type_register_static(&cprman_pll_channel_info);
+    type_register_static(&cprman_clock_mux_info);
 }
 
 type_init(cprman_register_types);
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

A clock mux can be configured to select one of its 10 sources through
the CM_CTL register. It also embeds yet another clock divider, composed
of an integer part and a fractional part. The number of bits of each
part is mux dependent.

Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/misc/bcm2835_cprman.c | 53 +++++++++++++++++++++++++++++++++++++++-
 1 file changed, 52 insertions(+), 1 deletion(-)

diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/bcm2835_cprman.c
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_channel_info = {
 
 /* clock mux */
 
+static bool clock_mux_is_enabled(CprmanClockMuxState *mux)
+{
+    return FIELD_EX32(*mux->reg_ctl, CM_CLOCKx_CTL, ENABLE);
+}
+
 static void clock_mux_update(CprmanClockMuxState *mux)
 {
-    clock_update(mux->out, 0);
+    uint64_t freq;
+    uint32_t div, src = FIELD_EX32(*mux->reg_ctl, CM_CLOCKx_CTL, SRC);
+    bool enabled = clock_mux_is_enabled(mux);
+
+    *mux->reg_ctl = FIELD_DP32(*mux->reg_ctl, CM_CLOCKx_CTL, BUSY, enabled);
+
+    if (!enabled) {
+        clock_update(mux->out, 0);
+        return;
+    }
+
+    freq = clock_get_hz(mux->srcs[src]);
+
+    if (mux->int_bits == 0 && mux->frac_bits == 0) {
+        clock_update_hz(mux->out, freq);
+        return;
+    }
+
+    /*
+     * The divider has an integer and a fractional part. The size of each part
+     * varies with the muxes (int_bits and frac_bits). Both parts are
+     * concatenated, with the integer part always starting at bit 12.
+     *
+     *         31          12 11          0
+     *        ------------------------------
+     * CM_DIV |      |  int  |  frac  |    |
+     *        ------------------------------
+     *                <-----> <------>
+     *                int_bits frac_bits
+     */
+    div = extract32(*mux->reg_div,
+                    R_CM_CLOCKx_DIV_FRAC_LENGTH - mux->frac_bits,
+                    mux->int_bits + mux->frac_bits);
+
+    if (!div) {
+        clock_update(mux->out, 0);
+        return;
+    }
+
+    freq = muldiv64(freq, 1 << mux->frac_bits, div);
+
+    clock_update_hz(mux->out, freq);
 }
 
 static void clock_mux_src_update(void *opaque)
 {
     CprmanClockMuxState **backref = opaque;
     CprmanClockMuxState *s = *backref;
+    CprmanClockMuxSource src = backref - s->backref;
+
+    if (FIELD_EX32(*s->reg_ctl, CM_CLOCKx_CTL, SRC) != src) {
+        return;
+    }
 
     clock_mux_update(s);
 }
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

This simple mux sits between the PLL channels and the DSI0E and DSI0P
clock muxes. This mux selects between PLLA-DSI0 and PLLD-DSI0 channel
and outputs the selected signal to source number 4 of DSI0E/P clock
muxes. It is controlled by the cm_dsi0hsck register.

diff --git a/include/hw/misc/bcm2835_cprman.h b/include/hw/misc/bcm2835_cprman.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman.h
+++ b/include/hw/misc/bcm2835_cprman.h
@@ -XXX,XX +XXX,XX @@ typedef struct CprmanClockMuxState {
     struct CprmanClockMuxState *backref[CPRMAN_NUM_CLOCK_MUX_SRC];
 } CprmanClockMuxState;
 
+typedef struct CprmanDsi0HsckMuxState {
+    /*< private >*/
+    DeviceState parent_obj;
+
+    /*< public >*/
+    CprmanClockMux id;
+
+    uint32_t *reg_cm;
+
+    Clock *plla_in;
+    Clock *plld_in;
+    Clock *out;
+} CprmanDsi0HsckMuxState;
+
 struct BCM2835CprmanState {
     /*< private >*/
     SysBusDevice parent_obj;
@@ -XXX,XX +XXX,XX @@ struct BCM2835CprmanState {
     CprmanPllState plls[CPRMAN_NUM_PLL];
     CprmanPllChannelState channels[CPRMAN_NUM_PLL_CHANNEL];
     CprmanClockMuxState clock_muxes[CPRMAN_NUM_CLOCK_MUX];
+    CprmanDsi0HsckMuxState dsi0hsck_mux;
 
     uint32_t regs[CPRMAN_NUM_REGS];
     uint32_t xosc_freq;
diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman_internals.h
+++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@
 #define TYPE_CPRMAN_PLL "bcm2835-cprman-pll"
 #define TYPE_CPRMAN_PLL_CHANNEL "bcm2835-cprman-pll-channel"
 #define TYPE_CPRMAN_CLOCK_MUX "bcm2835-cprman-clock-mux"
+#define TYPE_CPRMAN_DSI0HSCK_MUX "bcm2835-cprman-dsi0hsck-mux"
 
 DECLARE_INSTANCE_CHECKER(CprmanPllState, CPRMAN_PLL,
                          TYPE_CPRMAN_PLL)
@@ -XXX,XX +XXX,XX @@ DECLARE_INSTANCE_CHECKER(CprmanPllChannelState, CPRMAN_PLL_CHANNEL,
                          TYPE_CPRMAN_PLL_CHANNEL)
 DECLARE_INSTANCE_CHECKER(CprmanClockMuxState, CPRMAN_CLOCK_MUX,
                          TYPE_CPRMAN_CLOCK_MUX)
+DECLARE_INSTANCE_CHECKER(CprmanDsi0HsckMuxState, CPRMAN_DSI0HSCK_MUX,
+                         TYPE_CPRMAN_DSI0HSCK_MUX)
 
 /* Register map */
 
@@ -XXX,XX +XXX,XX @@ REG32(CM_LOCK, 0x114)
     FIELD(CM_LOCK, FLOCKB, 9, 1)
     FIELD(CM_LOCK, FLOCKA, 8, 1)
 
+REG32(CM_DSI0HSCK, 0x120)
+    FIELD(CM_DSI0HSCK, SELPLLD, 0, 1)
+
 /*
  * This field is common to all registers. Each register write value must match
  * the CPRMAN_PASSWORD magic value in its 8 MSB.
diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/bcm2835_cprman.c
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_clock_mux_info = {
 };
 
 
+/* DSI0HSCK mux */
+
+static void dsi0hsck_mux_update(CprmanDsi0HsckMuxState *s)
+{
+    bool src_is_plld = FIELD_EX32(*s->reg_cm, CM_DSI0HSCK, SELPLLD);
+    Clock *src = src_is_plld ? s->plld_in : s->plla_in;
+
+    clock_update(s->out, clock_get(src));
+}
+
+static void dsi0hsck_mux_in_update(void *opaque)
+{
+    dsi0hsck_mux_update(CPRMAN_DSI0HSCK_MUX(opaque));
+}
+
+static void dsi0hsck_mux_init(Object *obj)
+{
+    CprmanDsi0HsckMuxState *s = CPRMAN_DSI0HSCK_MUX(obj);
+    DeviceState *dev = DEVICE(obj);
+
+    s->plla_in = qdev_init_clock_in(dev, "plla-in", dsi0hsck_mux_in_update, s);
+    s->plld_in = qdev_init_clock_in(dev, "plld-in", dsi0hsck_mux_in_update, s);
+    s->out = qdev_init_clock_out(DEVICE(s), "out");
+}
+
+static const VMStateDescription dsi0hsck_mux_vmstate = {
+    .name = TYPE_CPRMAN_DSI0HSCK_MUX,
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_CLOCK(plla_in, CprmanDsi0HsckMuxState),
+        VMSTATE_CLOCK(plld_in, CprmanDsi0HsckMuxState),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+static void dsi0hsck_mux_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->vmsd = &dsi0hsck_mux_vmstate;
+}
+
+static const TypeInfo cprman_dsi0hsck_mux_info = {
+    .name = TYPE_CPRMAN_DSI0HSCK_MUX,
+    .parent = TYPE_DEVICE,
+    .instance_size = sizeof(CprmanDsi0HsckMuxState),
+    .class_init = dsi0hsck_mux_class_init,
+    .instance_init = dsi0hsck_mux_init,
+};
+
+
 /* CPRMAN "top level" model */
 
 static uint32_t get_cm_lock(const BCM2835CprmanState *s)
@@ -XXX,XX +XXX,XX @@ static void cprman_write(void *opaque, hwaddr offset,
     case R_CM_EMMC2CTL ... R_CM_EMMC2DIV:
         update_mux_from_cm(s, idx);
         break;
+
+    case R_CM_DSI0HSCK:
+        dsi0hsck_mux_update(&s->dsi0hsck_mux);
+        break;
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void cprman_reset(DeviceState *dev)
         device_cold_reset(DEVICE(&s->channels[i]));
     }
 
+    device_cold_reset(DEVICE(&s->dsi0hsck_mux));
+
     for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
         device_cold_reset(DEVICE(&s->clock_muxes[i]));
     }
@@ -XXX,XX +XXX,XX @@ static void cprman_init(Object *obj)
         set_pll_channel_init_info(s, &s->channels[i], i);
     }
 
+    object_initialize_child(obj, "dsi0hsck-mux",
+                            &s->dsi0hsck_mux, TYPE_CPRMAN_DSI0HSCK_MUX);
+    s->dsi0hsck_mux.reg_cm = &s->regs[R_CM_DSI0HSCK];
+
     for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
         char *alias;
 
@@ -XXX,XX +XXX,XX @@ static void connect_mux_sources(BCM2835CprmanState *s,
         if (mapping == CPRMAN_CLOCK_SRC_FORCE_GROUND) {
             src = s->gnd;
         } else if (mapping == CPRMAN_CLOCK_SRC_DSI0HSCK) {
-            src = s->gnd; /* TODO */
+            src = s->dsi0hsck_mux.out;
         } else if (i < CPRMAN_CLOCK_SRC_PLLA) {
             src = CLK_SRC_MAPPING[i];
         } else {
@@ -XXX,XX +XXX,XX @@ static void cprman_realize(DeviceState *dev, Error **errp)
         }
     }
 
+    clock_set_source(s->dsi0hsck_mux.plla_in,
+                     s->channels[CPRMAN_PLLA_CHANNEL_DSI0].out);
+    clock_set_source(s->dsi0hsck_mux.plld_in,
+                     s->channels[CPRMAN_PLLD_CHANNEL_DSI0].out);
+
+    if (!qdev_realize(DEVICE(&s->dsi0hsck_mux), NULL, errp)) {
+        return;
+    }
+
     for (i = 0; i < CPRMAN_NUM_CLOCK_MUX; i++) {
         CprmanClockMuxState *clock_mux = &s->clock_muxes[i];
 
@@ -XXX,XX +XXX,XX @@ static void cprman_register_types(void)
     type_register_static(&cprman_pll_info);
     type_register_static(&cprman_pll_channel_info);
     type_register_static(&cprman_clock_mux_info);
+    type_register_static(&cprman_dsi0hsck_mux_info);
 }
 
 type_init(cprman_register_types);
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

Those reset values have been extracted from a Raspberry Pi 3 model B
v1.2, using the 2020-08-20 version of raspios. The dump was done using
the debugfs interface of the CPRMAN driver in Linux (under
'/sys/kernel/debug/clk'). Each exposed clock tree stage (PLLs, channels
and muxes) can be observed by reading the 'regdump' file (e.g.
'plla/regdump').

Those values are set by the Raspberry Pi firmware at boot time (Linux
expects them to be set when it boots up).

Some stages are not exposed by the Linux driver (e.g. the PLL B). For
those, the reset values are unknown and left to 0 which implies a
disabled output.

Once booted in QEMU, the final clock tree is very similar to the one
visible on real hardware. The differences come from some unimplemented
devices for which the driver simply disable the corresponding clock.

Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/misc/bcm2835_cprman_internals.h | 269 +++++++++++++++++++++
 hw/misc/bcm2835_cprman.c                   |  31 +++
 2 files changed, 300 insertions(+)

diff --git a/include/hw/misc/bcm2835_cprman_internals.h b/include/hw/misc/bcm2835_cprman_internals.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/misc/bcm2835_cprman_internals.h
+++ b/include/hw/misc/bcm2835_cprman_internals.h
@@ -XXX,XX +XXX,XX @@ static inline void set_clock_mux_init_info(BCM2835CprmanState *s,
     mux->frac_bits = CLOCK_MUX_INIT_INFO[id].frac_bits;
 }
 
+
+/*
+ * Object reset info
+ * Those values have been dumped from a Raspberry Pi 3 Model B v1.2 using the
+ * clk debugfs interface in Linux.
+ */
+typedef struct PLLResetInfo {
+    uint32_t cm;
+    uint32_t a2w_ctrl;
+    uint32_t a2w_ana[4];
+    uint32_t a2w_frac;
+} PLLResetInfo;
+
+static const PLLResetInfo PLL_RESET_INFO[] = {
+    [CPRMAN_PLLA] = {
+        .cm = 0x0000008a,
+        .a2w_ctrl = 0x0002103a,
+        .a2w_frac = 0x00098000,
+        .a2w_ana = { 0x00000000, 0x00144000, 0x00000000, 0x00000100 }
+    },
+
+    [CPRMAN_PLLC] = {
+        .cm = 0x00000228,
+        .a2w_ctrl = 0x0002103e,
+        .a2w_frac = 0x00080000,
+        .a2w_ana = { 0x00000000, 0x00144000, 0x00000000, 0x00000100 }
+    },
+
+    [CPRMAN_PLLD] = {
+        .cm = 0x0000020a,
+        .a2w_ctrl = 0x00021034,
+        .a2w_frac = 0x00015556,
+        .a2w_ana = { 0x00000000, 0x00144000, 0x00000000, 0x00000100 }
+    },
+
+    [CPRMAN_PLLH] = {
+        .cm = 0x00000000,
+        .a2w_ctrl = 0x0002102d,
+        .a2w_frac = 0x00000000,
+        .a2w_ana = { 0x00900000, 0x0000000c, 0x00000000, 0x00000000 }
+    },
+
+    [CPRMAN_PLLB] = {
+        /* unknown */
+        .cm = 0x00000000,
+        .a2w_ctrl = 0x00000000,
+        .a2w_frac = 0x00000000,
+        .a2w_ana = { 0x00000000, 0x00000000, 0x00000000, 0x00000000 }
+    }
+};
+
+typedef struct PLLChannelResetInfo {
+    /*
+     * Even though a PLL channel has a CM register, it shares it with its
+     * parent PLL. The parent already takes care of the reset value.
+     */
+    uint32_t a2w_ctrl;
+} PLLChannelResetInfo;
+
+static const PLLChannelResetInfo PLL_CHANNEL_RESET_INFO[] = {
+    [CPRMAN_PLLA_CHANNEL_DSI0] = { .a2w_ctrl = 0x00000100 },
+    [CPRMAN_PLLA_CHANNEL_CORE] = { .a2w_ctrl = 0x00000003 },
+    [CPRMAN_PLLA_CHANNEL_PER] = { .a2w_ctrl = 0x00000000 }, /* unknown */
+    [CPRMAN_PLLA_CHANNEL_CCP2] = { .a2w_ctrl = 0x00000100 },
+
+    [CPRMAN_PLLC_CHANNEL_CORE2] = { .a2w_ctrl = 0x00000100 },
+    [CPRMAN_PLLC_CHANNEL_CORE1] = { .a2w_ctrl = 0x00000100 },
+    [CPRMAN_PLLC_CHANNEL_PER] = { .a2w_ctrl = 0x00000002 },
+    [CPRMAN_PLLC_CHANNEL_CORE0] = { .a2w_ctrl = 0x00000002 },
+
+    [CPRMAN_PLLD_CHANNEL_DSI0] = { .a2w_ctrl = 0x00000100 },
+    [CPRMAN_PLLD_CHANNEL_CORE] = { .a2w_ctrl = 0x00000004 },
+    [CPRMAN_PLLD_CHANNEL_PER] = { .a2w_ctrl = 0x00000004 },
+    [CPRMAN_PLLD_CHANNEL_DSI1] = { .a2w_ctrl = 0x00000100 },
+
+    [CPRMAN_PLLH_CHANNEL_AUX] = { .a2w_ctrl = 0x00000004 },
+    [CPRMAN_PLLH_CHANNEL_RCAL] = { .a2w_ctrl = 0x00000000 },
+    [CPRMAN_PLLH_CHANNEL_PIX] = { .a2w_ctrl = 0x00000000 },
+
+    [CPRMAN_PLLB_CHANNEL_ARM] = { .a2w_ctrl = 0x00000000 }, /* unknown */
+};
+
+typedef struct ClockMuxResetInfo {
+    uint32_t cm_ctl;
+    uint32_t cm_div;
+} ClockMuxResetInfo;
+
+static const ClockMuxResetInfo CLOCK_MUX_RESET_INFO[] = {
+    [CPRMAN_CLOCK_GNRIC] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_VPU] = {
+        .cm_ctl = 0x00000245,
+        .cm_div = 0x00003000,
+    },
+
+    [CPRMAN_CLOCK_SYS] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_PERIA] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_PERII] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_H264] = {
+        .cm_ctl = 0x00000244,
+        .cm_div = 0x00003000,
+    },
+
+    [CPRMAN_CLOCK_ISP] = {
+        .cm_ctl = 0x00000244,
+        .cm_div = 0x00003000,
+    },
+
+    [CPRMAN_CLOCK_V3D] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_CAM0] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_CAM1] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_CCP2] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_DSI0E] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_DSI0P] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_DPI] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_GP0] = {
+        .cm_ctl = 0x00000200,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_GP1] = {
+        .cm_ctl = 0x00000096,
+        .cm_div = 0x00014000,
+    },
+
+    [CPRMAN_CLOCK_GP2] = {
+        .cm_ctl = 0x00000291,
+        .cm_div = 0x00249f00,
+    },
+
+    [CPRMAN_CLOCK_HSM] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_OTP] = {
+        .cm_ctl = 0x00000091,
+        .cm_div = 0x00004000,
+    },
+
+    [CPRMAN_CLOCK_PCM] = {
+        .cm_ctl = 0x00000200,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_PWM] = {
+        .cm_ctl = 0x00000200,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_SLIM] = {
+        .cm_ctl = 0x00000200,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_SMI] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_TEC] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_TD0] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_TD1] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_TSENS] = {
+        .cm_ctl = 0x00000091,
+        .cm_div = 0x0000a000,
+    },
+
+    [CPRMAN_CLOCK_TIMER] = {
+        .cm_ctl = 0x00000291,
+        .cm_div = 0x00013333,
+    },
+
+    [CPRMAN_CLOCK_UART] = {
+        .cm_ctl = 0x00000296,
+        .cm_div = 0x0000a6ab,
+    },
+
+    [CPRMAN_CLOCK_VEC] = {
+        .cm_ctl = 0x00000097,
+        .cm_div = 0x00002000,
+    },
+
+    [CPRMAN_CLOCK_PULSE] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_SDC] = {
+        .cm_ctl = 0x00004006,
+        .cm_div = 0x00003000,
+    },
+
+    [CPRMAN_CLOCK_ARM] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+
+    [CPRMAN_CLOCK_AVEO] = {
+        .cm_ctl = 0x00000000,
+        .cm_div = 0x00000000,
+    },
+
+    [CPRMAN_CLOCK_EMMC] = {
+        .cm_ctl = 0x00000295,
+        .cm_div = 0x00006000,
+    },
+
+    [CPRMAN_CLOCK_EMMC2] = {
+        .cm_ctl = 0, /* unknown */
+        .cm_div = 0
+    },
+};
+
 #endif
diff --git a/hw/misc/bcm2835_cprman.c b/hw/misc/bcm2835_cprman.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/misc/bcm2835_cprman.c
+++ b/hw/misc/bcm2835_cprman.c
@@ -XXX,XX +XXX,XX @@
 
 /* PLL */
 
+static void pll_reset(DeviceState *dev)
+{
+    CprmanPllState *s = CPRMAN_PLL(dev);
+    const PLLResetInfo *info = &PLL_RESET_INFO[s->id];
+
+    *s->reg_cm = info->cm;
+    *s->reg_a2w_ctrl = info->a2w_ctrl;
+    memcpy(s->reg_a2w_ana, info->a2w_ana, sizeof(info->a2w_ana));
+    *s->reg_a2w_frac = info->a2w_frac;
+}
+
 static bool pll_is_locked(const CprmanPllState *pll)
 {
     return !FIELD_EX32(*pll->reg_a2w_ctrl, A2W_PLLx_CTRL, PWRDN)
@@ -XXX,XX +XXX,XX @@ static void pll_class_init(ObjectClass *klass, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(klass);
 
+    dc->reset = pll_reset;
     dc->vmsd = &pll_vmstate;
 }
 
@@ -XXX,XX +XXX,XX @@ static const TypeInfo cprman_pll_info = {
 
 /* PLL channel */
 
+static void pll_channel_reset(DeviceState *dev)
+{
+    CprmanPllChannelState *s = CPRMAN_PLL_CHANNEL(dev);
+    const PLLChannelResetInfo *info = &PLL_CHANNEL_RESET_INFO[s->id];
+
+    *s->reg_a2w_ctrl = info->a2w_ctrl;
+}
+
 static bool pll_channel_is_enabled(CprmanPllChannelState *channel)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static void pll_channel_class_init(ObjectClass *klass, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(klass);
 
+    dc->reset = pll_channel_reset;
     dc->vmsd = &pll_channel_vmstate;
 }
 
@@ -XXX,XX +XXX,XX @@ static void clock_mux_src_update(void *opaque)
     clock_mux_update(s);
 }
 
+static void clock_mux_reset(DeviceState *dev)
+{
+    CprmanClockMuxState *clock = CPRMAN_CLOCK_MUX(dev);
+    const ClockMuxResetInfo *info = &CLOCK_MUX_RESET_INFO[clock->id];
+
+    *clock->reg_ctl = info->cm_ctl;
+    *clock->reg_div = info->cm_div;
+}
+
 static void clock_mux_init(Object *obj)
 {
     CprmanClockMuxState *s = CPRMAN_CLOCK_MUX(obj);
@@ -XXX,XX +XXX,XX @@ static void clock_mux_class_init(ObjectClass *klass, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(klass);
 
+    dc->reset = clock_mux_reset;
     dc->vmsd = &clock_mux_vmstate;
 }
 
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

Add a clock input to the PL011 UART so we can compute the current baud
rate and trace it. This is intended for developers who wish to use QEMU
to e.g. debug their firmware or to figure out the baud rate configured
by an unknown/closed source binary.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/char/pl011.h |  1 +
 hw/char/pl011.c         | 45 +++++++++++++++++++++++++++++++++++++++++
 hw/char/trace-events    |  1 +
 3 files changed, 47 insertions(+)

diff --git a/include/hw/char/pl011.h b/include/hw/char/pl011.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/char/pl011.h
+++ b/include/hw/char/pl011.h
@@ -XXX,XX +XXX,XX @@ struct PL011State {
     int read_trigger;
     CharBackend chr;
     qemu_irq irq[6];
+    Clock *clk;
     const unsigned char *id;
 };
 
diff --git a/hw/char/pl011.c b/hw/char/pl011.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/pl011.c
+++ b/hw/char/pl011.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/char/pl011.h"
 #include "hw/irq.h"
 #include "hw/sysbus.h"
+#include "hw/qdev-clock.h"
 #include "migration/vmstate.h"
 #include "chardev/char-fe.h"
 #include "qemu/log.h"
@@ -XXX,XX +XXX,XX @@ static void pl011_set_read_trigger(PL011State *s)
         s->read_trigger = 1;
 }
 
+static unsigned int pl011_get_baudrate(const PL011State *s)
+{
+    uint64_t clk;
+
+    if (s->fbrd == 0) {
+        return 0;
+    }
+
+    clk = clock_get_hz(s->clk);
+    return (clk / ((s->ibrd << 6) + s->fbrd)) << 2;
+}
+
+static void pl011_trace_baudrate_change(const PL011State *s)
+{
+    trace_pl011_baudrate_change(pl011_get_baudrate(s),
+                                clock_get_hz(s->clk),
+                                s->ibrd, s->fbrd);
+}
+
 static void pl011_write(void *opaque, hwaddr offset,
                         uint64_t value, unsigned size)
 {
@@ -XXX,XX +XXX,XX @@ static void pl011_write(void *opaque, hwaddr offset,
         break;
     case 9: /* UARTIBRD */
         s->ibrd = value;
+        pl011_trace_baudrate_change(s);
         break;
     case 10: /* UARTFBRD */
         s->fbrd = value;
+        pl011_trace_baudrate_change(s);
         break;
     case 11: /* UARTLCR_H */
         /* Reset the FIFO state on FIFO enable or disable */
@@ -XXX,XX +XXX,XX @@ static void pl011_event(void *opaque, QEMUChrEvent event)
         pl011_put_fifo(opaque, 0x400);
 }
 
+static void pl011_clock_update(void *opaque)
+{
+    PL011State *s = PL011(opaque);
+
+    pl011_trace_baudrate_change(s);
+}
+
 static const MemoryRegionOps pl011_ops = {
     .read = pl011_read,
     .write = pl011_write,
     .endianness = DEVICE_NATIVE_ENDIAN,
 };
 
+static const VMStateDescription vmstate_pl011_clock = {
+    .name = "pl011/clock",
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_CLOCK(clk, PL011State),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
 static const VMStateDescription vmstate_pl011 = {
     .name = "pl011",
     .version_id = 2,
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_pl011 = {
         VMSTATE_INT32(read_count, PL011State),
         VMSTATE_INT32(read_trigger, PL011State),
         VMSTATE_END_OF_LIST()
+    },
+    .subsections = (const VMStateDescription * []) {
+        &vmstate_pl011_clock,
+        NULL
     }
 };
 
@@ -XXX,XX +XXX,XX @@ static void pl011_init(Object *obj)
         sysbus_init_irq(sbd, &s->irq[i]);
     }
 
+    s->clk = qdev_init_clock_in(DEVICE(obj), "clk", pl011_clock_update, s);
+
     s->read_trigger = 1;
     s->ifl = 0x12;
     s->cr = 0x300;
diff --git a/hw/char/trace-events b/hw/char/trace-events
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/trace-events
+++ b/hw/char/trace-events
@@ -XXX,XX +XXX,XX @@ pl011_write(uint32_t addr, uint32_t value) "addr 0x%08x value 0x%08x"
 pl011_can_receive(uint32_t lcr, int read_count, int r) "LCR 0x%08x read_count %d returning %d"
 pl011_put_fifo(uint32_t c, int read_count) "new char 0x%x read_count now %d"
 pl011_put_fifo_full(void) "FIFO now full, RXFF set"
+pl011_baudrate_change(unsigned int baudrate, uint64_t clock, uint32_t ibrd, uint32_t fbrd) "new baudrate %u (clk: %" PRIu64 "hz, ibrd: %" PRIu32 ", fbrd: %" PRIu32 ")"
 
 # cmsdk-apb-uart.c
 cmsdk_apb_uart_read(uint64_t offset, uint64_t data, unsigned size) "CMSDK APB UART read: offset 0x%" PRIx64 " data 0x%" PRIx64 " size %u"
-- 
2.20.1

From: Luc Michel <luc@lmichel.fr>

Connect the 'uart-out' clock from the CPRMAN to the PL011 instance.

Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Luc Michel <luc@lmichel.fr>
Tested-by: Guenter Roeck <linux@roeck-us.net>
Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/bcm2835_peripherals.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/bcm2835_peripherals.c
+++ b/hw/arm/bcm2835_peripherals.c
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
     }
     memory_region_add_subregion(&s->peri_mr, CPRMAN_OFFSET,
                 sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->cprman), 0));
+    qdev_connect_clock_in(DEVICE(&s->uart0), "clk",
+                          qdev_get_clock_out(DEVICE(&s->cprman), "uart-out"));
 
     memory_region_add_subregion(&s->peri_mr, ARMCTRL_IC_OFFSET,
                 sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->ic), 0));
-- 
2.20.1

From: Shashi Mallela <shashi.mallela@linaro.org>

Generic watchdog device model implementation as per ARM SBSA v6.0

Signed-off-by: Shashi Mallela <shashi.mallela@linaro.org>
Message-id: 20201027015927.29495-2-shashi.mallela@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/watchdog/sbsa_gwdt.h |  79 +++++++++
 hw/watchdog/sbsa_gwdt.c         | 293 ++++++++++++++++++++++++++++++++
 hw/arm/Kconfig                  |   1 +
 hw/watchdog/Kconfig             |   3 +
 hw/watchdog/meson.build         |   1 +
 5 files changed, 377 insertions(+)
 create mode 100644 include/hw/watchdog/sbsa_gwdt.h
 create mode 100644 hw/watchdog/sbsa_gwdt.c

diff --git a/include/hw/watchdog/sbsa_gwdt.h b/include/hw/watchdog/sbsa_gwdt.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/watchdog/sbsa_gwdt.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Copyright (c) 2020 Linaro Limited
+ *
+ * Authors:
+ *  Shashi Mallela <shashi.mallela@linaro.org>
+ *
+ * This work is licensed under the terms of the GNU GPL, version 2 or (at your
+ * option) any later version.  See the COPYING file in the top-level directory.
+ *
+ */
+
+#ifndef WDT_SBSA_GWDT_H
+#define WDT_SBSA_GWDT_H
+
+#include "qemu/bitops.h"
+#include "hw/sysbus.h"
+#include "hw/irq.h"
+
+#define TYPE_WDT_SBSA "sbsa_gwdt"
+#define SBSA_GWDT(obj) \
+    OBJECT_CHECK(SBSA_GWDTState, (obj), TYPE_WDT_SBSA)
+#define SBSA_GWDT_CLASS(klass) \
+    OBJECT_CLASS_CHECK(SBSA_GWDTClass, (klass), TYPE_WDT_SBSA)
+#define SBSA_GWDT_GET_CLASS(obj) \
+    OBJECT_GET_CLASS(SBSA_GWDTClass, (obj), TYPE_WDT_SBSA)
+
+/* SBSA Generic Watchdog register definitions */
+/* refresh frame */
+#define SBSA_GWDT_WRR       0x000
+
+/* control frame */
+#define SBSA_GWDT_WCS       0x000
+#define SBSA_GWDT_WOR       0x008
+#define SBSA_GWDT_WORU      0x00C
+#define SBSA_GWDT_WCV       0x010
+#define SBSA_GWDT_WCVU      0x014
+
+/* Watchdog Interface Identification Register */
+#define SBSA_GWDT_W_IIDR    0xFCC
+
+/* Watchdog Control and Status Register Bits */
+#define SBSA_GWDT_WCS_EN    BIT(0)
+#define SBSA_GWDT_WCS_WS0   BIT(1)
+#define SBSA_GWDT_WCS_WS1   BIT(2)
+
+#define SBSA_GWDT_WOR_MASK  0x0000FFFF
+
+/*
+ * Watchdog Interface Identification Register definition
+ * considering JEP106 code for ARM in Bits [11:0]
+ */
+#define SBSA_GWDT_ID        0x1043B
+
+/* 2 Separate memory regions for each of refresh & control register frames */
+#define SBSA_GWDT_RMMIO_SIZE 0x1000
+#define SBSA_GWDT_CMMIO_SIZE 0x1000
+
+#define SBSA_TIMER_FREQ      62500000 /* Hz */
+
+typedef struct SBSA_GWDTState {
+    /* <private> */
+    SysBusDevice parent_obj;
+
+    /*< public >*/
+    MemoryRegion rmmio;
+    MemoryRegion cmmio;
+    qemu_irq irq;
+
+    QEMUTimer *timer;
+
+    uint32_t id;
+    uint32_t wcs;
+    uint32_t worl;
+    uint32_t woru;
+    uint32_t wcvl;
+    uint32_t wcvu;
+} SBSA_GWDTState;
+
+#endif /* WDT_SBSA_GWDT_H */
diff --git a/hw/watchdog/sbsa_gwdt.c b/hw/watchdog/sbsa_gwdt.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/watchdog/sbsa_gwdt.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Generic watchdog device model for SBSA
+ *
+ * The watchdog device has been implemented as revision 1 variant of
+ * the ARM SBSA specification v6.0
+ * (https://developer.arm.com/documentation/den0029/d?lang=en)
+ *
+ * Copyright Linaro.org 2020
+ *
+ * Authors:
+ *  Shashi Mallela <shashi.mallela@linaro.org>
+ *
+ * This work is licensed under the terms of the GNU GPL, version 2 or (at your
+ * option) any later version.  See the COPYING file in the top-level directory.
+ *
+ */
+
+#include "qemu/osdep.h"
+#include "sysemu/reset.h"
+#include "sysemu/watchdog.h"
+#include "hw/watchdog/sbsa_gwdt.h"
+#include "qemu/timer.h"
+#include "migration/vmstate.h"
+#include "qemu/log.h"
+#include "qemu/module.h"
+
+static WatchdogTimerModel model = {
+    .wdt_name = TYPE_WDT_SBSA,
+    .wdt_description = "SBSA-compliant generic watchdog device",
+};
+
+static const VMStateDescription vmstate_sbsa_gwdt = {
+    .name = "sbsa-gwdt",
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .fields = (VMStateField[]) {
+        VMSTATE_TIMER_PTR(timer, SBSA_GWDTState),
+        VMSTATE_UINT32(wcs, SBSA_GWDTState),
+        VMSTATE_UINT32(worl, SBSA_GWDTState),
+        VMSTATE_UINT32(woru, SBSA_GWDTState),
+        VMSTATE_UINT32(wcvl, SBSA_GWDTState),
+        VMSTATE_UINT32(wcvu, SBSA_GWDTState),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+typedef enum WdtRefreshType {
+    EXPLICIT_REFRESH = 0,
+    TIMEOUT_REFRESH = 1,
+} WdtRefreshType;
+
+static uint64_t sbsa_gwdt_rread(void *opaque, hwaddr addr, unsigned int size)
+{
+    SBSA_GWDTState *s = SBSA_GWDT(opaque);
+    uint32_t ret = 0;
+
+    switch (addr) {
+    case SBSA_GWDT_WRR:
+        /* watch refresh read has no effect and returns 0 */
+        ret = 0;
+        break;
+    case SBSA_GWDT_W_IIDR:
+        ret = s->id;
+        break;
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR, "bad address in refresh frame read :"
+                        " 0x%x\n", (int)addr);
+    }
+    return ret;
+}
+
+static uint64_t sbsa_gwdt_read(void *opaque, hwaddr addr, unsigned int size)
+{
+    SBSA_GWDTState *s = SBSA_GWDT(opaque);
+    uint32_t ret = 0;
+
+    switch (addr) {
+    case SBSA_GWDT_WCS:
+        ret = s->wcs;
+        break;
+    case SBSA_GWDT_WOR:
+        ret = s->worl;
+        break;
+    case SBSA_GWDT_WORU:
+         ret = s->woru;
+         break;
+    case SBSA_GWDT_WCV:
+        ret = s->wcvl;
+        break;
+    case SBSA_GWDT_WCVU:
+        ret = s->wcvu;
+        break;
+    case SBSA_GWDT_W_IIDR:
+        ret = s->id;
+        break;
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR, "bad address in control frame read :"
+                        " 0x%x\n", (int)addr);
+    }
+    return ret;
+}
+
+static void sbsa_gwdt_update_timer(SBSA_GWDTState *s, WdtRefreshType rtype)
+{
+    uint64_t timeout = 0;
+
+    timer_del(s->timer);
+
+    if (s->wcs & SBSA_GWDT_WCS_EN) {
+        /*
+         * Extract the upper 16 bits from woru & 32 bits from worl
+         * registers to construct the 48 bit offset value
+         */
+        timeout = s->woru;
+        timeout <<= 32;
+        timeout |= s->worl;
+        timeout = muldiv64(timeout, NANOSECONDS_PER_SECOND, SBSA_TIMER_FREQ);
+        timeout += qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
+
+        if ((rtype == EXPLICIT_REFRESH) || ((rtype == TIMEOUT_REFRESH) &&
+                (!(s->wcs & SBSA_GWDT_WCS_WS0)))) {
+            /* store the current timeout value into compare registers */
+            s->wcvu = timeout >> 32;
+            s->wcvl = timeout;
+        }
+        timer_mod(s->timer, timeout);
+    }
+}
+
+static void sbsa_gwdt_rwrite(void *opaque, hwaddr offset, uint64_t data,
+                             unsigned size) {
+    SBSA_GWDTState *s = SBSA_GWDT(opaque);
+
+    if (offset == SBSA_GWDT_WRR) {
+        s->wcs &= ~(SBSA_GWDT_WCS_WS0 | SBSA_GWDT_WCS_WS1);
+
+        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
+    } else {
+        qemu_log_mask(LOG_GUEST_ERROR, "bad address in refresh frame write :"
+                        " 0x%x\n", (int)offset);
+    }
+}
+
+static void sbsa_gwdt_write(void *opaque, hwaddr offset, uint64_t data,
+                             unsigned size) {
+    SBSA_GWDTState *s = SBSA_GWDT(opaque);
+
+    switch (offset) {
+    case SBSA_GWDT_WCS:
+        s->wcs = data & SBSA_GWDT_WCS_EN;
+        qemu_set_irq(s->irq, 0);
+        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
+        break;
+
+    case SBSA_GWDT_WOR:
+        s->worl = data;
+        s->wcs &= ~(SBSA_GWDT_WCS_WS0 | SBSA_GWDT_WCS_WS1);
+        qemu_set_irq(s->irq, 0);
+        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
+        break;
+
+    case SBSA_GWDT_WORU:
+        s->woru = data & SBSA_GWDT_WOR_MASK;
+        s->wcs &= ~(SBSA_GWDT_WCS_WS0 | SBSA_GWDT_WCS_WS1);
+        qemu_set_irq(s->irq, 0);
+        sbsa_gwdt_update_timer(s, EXPLICIT_REFRESH);
+        break;
+
+    case SBSA_GWDT_WCV:
+        s->wcvl = data;
+        break;
+
+    case SBSA_GWDT_WCVU:
+        s->wcvu = data;
+        break;
+
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR, "bad address in control frame write :"
+                " 0x%x\n", (int)offset);
+    }
+    return;
+}
+
+static void wdt_sbsa_gwdt_reset(DeviceState *dev)
+{
+    SBSA_GWDTState *s = SBSA_GWDT(dev);
+
+    timer_del(s->timer);
+
+    s->wcs  = 0;
+    s->wcvl = 0;
+    s->wcvu = 0;
+    s->worl = 0;
+    s->woru = 0;
+    s->id = SBSA_GWDT_ID;
+}
+
+static void sbsa_gwdt_timer_sysinterrupt(void *opaque)
+{
+    SBSA_GWDTState *s = SBSA_GWDT(opaque);
+
+    if (!(s->wcs & SBSA_GWDT_WCS_WS0)) {
+        s->wcs |= SBSA_GWDT_WCS_WS0;
+        sbsa_gwdt_update_timer(s, TIMEOUT_REFRESH);
+        qemu_set_irq(s->irq, 1);
+    } else {
+        s->wcs |= SBSA_GWDT_WCS_WS1;
+        qemu_log_mask(CPU_LOG_RESET, "Watchdog timer expired.\n");
+        /*
+         * Reset the watchdog only if the guest gets notified about
+         * expiry. watchdog_perform_action() may temporarily relinquish
+         * the BQL; reset before triggering the action to avoid races with
+         * sbsa_gwdt instructions.
+         */
+        switch (get_watchdog_action()) {
+        case WATCHDOG_ACTION_DEBUG:
+        case WATCHDOG_ACTION_NONE:
+        case WATCHDOG_ACTION_PAUSE:
+            break;
+        default:
+            wdt_sbsa_gwdt_reset(DEVICE(s));
+        }
+        watchdog_perform_action();
+    }
+}
+
+static const MemoryRegionOps sbsa_gwdt_rops = {
+    .read = sbsa_gwdt_rread,
+    .write = sbsa_gwdt_rwrite,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid.min_access_size = 4,
+    .valid.max_access_size = 4,
+    .valid.unaligned = false,
+};
+
+static const MemoryRegionOps sbsa_gwdt_ops = {
+    .read = sbsa_gwdt_read,
+    .write = sbsa_gwdt_write,
+    .endianness = DEVICE_LITTLE_ENDIAN,
+    .valid.min_access_size = 4,
+    .valid.max_access_size = 4,
+    .valid.unaligned = false,
+};
+
+static void wdt_sbsa_gwdt_realize(DeviceState *dev, Error **errp)
+{
+    SBSA_GWDTState *s = SBSA_GWDT(dev);
+    SysBusDevice *sbd = SYS_BUS_DEVICE(dev);
+
+    memory_region_init_io(&s->rmmio, OBJECT(dev),
+                          &sbsa_gwdt_rops, s,
+                          "sbsa_gwdt.refresh",
+                          SBSA_GWDT_RMMIO_SIZE);
+
+    memory_region_init_io(&s->cmmio, OBJECT(dev),
+                          &sbsa_gwdt_ops, s,
+                          "sbsa_gwdt.control",
+                          SBSA_GWDT_CMMIO_SIZE);
+
+    sysbus_init_mmio(sbd, &s->rmmio);
+    sysbus_init_mmio(sbd, &s->cmmio);
+
+    sysbus_init_irq(sbd, &s->irq);
+
+    s->timer = timer_new_ns(QEMU_CLOCK_VIRTUAL, sbsa_gwdt_timer_sysinterrupt,
+                dev);
+}
+
+static void wdt_sbsa_gwdt_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+
+    dc->realize = wdt_sbsa_gwdt_realize;
+    dc->reset = wdt_sbsa_gwdt_reset;
+    dc->hotpluggable = false;
+    set_bit(DEVICE_CATEGORY_MISC, dc->categories);
+    dc->vmsd = &vmstate_sbsa_gwdt;
+}
+
+static const TypeInfo wdt_sbsa_gwdt_info = {
+    .class_init = wdt_sbsa_gwdt_class_init,
+    .parent = TYPE_SYS_BUS_DEVICE,
+    .name  = TYPE_WDT_SBSA,
+    .instance_size  = sizeof(SBSA_GWDTState),
+};
+
+static void wdt_sbsa_gwdt_register_types(void)
+{
+    watchdog_add_model(&model);
+    type_register_static(&wdt_sbsa_gwdt_info);
+}
+
+type_init(wdt_sbsa_gwdt_register_types)
diff --git a/hw/arm/Kconfig b/hw/arm/Kconfig
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/Kconfig
+++ b/hw/arm/Kconfig
@@ -XXX,XX +XXX,XX @@ config SBSA_REF
     select PL031 # RTC
     select PL061 # GPIO
     select USB_EHCI_SYSBUS
+    select WDT_SBSA
 
 config SABRELITE
     bool
diff --git a/hw/watchdog/Kconfig b/hw/watchdog/Kconfig
index XXXXXXX..XXXXXXX 100644
--- a/hw/watchdog/Kconfig
+++ b/hw/watchdog/Kconfig
@@ -XXX,XX +XXX,XX @@ config WDT_DIAG288
 
 config WDT_IMX2
     bool
+
+config WDT_SBSA
+    bool
diff --git a/hw/watchdog/meson.build b/hw/watchdog/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/watchdog/meson.build
+++ b/hw/watchdog/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_WDT_IB700', if_true: files('wdt_ib700.c'))
 softmmu_ss.add(when: 'CONFIG_WDT_DIAG288', if_true: files('wdt_diag288.c'))
 softmmu_ss.add(when: 'CONFIG_ASPEED_SOC', if_true: files('wdt_aspeed.c'))
 softmmu_ss.add(when: 'CONFIG_WDT_IMX2', if_true: files('wdt_imx2.c'))
+softmmu_ss.add(when: 'CONFIG_WDT_SBSA', if_true: files('sbsa_gwdt.c'))
-- 
2.20.1

From: Shashi Mallela <shashi.mallela@linaro.org>

Included the newly implemented SBSA generic watchdog device model into
SBSA platform

Signed-off-by: Shashi Mallela <shashi.mallela@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20201027015927.29495-3-shashi.mallela@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/sbsa-ref.c | 23 +++++++++++++++++++++++
 1 file changed, 23 insertions(+)

diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sbsa-ref.c
+++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/qdev-properties.h"
 #include "hw/usb.h"
 #include "hw/char/pl011.h"
+#include "hw/watchdog/sbsa_gwdt.h"
 #include "net/net.h"
 #include "qom/object.h"
 
@@ -XXX,XX +XXX,XX @@ enum {
     SBSA_GIC_DIST,
     SBSA_GIC_REDIST,
     SBSA_SECURE_EC,
+    SBSA_GWDT,
+    SBSA_GWDT_REFRESH,
+    SBSA_GWDT_CONTROL,
     SBSA_SMMU,
     SBSA_UART,
     SBSA_RTC,
@@ -XXX,XX +XXX,XX @@ static const MemMapEntry sbsa_ref_memmap[] = {
     [SBSA_GIC_DIST] =           { 0x40060000, 0x00010000 },
     [SBSA_GIC_REDIST] =         { 0x40080000, 0x04000000 },
     [SBSA_SECURE_EC] =          { 0x50000000, 0x00001000 },
+    [SBSA_GWDT_REFRESH] =       { 0x50010000, 0x00001000 },
+    [SBSA_GWDT_CONTROL] =       { 0x50011000, 0x00001000 },
     [SBSA_UART] =               { 0x60000000, 0x00001000 },
     [SBSA_RTC] =                { 0x60010000, 0x00001000 },
     [SBSA_GPIO] =               { 0x60020000, 0x00001000 },
@@ -XXX,XX +XXX,XX @@ static const int sbsa_ref_irqmap[] = {
     [SBSA_AHCI] = 10,
     [SBSA_EHCI] = 11,
     [SBSA_SMMU] = 12, /* ... to 15 */
+    [SBSA_GWDT] = 16,
 };
 
 static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
@@ -XXX,XX +XXX,XX @@ static void create_rtc(const SBSAMachineState *sms)
     sysbus_create_simple("pl031", base, qdev_get_gpio_in(sms->gic, irq));
 }
 
+static void create_wdt(const SBSAMachineState *sms)
+{
+    hwaddr rbase = sbsa_ref_memmap[SBSA_GWDT_REFRESH].base;
+    hwaddr cbase = sbsa_ref_memmap[SBSA_GWDT_CONTROL].base;
+    DeviceState *dev = qdev_new(TYPE_WDT_SBSA);
+    SysBusDevice *s = SYS_BUS_DEVICE(dev);
+    int irq = sbsa_ref_irqmap[SBSA_GWDT];
+
+    sysbus_realize_and_unref(s, &error_fatal);
+    sysbus_mmio_map(s, 0, rbase);
+    sysbus_mmio_map(s, 1, cbase);
+    sysbus_connect_irq(s, 0, qdev_get_gpio_in(sms->gic, irq));
+}
+
 static DeviceState *gpio_key_dev;
 static void sbsa_ref_powerdown_req(Notifier *n, void *opaque)
 {
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
 
     create_rtc(sms);
 
+    create_wdt(sms);
+
     create_gpio(sms);
 
     create_ahci(sms);
-- 
2.20.1

In ptimer_reload(), we call the callback function provided by the
timer device that is using the ptimer.  This callback might disable
the ptimer.  The code mostly handles this correctly, except that
we'll still print the warning about "Timer with delta zero,
disabling" if the now-disabled timer happened to be set such that it
would fire again immediately if it were enabled (eg because the
limit/reload value is zero).

Suppress the spurious warning message and the unnecessary
repeat-deletion of the underlying timer in this case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20201015151829.14656-2-peter.maydell@linaro.org
---
 hw/core/ptimer.c | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/hw/core/ptimer.c b/hw/core/ptimer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/core/ptimer.c
+++ b/hw/core/ptimer.c
@@ -XXX,XX +XXX,XX @@ static void ptimer_reload(ptimer_state *s, int delta_adjust)
     }
 
     if (delta == 0) {
+        if (s->enabled == 0) {
+            /* trigger callback disabled the timer already */
+            return;
+        }
         if (!qtest_enabled()) {
             fprintf(stderr, "Timer with delta zero, disabling\n");
         }
-- 
2.20.1

The armv7m systick timer is a 24-bit decrementing, wrap-on-zero,
clear-on-write counter. Our current implementation has various
bugs and dubious workarounds in it (for instance see
https://bugs.launchpad.net/qemu/+bug/1872237).

We have an implementation of a simple decrementing counter
and we put a lot of effort into making sure it handles the
interesting corner cases (like "spend a cycle at 0 before
reloading") -- ptimer.

Rewrite the systick timer to use a ptimer rather than
a raw QEMU timer.

Unfortunately this is a migration compatibility break,
which will affect all M-profile boards.

Among other bugs, this fixes
https://bugs.launchpad.net/qemu/+bug/1872237 :
now writes to SYST_CVR when the timer is enabled correctly
do nothing; when the timer is enabled via SYST_CSR.ENABLE,
the ptimer code will (because of POLICY_NO_IMMEDIATE_RELOAD)
arrange that after one timer tick the counter is reloaded
from SYST_RVR and then counts down from there, as the
architecture requires.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20201015151829.14656-3-peter.maydell@linaro.org
---
 include/hw/timer/armv7m_systick.h |   3 +-
 hw/timer/armv7m_systick.c         | 124 +++++++++++++-----------------
 2 files changed, 54 insertions(+), 73 deletions(-)

diff --git a/include/hw/timer/armv7m_systick.h b/include/hw/timer/armv7m_systick.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/timer/armv7m_systick.h
+++ b/include/hw/timer/armv7m_systick.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/sysbus.h"
 #include "qom/object.h"
+#include "hw/ptimer.h"
 
 #define TYPE_SYSTICK "armv7m_systick"
 
@@ -XXX,XX +XXX,XX @@ struct SysTickState {
     uint32_t control;
     uint32_t reload;
     int64_t tick;
-    QEMUTimer *timer;
+    ptimer_state *ptimer;
     MemoryRegion iomem;
     qemu_irq irq;
 };
diff --git a/hw/timer/armv7m_systick.c b/hw/timer/armv7m_systick.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/armv7m_systick.c
+++ b/hw/timer/armv7m_systick.c
@@ -XXX,XX +XXX,XX @@ static inline int64_t systick_scale(SysTickState *s)
     }
 }
 
-static void systick_reload(SysTickState *s, int reset)
-{
-    /* The Cortex-M3 Devices Generic User Guide says that "When the
-     * ENABLE bit is set to 1, the counter loads the RELOAD value from the
-     * SYST RVR register and then counts down". So, we need to check the
-     * ENABLE bit before reloading the value.
-     */
-    trace_systick_reload();
-
-    if ((s->control & SYSTICK_ENABLE) == 0) {
-        return;
-    }
-
-    if (reset) {
-        s->tick = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
-    }
-    s->tick += (s->reload + 1) * systick_scale(s);
-    timer_mod(s->timer, s->tick);
-}
-
 static void systick_timer_tick(void *opaque)
 {
     SysTickState *s = (SysTickState *)opaque;
@@ -XXX,XX +XXX,XX @@ static void systick_timer_tick(void *opaque)
         /* Tell the NVIC to pend the SysTick exception */
         qemu_irq_pulse(s->irq);
     }
-    if (s->reload == 0) {
-        s->control &= ~SYSTICK_ENABLE;
-    } else {
-        systick_reload(s, 0);
+    if (ptimer_get_limit(s->ptimer) == 0) {
+        /*
+         * Timer expiry with SYST_RVR zero disables the timer
+         * (but doesn't clear SYST_CSR.ENABLE)
+         */
+        ptimer_stop(s->ptimer);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_read(void *opaque, hwaddr addr, uint64_t *data,
         s->control &= ~SYSTICK_COUNTFLAG;
         break;
     case 0x4: /* SysTick Reload Value.  */
-        val = s->reload;
+        val = ptimer_get_limit(s->ptimer);
         break;
     case 0x8: /* SysTick Current Value.  */
-    {
-        int64_t t;
-
-        if ((s->control & SYSTICK_ENABLE) == 0) {
-            val = 0;
-            break;
-        }
-        t = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
-        if (t >= s->tick) {
-            val = 0;
-            break;
-        }
-        val = ((s->tick - (t + 1)) / systick_scale(s)) + 1;
-        /* The interrupt in triggered when the timer reaches zero.
-           However the counter is not reloaded until the next clock
-           tick.  This is a hack to return zero during the first tick.  */
-        if (val > s->reload) {
-            val = 0;
-        }
+        val = ptimer_get_count(s->ptimer);
         break;
-    }
     case 0xc: /* SysTick Calibration Value.  */
         val = 10000;
         break;
@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_write(void *opaque, hwaddr addr,
     switch (addr) {
     case 0x0: /* SysTick Control and Status.  */
     {
-        uint32_t oldval = s->control;
+        uint32_t oldval;
 
+        ptimer_transaction_begin(s->ptimer);
+        oldval = s->control;
         s->control &= 0xfffffff8;
         s->control |= value & 7;
+
         if ((oldval ^ value) & SYSTICK_ENABLE) {
-            int64_t now = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL);
             if (value & SYSTICK_ENABLE) {
-                if (s->tick) {
-                    s->tick += now;
-                    timer_mod(s->timer, s->tick);
-                } else {
-                    systick_reload(s, 1);
-                }
+                /*
+                 * Always reload the period in case board code has
+                 * changed system_clock_scale. If we ever replace that
+                 * global with a more sensible API then we might be able
+                 * to set the period only when it actually changes.
+                 */
+                ptimer_set_period(s->ptimer, systick_scale(s));
+                ptimer_run(s->ptimer, 0);
             } else {
-                timer_del(s->timer);
-                s->tick -= now;
-                if (s->tick < 0) {
-                    s->tick = 0;
-                }
+                ptimer_stop(s->ptimer);
             }
         } else if ((oldval ^ value) & SYSTICK_CLKSOURCE) {
-            /* This is a hack. Force the timer to be reloaded
-               when the reference clock is changed.  */
-            systick_reload(s, 1);
+            ptimer_set_period(s->ptimer, systick_scale(s));
         }
+        ptimer_transaction_commit(s->ptimer);
         break;
     }
     case 0x4: /* SysTick Reload Value.  */
-        s->reload = value;
+        ptimer_transaction_begin(s->ptimer);
+        ptimer_set_limit(s->ptimer, value & 0xffffff, 0);
+        ptimer_transaction_commit(s->ptimer);
         break;
-    case 0x8: /* SysTick Current Value.  Writes reload the timer.  */
-        systick_reload(s, 1);
+    case 0x8: /* SysTick Current Value. */
+        /*
+         * Writing any value clears SYST_CVR to zero and clears
+         * SYST_CSR.COUNTFLAG. The counter will then reload from SYST_RVR
+         * on the next clock edge unless SYST_RVR is zero.
+         */
+        ptimer_transaction_begin(s->ptimer);
+        if (ptimer_get_limit(s->ptimer) == 0) {
+            ptimer_stop(s->ptimer);
+        }
+        ptimer_set_count(s->ptimer, 0);
         s->control &= ~SYSTICK_COUNTFLAG;
+        ptimer_transaction_commit(s->ptimer);
         break;
     default:
         qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static void systick_reset(DeviceState *dev)
      */
     assert(system_clock_scale != 0);
 
+    ptimer_transaction_begin(s->ptimer);
     s->control = 0;
-    s->reload = 0;
-    s->tick = 0;
-    timer_del(s->timer);
+    ptimer_stop(s->ptimer);
+    ptimer_set_count(s->ptimer, 0);
+    ptimer_set_limit(s->ptimer, 0, 0);
+    ptimer_set_period(s->ptimer, systick_scale(s));
+    ptimer_transaction_commit(s->ptimer);
 }
 
 static void systick_instance_init(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void systick_instance_init(Object *obj)
 static void systick_realize(DeviceState *dev, Error **errp)
 {
     SysTickState *s = SYSTICK(dev);
-    s->timer = timer_new_ns(QEMU_CLOCK_VIRTUAL, systick_timer_tick, s);
+    s->ptimer = ptimer_init(systick_timer_tick, s,
+                            PTIMER_POLICY_WRAP_AFTER_ONE_PERIOD |
+                            PTIMER_POLICY_NO_COUNTER_ROUND_DOWN |
+                            PTIMER_POLICY_NO_IMMEDIATE_RELOAD |
+                            PTIMER_POLICY_TRIGGER_ONLY_ON_DECREMENT);
 }
 
 static const VMStateDescription vmstate_systick = {
     .name = "armv7m_systick",
-    .version_id = 1,
-    .minimum_version_id = 1,
+    .version_id = 2,
+    .minimum_version_id = 2,
     .fields = (VMStateField[]) {
         VMSTATE_UINT32(control, SysTickState),
-        VMSTATE_UINT32(reload, SysTickState),
         VMSTATE_INT64(tick, SysTickState),
-        VMSTATE_TIMER_PTR(timer, SysTickState),
+        VMSTATE_PTIMER(ptimer, SysTickState),
         VMSTATE_END_OF_LIST()
     }
 };
-- 
2.20.1

The following changes since commit 53f306f316549d20c76886903181413d20842423:

Merge remote-tracking branch 'remotes/ehabkost-gl/tags/x86-next-pull-request' into staging (2021-06-21 11:26:04 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210621

for you to fetch changes up to a83f1d9263d281f938a3984cda7104d55affd43a:

docs/system: arm: Add nRF boards description (2021-06-21 17:24:33 +0100)

----------------------------------------------------------------
target-arm queue:
 * Don't require 'virt' board to be compiled in for ACPI GHES code
 * docs: Document which architecture extensions we emulate
 * Fix bugs in M-profile FPCXT_NS accesses
 * First slice of MVE patches
 * Implement MTE3
 * docs/system: arm: Add nRF boards description

----------------------------------------------------------------
Alexandre Iooss (1):
      docs/system: arm: Add nRF boards description

Peter Collingbourne (1):
      target/arm: Implement MTE3

Peter Maydell (55):
      hw/acpi: Provide stub version of acpi_ghes_record_errors()
      hw/acpi: Provide function acpi_ghes_present()
      target/arm: Use acpi_ghes_present() to see if we report ACPI memory errors
      docs/system/arm: Document which architecture extensions we emulate
      target/arm/translate-vfp.c: Whitespace fixes
      target/arm: Handle FPU being disabled in FPCXT_NS accesses
      target/arm: Don't NOCP fault for FPCXT_NS accesses
      target/arm: Handle writeback in VLDR/VSTR sysreg with no memory access
      target/arm: Factor FP context update code out into helper function
      target/arm: Split vfp_access_check() into A and M versions
      target/arm: Handle FPU check for FPCXT_NS insns via vfp_access_check_m()
      target/arm: Implement MVE VLDR/VSTR (non-widening forms)
      target/arm: Implement widening/narrowing MVE VLDR/VSTR insns
      target/arm: Implement MVE VCLZ
      target/arm: Implement MVE VCLS
      target/arm: Implement MVE VREV16, VREV32, VREV64
      target/arm: Implement MVE VMVN (register)
      target/arm: Implement MVE VABS
      target/arm: Implement MVE VNEG
      tcg: Make gen_dup_i32/i64() public as tcg_gen_dup_i32/i64
      target/arm: Implement MVE VDUP
      target/arm: Implement MVE VAND, VBIC, VORR, VORN, VEOR
      target/arm: Implement MVE VADD, VSUB, VMUL
      target/arm: Implement MVE VMULH
      target/arm: Implement MVE VRMULH
      target/arm: Implement MVE VMAX, VMIN
      target/arm: Implement MVE VABD
      target/arm: Implement MVE VHADD, VHSUB
      target/arm: Implement MVE VMULL
      target/arm: Implement MVE VMLALDAV
      target/arm: Implement MVE VMLSLDAV
      target/arm: Implement MVE VRMLALDAVH, VRMLSLDAVH
      target/arm: Implement MVE VADD (scalar)
      target/arm: Implement MVE VSUB, VMUL (scalar)
      target/arm: Implement MVE VHADD, VHSUB (scalar)
      target/arm: Implement MVE VBRSR
      target/arm: Implement MVE VPST
      target/arm: Implement MVE VQADD and VQSUB
      target/arm: Implement MVE VQDMULH and VQRDMULH (scalar)
      target/arm: Implement MVE VQDMULL scalar
      target/arm: Implement MVE VQDMULH, VQRDMULH (vector)
      target/arm: Implement MVE VQADD, VQSUB (vector)
      target/arm: Implement MVE VQSHL (vector)
      target/arm: Implement MVE VQRSHL
      target/arm: Implement MVE VSHL insn
      target/arm: Implement MVE VRSHL
      target/arm: Implement MVE VQDMLADH and VQRDMLADH
      target/arm: Implement MVE VQDMLSDH and VQRDMLSDH
      target/arm: Implement MVE VQDMULL (vector)
      target/arm: Implement MVE VRHADD
      target/arm: Implement MVE VADC, VSBC
      target/arm: Implement MVE VCADD
      target/arm: Implement MVE VHCADD
      target/arm: Implement MVE VADDV
      target/arm: Make VMOV scalar <-> gpreg beatwise for MVE

docs/system/arm/emulation.rst |  103 ++++
 docs/system/arm/nrf.rst       |   51 ++
 docs/system/target-arm.rst    |    7 +
 include/hw/acpi/ghes.h        |    9 +
 include/tcg/tcg-op.h          |    8 +
 include/tcg/tcg.h             |    1 -
 target/arm/helper-mve.h       |  357 +++++++++++++
 target/arm/helper.h           |    2 +
 target/arm/internals.h        |   11 +
 target/arm/translate-a32.h    |    3 +
 target/arm/translate.h        |   10 +
 target/arm/m-nocp.decode      |   24 +
 target/arm/mve.decode         |  240 +++++++++
 target/arm/vfp.decode         |   14 -
 hw/acpi/ghes-stub.c           |   22 +
 hw/acpi/ghes.c                |   17 +
 target/arm/cpu64.c            |    2 +-
 target/arm/kvm64.c            |    6 +-
 target/arm/mte_helper.c       |   82 +--
 target/arm/mve_helper.c       | 1160 +++++++++++++++++++++++++++++++++++++++++
 target/arm/translate-m-nocp.c |  550 +++++++++++++++++++
 target/arm/translate-mve.c    |  759 +++++++++++++++++++++++++++
 target/arm/translate-vfp.c    |  741 +++++++-------------------
 tcg/tcg-op-gvec.c             |   20 +-
 MAINTAINERS                   |    1 +
 hw/acpi/meson.build           |    6 +-
 target/arm/meson.build        |    1 +
 27 files changed, 3578 insertions(+), 629 deletions(-)
 create mode 100644 docs/system/arm/emulation.rst
 create mode 100644 docs/system/arm/nrf.rst
 create mode 100644 target/arm/helper-mve.h
 create mode 100644 hw/acpi/ghes-stub.c
 create mode 100644 target/arm/mve_helper.c

Generic code in target/arm wants to call acpi_ghes_record_errors();
provide a stub version so that we don't fail to link when
CONFIG_ACPI_APEI is not set. This requires us to add a new
ghes-stub.c file to contain it and the meson.build mechanics
to use it when appropriate.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Dongjiu Geng <gengdongjiu1@gmail.com>
Message-id: 20210603171259.27962-2-peter.maydell@linaro.org
---
 hw/acpi/ghes-stub.c | 17 +++++++++++++++++
 hw/acpi/meson.build |  6 +++---
 2 files changed, 20 insertions(+), 3 deletions(-)
 create mode 100644 hw/acpi/ghes-stub.c

diff --git a/hw/acpi/ghes-stub.c b/hw/acpi/ghes-stub.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/acpi/ghes-stub.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Support for generating APEI tables and recording CPER for Guests:
+ * stub functions.
+ *
+ * Copyright (c) 2021 Linaro, Ltd
+ *
+ * This work is licensed under the terms of the GNU GPL, version 2 or later.
+ * See the COPYING file in the top-level directory.
+ */
+
+#include "qemu/osdep.h"
+#include "hw/acpi/ghes.h"
+
+int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
+{
+    return -1;
+}
diff --git a/hw/acpi/meson.build b/hw/acpi/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/meson.build
+++ b/hw/acpi/meson.build
@@ -XXX,XX +XXX,XX @@ acpi_ss.add(when: 'CONFIG_ACPI_PCI', if_true: files('pci.c'))
 acpi_ss.add(when: 'CONFIG_ACPI_VMGENID', if_true: files('vmgenid.c'))
 acpi_ss.add(when: 'CONFIG_ACPI_HW_REDUCED', if_true: files('generic_event_device.c'))
 acpi_ss.add(when: 'CONFIG_ACPI_HMAT', if_true: files('hmat.c'))
-acpi_ss.add(when: 'CONFIG_ACPI_APEI', if_true: files('ghes.c'))
+acpi_ss.add(when: 'CONFIG_ACPI_APEI', if_true: files('ghes.c'), if_false: files('ghes-stub.c'))
 acpi_ss.add(when: 'CONFIG_ACPI_X86', if_true: files('core.c', 'piix4.c', 'pcihp.c'), if_false: files('acpi-stub.c'))
 acpi_ss.add(when: 'CONFIG_ACPI_X86_ICH', if_true: files('ich9.c', 'tco.c'))
 acpi_ss.add(when: 'CONFIG_IPMI', if_true: files('ipmi.c'), if_false: files('ipmi-stub.c'))
 acpi_ss.add(when: 'CONFIG_PC', if_false: files('acpi-x86-stub.c'))
 acpi_ss.add(when: 'CONFIG_TPM', if_true: files('tpm.c'))
-softmmu_ss.add(when: 'CONFIG_ACPI', if_false: files('acpi-stub.c', 'aml-build-stub.c'))
+softmmu_ss.add(when: 'CONFIG_ACPI', if_false: files('acpi-stub.c', 'aml-build-stub.c', 'ghes-stub.c'))
 softmmu_ss.add_all(when: 'CONFIG_ACPI', if_true: acpi_ss)
 softmmu_ss.add(when: 'CONFIG_ALL', if_true: files('acpi-stub.c', 'aml-build-stub.c',
-                                                  'acpi-x86-stub.c', 'ipmi-stub.c'))
+                                                  'acpi-x86-stub.c', 'ipmi-stub.c', 'ghes-stub.c'))
-- 
2.20.1

Allow code elsewhere in the system to check whether the ACPI GHES
table is present, so it can determine whether it is OK to try to
record an error by calling acpi_ghes_record_errors().

(We don't need to migrate the new 'present' field in AcpiGhesState,
because it is set once at system initialization and doesn't change.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Dongjiu Geng <gengdongjiu1@gmail.com>
Message-id: 20210603171259.27962-3-peter.maydell@linaro.org
---
 include/hw/acpi/ghes.h |  9 +++++++++
 hw/acpi/ghes-stub.c    |  5 +++++
 hw/acpi/ghes.c         | 17 +++++++++++++++++
 3 files changed, 31 insertions(+)

diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/ghes.h
+++ b/include/hw/acpi/ghes.h
@@ -XXX,XX +XXX,XX @@ enum {
 
 typedef struct AcpiGhesState {
     uint64_t ghes_addr_le;
+    bool present; /* True if GHES is present at all on this board */
 } AcpiGhesState;
 
 void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
@@ -XXX,XX +XXX,XX @@ void acpi_build_hest(GArray *table_data, BIOSLinker *linker,
 void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
                           GArray *hardware_errors);
 int acpi_ghes_record_errors(uint8_t notify, uint64_t error_physical_addr);
+
+/**
+ * acpi_ghes_present: Report whether ACPI GHES table is present
+ *
+ * Returns: true if the system has an ACPI GHES table and it is
+ * safe to call acpi_ghes_record_errors() to record a memory error.
+ */
+bool acpi_ghes_present(void);
 #endif
diff --git a/hw/acpi/ghes-stub.c b/hw/acpi/ghes-stub.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/ghes-stub.c
+++ b/hw/acpi/ghes-stub.c
@@ -XXX,XX +XXX,XX @@ int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
 {
     return -1;
 }
+
+bool acpi_ghes_present(void)
+{
+    return false;
+}
diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/ghes.c
+++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@ void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
     /* Create a read-write fw_cfg file for Address */
     fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
         NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
+
+    ags->present = true;
 }
 
 int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
@@ -XXX,XX +XXX,XX @@ int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
 
     return ret;
 }
+
+bool acpi_ghes_present(void)
+{
+    AcpiGedState *acpi_ged_state;
+    AcpiGhesState *ags;
+
+    acpi_ged_state = ACPI_GED(object_resolve_path_type("", TYPE_ACPI_GED,
+                                                       NULL));
+
+    if (!acpi_ged_state) {
+        return false;
+    }
+    ags = &acpi_ged_state->ghes_state;
+    return ags->present;
+}
-- 
2.20.1

The virt_is_acpi_enabled() function is specific to the virt board, as
is the check for its 'ras' property.  Use the new acpi_ghes_present()
function to check whether we should report memory errors via
acpi_ghes_record_errors().

This avoids a link error if QEMU was built without support for the
virt board, and provides a mechanism that can be used by any future
board models that want to add ACPI memory error reporting support
(they only need to call acpi_ghes_add_fw_cfg()).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Dongjiu Geng <gengdongjiu1@gmail.com>
Message-id: 20210603171259.27962-4-peter.maydell@linaro.org
---
 target/arm/kvm64.c | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ void kvm_arch_on_sigbus_vcpu(CPUState *c, int code, void *addr)
 {
     ram_addr_t ram_addr;
     hwaddr paddr;
-    Object *obj = qdev_get_machine();
-    VirtMachineState *vms = VIRT_MACHINE(obj);
-    bool acpi_enabled = virt_is_acpi_enabled(vms);
 
     assert(code == BUS_MCEERR_AR || code == BUS_MCEERR_AO);
 
-    if (acpi_enabled && addr &&
-            object_property_get_bool(obj, "ras", NULL)) {
+    if (acpi_ghes_present() && addr) {
         ram_addr = qemu_ram_addr_from_host(addr);
         if (ram_addr != RAM_ADDR_INVALID &&
             kvm_physical_memory_addr_from_host(c->kvm_state, addr, &paddr)) {
-- 
2.20.1

These days the Arm architecture has a wide range of fine-grained
optional extra architectural features. We implement quite a lot
of these but by no means all of them. Document what we do implement,
so that users can find out without having to dig through back-issues
of our Changelog on the wiki.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Message-id: 20210617140328.28622-1-peter.maydell@linaro.org
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
---
 docs/system/arm/emulation.rst | 102 ++++++++++++++++++++++++++++++++++
 docs/system/target-arm.rst    |   6 ++
 2 files changed, 108 insertions(+)
 create mode 100644 docs/system/arm/emulation.rst

diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/docs/system/arm/emulation.rst
@@ -XXX,XX +XXX,XX @@
+A-profile CPU architecture support
+==================================
+
+QEMU's TCG emulation includes support for the Armv5, Armv6, Armv7 and
+Armv8 versions of the A-profile architecture. It also has support for
+the following architecture extensions:
+
+- FEAT_AA32BF16 (AArch32 BFloat16 instructions)
+- FEAT_AA32HPD (AArch32 hierarchical permission disables)
+- FEAT_AA32I8MM (AArch32 Int8 matrix multiplication instructions)
+- FEAT_AES (AESD and AESE instructions)
+- FEAT_BF16 (AArch64 BFloat16 instructions)
+- FEAT_BTI (Branch Target Identification)
+- FEAT_DIT (Data Independent Timing instructions)
+- FEAT_DPB (DC CVAP instruction)
+- FEAT_DotProd (Advanced SIMD dot product instructions)
+- FEAT_FCMA (Floating-point complex number instructions)
+- FEAT_FHM (Floating-point half-precision multiplication instructions)
+- FEAT_FP16 (Half-precision floating-point data processing)
+- FEAT_FRINTTS (Floating-point to integer instructions)
+- FEAT_FlagM (Flag manipulation instructions v2)
+- FEAT_FlagM2 (Enhancements to flag manipulation instructions)
+- FEAT_HPDS (Hierarchical permission disables)
+- FEAT_I8MM (AArch64 Int8 matrix multiplication instructions)
+- FEAT_JSCVT (JavaScript conversion instructions)
+- FEAT_LOR (Limited ordering regions)
+- FEAT_LRCPC (Load-acquire RCpc instructions)
+- FEAT_LRCPC2 (Load-acquire RCpc instructions v2)
+- FEAT_LSE (Large System Extensions)
+- FEAT_MTE (Memory Tagging Extension)
+- FEAT_MTE2 (Memory Tagging Extension)
+- FEAT_PAN (Privileged access never)
+- FEAT_PAN2 (AT S1E1R and AT S1E1W instruction variants affected by PSTATE.PAN)
+- FEAT_PAuth (Pointer authentication)
+- FEAT_PMULL (PMULL, PMULL2 instructions)
+- FEAT_PMUv3p1 (PMU Extensions v3.1)
+- FEAT_PMUv3p4 (PMU Extensions v3.4)
+- FEAT_RDM (Advanced SIMD rounding double multiply accumulate instructions)
+- FEAT_RNG (Random number generator)
+- FEAT_SB (Speculation Barrier)
+- FEAT_SEL2 (Secure EL2)
+- FEAT_SHA1 (SHA1 instructions)
+- FEAT_SHA256 (SHA256 instructions)
+- FEAT_SHA3 (Advanced SIMD SHA3 instructions)
+- FEAT_SHA512 (Advanced SIMD SHA512 instructions)
+- FEAT_SM3 (Advanced SIMD SM3 instructions)
+- FEAT_SM4 (Advanced SIMD SM4 instructions)
+- FEAT_SPECRES (Speculation restriction instructions)
+- FEAT_SSBS (Speculative Store Bypass Safe)
+- FEAT_TLBIOS (TLB invalidate instructions in Outer Shareable domain)
+- FEAT_TLBIRANGE (TLB invalidate range instructions)
+- FEAT_TTCNP (Translation table Common not private translations)
+- FEAT_TTST (Small translation tables)
+- FEAT_UAO (Unprivileged Access Override control)
+- FEAT_VHE (Virtualization Host Extensions)
+- FEAT_VMID16 (16-bit VMID)
+- FEAT_XNX (Translation table stage 2 Unprivileged Execute-never)
+- SVE (The Scalable Vector Extension)
+- SVE2 (The Scalable Vector Extension v2)
+
+For information on the specifics of these extensions, please refer
+to the `Armv8-A Arm Architecture Reference Manual
+<https://developer.arm.com/documentation/ddi0487/latest>`_.
+
+When a specific named CPU is being emulated, only those features which
+are present in hardware for that CPU are emulated. (If a feature is
+not in the list above then it is not supported, even if the real
+hardware should have it.) The ``max`` CPU enables all features.
+
+R-profile CPU architecture support
+==================================
+
+QEMU's TCG emulation support for R-profile CPUs is currently limited.
+We emulate only the Cortex-R5 and Cortex-R5F CPUs.
+
+M-profile CPU architecture support
+==================================
+
+QEMU's TCG emulation includes support for Armv6-M, Armv7-M, Armv8-M, and
+Armv8.1-M versions of the M-profile architucture.  It also has support
+for the following architecture extensions:
+
+- FP (Floating-point Extension)
+- FPCXT (FPCXT access instructions)
+- HP (Half-precision floating-point instructions)
+- LOB (Low Overhead loops and Branch future)
+- M (Main Extension)
+- MPU (Memory Protection Unit Extension)
+- PXN (Privileged Execute Never)
+- RAS (Reliability, Serviceability and Availability): "minimum RAS Extension" only
+- S (Security Extension)
+- ST (System Timer Extension)
+
+For information on the specifics of these extensions, please refer
+to the `Armv8-M Arm Architecture Reference Manual
+<https://developer.arm.com/documentation/ddi0553/latest>`_.
+
+When a specific named CPU is being emulated, only those features which
+are present in hardware for that CPU are emulated. (If a feature is
+not in the list above then it is not supported, even if the real
+hardware should have it.) There is no equivalent of the ``max`` CPU for
+M-profile.
diff --git a/docs/system/target-arm.rst b/docs/system/target-arm.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/target-arm.rst
+++ b/docs/system/target-arm.rst
@@ -XXX,XX +XXX,XX @@ undocumented; you can get a complete list by running
    arm/virt
    arm/xlnx-versal-virt
 
+Emulated CPU architecture support
+=================================
+
+.. toctree::
+   arm/emulation
+
 Arm CPU features
 ================
 
-- 
2.20.1

In the code for handling VFP system register accesses there is some
stray whitespace after a unary '-' operator, and also some incorrect
indent in a couple of function prototypes.  We're about to move this
code to another file, so fix the code style issues first so
checkpatch doesn't complain about the code-movement patch.

diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_branch_fpInactive(DisasContext *s, TCGCond cond,
 }
 
 static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
-
                                   fp_sysreg_loadfn *loadfn,
-                                 void *opaque)
+                                  void *opaque)
 {
     /* Do a write to an M-profile floating point system register */
     TCGv_i32 tmp;
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
 }
 
 static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
-                                fp_sysreg_storefn *storefn,
-                                void *opaque)
+                                 fp_sysreg_storefn *storefn,
+                                 void *opaque)
 {
     /* Do a read from an M-profile floating point system register */
     TCGv_i32 tmp;
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
     TCGv_i32 addr;
 
     if (!a->a) {
-        offset = - offset;
+        offset = -offset;
     }
 
     addr = load_reg(s, a->rn);
@@ -XXX,XX +XXX,XX @@ static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
     TCGv_i32 value = tcg_temp_new_i32();
 
     if (!a->a) {
-        offset = - offset;
+        offset = -offset;
     }
 
     addr = load_reg(s, a->rn);
-- 
2.20.1

If the guest makes an FPCXT_NS access when the FPU is disabled,
one of two things happens:
 * if there is no active FP context, then the insn behaves the
   same way as if the FPU was enabled: writes ignored, reads
   same value as FPDSCR_NS
 * if there is an active FP context, then we take a NOCP
   exception

Add code to the sysreg read/write functions which emits
code to take the NOCP exception in the latter case.

At the moment this will never be used, because the NOCP checks in
m-nocp.decode happen first, and so the trans functions are never
called when the FPU is disabled.  The code will be needed when we
move the sysreg access insns to before the NOCP patterns in the
following commit.

Cc: qemu-stable@nongnu.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210618141019.10671-3-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c | 32 ++++++++++++++++++++++++++++++--
 1 file changed, 30 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
         lab_end = gen_new_label();
         /* fpInactive case: write is a NOP, so branch to end */
         gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
-        /* !fpInactive: PreserveFPState(), and reads same as FPCXT_S */
+        /*
+         * !fpInactive: if FPU disabled, take NOCP exception;
+         * otherwise PreserveFPState(), and then FPCXT_NS writes
+         * behave the same as FPCXT_S writes.
+         */
+        if (s->fp_excp_el) {
+            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+                               syn_uncategorized(), s->fp_excp_el);
+            /*
+             * This was only a conditional exception, so override
+             * gen_exception_insn()'s default to DISAS_NORETURN
+             */
+            s->base.is_jmp = DISAS_NEXT;
+            break;
+        }
         gen_preserve_fp_state(s);
         /* fall through */
     case ARM_VFP_FPCXT_S:
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
         tcg_gen_br(lab_end);
 
         gen_set_label(lab_active);
-        /* !fpInactive: Reads the same as FPCXT_S, but side effects differ */
+        /*
+         * !fpInactive: if FPU disabled, take NOCP exception;
+         * otherwise PreserveFPState(), and then FPCXT_NS
+         * reads the same as FPCXT_S.
+         */
+        if (s->fp_excp_el) {
+            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+                               syn_uncategorized(), s->fp_excp_el);
+            /*
+             * This was only a conditional exception, so override
+             * gen_exception_insn()'s default to DISAS_NORETURN
+             */
+            s->base.is_jmp = DISAS_NEXT;
+            break;
+        }
         gen_preserve_fp_state(s);
         tmp = tcg_temp_new_i32();
         sfpa = tcg_temp_new_i32();
-- 
2.20.1

The M-profile architecture requires that accesses to FPCXT_NS when
there is no active FP state must not take a NOCP fault even if the
FPU is disabled. We were not implementing this correctly, because
in our decode we catch the NOCP faults early in m-nocp.decode.

Fix this bug by moving all the handling of M-profile FP system
register accesses from vfp.decode into m-nocp.decode and putting
it above the NOCP blocks. This provides the correct behaviour:
 * for accesses other than FPCXT_NS the trans functions call
   vfp_access_check(), which will check for FPU disabled and
   raise a NOCP exception if necessary
 * for FPCXT_NS we have the special case code that doesn't
   call vfp_access_check()
 * when these trans functions want to raise an UNDEF they return
   false, so the decoder will fall through into the NOCP blocks.
   This means that NOCP correctly takes precedence over UNDEF
   for these insns. (This is a difference from the other insns
   handled by m-nocp.decode, where UNDEF takes precedence and
   which we implement by having those trans functions call
   unallocated_encoding() in the appropriate places.)

[Note for backport to stable: this commit has a semantic dependency
on commit 9a486856e9173af, which was not marked as cc-stable because
we didn't know we'd need it for a for-stable bugfix.]

Cc: qemu-stable@nongnu.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210618141019.10671-4-peter.maydell@linaro.org
---
 target/arm/translate-a32.h    |   1 +
 target/arm/m-nocp.decode      |  24 ++
 target/arm/vfp.decode         |  14 -
 target/arm/translate-m-nocp.c | 514 +++++++++++++++++++++++++++++++++
 target/arm/translate-vfp.c    | 517 +---------------------------------
 5 files changed, 542 insertions(+), 528 deletions(-)

diff --git a/target/arm/translate-a32.h b/target/arm/translate-a32.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a32.h
+++ b/target/arm/translate-a32.h
@@ -XXX,XX +XXX,XX @@ bool disas_neon_shared(DisasContext *s, uint32_t insn);
 void load_reg_var(DisasContext *s, TCGv_i32 var, int reg);
 void arm_gen_condlabel(DisasContext *s);
 bool vfp_access_check(DisasContext *s);
+void gen_preserve_fp_state(DisasContext *s);
 void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp memop);
 void read_neon_element64(TCGv_i64 dest, int reg, int ele, MemOp memop);
 void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp memop);
diff --git a/target/arm/m-nocp.decode b/target/arm/m-nocp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/m-nocp.decode
+++ b/target/arm/m-nocp.decode
@@ -XXX,XX +XXX,XX @@
 
 &nocp cp
 
+# M-profile VLDR/VSTR to sysreg
+%vldr_sysreg 22:1 13:3
+%imm7_0x4 0:7 !function=times_4
+
+&vldr_sysreg rn reg imm a w p
+@vldr_sysreg .... ... . a:1 . . . rn:4 ... . ... .. ....... \
+             reg=%vldr_sysreg imm=%imm7_0x4 &vldr_sysreg
+
 {
   # Special cases which do not take an early NOCP: VLLDM and VLSTM
   VLLDM_VLSTM  1110 1100 001 l:1 rn:4 0000 1010 op:1 000 0000
@@ -XXX,XX +XXX,XX @@
   VSCCLRM      1110 1100 1.01 1111 .... 1011 imm:7 0   vd=%vd_dp size=3
   VSCCLRM      1110 1100 1.01 1111 .... 1010 imm:8     vd=%vd_sp size=2
 
+  # FP system register accesses: these are a special case because accesses
+  # to FPCXT_NS succeed even if the FPU is disabled. We therefore need
+  # to handle them before the big NOCP blocks. Note that within these
+  # insns NOCP still has higher priority than UNDEFs; this is implemented
+  # by their returning 'false' for UNDEF so as to fall through into the
+  # NOCP check (in contrast to VLLDM etc, which call unallocated_encoding()
+  # for the UNDEFs there that must take precedence over NOCP.)
+
+  VMSR_VMRS    ---- 1110 111 l:1 reg:4 rt:4 1010 0001 0000
+
+  # P=0 W=0 is SEE "Related encodings", so split into two patterns
+  VLDR_sysreg  ---- 110 1 . . w:1 1 .... ... 0 111 11 ....... @vldr_sysreg p=1
+  VLDR_sysreg  ---- 110 0 . . 1   1 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
+  VSTR_sysreg  ---- 110 1 . . w:1 0 .... ... 0 111 11 ....... @vldr_sysreg p=1
+  VSTR_sysreg  ---- 110 0 . . 1   0 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
+
   NOCP         111- 1110 ---- ---- ---- cp:4 ---- ---- &nocp
   NOCP         111- 110- ---- ---- ---- cp:4 ---- ---- &nocp
   # From v8.1M onwards this range will also NOCP:
diff --git a/target/arm/vfp.decode b/target/arm/vfp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp.decode
+++ b/target/arm/vfp.decode
@@ -XXX,XX +XXX,XX @@ VLDR_VSTR_hp ---- 1101 u:1 .0 l:1 rn:4 .... 1001 imm:8      vd=%vd_sp
 VLDR_VSTR_sp ---- 1101 u:1 .0 l:1 rn:4 .... 1010 imm:8      vd=%vd_sp
 VLDR_VSTR_dp ---- 1101 u:1 .0 l:1 rn:4 .... 1011 imm:8      vd=%vd_dp
 
-# M-profile VLDR/VSTR to sysreg
-%vldr_sysreg 22:1 13:3
-%imm7_0x4 0:7 !function=times_4
-
-&vldr_sysreg rn reg imm a w p
-@vldr_sysreg .... ... . a:1 . . . rn:4 ... . ... .. ....... \
-             reg=%vldr_sysreg imm=%imm7_0x4 &vldr_sysreg
-
-# P=0 W=0 is SEE "Related encodings", so split into two patterns
-VLDR_sysreg  ---- 110 1 . . w:1 1 .... ... 0 111 11 ....... @vldr_sysreg p=1
-VLDR_sysreg  ---- 110 0 . . 1   1 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
-VSTR_sysreg  ---- 110 1 . . w:1 0 .... ... 0 111 11 ....... @vldr_sysreg p=1
-VSTR_sysreg  ---- 110 0 . . 1   0 .... ... 0 111 11 ....... @vldr_sysreg p=0 w=1
-
 # We split the load/store multiple up into two patterns to avoid
 # overlap with other insns in the "Advanced SIMD load/store and 64-bit move"
 # grouping:
diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-m-nocp.c
+++ b/target/arm/translate-m-nocp.c
@@ -XXX,XX +XXX,XX @@
 
 #include "qemu/osdep.h"
 #include "tcg/tcg-op.h"
+#include "tcg/tcg-op-gvec.h"
 #include "translate.h"
 #include "translate-a32.h"
 
@@ -XXX,XX +XXX,XX @@ static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
     return true;
 }
 
+/*
+ * M-profile provides two different sets of instructions that can
+ * access floating point system registers: VMSR/VMRS (which move
+ * to/from a general purpose register) and VLDR/VSTR sysreg (which
+ * move directly to/from memory). In some cases there are also side
+ * effects which must happen after any write to memory (which could
+ * cause an exception). So we implement the common logic for the
+ * sysreg access in gen_M_fp_sysreg_write() and gen_M_fp_sysreg_read(),
+ * which take pointers to callback functions which will perform the
+ * actual "read/write general purpose register" and "read/write
+ * memory" operations.
+ */
+
+/*
+ * Emit code to store the sysreg to its final destination; frees the
+ * TCG temp 'value' it is passed.
+ */
+typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
+/*
+ * Emit code to load the value to be copied to the sysreg; returns
+ * a new TCG temporary
+ */
+typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
+
+/* Common decode/access checks for fp sysreg read/write */
+typedef enum FPSysRegCheckResult {
+    FPSysRegCheckFailed, /* caller should return false */
+    FPSysRegCheckDone, /* caller should return true */
+    FPSysRegCheckContinue, /* caller should continue generating code */
+} FPSysRegCheckResult;
+
+static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
+{
+    if (!dc_isar_feature(aa32_fpsp_v2, s) && !dc_isar_feature(aa32_mve, s)) {
+        return FPSysRegCheckFailed;
+    }
+
+    switch (regno) {
+    case ARM_VFP_FPSCR:
+    case QEMU_VFP_FPSCR_NZCV:
+        break;
+    case ARM_VFP_FPSCR_NZCVQC:
+        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+            return FPSysRegCheckFailed;
+        }
+        break;
+    case ARM_VFP_FPCXT_S:
+    case ARM_VFP_FPCXT_NS:
+        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+            return FPSysRegCheckFailed;
+        }
+        if (!s->v8m_secure) {
+            return FPSysRegCheckFailed;
+        }
+        break;
+    case ARM_VFP_VPR:
+    case ARM_VFP_P0:
+        if (!dc_isar_feature(aa32_mve, s)) {
+            return FPSysRegCheckFailed;
+        }
+        break;
+    default:
+        return FPSysRegCheckFailed;
+    }
+
+    /*
+     * FPCXT_NS is a special case: it has specific handling for
+     * "current FP state is inactive", and must do the PreserveFPState()
+     * but not the usual full set of actions done by ExecuteFPCheck().
+     * So we don't call vfp_access_check() and the callers must handle this.
+     */
+    if (regno != ARM_VFP_FPCXT_NS && !vfp_access_check(s)) {
+        return FPSysRegCheckDone;
+    }
+    return FPSysRegCheckContinue;
+}
+
+static void gen_branch_fpInactive(DisasContext *s, TCGCond cond,
+                                  TCGLabel *label)
+{
+    /*
+     * FPCXT_NS is a special case: it has specific handling for
+     * "current FP state is inactive", and must do the PreserveFPState()
+     * but not the usual full set of actions done by ExecuteFPCheck().
+     * We don't have a TB flag that matches the fpInactive check, so we
+     * do it at runtime as we don't expect FPCXT_NS accesses to be frequent.
+     *
+     * Emit code that checks fpInactive and does a conditional
+     * branch to label based on it:
+     *  if cond is TCG_COND_NE then branch if fpInactive != 0 (ie if inactive)
+     *  if cond is TCG_COND_EQ then branch if fpInactive == 0 (ie if active)
+     */
+    assert(cond == TCG_COND_EQ || cond == TCG_COND_NE);
+
+    /* fpInactive = FPCCR_NS.ASPEN == 1 && CONTROL.FPCA == 0 */
+    TCGv_i32 aspen, fpca;
+    aspen = load_cpu_field(v7m.fpccr[M_REG_NS]);
+    fpca = load_cpu_field(v7m.control[M_REG_S]);
+    tcg_gen_andi_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
+    tcg_gen_xori_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
+    tcg_gen_andi_i32(fpca, fpca, R_V7M_CONTROL_FPCA_MASK);
+    tcg_gen_or_i32(fpca, fpca, aspen);
+    tcg_gen_brcondi_i32(tcg_invert_cond(cond), fpca, 0, label);
+    tcg_temp_free_i32(aspen);
+    tcg_temp_free_i32(fpca);
+}
+
+static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
+                                  fp_sysreg_loadfn *loadfn,
+                                  void *opaque)
+{
+    /* Do a write to an M-profile floating point system register */
+    TCGv_i32 tmp;
+    TCGLabel *lab_end = NULL;
+
+    switch (fp_sysreg_checks(s, regno)) {
+    case FPSysRegCheckFailed:
+        return false;
+    case FPSysRegCheckDone:
+        return true;
+    case FPSysRegCheckContinue:
+        break;
+    }
+
+    switch (regno) {
+    case ARM_VFP_FPSCR:
+        tmp = loadfn(s, opaque);
+        gen_helper_vfp_set_fpscr(cpu_env, tmp);
+        tcg_temp_free_i32(tmp);
+        gen_lookup_tb(s);
+        break;
+    case ARM_VFP_FPSCR_NZCVQC:
+    {
+        TCGv_i32 fpscr;
+        tmp = loadfn(s, opaque);
+        if (dc_isar_feature(aa32_mve, s)) {
+            /* QC is only present for MVE; otherwise RES0 */
+            TCGv_i32 qc = tcg_temp_new_i32();
+            tcg_gen_andi_i32(qc, tmp, FPCR_QC);
+            /*
+             * The 4 vfp.qc[] fields need only be "zero" vs "non-zero";
+             * here writing the same value into all elements is simplest.
+             */
+            tcg_gen_gvec_dup_i32(MO_32, offsetof(CPUARMState, vfp.qc),
+                                 16, 16, qc);
+        }
+        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
+        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_gen_andi_i32(fpscr, fpscr, ~FPCR_NZCV_MASK);
+        tcg_gen_or_i32(fpscr, fpscr, tmp);
+        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_temp_free_i32(tmp);
+        break;
+    }
+    case ARM_VFP_FPCXT_NS:
+        lab_end = gen_new_label();
+        /* fpInactive case: write is a NOP, so branch to end */
+        gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
+        /*
+         * !fpInactive: if FPU disabled, take NOCP exception;
+         * otherwise PreserveFPState(), and then FPCXT_NS writes
+         * behave the same as FPCXT_S writes.
+         */
+        if (s->fp_excp_el) {
+            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+                               syn_uncategorized(), s->fp_excp_el);
+            /*
+             * This was only a conditional exception, so override
+             * gen_exception_insn()'s default to DISAS_NORETURN
+             */
+            s->base.is_jmp = DISAS_NEXT;
+            break;
+        }
+        gen_preserve_fp_state(s);
+        /* fall through */
+    case ARM_VFP_FPCXT_S:
+    {
+        TCGv_i32 sfpa, control;
+        /*
+         * Set FPSCR and CONTROL.SFPA from value; the new FPSCR takes
+         * bits [27:0] from value and zeroes bits [31:28].
+         */
+        tmp = loadfn(s, opaque);
+        sfpa = tcg_temp_new_i32();
+        tcg_gen_shri_i32(sfpa, tmp, 31);
+        control = load_cpu_field(v7m.control[M_REG_S]);
+        tcg_gen_deposit_i32(control, control, sfpa,
+                            R_V7M_CONTROL_SFPA_SHIFT, 1);
+        store_cpu_field(control, v7m.control[M_REG_S]);
+        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
+        gen_helper_vfp_set_fpscr(cpu_env, tmp);
+        tcg_temp_free_i32(tmp);
+        tcg_temp_free_i32(sfpa);
+        break;
+    }
+    case ARM_VFP_VPR:
+        /* Behaves as NOP if not privileged */
+        if (IS_USER(s)) {
+            break;
+        }
+        tmp = loadfn(s, opaque);
+        store_cpu_field(tmp, v7m.vpr);
+        break;
+    case ARM_VFP_P0:
+    {
+        TCGv_i32 vpr;
+        tmp = loadfn(s, opaque);
+        vpr = load_cpu_field(v7m.vpr);
+        tcg_gen_deposit_i32(vpr, vpr, tmp,
+                            R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
+        store_cpu_field(vpr, v7m.vpr);
+        tcg_temp_free_i32(tmp);
+        break;
+    }
+    default:
+        g_assert_not_reached();
+    }
+    if (lab_end) {
+        gen_set_label(lab_end);
+    }
+    return true;
+}
+
+static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
+                                 fp_sysreg_storefn *storefn,
+                                 void *opaque)
+{
+    /* Do a read from an M-profile floating point system register */
+    TCGv_i32 tmp;
+    TCGLabel *lab_end = NULL;
+    bool lookup_tb = false;
+
+    switch (fp_sysreg_checks(s, regno)) {
+    case FPSysRegCheckFailed:
+        return false;
+    case FPSysRegCheckDone:
+        return true;
+    case FPSysRegCheckContinue:
+        break;
+    }
+
+    if (regno == ARM_VFP_FPSCR_NZCVQC && !dc_isar_feature(aa32_mve, s)) {
+        /* QC is RES0 without MVE, so NZCVQC simplifies to NZCV */
+        regno = QEMU_VFP_FPSCR_NZCV;
+    }
+
+    switch (regno) {
+    case ARM_VFP_FPSCR:
+        tmp = tcg_temp_new_i32();
+        gen_helper_vfp_get_fpscr(tmp, cpu_env);
+        storefn(s, opaque, tmp);
+        break;
+    case ARM_VFP_FPSCR_NZCVQC:
+        tmp = tcg_temp_new_i32();
+        gen_helper_vfp_get_fpscr(tmp, cpu_env);
+        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCVQC_MASK);
+        storefn(s, opaque, tmp);
+        break;
+    case QEMU_VFP_FPSCR_NZCV:
+        /*
+         * Read just NZCV; this is a special case to avoid the
+         * helper call for the "VMRS to CPSR.NZCV" insn.
+         */
+        tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
+        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
+        storefn(s, opaque, tmp);
+        break;
+    case ARM_VFP_FPCXT_S:
+    {
+        TCGv_i32 control, sfpa, fpscr;
+        /* Bits [27:0] from FPSCR, bit [31] from CONTROL.SFPA */
+        tmp = tcg_temp_new_i32();
+        sfpa = tcg_temp_new_i32();
+        gen_helper_vfp_get_fpscr(tmp, cpu_env);
+        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
+        control = load_cpu_field(v7m.control[M_REG_S]);
+        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
+        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
+        tcg_gen_or_i32(tmp, tmp, sfpa);
+        tcg_temp_free_i32(sfpa);
+        /*
+         * Store result before updating FPSCR etc, in case
+         * it is a memory write which causes an exception.
+         */
+        storefn(s, opaque, tmp);
+        /*
+         * Now we must reset FPSCR from FPDSCR_NS, and clear
+         * CONTROL.SFPA; so we'll end the TB here.
+         */
+        tcg_gen_andi_i32(control, control, ~R_V7M_CONTROL_SFPA_MASK);
+        store_cpu_field(control, v7m.control[M_REG_S]);
+        fpscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
+        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
+        tcg_temp_free_i32(fpscr);
+        lookup_tb = true;
+        break;
+    }
+    case ARM_VFP_FPCXT_NS:
+    {
+        TCGv_i32 control, sfpa, fpscr, fpdscr, zero;
+        TCGLabel *lab_active = gen_new_label();
+
+        lookup_tb = true;
+
+        gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
+        /* fpInactive case: reads as FPDSCR_NS */
+        TCGv_i32 tmp = load_cpu_field(v7m.fpdscr[M_REG_NS]);
+        storefn(s, opaque, tmp);
+        lab_end = gen_new_label();
+        tcg_gen_br(lab_end);
+
+        gen_set_label(lab_active);
+        /*
+         * !fpInactive: if FPU disabled, take NOCP exception;
+         * otherwise PreserveFPState(), and then FPCXT_NS
+         * reads the same as FPCXT_S.
+         */
+        if (s->fp_excp_el) {
+            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+                               syn_uncategorized(), s->fp_excp_el);
+            /*
+             * This was only a conditional exception, so override
+             * gen_exception_insn()'s default to DISAS_NORETURN
+             */
+            s->base.is_jmp = DISAS_NEXT;
+            break;
+        }
+        gen_preserve_fp_state(s);
+        tmp = tcg_temp_new_i32();
+        sfpa = tcg_temp_new_i32();
+        fpscr = tcg_temp_new_i32();
+        gen_helper_vfp_get_fpscr(fpscr, cpu_env);
+        tcg_gen_andi_i32(tmp, fpscr, ~FPCR_NZCV_MASK);
+        control = load_cpu_field(v7m.control[M_REG_S]);
+        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
+        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
+        tcg_gen_or_i32(tmp, tmp, sfpa);
+        tcg_temp_free_i32(control);
+        /* Store result before updating FPSCR, in case it faults */
+        storefn(s, opaque, tmp);
+        /* If SFPA is zero then set FPSCR from FPDSCR_NS */
+        fpdscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
+        zero = tcg_const_i32(0);
+        tcg_gen_movcond_i32(TCG_COND_EQ, fpscr, sfpa, zero, fpdscr, fpscr);
+        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
+        tcg_temp_free_i32(zero);
+        tcg_temp_free_i32(sfpa);
+        tcg_temp_free_i32(fpdscr);
+        tcg_temp_free_i32(fpscr);
+        break;
+    }
+    case ARM_VFP_VPR:
+        /* Behaves as NOP if not privileged */
+        if (IS_USER(s)) {
+            break;
+        }
+        tmp = load_cpu_field(v7m.vpr);
+        storefn(s, opaque, tmp);
+        break;
+    case ARM_VFP_P0:
+        tmp = load_cpu_field(v7m.vpr);
+        tcg_gen_extract_i32(tmp, tmp, R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
+        storefn(s, opaque, tmp);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    if (lab_end) {
+        gen_set_label(lab_end);
+    }
+    if (lookup_tb) {
+        gen_lookup_tb(s);
+    }
+    return true;
+}
+
+static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
+{
+    arg_VMSR_VMRS *a = opaque;
+
+    if (a->rt == 15) {
+        /* Set the 4 flag bits in the CPSR */
+        gen_set_nzcv(value);
+        tcg_temp_free_i32(value);
+    } else {
+        store_reg(s, a->rt, value);
+    }
+}
+
+static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
+{
+    arg_VMSR_VMRS *a = opaque;
+
+    return load_reg(s, a->rt);
+}
+
+static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
+{
+    /*
+     * Accesses to R15 are UNPREDICTABLE; we choose to undef.
+     * FPSCR -> r15 is a special case which writes to the PSR flags;
+     * set a->reg to a special value to tell gen_M_fp_sysreg_read()
+     * we only care about the top 4 bits of FPSCR there.
+     */
+    if (a->rt == 15) {
+        if (a->l && a->reg == ARM_VFP_FPSCR) {
+            a->reg = QEMU_VFP_FPSCR_NZCV;
+        } else {
+            return false;
+        }
+    }
+
+    if (a->l) {
+        /* VMRS, move FP system register to gp register */
+        return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_gpr, a);
+    } else {
+        /* VMSR, move gp register to FP system register */
+        return gen_M_fp_sysreg_write(s, a->reg, gpr_to_fp_sysreg, a);
+    }
+}
+
+static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
+{
+    arg_vldr_sysreg *a = opaque;
+    uint32_t offset = a->imm;
+    TCGv_i32 addr;
+
+    if (!a->a) {
+        offset = -offset;
+    }
+
+    addr = load_reg(s, a->rn);
+    if (a->p) {
+        tcg_gen_addi_i32(addr, addr, offset);
+    }
+
+    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
+        gen_helper_v8m_stackcheck(cpu_env, addr);
+    }
+
+    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
+                    MO_UL | MO_ALIGN | s->be_data);
+    tcg_temp_free_i32(value);
+
+    if (a->w) {
+        /* writeback */
+        if (!a->p) {
+            tcg_gen_addi_i32(addr, addr, offset);
+        }
+        store_reg(s, a->rn, addr);
+    } else {
+        tcg_temp_free_i32(addr);
+    }
+}
+
+static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
+{
+    arg_vldr_sysreg *a = opaque;
+    uint32_t offset = a->imm;
+    TCGv_i32 addr;
+    TCGv_i32 value = tcg_temp_new_i32();
+
+    if (!a->a) {
+        offset = -offset;
+    }
+
+    addr = load_reg(s, a->rn);
+    if (a->p) {
+        tcg_gen_addi_i32(addr, addr, offset);
+    }
+
+    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
+        gen_helper_v8m_stackcheck(cpu_env, addr);
+    }
+
+    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
+                    MO_UL | MO_ALIGN | s->be_data);
+
+    if (a->w) {
+        /* writeback */
+        if (!a->p) {
+            tcg_gen_addi_i32(addr, addr, offset);
+        }
+        store_reg(s, a->rn, addr);
+    } else {
+        tcg_temp_free_i32(addr);
+    }
+    return value;
+}
+
+static bool trans_VLDR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
+{
+    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+        return false;
+    }
+    if (a->rn == 15) {
+        return false;
+    }
+    return gen_M_fp_sysreg_write(s, a->reg, memory_to_fp_sysreg, a);
+}
+
+static bool trans_VSTR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
+{
+    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
+        return false;
+    }
+    if (a->rn == 15) {
+        return false;
+    }
+    return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_memory, a);
+}
+
 static bool trans_NOCP(DisasContext *s, arg_nocp *a)
 {
     /*
diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static inline long vfp_f16_offset(unsigned reg, bool top)
  * Generate code for M-profile lazy FP state preservation if needed;
  * this corresponds to the pseudocode PreserveFPState() function.
  */
-static void gen_preserve_fp_state(DisasContext *s)
+void gen_preserve_fp_state(DisasContext *s)
 {
     if (s->v7m_lspact) {
         /*
@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
     return true;
 }
 
-/*
- * M-profile provides two different sets of instructions that can
- * access floating point system registers: VMSR/VMRS (which move
- * to/from a general purpose register) and VLDR/VSTR sysreg (which
- * move directly to/from memory). In some cases there are also side
- * effects which must happen after any write to memory (which could
- * cause an exception). So we implement the common logic for the
- * sysreg access in gen_M_fp_sysreg_write() and gen_M_fp_sysreg_read(),
- * which take pointers to callback functions which will perform the
- * actual "read/write general purpose register" and "read/write
- * memory" operations.
- */
-
-/*
- * Emit code to store the sysreg to its final destination; frees the
- * TCG temp 'value' it is passed.
- */
-typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
-/*
- * Emit code to load the value to be copied to the sysreg; returns
- * a new TCG temporary
- */
-typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
-
-/* Common decode/access checks for fp sysreg read/write */
-typedef enum FPSysRegCheckResult {
-    FPSysRegCheckFailed, /* caller should return false */
-    FPSysRegCheckDone, /* caller should return true */
-    FPSysRegCheckContinue, /* caller should continue generating code */
-} FPSysRegCheckResult;
-
-static FPSysRegCheckResult fp_sysreg_checks(DisasContext *s, int regno)
-{
-    if (!dc_isar_feature(aa32_fpsp_v2, s) && !dc_isar_feature(aa32_mve, s)) {
-        return FPSysRegCheckFailed;
-    }
-
-    switch (regno) {
-    case ARM_VFP_FPSCR:
-    case QEMU_VFP_FPSCR_NZCV:
-        break;
-    case ARM_VFP_FPSCR_NZCVQC:
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-            return FPSysRegCheckFailed;
-        }
-        break;
-    case ARM_VFP_FPCXT_S:
-    case ARM_VFP_FPCXT_NS:
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-            return FPSysRegCheckFailed;
-        }
-        if (!s->v8m_secure) {
-            return FPSysRegCheckFailed;
-        }
-        break;
-    case ARM_VFP_VPR:
-    case ARM_VFP_P0:
-        if (!dc_isar_feature(aa32_mve, s)) {
-            return FPSysRegCheckFailed;
-        }
-        break;
-    default:
-        return FPSysRegCheckFailed;
-    }
-
-    /*
-     * FPCXT_NS is a special case: it has specific handling for
-     * "current FP state is inactive", and must do the PreserveFPState()
-     * but not the usual full set of actions done by ExecuteFPCheck().
-     * So we don't call vfp_access_check() and the callers must handle this.
-     */
-    if (regno != ARM_VFP_FPCXT_NS && !vfp_access_check(s)) {
-        return FPSysRegCheckDone;
-    }
-    return FPSysRegCheckContinue;
-}
-
-static void gen_branch_fpInactive(DisasContext *s, TCGCond cond,
-                                  TCGLabel *label)
-{
-    /*
-     * FPCXT_NS is a special case: it has specific handling for
-     * "current FP state is inactive", and must do the PreserveFPState()
-     * but not the usual full set of actions done by ExecuteFPCheck().
-     * We don't have a TB flag that matches the fpInactive check, so we
-     * do it at runtime as we don't expect FPCXT_NS accesses to be frequent.
-     *
-     * Emit code that checks fpInactive and does a conditional
-     * branch to label based on it:
-     *  if cond is TCG_COND_NE then branch if fpInactive != 0 (ie if inactive)
-     *  if cond is TCG_COND_EQ then branch if fpInactive == 0 (ie if active)
-     */
-    assert(cond == TCG_COND_EQ || cond == TCG_COND_NE);
-
-    /* fpInactive = FPCCR_NS.ASPEN == 1 && CONTROL.FPCA == 0 */
-    TCGv_i32 aspen, fpca;
-    aspen = load_cpu_field(v7m.fpccr[M_REG_NS]);
-    fpca = load_cpu_field(v7m.control[M_REG_S]);
-    tcg_gen_andi_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
-    tcg_gen_xori_i32(aspen, aspen, R_V7M_FPCCR_ASPEN_MASK);
-    tcg_gen_andi_i32(fpca, fpca, R_V7M_CONTROL_FPCA_MASK);
-    tcg_gen_or_i32(fpca, fpca, aspen);
-    tcg_gen_brcondi_i32(tcg_invert_cond(cond), fpca, 0, label);
-    tcg_temp_free_i32(aspen);
-    tcg_temp_free_i32(fpca);
-}
-
-static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
-                                  fp_sysreg_loadfn *loadfn,
-                                  void *opaque)
-{
-    /* Do a write to an M-profile floating point system register */
-    TCGv_i32 tmp;
-    TCGLabel *lab_end = NULL;
-
-    switch (fp_sysreg_checks(s, regno)) {
-    case FPSysRegCheckFailed:
-        return false;
-    case FPSysRegCheckDone:
-        return true;
-    case FPSysRegCheckContinue:
-        break;
-    }
-
-    switch (regno) {
-    case ARM_VFP_FPSCR:
-        tmp = loadfn(s, opaque);
-        gen_helper_vfp_set_fpscr(cpu_env, tmp);
-        tcg_temp_free_i32(tmp);
-        gen_lookup_tb(s);
-        break;
-    case ARM_VFP_FPSCR_NZCVQC:
-    {
-        TCGv_i32 fpscr;
-        tmp = loadfn(s, opaque);
-        if (dc_isar_feature(aa32_mve, s)) {
-            /* QC is only present for MVE; otherwise RES0 */
-            TCGv_i32 qc = tcg_temp_new_i32();
-            tcg_gen_andi_i32(qc, tmp, FPCR_QC);
-            /*
-             * The 4 vfp.qc[] fields need only be "zero" vs "non-zero";
-             * here writing the same value into all elements is simplest.
-             */
-            tcg_gen_gvec_dup_i32(MO_32, offsetof(CPUARMState, vfp.qc),
-                                 16, 16, qc);
-        }
-        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
-        fpscr = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
-        tcg_gen_andi_i32(fpscr, fpscr, ~FPCR_NZCV_MASK);
-        tcg_gen_or_i32(fpscr, fpscr, tmp);
-        store_cpu_field(fpscr, vfp.xregs[ARM_VFP_FPSCR]);
-        tcg_temp_free_i32(tmp);
-        break;
-    }
-    case ARM_VFP_FPCXT_NS:
-        lab_end = gen_new_label();
-        /* fpInactive case: write is a NOP, so branch to end */
-        gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
-        /*
-         * !fpInactive: if FPU disabled, take NOCP exception;
-         * otherwise PreserveFPState(), and then FPCXT_NS writes
-         * behave the same as FPCXT_S writes.
-         */
-        if (s->fp_excp_el) {
-            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                               syn_uncategorized(), s->fp_excp_el);
-            /*
-             * This was only a conditional exception, so override
-             * gen_exception_insn()'s default to DISAS_NORETURN
-             */
-            s->base.is_jmp = DISAS_NEXT;
-            break;
-        }
-        gen_preserve_fp_state(s);
-        /* fall through */
-    case ARM_VFP_FPCXT_S:
-    {
-        TCGv_i32 sfpa, control;
-        /*
-         * Set FPSCR and CONTROL.SFPA from value; the new FPSCR takes
-         * bits [27:0] from value and zeroes bits [31:28].
-         */
-        tmp = loadfn(s, opaque);
-        sfpa = tcg_temp_new_i32();
-        tcg_gen_shri_i32(sfpa, tmp, 31);
-        control = load_cpu_field(v7m.control[M_REG_S]);
-        tcg_gen_deposit_i32(control, control, sfpa,
-                            R_V7M_CONTROL_SFPA_SHIFT, 1);
-        store_cpu_field(control, v7m.control[M_REG_S]);
-        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
-        gen_helper_vfp_set_fpscr(cpu_env, tmp);
-        tcg_temp_free_i32(tmp);
-        tcg_temp_free_i32(sfpa);
-        break;
-    }
-    case ARM_VFP_VPR:
-        /* Behaves as NOP if not privileged */
-        if (IS_USER(s)) {
-            break;
-        }
-        tmp = loadfn(s, opaque);
-        store_cpu_field(tmp, v7m.vpr);
-        break;
-    case ARM_VFP_P0:
-    {
-        TCGv_i32 vpr;
-        tmp = loadfn(s, opaque);
-        vpr = load_cpu_field(v7m.vpr);
-        tcg_gen_deposit_i32(vpr, vpr, tmp,
-                            R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
-        store_cpu_field(vpr, v7m.vpr);
-        tcg_temp_free_i32(tmp);
-        break;
-    }
-    default:
-        g_assert_not_reached();
-    }
-    if (lab_end) {
-        gen_set_label(lab_end);
-    }
-    return true;
-}
-
-static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
-                                 fp_sysreg_storefn *storefn,
-                                 void *opaque)
-{
-    /* Do a read from an M-profile floating point system register */
-    TCGv_i32 tmp;
-    TCGLabel *lab_end = NULL;
-    bool lookup_tb = false;
-
-    switch (fp_sysreg_checks(s, regno)) {
-    case FPSysRegCheckFailed:
-        return false;
-    case FPSysRegCheckDone:
-        return true;
-    case FPSysRegCheckContinue:
-        break;
-    }
-
-    if (regno == ARM_VFP_FPSCR_NZCVQC && !dc_isar_feature(aa32_mve, s)) {
-        /* QC is RES0 without MVE, so NZCVQC simplifies to NZCV */
-        regno = QEMU_VFP_FPSCR_NZCV;
-    }
-
-    switch (regno) {
-    case ARM_VFP_FPSCR:
-        tmp = tcg_temp_new_i32();
-        gen_helper_vfp_get_fpscr(tmp, cpu_env);
-        storefn(s, opaque, tmp);
-        break;
-    case ARM_VFP_FPSCR_NZCVQC:
-        tmp = tcg_temp_new_i32();
-        gen_helper_vfp_get_fpscr(tmp, cpu_env);
-        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCVQC_MASK);
-        storefn(s, opaque, tmp);
-        break;
-    case QEMU_VFP_FPSCR_NZCV:
-        /*
-         * Read just NZCV; this is a special case to avoid the
-         * helper call for the "VMRS to CPSR.NZCV" insn.
-         */
-        tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
-        tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
-        storefn(s, opaque, tmp);
-        break;
-    case ARM_VFP_FPCXT_S:
-    {
-        TCGv_i32 control, sfpa, fpscr;
-        /* Bits [27:0] from FPSCR, bit [31] from CONTROL.SFPA */
-        tmp = tcg_temp_new_i32();
-        sfpa = tcg_temp_new_i32();
-        gen_helper_vfp_get_fpscr(tmp, cpu_env);
-        tcg_gen_andi_i32(tmp, tmp, ~FPCR_NZCV_MASK);
-        control = load_cpu_field(v7m.control[M_REG_S]);
-        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
-        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
-        tcg_gen_or_i32(tmp, tmp, sfpa);
-        tcg_temp_free_i32(sfpa);
-        /*
-         * Store result before updating FPSCR etc, in case
-         * it is a memory write which causes an exception.
-         */
-        storefn(s, opaque, tmp);
-        /*
-         * Now we must reset FPSCR from FPDSCR_NS, and clear
-         * CONTROL.SFPA; so we'll end the TB here.
-         */
-        tcg_gen_andi_i32(control, control, ~R_V7M_CONTROL_SFPA_MASK);
-        store_cpu_field(control, v7m.control[M_REG_S]);
-        fpscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
-        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
-        tcg_temp_free_i32(fpscr);
-        lookup_tb = true;
-        break;
-    }
-    case ARM_VFP_FPCXT_NS:
-    {
-        TCGv_i32 control, sfpa, fpscr, fpdscr, zero;
-        TCGLabel *lab_active = gen_new_label();
-
-        lookup_tb = true;
-
-        gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
-        /* fpInactive case: reads as FPDSCR_NS */
-        TCGv_i32 tmp = load_cpu_field(v7m.fpdscr[M_REG_NS]);
-        storefn(s, opaque, tmp);
-        lab_end = gen_new_label();
-        tcg_gen_br(lab_end);
-
-        gen_set_label(lab_active);
-        /*
-         * !fpInactive: if FPU disabled, take NOCP exception;
-         * otherwise PreserveFPState(), and then FPCXT_NS
-         * reads the same as FPCXT_S.
-         */
-        if (s->fp_excp_el) {
-            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                               syn_uncategorized(), s->fp_excp_el);
-            /*
-             * This was only a conditional exception, so override
-             * gen_exception_insn()'s default to DISAS_NORETURN
-             */
-            s->base.is_jmp = DISAS_NEXT;
-            break;
-        }
-        gen_preserve_fp_state(s);
-        tmp = tcg_temp_new_i32();
-        sfpa = tcg_temp_new_i32();
-        fpscr = tcg_temp_new_i32();
-        gen_helper_vfp_get_fpscr(fpscr, cpu_env);
-        tcg_gen_andi_i32(tmp, fpscr, ~FPCR_NZCV_MASK);
-        control = load_cpu_field(v7m.control[M_REG_S]);
-        tcg_gen_andi_i32(sfpa, control, R_V7M_CONTROL_SFPA_MASK);
-        tcg_gen_shli_i32(sfpa, sfpa, 31 - R_V7M_CONTROL_SFPA_SHIFT);
-        tcg_gen_or_i32(tmp, tmp, sfpa);
-        tcg_temp_free_i32(control);
-        /* Store result before updating FPSCR, in case it faults */
-        storefn(s, opaque, tmp);
-        /* If SFPA is zero then set FPSCR from FPDSCR_NS */
-        fpdscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
-        zero = tcg_const_i32(0);
-        tcg_gen_movcond_i32(TCG_COND_EQ, fpscr, sfpa, zero, fpdscr, fpscr);
-        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
-        tcg_temp_free_i32(zero);
-        tcg_temp_free_i32(sfpa);
-        tcg_temp_free_i32(fpdscr);
-        tcg_temp_free_i32(fpscr);
-        break;
-    }
-    case ARM_VFP_VPR:
-        /* Behaves as NOP if not privileged */
-        if (IS_USER(s)) {
-            break;
-        }
-        tmp = load_cpu_field(v7m.vpr);
-        storefn(s, opaque, tmp);
-        break;
-    case ARM_VFP_P0:
-        tmp = load_cpu_field(v7m.vpr);
-        tcg_gen_extract_i32(tmp, tmp, R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
-        storefn(s, opaque, tmp);
-        break;
-    default:
-        g_assert_not_reached();
-    }
-
-    if (lab_end) {
-        gen_set_label(lab_end);
-    }
-    if (lookup_tb) {
-        gen_lookup_tb(s);
-    }
-    return true;
-}
-
-static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
-{
-    arg_VMSR_VMRS *a = opaque;
-
-    if (a->rt == 15) {
-        /* Set the 4 flag bits in the CPSR */
-        gen_set_nzcv(value);
-        tcg_temp_free_i32(value);
-    } else {
-        store_reg(s, a->rt, value);
-    }
-}
-
-static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
-{
-    arg_VMSR_VMRS *a = opaque;
-
-    return load_reg(s, a->rt);
-}
-
-static bool gen_M_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
-{
-    /*
-     * Accesses to R15 are UNPREDICTABLE; we choose to undef.
-     * FPSCR -> r15 is a special case which writes to the PSR flags;
-     * set a->reg to a special value to tell gen_M_fp_sysreg_read()
-     * we only care about the top 4 bits of FPSCR there.
-     */
-    if (a->rt == 15) {
-        if (a->l && a->reg == ARM_VFP_FPSCR) {
-            a->reg = QEMU_VFP_FPSCR_NZCV;
-        } else {
-            return false;
-        }
-    }
-
-    if (a->l) {
-        /* VMRS, move FP system register to gp register */
-        return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_gpr, a);
-    } else {
-        /* VMSR, move gp register to FP system register */
-        return gen_M_fp_sysreg_write(s, a->reg, gpr_to_fp_sysreg, a);
-    }
-}
-
 static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
 {
     TCGv_i32 tmp;
     bool ignore_vfp_enabled = false;
 
     if (arm_dc_feature(s, ARM_FEATURE_M)) {
-        return gen_M_VMSR_VMRS(s, a);
+        /* M profile version was already handled in m-nocp.decode */
+        return false;
     }
 
     if (!dc_isar_feature(aa32_fpsp_v2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
     return true;
 }
 
-static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
-{
-    arg_vldr_sysreg *a = opaque;
-    uint32_t offset = a->imm;
-    TCGv_i32 addr;
-
-    if (!a->a) {
-        offset = -offset;
-    }
-
-    addr = load_reg(s, a->rn);
-    if (a->p) {
-        tcg_gen_addi_i32(addr, addr, offset);
-    }
-
-    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
-        gen_helper_v8m_stackcheck(cpu_env, addr);
-    }
-
-    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
-                    MO_UL | MO_ALIGN | s->be_data);
-    tcg_temp_free_i32(value);
-
-    if (a->w) {
-        /* writeback */
-        if (!a->p) {
-            tcg_gen_addi_i32(addr, addr, offset);
-        }
-        store_reg(s, a->rn, addr);
-    } else {
-        tcg_temp_free_i32(addr);
-    }
-}
-
-static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
-{
-    arg_vldr_sysreg *a = opaque;
-    uint32_t offset = a->imm;
-    TCGv_i32 addr;
-    TCGv_i32 value = tcg_temp_new_i32();
-
-    if (!a->a) {
-        offset = -offset;
-    }
-
-    addr = load_reg(s, a->rn);
-    if (a->p) {
-        tcg_gen_addi_i32(addr, addr, offset);
-    }
-
-    if (s->v8m_stackcheck && a->rn == 13 && a->w) {
-        gen_helper_v8m_stackcheck(cpu_env, addr);
-    }
-
-    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
-                    MO_UL | MO_ALIGN | s->be_data);
-
-    if (a->w) {
-        /* writeback */
-        if (!a->p) {
-            tcg_gen_addi_i32(addr, addr, offset);
-        }
-        store_reg(s, a->rn, addr);
-    } else {
-        tcg_temp_free_i32(addr);
-    }
-    return value;
-}
-
-static bool trans_VLDR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
-{
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-        return false;
-    }
-    if (a->rn == 15) {
-        return false;
-    }
-    return gen_M_fp_sysreg_write(s, a->reg, memory_to_fp_sysreg, a);
-}
-
-static bool trans_VSTR_sysreg(DisasContext *s, arg_vldr_sysreg *a)
-{
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-        return false;
-    }
-    if (a->rn == 15) {
-        return false;
-    }
-    return gen_M_fp_sysreg_read(s, a->reg, fp_sysreg_to_memory, a);
-}
 
 static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
 {
-- 
2.20.1

A few subcases of VLDR/VSTR sysreg succeed but do not perform a
memory access:
 * VSTR of VPR when unprivileged
 * VLDR to VPR when unprivileged
 * VLDR to FPCXT_NS when fpInactive

In these cases, even though we don't do the memory access we should
still update the base register and perform the stack limit check if
the insn's addressing mode specifies writeback.  Our implementation
failed to do this, because we handle these side-effects inside the
memory_to_fp_sysreg() and fp_sysreg_to_memory() callback functions,
which are only called if there's something to load or store.

Fix this by adding an extra argument to the callbacks which is set to
true to actually perform the access and false to only do side effects
like writeback, and calling the callback with do_access = false
for the three cases listed above.

This produces slightly suboptimal code for the case of a write
to FPCXT_NS when the FPU is inactive and the insn didn't have
side effects (ie no writeback, or via VMSR), in which case we'll
generate a conditional branch over an unconditional branch.
But this doesn't seem to be important enough to merit requiring
the callback to report back whether it generated any code or not.

Cc: qemu-stable@nongnu.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210618141019.10671-5-peter.maydell@linaro.org
---
 target/arm/translate-m-nocp.c | 102 ++++++++++++++++++++++++----------
 1 file changed, 72 insertions(+), 30 deletions(-)

diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-m-nocp.c
+++ b/target/arm/translate-m-nocp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
 
 /*
  * Emit code to store the sysreg to its final destination; frees the
- * TCG temp 'value' it is passed.
+ * TCG temp 'value' it is passed. do_access is true to do the store,
+ * and false to skip it and only perform side-effects like base
+ * register writeback.
  */
-typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value);
+typedef void fp_sysreg_storefn(DisasContext *s, void *opaque, TCGv_i32 value,
+                               bool do_access);
 /*
  * Emit code to load the value to be copied to the sysreg; returns
- * a new TCG temporary
+ * a new TCG temporary. do_access is true to do the store,
+ * and false to skip it and only perform side-effects like base
+ * register writeback.
  */
-typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque);
+typedef TCGv_i32 fp_sysreg_loadfn(DisasContext *s, void *opaque,
+                                  bool do_access);
 
 /* Common decode/access checks for fp sysreg read/write */
 typedef enum FPSysRegCheckResult {
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
 
     switch (regno) {
     case ARM_VFP_FPSCR:
-        tmp = loadfn(s, opaque);
+        tmp = loadfn(s, opaque, true);
         gen_helper_vfp_set_fpscr(cpu_env, tmp);
         tcg_temp_free_i32(tmp);
         gen_lookup_tb(s);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
     case ARM_VFP_FPSCR_NZCVQC:
     {
         TCGv_i32 fpscr;
-        tmp = loadfn(s, opaque);
+        tmp = loadfn(s, opaque, true);
         if (dc_isar_feature(aa32_mve, s)) {
             /* QC is only present for MVE; otherwise RES0 */
             TCGv_i32 qc = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
         break;
     }
     case ARM_VFP_FPCXT_NS:
+    {
+        TCGLabel *lab_active = gen_new_label();
+
         lab_end = gen_new_label();
-        /* fpInactive case: write is a NOP, so branch to end */
-        gen_branch_fpInactive(s, TCG_COND_NE, lab_end);
+        gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
+        /*
+         * fpInactive case: write is a NOP, so only do side effects
+         * like register writeback before we branch to end
+         */
+        loadfn(s, opaque, false);
+        tcg_gen_br(lab_end);
+
+        gen_set_label(lab_active);
         /*
          * !fpInactive: if FPU disabled, take NOCP exception;
          * otherwise PreserveFPState(), and then FPCXT_NS writes
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
             break;
         }
         gen_preserve_fp_state(s);
-        /* fall through */
+    }
+    /* fall through */
     case ARM_VFP_FPCXT_S:
     {
         TCGv_i32 sfpa, control;
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
          * Set FPSCR and CONTROL.SFPA from value; the new FPSCR takes
          * bits [27:0] from value and zeroes bits [31:28].
          */
-        tmp = loadfn(s, opaque);
+        tmp = loadfn(s, opaque, true);
         sfpa = tcg_temp_new_i32();
         tcg_gen_shri_i32(sfpa, tmp, 31);
         control = load_cpu_field(v7m.control[M_REG_S]);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
     case ARM_VFP_VPR:
         /* Behaves as NOP if not privileged */
         if (IS_USER(s)) {
+            loadfn(s, opaque, false);
             break;
         }
-        tmp = loadfn(s, opaque);
+        tmp = loadfn(s, opaque, true);
         store_cpu_field(tmp, v7m.vpr);
         break;
     case ARM_VFP_P0:
     {
         TCGv_i32 vpr;
-        tmp = loadfn(s, opaque);
+        tmp = loadfn(s, opaque, true);
         vpr = load_cpu_field(v7m.vpr);
         tcg_gen_deposit_i32(vpr, vpr, tmp,
                             R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
     case ARM_VFP_FPSCR:
         tmp = tcg_temp_new_i32();
         gen_helper_vfp_get_fpscr(tmp, cpu_env);
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         break;
     case ARM_VFP_FPSCR_NZCVQC:
         tmp = tcg_temp_new_i32();
         gen_helper_vfp_get_fpscr(tmp, cpu_env);
         tcg_gen_andi_i32(tmp, tmp, FPCR_NZCVQC_MASK);
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         break;
     case QEMU_VFP_FPSCR_NZCV:
         /*
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
          */
         tmp = load_cpu_field(vfp.xregs[ARM_VFP_FPSCR]);
         tcg_gen_andi_i32(tmp, tmp, FPCR_NZCV_MASK);
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         break;
     case ARM_VFP_FPCXT_S:
     {
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
          * Store result before updating FPSCR etc, in case
          * it is a memory write which causes an exception.
          */
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         /*
          * Now we must reset FPSCR from FPDSCR_NS, and clear
          * CONTROL.SFPA; so we'll end the TB here.
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
         gen_branch_fpInactive(s, TCG_COND_EQ, lab_active);
         /* fpInactive case: reads as FPDSCR_NS */
         TCGv_i32 tmp = load_cpu_field(v7m.fpdscr[M_REG_NS]);
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         lab_end = gen_new_label();
         tcg_gen_br(lab_end);
 
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
         tcg_gen_or_i32(tmp, tmp, sfpa);
         tcg_temp_free_i32(control);
         /* Store result before updating FPSCR, in case it faults */
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         /* If SFPA is zero then set FPSCR from FPDSCR_NS */
         fpdscr = load_cpu_field(v7m.fpdscr[M_REG_NS]);
         zero = tcg_const_i32(0);
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
     case ARM_VFP_VPR:
         /* Behaves as NOP if not privileged */
         if (IS_USER(s)) {
+            storefn(s, opaque, NULL, false);
             break;
         }
         tmp = load_cpu_field(v7m.vpr);
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         break;
     case ARM_VFP_P0:
         tmp = load_cpu_field(v7m.vpr);
         tcg_gen_extract_i32(tmp, tmp, R_V7M_VPR_P0_SHIFT, R_V7M_VPR_P0_LENGTH);
-        storefn(s, opaque, tmp);
+        storefn(s, opaque, tmp, true);
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
     return true;
 }
 
-static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
+static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value,
+                             bool do_access)
 {
     arg_VMSR_VMRS *a = opaque;
 
+    if (!do_access) {
+        return;
+    }
+
     if (a->rt == 15) {
         /* Set the 4 flag bits in the CPSR */
         gen_set_nzcv(value);
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_gpr(DisasContext *s, void *opaque, TCGv_i32 value)
     }
 }
 
-static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque)
+static TCGv_i32 gpr_to_fp_sysreg(DisasContext *s, void *opaque, bool do_access)
 {
     arg_VMSR_VMRS *a = opaque;
 
+    if (!do_access) {
+        return NULL;
+    }
     return load_reg(s, a->rt);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
     }
 }
 
-static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
+static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value,
+                                bool do_access)
 {
     arg_vldr_sysreg *a = opaque;
     uint32_t offset = a->imm;
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
         offset = -offset;
     }
 
+    if (!do_access && !a->w) {
+        return;
+    }
+
     addr = load_reg(s, a->rn);
     if (a->p) {
         tcg_gen_addi_i32(addr, addr, offset);
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
         gen_helper_v8m_stackcheck(cpu_env, addr);
     }
 
-    gen_aa32_st_i32(s, value, addr, get_mem_index(s),
-                    MO_UL | MO_ALIGN | s->be_data);
-    tcg_temp_free_i32(value);
+    if (do_access) {
+        gen_aa32_st_i32(s, value, addr, get_mem_index(s),
+                        MO_UL | MO_ALIGN | s->be_data);
+        tcg_temp_free_i32(value);
+    }
 
     if (a->w) {
         /* writeback */
@@ -XXX,XX +XXX,XX @@ static void fp_sysreg_to_memory(DisasContext *s, void *opaque, TCGv_i32 value)
     }
 }
 
-static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
+static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque,
+                                    bool do_access)
 {
     arg_vldr_sysreg *a = opaque;
     uint32_t offset = a->imm;
     TCGv_i32 addr;
-    TCGv_i32 value = tcg_temp_new_i32();
+    TCGv_i32 value = NULL;
 
     if (!a->a) {
         offset = -offset;
     }
 
+    if (!do_access && !a->w) {
+        return NULL;
+    }
+
     addr = load_reg(s, a->rn);
     if (a->p) {
         tcg_gen_addi_i32(addr, addr, offset);
@@ -XXX,XX +XXX,XX @@ static TCGv_i32 memory_to_fp_sysreg(DisasContext *s, void *opaque)
         gen_helper_v8m_stackcheck(cpu_env, addr);
     }
 
-    gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
-                    MO_UL | MO_ALIGN | s->be_data);
+    if (do_access) {
+        value = tcg_temp_new_i32();
+        gen_aa32_ld_i32(s, value, addr, get_mem_index(s),
+                        MO_UL | MO_ALIGN | s->be_data);
+    }
 
     if (a->w) {
         /* writeback */
-- 
2.20.1

Factor the code in full_vfp_access_check() which updates the
ownership of the FP context and creates a new FP context
out into its own function.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210618141019.10671-6-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c | 104 +++++++++++++++++++++----------------
 1 file changed, 58 insertions(+), 46 deletions(-)

diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ void gen_preserve_fp_state(DisasContext *s)
     }
 }
 
+/*
+ * Generate code for M-profile FP context handling: update the
+ * ownership of the FP context, and create a new context if
+ * necessary. This corresponds to the parts of the pseudocode
+ * ExecuteFPCheck() after the inital PreserveFPState() call.
+ */
+static void gen_update_fp_context(DisasContext *s)
+{
+    /* Update ownership of FP context: set FPCCR.S to match current state */
+    if (s->v8m_fpccr_s_wrong) {
+        TCGv_i32 tmp;
+
+        tmp = load_cpu_field(v7m.fpccr[M_REG_S]);
+        if (s->v8m_secure) {
+            tcg_gen_ori_i32(tmp, tmp, R_V7M_FPCCR_S_MASK);
+        } else {
+            tcg_gen_andi_i32(tmp, tmp, ~R_V7M_FPCCR_S_MASK);
+        }
+        store_cpu_field(tmp, v7m.fpccr[M_REG_S]);
+        /* Don't need to do this for any further FP insns in this TB */
+        s->v8m_fpccr_s_wrong = false;
+    }
+
+    if (s->v7m_new_fp_ctxt_needed) {
+        /*
+         * Create new FP context by updating CONTROL.FPCA, CONTROL.SFPA,
+         * the FPSCR, and VPR.
+         */
+        TCGv_i32 control, fpscr;
+        uint32_t bits = R_V7M_CONTROL_FPCA_MASK;
+
+        fpscr = load_cpu_field(v7m.fpdscr[s->v8m_secure]);
+        gen_helper_vfp_set_fpscr(cpu_env, fpscr);
+        tcg_temp_free_i32(fpscr);
+        if (dc_isar_feature(aa32_mve, s)) {
+            TCGv_i32 z32 = tcg_const_i32(0);
+            store_cpu_field(z32, v7m.vpr);
+        }
+
+        /*
+         * We don't need to arrange to end the TB, because the only
+         * parts of FPSCR which we cache in the TB flags are the VECLEN
+         * and VECSTRIDE, and those don't exist for M-profile.
+         */
+
+        if (s->v8m_secure) {
+            bits |= R_V7M_CONTROL_SFPA_MASK;
+        }
+        control = load_cpu_field(v7m.control[M_REG_S]);
+        tcg_gen_ori_i32(control, control, bits);
+        store_cpu_field(control, v7m.control[M_REG_S]);
+        /* Don't need to do this for any further FP insns in this TB */
+        s->v7m_new_fp_ctxt_needed = false;
+    }
+}
+
 /*
  * Check that VFP access is enabled. If it is, do the necessary
  * M-profile lazy-FP handling and then return true.
@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
         /* Trigger lazy-state preservation if necessary */
         gen_preserve_fp_state(s);
 
-        /* Update ownership of FP context: set FPCCR.S to match current state */
-        if (s->v8m_fpccr_s_wrong) {
-            TCGv_i32 tmp;
-
-            tmp = load_cpu_field(v7m.fpccr[M_REG_S]);
-            if (s->v8m_secure) {
-                tcg_gen_ori_i32(tmp, tmp, R_V7M_FPCCR_S_MASK);
-            } else {
-                tcg_gen_andi_i32(tmp, tmp, ~R_V7M_FPCCR_S_MASK);
-            }
-            store_cpu_field(tmp, v7m.fpccr[M_REG_S]);
-            /* Don't need to do this for any further FP insns in this TB */
-            s->v8m_fpccr_s_wrong = false;
-        }
-
-        if (s->v7m_new_fp_ctxt_needed) {
-            /*
-             * Create new FP context by updating CONTROL.FPCA, CONTROL.SFPA,
-             * the FPSCR, and VPR.
-             */
-            TCGv_i32 control, fpscr;
-            uint32_t bits = R_V7M_CONTROL_FPCA_MASK;
-
-            fpscr = load_cpu_field(v7m.fpdscr[s->v8m_secure]);
-            gen_helper_vfp_set_fpscr(cpu_env, fpscr);
-            tcg_temp_free_i32(fpscr);
-            if (dc_isar_feature(aa32_mve, s)) {
-                TCGv_i32 z32 = tcg_const_i32(0);
-                store_cpu_field(z32, v7m.vpr);
-            }
-
-            /*
-             * We don't need to arrange to end the TB, because the only
-             * parts of FPSCR which we cache in the TB flags are the VECLEN
-             * and VECSTRIDE, and those don't exist for M-profile.
-             */
-
-            if (s->v8m_secure) {
-                bits |= R_V7M_CONTROL_SFPA_MASK;
-            }
-            control = load_cpu_field(v7m.control[M_REG_S]);
-            tcg_gen_ori_i32(control, control, bits);
-            store_cpu_field(control, v7m.control[M_REG_S]);
-            /* Don't need to do this for any further FP insns in this TB */
-            s->v7m_new_fp_ctxt_needed = false;
-        }
+        /* Update ownership of FP context and create new FP context if needed */
+        gen_update_fp_context(s);
     }
 
     return true;
-- 
2.20.1

vfp_access_check and its helper routine full_vfp_access_check() has
gradually grown and is now an awkward mix of A-profile only and
M-profile only pieces.  Refactor it into an A-profile only and an
M-profile only version, taking advantage of the fact that now the
only direct call to full_vfp_access_check() is in A-profile-only
code.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210618141019.10671-7-peter.maydell@linaro.org
---
 target/arm/translate-vfp.c | 79 +++++++++++++++++++++++---------------
 1 file changed, 48 insertions(+), 31 deletions(-)

diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_update_fp_context(DisasContext *s)
 }
 
 /*
- * Check that VFP access is enabled. If it is, do the necessary
- * M-profile lazy-FP handling and then return true.
- * If not, emit code to generate an appropriate exception and
- * return false.
+ * Check that VFP access is enabled, A-profile specific version.
+ *
+ * If VFP is enabled, return true. If not, emit code to generate an
+ * appropriate exception and return false.
  * The ignore_vfp_enabled argument specifies that we should ignore
- * whether VFP is enabled via FPEXC[EN]: this should be true for FMXR/FMRX
+ * whether VFP is enabled via FPEXC.EN: this should be true for FMXR/FMRX
  * accesses to FPSID, FPEXC, MVFR0, MVFR1, MVFR2, and false for all other insns.
  */
-static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
+static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
 {
     if (s->fp_excp_el) {
-        if (arm_dc_feature(s, ARM_FEATURE_M)) {
-            /*
-             * M-profile mostly catches the "FPU disabled" case early, in
-             * disas_m_nocp(), but a few insns (eg LCTP, WLSTP, DLSTP)
-             * which do coprocessor-checks are outside the large ranges of
-             * the encoding space handled by the patterns in m-nocp.decode,
-             * and for them we may need to raise NOCP here.
-             */
-            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                               syn_uncategorized(), s->fp_excp_el);
-        } else {
-            gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                               syn_fp_access_trap(1, 0xe, false),
-                               s->fp_excp_el);
-        }
+        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
         return false;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
         unallocated_encoding(s);
         return false;
     }
+    return true;
+}
 
-    if (arm_dc_feature(s, ARM_FEATURE_M)) {
-        /* Handle M-profile lazy FP state mechanics */
-
-        /* Trigger lazy-state preservation if necessary */
-        gen_preserve_fp_state(s);
-
-        /* Update ownership of FP context and create new FP context if needed */
-        gen_update_fp_context(s);
+/*
+ * Check that VFP access is enabled, M-profile specific version.
+ *
+ * If VFP is enabled, do the necessary M-profile lazy-FP handling and then
+ * return true. If not, emit code to generate an appropriate exception and
+ * return false.
+ */
+static bool vfp_access_check_m(DisasContext *s)
+{
+    if (s->fp_excp_el) {
+        /*
+         * M-profile mostly catches the "FPU disabled" case early, in
+         * disas_m_nocp(), but a few insns (eg LCTP, WLSTP, DLSTP)
+         * which do coprocessor-checks are outside the large ranges of
+         * the encoding space handled by the patterns in m-nocp.decode,
+         * and for them we may need to raise NOCP here.
+         */
+        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+                           syn_uncategorized(), s->fp_excp_el);
+        return false;
     }
 
+    /* Handle M-profile lazy FP state mechanics */
+
+    /* Trigger lazy-state preservation if necessary */
+    gen_preserve_fp_state(s);
+
+    /* Update ownership of FP context and create new FP context if needed */
+    gen_update_fp_context(s);
+
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool full_vfp_access_check(DisasContext *s, bool ignore_vfp_enabled)
  */
 bool vfp_access_check(DisasContext *s)
 {
-    return full_vfp_access_check(s, false);
+    if (arm_dc_feature(s, ARM_FEATURE_M)) {
+        return vfp_access_check_m(s);
+    } else {
+        return vfp_access_check_a(s, false);
+    }
 }
 
 static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMSR_VMRS(DisasContext *s, arg_VMSR_VMRS *a)
         return false;
     }
 
-    if (!full_vfp_access_check(s, ignore_vfp_enabled)) {
+    /*
+     * Call vfp_access_check_a() directly, because we need to tell
+     * it to ignore FPEXC.EN for some register accesses.
+     */
+    if (!vfp_access_check_a(s, ignore_vfp_enabled)) {
         return true;
     }
 
-- 
2.20.1

Instead of open-coding the "take NOCP exception if FPU disabled,
otherwise call gen_preserve_fp_state()" code in the accessors for
FPCXT_NS, add an argument to vfp_access_check_m() which tells it to
skip the gen_update_fp_context() call, so we can use it for the
FPCXT_NS case.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210618141019.10671-8-peter.maydell@linaro.org
---
 target/arm/translate-a32.h    |  2 +-
 target/arm/translate-m-nocp.c | 10 ++--------
 target/arm/translate-vfp.c    | 13 ++++++++-----
 3 files changed, 11 insertions(+), 14 deletions(-)

Implement the forms of the MVE VLDR and VSTR insns which perform
non-widening loads of bytes, halfwords or words from memory into
vector elements of the same width (encodings T5, T6, T7).

(At the moment we know for MVE and M-profile in general that
vfp_access_check() can never return false, but we include the
conventional return-true-on-failure check for consistency
with non-M-profile translation code.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-2-peter.maydell@linaro.org
---
 target/arm/{translate-mve.c => helper-mve.h} |  19 +-
 target/arm/helper.h                          |   2 +
 target/arm/internals.h                       |  11 ++
 target/arm/mve.decode                        |  22 +++
 target/arm/mve_helper.c                      | 172 +++++++++++++++++++
 target/arm/translate-mve.c                   | 119 +++++++++++++
 target/arm/meson.build                       |   1 +
 7 files changed, 334 insertions(+), 12 deletions(-)
 copy target/arm/{translate-mve.c => helper-mve.h} (61%)
 create mode 100644 target/arm/mve_helper.c

diff --git a/target/arm/translate-mve.c b/target/arm/helper-mve.h
similarity index 61%
copy from target/arm/translate-mve.c
copy to target/arm/helper-mve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@
 /*
- *  ARM translation: M-profile MVE instructions
+ *  M-profile MVE specific helper definitions
  *
  *  Copyright (c) 2021 Linaro, Ltd.
  *
@@ -XXX,XX +XXX,XX @@
  * You should have received a copy of the GNU Lesser General Public
  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  */
-
-#include "qemu/osdep.h"
-#include "tcg/tcg-op.h"
-#include "tcg/tcg-op-gvec.h"
-#include "exec/exec-all.h"
-#include "exec/gen-icount.h"
-#include "translate.h"
-#include "translate-a32.h"
-
-/* Include the generated decoder */
-#include "decode-mve.c.inc"
+DEF_HELPER_FLAGS_3(mve_vldrb, TCG_CALL_NO_WG, void, env, ptr, i32)
+DEF_HELPER_FLAGS_3(mve_vldrh, TCG_CALL_NO_WG, void, env, ptr, i32)
+DEF_HELPER_FLAGS_3(mve_vldrw, TCG_CALL_NO_WG, void, env, ptr, i32)
+DEF_HELPER_FLAGS_3(mve_vstrb, TCG_CALL_NO_WG, void, env, ptr, i32)
+DEF_HELPER_FLAGS_3(mve_vstrh, TCG_CALL_NO_WG, void, env, ptr, i32)
+DEF_HELPER_FLAGS_3(mve_vstrw, TCG_CALL_NO_WG, void, env, ptr, i32)
diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_bfmlal_idx, TCG_CALL_NO_RWG,
 #include "helper-a64.h"
 #include "helper-sve.h"
 #endif
+
+#include "helper-mve.h"
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint64_t useronly_maybe_clean_ptr(uint32_t desc, uint64_t ptr)
     return ptr;
 }
 
+/* Values for M-profile PSR.ECI for MVE insns */
+enum MVEECIState {
+    ECI_NONE = 0, /* No completed beats */
+    ECI_A0 = 1, /* Completed: A0 */
+    ECI_A0A1 = 2, /* Completed: A0, A1 */
+    /* 3 is reserved */
+    ECI_A0A1A2 = 4, /* Completed: A0, A1, A2 */
+    ECI_A0A1A2B0 = 5, /* Completed: A0, A1, A2, B0 */
+    /* All other values reserved */
+};
+
 #endif
diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
 #
 # This file is processed by scripts/decodetree.py
 #
+
+%qd 22:1 13:3
+
+&vldr_vstr rn qd imm p a w size l
+
+@vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd
+
+# Vector loads and stores
+
+# Non-widening loads/stores (P=0 W=0 is 'related encoding')
+VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111100 .......   @vldr_vstr \
+                 size=0 p=0 w=1
+VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111101 .......   @vldr_vstr \
+                 size=1 p=0 w=1
+VLDR_VSTR        1110110 0 a:1 . 1   . .... ... 111110 .......   @vldr_vstr \
+                 size=2 p=0 w=1
+VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111100 .......   @vldr_vstr \
+                 size=0 p=1
+VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111101 .......   @vldr_vstr \
+                 size=1 p=1
+VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
+                 size=2 p=1
diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * M-profile MVE Operations
+ *
+ * Copyright (c) 2021 Linaro, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "cpu.h"
+#include "internals.h"
+#include "vec_internal.h"
+#include "exec/helper-proto.h"
+#include "exec/cpu_ldst.h"
+#include "exec/exec-all.h"
+
+static uint16_t mve_element_mask(CPUARMState *env)
+{
+    /*
+     * Return the mask of which elements in the MVE vector should be
+     * updated. This is a combination of multiple things:
+     *  (1) by default, we update every lane in the vector
+     *  (2) VPT predication stores its state in the VPR register;
+     *  (3) low-overhead-branch tail predication will mask out part
+     *      the vector on the final iteration of the loop
+     *  (4) if EPSR.ECI is set then we must execute only some beats
+     *      of the insn
+     * We combine all these into a 16-bit result with the same semantics
+     * as VPR.P0: 0 to mask the lane, 1 if it is active.
+     * 8-bit vector ops will look at all bits of the result;
+     * 16-bit ops will look at bits 0, 2, 4, ...;
+     * 32-bit ops will look at bits 0, 4, 8 and 12.
+     * Compare pseudocode GetCurInstrBeat(), though that only returns
+     * the 4-bit slice of the mask corresponding to a single beat.
+     */
+    uint16_t mask = FIELD_EX32(env->v7m.vpr, V7M_VPR, P0);
+
+    if (!(env->v7m.vpr & R_V7M_VPR_MASK01_MASK)) {
+        mask |= 0xff;
+    }
+    if (!(env->v7m.vpr & R_V7M_VPR_MASK23_MASK)) {
+        mask |= 0xff00;
+    }
+
+    if (env->v7m.ltpsize < 4 &&
+        env->regs[14] <= (1 << (4 - env->v7m.ltpsize))) {
+        /*
+         * Tail predication active, and this is the last loop iteration.
+         * The element size is (1 << ltpsize), and we only want to process
+         * loopcount elements, so we want to retain the least significant
+         * (loopcount * esize) predicate bits and zero out bits above that.
+         */
+        int masklen = env->regs[14] << env->v7m.ltpsize;
+        assert(masklen <= 16);
+        mask &= MAKE_64BIT_MASK(0, masklen);
+    }
+
+    if ((env->condexec_bits & 0xf) == 0) {
+        /*
+         * ECI bits indicate which beats are already executed;
+         * we handle this by effectively predicating them out.
+         */
+        int eci = env->condexec_bits >> 4;
+        switch (eci) {
+        case ECI_NONE:
+            break;
+        case ECI_A0:
+            mask &= 0xfff0;
+            break;
+        case ECI_A0A1:
+            mask &= 0xff00;
+            break;
+        case ECI_A0A1A2:
+        case ECI_A0A1A2B0:
+            mask &= 0xf000;
+            break;
+        default:
+            g_assert_not_reached();
+        }
+    }
+
+    return mask;
+}
+
+static void mve_advance_vpt(CPUARMState *env)
+{
+    /* Advance the VPT and ECI state if necessary */
+    uint32_t vpr = env->v7m.vpr;
+    unsigned mask01, mask23;
+
+    if ((env->condexec_bits & 0xf) == 0) {
+        env->condexec_bits = (env->condexec_bits == (ECI_A0A1A2B0 << 4)) ?
+            (ECI_A0 << 4) : (ECI_NONE << 4);
+    }
+
+    if (!(vpr & (R_V7M_VPR_MASK01_MASK | R_V7M_VPR_MASK23_MASK))) {
+        /* VPT not enabled, nothing to do */
+        return;
+    }
+
+    mask01 = FIELD_EX32(vpr, V7M_VPR, MASK01);
+    mask23 = FIELD_EX32(vpr, V7M_VPR, MASK23);
+    if (mask01 > 8) {
+        /* high bit set, but not 0b1000: invert the relevant half of P0 */
+        vpr ^= 0xff;
+    }
+    if (mask23 > 8) {
+        /* high bit set, but not 0b1000: invert the relevant half of P0 */
+        vpr ^= 0xff00;
+    }
+    vpr = FIELD_DP32(vpr, V7M_VPR, MASK01, mask01 << 1);
+    vpr = FIELD_DP32(vpr, V7M_VPR, MASK23, mask23 << 1);
+    env->v7m.vpr = vpr;
+}
+
+
+#define DO_VLDR(OP, MSIZE, LDTYPE, ESIZE, TYPE)                         \
+    void HELPER(mve_##OP)(CPUARMState *env, void *vd, uint32_t addr)    \
+    {                                                                   \
+        TYPE *d = vd;                                                   \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned b, e;                                                  \
+        /*                                                              \
+         * R_SXTM allows the dest reg to become UNKNOWN for abandoned   \
+         * beats so we don't care if we update part of the dest and     \
+         * then take an exception.                                      \
+         */                                                             \
+        for (b = 0, e = 0; b < 16; b += ESIZE, e++) {                   \
+            if (mask & (1 << b)) {                                      \
+                d[H##ESIZE(e)] = cpu_##LDTYPE##_data_ra(env, addr, GETPC()); \
+            }                                                           \
+            addr += MSIZE;                                              \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+    }
+
+#define DO_VSTR(OP, MSIZE, STTYPE, ESIZE, TYPE)                         \
+    void HELPER(mve_##OP)(CPUARMState *env, void *vd, uint32_t addr)    \
+    {                                                                   \
+        TYPE *d = vd;                                                   \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned b, e;                                                  \
+        for (b = 0, e = 0; b < 16; b += ESIZE, e++) {                   \
+            if (mask & (1 << b)) {                                      \
+                cpu_##STTYPE##_data_ra(env, addr, d[H##ESIZE(e)], GETPC()); \
+            }                                                           \
+            addr += MSIZE;                                              \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+    }
+
+DO_VLDR(vldrb, 1, ldub, 1, uint8_t)
+DO_VLDR(vldrh, 2, lduw, 2, uint16_t)
+DO_VLDR(vldrw, 4, ldl, 4, uint32_t)
+
+DO_VSTR(vstrb, 1, stb, 1, uint8_t)
+DO_VSTR(vstrh, 2, stw, 2, uint16_t)
+DO_VSTR(vstrw, 4, stl, 4, uint32_t)
+
+#undef DO_VLDR
+#undef DO_VSTR
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
 
 /* Include the generated decoder */
 #include "decode-mve.c.inc"
+
+typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
+
+/* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
+static inline long mve_qreg_offset(unsigned reg)
+{
+    return offsetof(CPUARMState, vfp.zregs[reg].d[0]);
+}
+
+static TCGv_ptr mve_qreg_ptr(unsigned reg)
+{
+    TCGv_ptr ret = tcg_temp_new_ptr();
+    tcg_gen_addi_ptr(ret, cpu_env, mve_qreg_offset(reg));
+    return ret;
+}
+
+static bool mve_check_qreg_bank(DisasContext *s, int qmask)
+{
+    /*
+     * Check whether Qregs are in range. For v8.1M only Q0..Q7
+     * are supported, see VFPSmallRegisterBank().
+     */
+    return qmask < 8;
+}
+
+static bool mve_eci_check(DisasContext *s)
+{
+    /*
+     * This is a beatwise insn: check that ECI is valid (not a
+     * reserved value) and note that we are handling it.
+     * Return true if OK, false if we generated an exception.
+     */
+    s->eci_handled = true;
+    switch (s->eci) {
+    case ECI_NONE:
+    case ECI_A0:
+    case ECI_A0A1:
+    case ECI_A0A1A2:
+    case ECI_A0A1A2B0:
+        return true;
+    default:
+        /* Reserved value: INVSTATE UsageFault */
+        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+                           default_exception_el(s));
+        return false;
+    }
+}
+
+static void mve_update_eci(DisasContext *s)
+{
+    /*
+     * The helper function will always update the CPUState field,
+     * so we only need to update the DisasContext field.
+     */
+    if (s->eci) {
+        s->eci = (s->eci == ECI_A0A1A2B0) ? ECI_A0 : ECI_NONE;
+    }
+}
+
+static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
+{
+    TCGv_i32 addr;
+    uint32_t offset;
+    TCGv_ptr qreg;
+
+    if (!dc_isar_feature(aa32_mve, s) ||
+        !mve_check_qreg_bank(s, a->qd) ||
+        !fn) {
+        return false;
+    }
+
+    /* CONSTRAINED UNPREDICTABLE: we choose to UNDEF */
+    if (a->rn == 15 || (a->rn == 13 && a->w)) {
+        return false;
+    }
+
+    if (!mve_eci_check(s) || !vfp_access_check(s)) {
+        return true;
+    }
+
+    offset = a->imm << a->size;
+    if (!a->a) {
+        offset = -offset;
+    }
+    addr = load_reg(s, a->rn);
+    if (a->p) {
+        tcg_gen_addi_i32(addr, addr, offset);
+    }
+
+    qreg = mve_qreg_ptr(a->qd);
+    fn(cpu_env, qreg, addr);
+    tcg_temp_free_ptr(qreg);
+
+    /*
+     * Writeback always happens after the last beat of the insn,
+     * regardless of predication
+     */
+    if (a->w) {
+        if (!a->p) {
+            tcg_gen_addi_i32(addr, addr, offset);
+        }
+        store_reg(s, a->rn, addr);
+    } else {
+        tcg_temp_free_i32(addr);
+    }
+    mve_update_eci(s);
+    return true;
+}
+
+static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
+{
+    static MVEGenLdStFn * const ldstfns[4][2] = {
+        { gen_helper_mve_vstrb, gen_helper_mve_vldrb },
+        { gen_helper_mve_vstrh, gen_helper_mve_vldrh },
+        { gen_helper_mve_vstrw, gen_helper_mve_vldrw },
+        { NULL, NULL }
+    };
+    return do_ldst(s, a, ldstfns[a->size][a->l]);
+}
diff --git a/target/arm/meson.build b/target/arm/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/meson.build
+++ b/target/arm/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
   'helper.c',
   'iwmmxt_helper.c',
   'm_helper.c',
+  'mve_helper.c',
   'neon_helper.c',
   'op_helper.c',
   'tlb_helper.c',
-- 
2.20.1

Implement the variants of MVE VLDR (encodings T1, T2) which perform
"widening" loads where bytes or halfwords are loaded from memory and
zero or sign-extended into halfword or word length vector elements,
and the narrowing MVE VSTR (encodings T1, T2) where bytes or
halfwords are stored from halfword or word elements.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-3-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 10 ++++++++++
 target/arm/mve.decode      | 25 +++++++++++++++++++++++--
 target/arm/mve_helper.c    | 11 +++++++++++
 target/arm/translate-mve.c | 14 ++++++++++++++
 4 files changed, 58 insertions(+), 2 deletions(-)

Implement the MVE VCLZ insn (and the necessary machinery
for MVE 1-input vector ops).

Note that for non-load instructions predication is always performed
at a byte level granularity regardless of element size (R_ZLSJ),
and so the masking logic here differs from that used in the VLDR
and VSTR helpers.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-4-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  4 ++
 target/arm/mve.decode      |  8 ++++
 target/arm/mve_helper.c    | 82 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c | 38 ++++++++++++++++++
 4 files changed, 132 insertions(+)

diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-mve.h
+++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vldrh_uw, TCG_CALL_NO_WG, void, env, ptr, i32)
 DEF_HELPER_FLAGS_3(mve_vstrb_h, TCG_CALL_NO_WG, void, env, ptr, i32)
 DEF_HELPER_FLAGS_3(mve_vstrb_w, TCG_CALL_NO_WG, void, env, ptr, i32)
 DEF_HELPER_FLAGS_3(mve_vstrh_w, TCG_CALL_NO_WG, void, env, ptr, i32)
+
+DEF_HELPER_FLAGS_3(mve_vclzb, TCG_CALL_NO_WG, void, env, ptr, ptr)
+DEF_HELPER_FLAGS_3(mve_vclzh, TCG_CALL_NO_WG, void, env, ptr, ptr)
+DEF_HELPER_FLAGS_3(mve_vclzw, TCG_CALL_NO_WG, void, env, ptr, ptr)
diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
 #
 
 %qd 22:1 13:3
+%qm 5:1 1:3
 
 &vldr_vstr rn qd imm p a w size l u
+&1op qd qm size
 
 @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
 # Note that both Rn and Qd are 3 bits only (no D bit)
 @vldst_wn ... u:1 ... . . . . l:1 . rn:3 qd:3 . ... .. imm:7 &vldr_vstr
 
+@1op .... .... .... size:2 .. .... .... .... .... &1op qd=%qd qm=%qm
+
 # Vector loads and stores
 
 # Widening loads and narrowing stores:
@@ -XXX,XX +XXX,XX @@ VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111101 .......   @vldr_vstr \
                  size=1 p=1
 VLDR_VSTR        1110110 1 a:1 . w:1 . .... ... 111110 .......   @vldr_vstr \
                  size=2 p=1
+
+# Vector miscellaneous
+
+VCLZ             1111 1111 1 . 11 .. 00 ... 0 0100 11 . 0 ... 0 @1op
diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve_helper.c
+++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VSTR(vstrh_w, 2, stw, 4, int32_t)
 
 #undef DO_VLDR
 #undef DO_VSTR
+
+/*
+ * The mergemask(D, R, M) macro performs the operation "*D = R" but
+ * storing only the bytes which correspond to 1 bits in M,
+ * leaving other bytes in *D unchanged. We use _Generic
+ * to select the correct implementation based on the type of D.
+ */
+
+static void mergemask_ub(uint8_t *d, uint8_t r, uint16_t mask)
+{
+    if (mask & 1) {
+        *d = r;
+    }
+}
+
+static void mergemask_sb(int8_t *d, int8_t r, uint16_t mask)
+{
+    mergemask_ub((uint8_t *)d, r, mask);
+}
+
+static void mergemask_uh(uint16_t *d, uint16_t r, uint16_t mask)
+{
+    uint16_t bmask = expand_pred_b_data[mask & 3];
+    *d = (*d & ~bmask) | (r & bmask);
+}
+
+static void mergemask_sh(int16_t *d, int16_t r, uint16_t mask)
+{
+    mergemask_uh((uint16_t *)d, r, mask);
+}
+
+static void mergemask_uw(uint32_t *d, uint32_t r, uint16_t mask)
+{
+    uint32_t bmask = expand_pred_b_data[mask & 0xf];
+    *d = (*d & ~bmask) | (r & bmask);
+}
+
+static void mergemask_sw(int32_t *d, int32_t r, uint16_t mask)
+{
+    mergemask_uw((uint32_t *)d, r, mask);
+}
+
+static void mergemask_uq(uint64_t *d, uint64_t r, uint16_t mask)
+{
+    uint64_t bmask = expand_pred_b_data[mask & 0xff];
+    *d = (*d & ~bmask) | (r & bmask);
+}
+
+static void mergemask_sq(int64_t *d, int64_t r, uint16_t mask)
+{
+    mergemask_uq((uint64_t *)d, r, mask);
+}
+
+#define mergemask(D, R, M)                      \
+    _Generic(D,                                 \
+             uint8_t *: mergemask_ub,           \
+             int8_t *:  mergemask_sb,           \
+             uint16_t *: mergemask_uh,          \
+             int16_t *:  mergemask_sh,          \
+             uint32_t *: mergemask_uw,          \
+             int32_t *:  mergemask_sw,          \
+             uint64_t *: mergemask_uq,          \
+             int64_t *:  mergemask_sq)(D, R, M)
+
+#define DO_1OP(OP, ESIZE, TYPE, FN)                                     \
+    void HELPER(mve_##OP)(CPUARMState *env, void *vd, void *vm)         \
+    {                                                                   \
+        TYPE *d = vd, *m = vm;                                          \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned e;                                                     \
+        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
+            mergemask(&d[H##ESIZE(e)], FN(m[H##ESIZE(e)]), mask);       \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+    }
+
+#define DO_CLZ_B(N)   (clz32(N) - 24)
+#define DO_CLZ_H(N)   (clz32(N) - 16)
+
+DO_1OP(vclzb, 1, uint8_t, DO_CLZ_B)
+DO_1OP(vclzh, 2, uint16_t, DO_CLZ_H)
+DO_1OP(vclzw, 4, uint32_t, clz32)
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
 #include "decode-mve.c.inc"
 
 typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
+typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
 
 /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
 static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
 DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
 DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
 DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
+
+static bool do_1op(DisasContext *s, arg_1op *a, MVEGenOneOpFn fn)
+{
+    TCGv_ptr qd, qm;
+
+    if (!dc_isar_feature(aa32_mve, s) ||
+        !mve_check_qreg_bank(s, a->qd | a->qm) ||
+        !fn) {
+        return false;
+    }
+
+    if (!mve_eci_check(s) || !vfp_access_check(s)) {
+        return true;
+    }
+
+    qd = mve_qreg_ptr(a->qd);
+    qm = mve_qreg_ptr(a->qm);
+    fn(cpu_env, qd, qm);
+    tcg_temp_free_ptr(qd);
+    tcg_temp_free_ptr(qm);
+    mve_update_eci(s);
+    return true;
+}
+
+#define DO_1OP(INSN, FN)                                        \
+    static bool trans_##INSN(DisasContext *s, arg_1op *a)       \
+    {                                                           \
+        static MVEGenOneOpFn * const fns[] = {                  \
+            gen_helper_mve_##FN##b,                             \
+            gen_helper_mve_##FN##h,                             \
+            gen_helper_mve_##FN##w,                             \
+            NULL,                                               \
+        };                                                      \
+        return do_1op(s, a, fns[a->size]);                      \
+    }
+
+DO_1OP(VCLZ, vclz)
-- 
2.20.1

Implement the MVE VCLS insn.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-5-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 4 ++++
 target/arm/mve.decode      | 1 +
 target/arm/mve_helper.c    | 7 +++++++
 target/arm/translate-mve.c | 1 +
 4 files changed, 13 insertions(+)

Implement the MVE instructions VREV16, VREV32 and VREV64.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-6-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  7 +++++++
 target/arm/mve.decode      |  4 ++++
 target/arm/mve_helper.c    |  7 +++++++
 target/arm/translate-mve.c | 33 +++++++++++++++++++++++++++++++++
 4 files changed, 51 insertions(+)

Implement the MVE VMVN(register) operation.  Note that for
predication this operation is byte-by-byte.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-7-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 2 ++
 target/arm/mve.decode      | 3 +++
 target/arm/mve_helper.c    | 4 ++++
 target/arm/translate-mve.c | 5 +++++
 4 files changed, 14 insertions(+)

Implement the MVE VABS functions (both integer and floating point).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-8-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  6 ++++++
 target/arm/mve.decode      |  3 +++
 target/arm/mve_helper.c    | 13 +++++++++++++
 target/arm/translate-mve.c | 15 +++++++++++++++
 4 files changed, 37 insertions(+)

Implement the MVE VNEG insn (both integer and floating point forms).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-9-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  6 ++++++
 target/arm/mve.decode      |  2 ++
 target/arm/mve_helper.c    | 12 ++++++++++++
 target/arm/translate-mve.c | 15 +++++++++++++++
 4 files changed, 35 insertions(+)

The Arm MVE VDUP implementation would like to be able to emit code to
duplicate a byte or halfword value into an i32.  We have code to do
this already in tcg-op-gvec.c, so all we need to do is make the
functions global.

For consistency with other functions made available to the frontends:
 * we rename to tcg_gen_dup_*
 * we expose both the _i32 and _i64 forms
 * we provide the #define for a _tl form

Suggested-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20210617121628.20116-10-peter.maydell@linaro.org
---
 include/tcg/tcg-op.h |  8 ++++++++
 include/tcg/tcg.h    |  1 -
 tcg/tcg-op-gvec.c    | 20 ++++++++++----------
 3 files changed, 18 insertions(+), 11 deletions(-)

diff --git a/include/tcg/tcg-op.h b/include/tcg/tcg-op.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-op.h
+++ b/include/tcg/tcg-op.h
@@ -XXX,XX +XXX,XX @@ void tcg_gen_umin_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
 void tcg_gen_umax_i32(TCGv_i32, TCGv_i32 arg1, TCGv_i32 arg2);
 void tcg_gen_abs_i32(TCGv_i32, TCGv_i32);
 
+/* Replicate a value of size @vece from @in to all the lanes in @out */
+void tcg_gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in);
+
 static inline void tcg_gen_discard_i32(TCGv_i32 arg)
 {
     tcg_gen_op1_i32(INDEX_op_discard, arg);
@@ -XXX,XX +XXX,XX @@ void tcg_gen_umin_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
 void tcg_gen_umax_i64(TCGv_i64, TCGv_i64 arg1, TCGv_i64 arg2);
 void tcg_gen_abs_i64(TCGv_i64, TCGv_i64);
 
+/* Replicate a value of size @vece from @in to all the lanes in @out */
+void tcg_gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in);
+
 #if TCG_TARGET_REG_BITS == 64
 static inline void tcg_gen_discard_i64(TCGv_i64 arg)
 {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
 #define tcg_gen_atomic_smax_fetch_tl tcg_gen_atomic_smax_fetch_i64
 #define tcg_gen_atomic_umax_fetch_tl tcg_gen_atomic_umax_fetch_i64
 #define tcg_gen_dup_tl_vec  tcg_gen_dup_i64_vec
+#define tcg_gen_dup_tl tcg_gen_dup_i64
 #else
 #define tcg_gen_movi_tl tcg_gen_movi_i32
 #define tcg_gen_mov_tl tcg_gen_mov_i32
@@ -XXX,XX +XXX,XX @@ void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
 #define tcg_gen_atomic_smax_fetch_tl tcg_gen_atomic_smax_fetch_i32
 #define tcg_gen_atomic_umax_fetch_tl tcg_gen_atomic_umax_fetch_i32
 #define tcg_gen_dup_tl_vec  tcg_gen_dup_i32_vec
+#define tcg_gen_dup_tl tcg_gen_dup_i32
 #endif
 
 #if UINTPTR_MAX == UINT32_MAX
diff --git a/include/tcg/tcg.h b/include/tcg/tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg.h
+++ b/include/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ uint64_t dup_const(unsigned vece, uint64_t c);
         : (qemu_build_not_reached_always(), 0))                    \
      : dup_const(VECE, C))
 
-
 /*
  * Memory helpers that will be used by TCG generated code.
  */
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -XXX,XX +XXX,XX @@ uint64_t (dup_const)(unsigned vece, uint64_t c)
 }
 
 /* Duplicate IN into OUT as per VECE.  */
-static void gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
+void tcg_gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
 {
     switch (vece) {
     case MO_8:
@@ -XXX,XX +XXX,XX @@ static void gen_dup_i32(unsigned vece, TCGv_i32 out, TCGv_i32 in)
     }
 }
 
-static void gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in)
+void tcg_gen_dup_i64(unsigned vece, TCGv_i64 out, TCGv_i64 in)
 {
     switch (vece) {
     case MO_8:
@@ -XXX,XX +XXX,XX @@ static void do_dup(unsigned vece, uint32_t dofs, uint32_t oprsz,
                 && (vece != MO_32 || !check_size_impl(oprsz, 4))) {
                 t_64 = tcg_temp_new_i64();
                 tcg_gen_extu_i32_i64(t_64, in_32);
-                gen_dup_i64(vece, t_64, t_64);
+                tcg_gen_dup_i64(vece, t_64, t_64);
             } else {
                 t_32 = tcg_temp_new_i32();
-                gen_dup_i32(vece, t_32, in_32);
+                tcg_gen_dup_i32(vece, t_32, in_32);
             }
         } else if (in_64) {
             /* We are given a 64-bit variable input.  */
             t_64 = tcg_temp_new_i64();
-            gen_dup_i64(vece, t_64, in_64);
+            tcg_gen_dup_i64(vece, t_64, in_64);
         } else {
             /* We are given a constant input.  */
             /* For 64-bit hosts, use 64-bit constants for "simple" constants
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_2s(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
     } else if (g->fni8 && check_size_impl(oprsz, 8)) {
         TCGv_i64 t64 = tcg_temp_new_i64();
 
-        gen_dup_i64(g->vece, t64, c);
+        tcg_gen_dup_i64(g->vece, t64, c);
         expand_2s_i64(dofs, aofs, oprsz, t64, g->scalar_first, g->fni8);
         tcg_temp_free_i64(t64);
     } else if (g->fni4 && check_size_impl(oprsz, 4)) {
         TCGv_i32 t32 = tcg_temp_new_i32();
 
         tcg_gen_extrl_i64_i32(t32, c);
-        gen_dup_i32(g->vece, t32, t32);
+        tcg_gen_dup_i32(g->vece, t32, t32);
         expand_2s_i32(dofs, aofs, oprsz, t32, g->scalar_first, g->fni4);
         tcg_temp_free_i32(t32);
     } else {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_ands(unsigned vece, uint32_t dofs, uint32_t aofs,
                        TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
 {
     TCGv_i64 tmp = tcg_temp_new_i64();
-    gen_dup_i64(vece, tmp, c);
+    tcg_gen_dup_i64(vece, tmp, c);
     tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ands);
     tcg_temp_free_i64(tmp);
 }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_xors(unsigned vece, uint32_t dofs, uint32_t aofs,
                        TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
 {
     TCGv_i64 tmp = tcg_temp_new_i64();
-    gen_dup_i64(vece, tmp, c);
+    tcg_gen_dup_i64(vece, tmp, c);
     tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_xors);
     tcg_temp_free_i64(tmp);
 }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_gvec_ors(unsigned vece, uint32_t dofs, uint32_t aofs,
                       TCGv_i64 c, uint32_t oprsz, uint32_t maxsz)
 {
     TCGv_i64 tmp = tcg_temp_new_i64();
-    gen_dup_i64(vece, tmp, c);
+    tcg_gen_dup_i64(vece, tmp, c);
     tcg_gen_gvec_2s(dofs, aofs, oprsz, maxsz, tmp, &gop_ors);
     tcg_temp_free_i64(tmp);
 }
-- 
2.20.1

Implement the MVE VDUP insn, which duplicates a value from
a general-purpose register into every lane of a vector
register (subject to predication).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-11-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  2 ++
 target/arm/mve.decode      | 10 ++++++++++
 target/arm/mve_helper.c    | 16 ++++++++++++++++
 target/arm/translate-mve.c | 27 +++++++++++++++++++++++++++
 4 files changed, 55 insertions(+)

Implement the MVE vector logical operations operating
on two registers.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-12-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  6 ++++++
 target/arm/mve.decode      |  9 +++++++++
 target/arm/mve_helper.c    | 26 ++++++++++++++++++++++++++
 target/arm/translate-mve.c | 37 +++++++++++++++++++++++++++++++++++++
 4 files changed, 78 insertions(+)

Implement the MVE VADD, VSUB and VMUL insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-13-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 12 ++++++++++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 14 ++++++++++++++
 target/arm/translate-mve.c | 16 ++++++++++++++++
 4 files changed, 47 insertions(+)

Implement the MVE VMULH insn, which performs a vector
multiply and returns the high half of the result.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-14-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  7 +++++++
 target/arm/mve.decode      |  3 +++
 target/arm/mve_helper.c    | 26 ++++++++++++++++++++++++++
 target/arm/translate-mve.c |  2 ++
 4 files changed, 38 insertions(+)

Implement the MVE VRMULH insn, which performs a rounding multiply
and then returns the high half.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-15-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  7 +++++++
 target/arm/mve.decode      |  3 +++
 target/arm/mve_helper.c    | 22 ++++++++++++++++++++++
 target/arm/translate-mve.c |  2 ++
 4 files changed, 34 insertions(+)

Implement the MVE VMAX and VMIN insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-16-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 14 ++++++++++++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 14 ++++++++++++++
 target/arm/translate-mve.c |  4 ++++
 4 files changed, 37 insertions(+)

Implement the MVE VABD insn.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-17-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 7 +++++++
 target/arm/mve.decode      | 3 +++
 target/arm/mve_helper.c    | 5 +++++
 target/arm/translate-mve.c | 2 ++
 4 files changed, 17 insertions(+)

Implement MVE VHADD and VHSUB insns, which perform an addition
or subtraction and then halve the result.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-18-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 14 ++++++++++++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 25 +++++++++++++++++++++++++
 target/arm/translate-mve.c |  4 ++++
 4 files changed, 48 insertions(+)

Implement the MVE VMULL insn, which multiplies two single
width integer elements to produce a double width result.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-19-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 14 ++++++++++++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 34 ++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  4 ++++
 4 files changed, 57 insertions(+)

Implement the MVE VMLALDAV insn, which multiplies pairs of integer
elements, accumulating them into a 64-bit result in a pair of
general-purpose registers.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-20-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  8 ++++
 target/arm/translate.h     | 10 ++++
 target/arm/mve.decode      | 15 ++++++
 target/arm/mve_helper.c    | 34 ++++++++++++++
 target/arm/translate-mve.c | 96 ++++++++++++++++++++++++++++++++++++++
 5 files changed, 163 insertions(+)

diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-mve.h
+++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vmulltsw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 DEF_HELPER_FLAGS_4(mve_vmulltub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 DEF_HELPER_FLAGS_4(mve_vmulltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 DEF_HELPER_FLAGS_4(mve_vmulltuw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+
+DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+DEF_HELPER_FLAGS_4(mve_vmlaldavxsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+
+DEF_HELPER_FLAGS_4(mve_vmlaldavuh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
+DEF_HELPER_FLAGS_4(mve_vmlaldavuw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int negate(DisasContext *s, int x)
     return -x;
 }
 
+static inline int plus_1(DisasContext *s, int x)
+{
+    return x + 1;
+}
+
 static inline int plus_2(DisasContext *s, int x)
 {
     return x + 2;
@@ -XXX,XX +XXX,XX @@ static inline int times_4(DisasContext *s, int x)
     return x * 4;
 }
 
+static inline int times_2_plus_1(DisasContext *s, int x)
+{
+    return x * 2 + 1;
+}
+
 static inline int arm_dc_feature(DisasContext *dc, int feature)
 {
     return (dc->features & (1ULL << feature)) != 0;
diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VNEG_fp          1111 1111 1 . 11 .. 01 ... 0 0111 11 . 0 ... 0 @1op
 VDUP             1110 1110 1 1 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=0
 VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 1 1 0000 @vdup size=1
 VDUP             1110 1110 1 0 10 ... 0 .... 1011 . 0 0 1 0000 @vdup size=2
+
+# multiply-add long dual accumulate
+# rdahi: bits [3:1] from insn, bit 0 is 1
+# rdalo: bits [3:1] from insn, bit 0 is 0
+%rdahi 20:3 !function=times_2_plus_1
+%rdalo 13:3 !function=times_2
+# size bit is 0 for 16 bit, 1 for 32 bit
+%size_16 16:1 !function=plus_1
+
+&vmlaldav rdahi rdalo size qn qm x a
+
+@vmlaldav        .... .... . ... ... . ... . .... .... qm:3 . \
+                 qn=%qn rdahi=%rdahi rdalo=%rdalo size=%size_16 &vmlaldav
+VMLALDAV_S       1110 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
+VMLALDAV_U       1111 1110 1 ... ... . ... x:1 1110 . 0 a:1 0 ... 0 @vmlaldav
diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve_helper.c
+++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_S(vhadds, do_vhadd_s)
 DO_2OP_U(vhaddu, do_vhadd_u)
 DO_2OP_S(vhsubs, do_vhsub_s)
 DO_2OP_U(vhsubu, do_vhsub_u)
+
+
+/*
+ * Multiply add long dual accumulate ops.
+ */
+#define DO_LDAV(OP, ESIZE, TYPE, XCHG, EVENACC, ODDACC)                 \
+    uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vn,         \
+                                    void *vm, uint64_t a)               \
+    {                                                                   \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned e;                                                     \
+        TYPE *n = vn, *m = vm;                                          \
+        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
+            if (mask & 1) {                                             \
+                if (e & 1) {                                            \
+                    a ODDACC                                            \
+                        (int64_t)n[H##ESIZE(e - 1 * XCHG)] * m[H##ESIZE(e)]; \
+                } else {                                                \
+                    a EVENACC                                           \
+                        (int64_t)n[H##ESIZE(e + 1 * XCHG)] * m[H##ESIZE(e)]; \
+                }                                                       \
+            }                                                           \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+        return a;                                                       \
+    }
+
+DO_LDAV(vmlaldavsh, 2, int16_t, false, +=, +=)
+DO_LDAV(vmlaldavxsh, 2, int16_t, true, +=, +=)
+DO_LDAV(vmlaldavsw, 4, int32_t, false, +=, +=)
+DO_LDAV(vmlaldavxsw, 4, int32_t, true, +=, +=)
+
+DO_LDAV(vmlaldavuh, 2, uint16_t, false, +=, +=)
+DO_LDAV(vmlaldavuw, 4, uint32_t, false, +=, +=)
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@
 typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
 typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
 typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
+typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
 
 /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
 static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static void mve_update_eci(DisasContext *s)
     }
 }
 
+static bool mve_skip_first_beat(DisasContext *s)
+{
+    /* Return true if PSR.ECI says we must skip the first beat of this insn */
+    switch (s->eci) {
+    case ECI_NONE:
+        return false;
+    case ECI_A0:
+    case ECI_A0A1:
+    case ECI_A0A1A2:
+    case ECI_A0A1A2B0:
+        return true;
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
 {
     TCGv_i32 addr;
@@ -XXX,XX +XXX,XX @@ DO_2OP(VMULL_BS, vmullbs)
 DO_2OP(VMULL_BU, vmullbu)
 DO_2OP(VMULL_TS, vmullts)
 DO_2OP(VMULL_TU, vmulltu)
+
+static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
+                             MVEGenDualAccOpFn *fn)
+{
+    TCGv_ptr qn, qm;
+    TCGv_i64 rda;
+    TCGv_i32 rdalo, rdahi;
+
+    if (!dc_isar_feature(aa32_mve, s) ||
+        !mve_check_qreg_bank(s, a->qn | a->qm) ||
+        !fn) {
+        return false;
+    }
+    /*
+     * rdahi == 13 is UNPREDICTABLE; rdahi == 15 is a related
+     * encoding; rdalo always has bit 0 clear so cannot be 13 or 15.
+     */
+    if (a->rdahi == 13 || a->rdahi == 15) {
+        return false;
+    }
+    if (!mve_eci_check(s) || !vfp_access_check(s)) {
+        return true;
+    }
+
+    qn = mve_qreg_ptr(a->qn);
+    qm = mve_qreg_ptr(a->qm);
+
+    /*
+     * This insn is subject to beat-wise execution. Partial execution
+     * of an A=0 (no-accumulate) insn which does not execute the first
+     * beat must start with the current rda value, not 0.
+     */
+    if (a->a || mve_skip_first_beat(s)) {
+        rda = tcg_temp_new_i64();
+        rdalo = load_reg(s, a->rdalo);
+        rdahi = load_reg(s, a->rdahi);
+        tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
+        tcg_temp_free_i32(rdalo);
+        tcg_temp_free_i32(rdahi);
+    } else {
+        rda = tcg_const_i64(0);
+    }
+
+    fn(rda, cpu_env, qn, qm, rda);
+    tcg_temp_free_ptr(qn);
+    tcg_temp_free_ptr(qm);
+
+    rdalo = tcg_temp_new_i32();
+    rdahi = tcg_temp_new_i32();
+    tcg_gen_extrl_i64_i32(rdalo, rda);
+    tcg_gen_extrh_i64_i32(rdahi, rda);
+    store_reg(s, a->rdalo, rdalo);
+    store_reg(s, a->rdahi, rdahi);
+    tcg_temp_free_i64(rda);
+    mve_update_eci(s);
+    return true;
+}
+
+static bool trans_VMLALDAV_S(DisasContext *s, arg_vmlaldav *a)
+{
+    static MVEGenDualAccOpFn * const fns[4][2] = {
+        { NULL, NULL },
+        { gen_helper_mve_vmlaldavsh, gen_helper_mve_vmlaldavxsh },
+        { gen_helper_mve_vmlaldavsw, gen_helper_mve_vmlaldavxsw },
+        { NULL, NULL },
+    };
+    return do_long_dual_acc(s, a, fns[a->size][a->x]);
+}
+
+static bool trans_VMLALDAV_U(DisasContext *s, arg_vmlaldav *a)
+{
+    static MVEGenDualAccOpFn * const fns[4][2] = {
+        { NULL, NULL },
+        { gen_helper_mve_vmlaldavuh, NULL },
+        { gen_helper_mve_vmlaldavuw, NULL },
+        { NULL, NULL },
+    };
+    return do_long_dual_acc(s, a, fns[a->size][a->x]);
+}
-- 
2.20.1

Implement the MVE insn VMLSLDAV, which multiplies source elements,
alternately adding and subtracting them, and accumulates into a
64-bit result in a pair of general purpose registers.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-21-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  5 +++++
 target/arm/mve.decode      |  2 ++
 target/arm/mve_helper.c    |  5 +++++
 target/arm/translate-mve.c | 11 +++++++++++
 4 files changed, 23 insertions(+)

Implement the MVE VRMLALDAVH and VRMLSLDAVH insns, which accumulate
the results of a rounded multiply of pairs of elements into a 72-bit
accumulator, returning the top 64 bits in a pair of general purpose
registers.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-22-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  8 ++++++++
 target/arm/mve.decode      |  7 +++++++
 target/arm/mve_helper.c    | 37 +++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c | 24 ++++++++++++++++++++++++
 4 files changed, 76 insertions(+)

Implement the scalar form of the MVE VADD insn. This takes the
scalar operand from a general purpose register.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-23-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  4 ++++
 target/arm/mve.decode      |  7 ++++++
 target/arm/mve_helper.c    | 22 +++++++++++++++++++
 target/arm/translate-mve.c | 45 ++++++++++++++++++++++++++++++++++++++
 4 files changed, 78 insertions(+)

Implement the scalar forms of the MVE VSUB and VMUL insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-24-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 8 ++++++++
 target/arm/mve.decode      | 2 ++
 target/arm/mve_helper.c    | 2 ++
 target/arm/translate-mve.c | 2 ++
 4 files changed, 14 insertions(+)

Implement the scalar variants of the MVE VHADD and VHSUB insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-25-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 16 ++++++++++++++++
 target/arm/mve.decode      |  4 ++++
 target/arm/mve_helper.c    |  8 ++++++++
 target/arm/translate-mve.c |  4 ++++
 4 files changed, 32 insertions(+)

Implement the MVE VBRSR insn, which reverses a specified
number of bits in each element, setting the rest to zero.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-26-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  4 ++++
 target/arm/mve.decode      |  1 +
 target/arm/mve_helper.c    | 43 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  1 +
 4 files changed, 49 insertions(+)

Implement the MVE VPST insn, which sets the predicate mask
fields in the VPR to the immediate value encoded in the insn.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-27-peter.maydell@linaro.org
---
 target/arm/mve.decode      |  4 +++
 target/arm/translate-mve.c | 59 ++++++++++++++++++++++++++++++++++++++
 2 files changed, 63 insertions(+)

diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
 VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
+
+# Predicate operations
+%mask_22_13      22:1 13:3
+VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static void mve_update_eci(DisasContext *s)
     }
 }
 
+static void mve_update_and_store_eci(DisasContext *s)
+{
+    /*
+     * For insns which don't call a helper function that will call
+     * mve_advance_vpt(), this version updates s->eci and also stores
+     * it out to the CPUState field.
+     */
+    if (s->eci) {
+        mve_update_eci(s);
+        store_cpu_field(tcg_constant_i32(s->eci << 4), condexec_bits);
+    }
+}
+
 static bool mve_skip_first_beat(DisasContext *s)
 {
     /* Return true if PSR.ECI says we must skip the first beat of this insn */
@@ -XXX,XX +XXX,XX @@ static bool trans_VRMLSLDAVH(DisasContext *s, arg_vmlaldav *a)
     };
     return do_long_dual_acc(s, a, fns[a->x]);
 }
+
+static bool trans_VPST(DisasContext *s, arg_VPST *a)
+{
+    TCGv_i32 vpr;
+
+    /* mask == 0 is a "related encoding" */
+    if (!dc_isar_feature(aa32_mve, s) || !a->mask) {
+        return false;
+    }
+    if (!mve_eci_check(s) || !vfp_access_check(s)) {
+        return true;
+    }
+    /*
+     * Set the VPR mask fields. We take advantage of MASK01 and MASK23
+     * being adjacent fields in the register.
+     *
+     * This insn is not predicated, but it is subject to beat-wise
+     * execution, and the mask is updated on the odd-numbered beats.
+     * So if PSR.ECI says we should skip beat 1, we mustn't update the
+     * 01 mask field.
+     */
+    vpr = load_cpu_field(v7m.vpr);
+    switch (s->eci) {
+    case ECI_NONE:
+    case ECI_A0:
+        /* Update both 01 and 23 fields */
+        tcg_gen_deposit_i32(vpr, vpr,
+                            tcg_constant_i32(a->mask | (a->mask << 4)),
+                            R_V7M_VPR_MASK01_SHIFT,
+                            R_V7M_VPR_MASK01_LENGTH + R_V7M_VPR_MASK23_LENGTH);
+        break;
+    case ECI_A0A1:
+    case ECI_A0A1A2:
+    case ECI_A0A1A2B0:
+        /* Update only the 23 mask field */
+        tcg_gen_deposit_i32(vpr, vpr,
+                            tcg_constant_i32(a->mask),
+                            R_V7M_VPR_MASK23_SHIFT, R_V7M_VPR_MASK23_LENGTH);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    store_cpu_field(vpr, v7m.vpr);
+    mve_update_and_store_eci(s);
+    return true;
+}
-- 
2.20.1

Implement the MVE VQADD and VQSUB insns, which perform saturating
addition of a scalar to each element.  Note that individual bytes of
each result element are used or discarded according to the predicate
mask, but FPSCR.QC is only set if the predicate mask for the lowest
byte of the element is set.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-28-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 16 ++++++++++
 target/arm/mve.decode      |  5 +++
 target/arm/mve_helper.c    | 62 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  4 +++
 4 files changed, 87 insertions(+)

diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-mve.h
+++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vhsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vhsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vhsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(mve_vqadds_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqadds_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqadds_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(mve_vqaddu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqaddu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqaddu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(mve_vqsubs_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqsubs_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqsubs_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(mve_vqsubu_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqsubu_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqsubu_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(mve_vbrsrb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vbrsrh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vbrsrw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VHADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
 VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
 VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
+
+VQADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
+VQADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
+VQSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
+VQSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
 VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
 
 # Predicate operations
diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve_helper.c
+++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhaddu, do_vhadd_u)
 DO_2OP_S(vhsubs, do_vhsub_s)
 DO_2OP_U(vhsubu, do_vhsub_u)
 
+static inline int32_t do_sat_bhw(int64_t val, int64_t min, int64_t max, bool *s)
+{
+    if (val > max) {
+        *s = true;
+        return max;
+    } else if (val < min) {
+        *s = true;
+        return min;
+    }
+    return val;
+}
+
+#define DO_SQADD_B(n, m, s) do_sat_bhw((int64_t)n + m, INT8_MIN, INT8_MAX, s)
+#define DO_SQADD_H(n, m, s) do_sat_bhw((int64_t)n + m, INT16_MIN, INT16_MAX, s)
+#define DO_SQADD_W(n, m, s) do_sat_bhw((int64_t)n + m, INT32_MIN, INT32_MAX, s)
+
+#define DO_UQADD_B(n, m, s) do_sat_bhw((int64_t)n + m, 0, UINT8_MAX, s)
+#define DO_UQADD_H(n, m, s) do_sat_bhw((int64_t)n + m, 0, UINT16_MAX, s)
+#define DO_UQADD_W(n, m, s) do_sat_bhw((int64_t)n + m, 0, UINT32_MAX, s)
+
+#define DO_SQSUB_B(n, m, s) do_sat_bhw((int64_t)n - m, INT8_MIN, INT8_MAX, s)
+#define DO_SQSUB_H(n, m, s) do_sat_bhw((int64_t)n - m, INT16_MIN, INT16_MAX, s)
+#define DO_SQSUB_W(n, m, s) do_sat_bhw((int64_t)n - m, INT32_MIN, INT32_MAX, s)
+
+#define DO_UQSUB_B(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT8_MAX, s)
+#define DO_UQSUB_H(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT16_MAX, s)
+#define DO_UQSUB_W(n, m, s) do_sat_bhw((int64_t)n - m, 0, UINT32_MAX, s)
 
 #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
     void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
@@ -XXX,XX +XXX,XX @@ DO_2OP_U(vhsubu, do_vhsub_u)
         mve_advance_vpt(env);                                           \
     }
 
+#define DO_2OP_SAT_SCALAR(OP, ESIZE, TYPE, FN)                          \
+    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
+                                uint32_t rm)                            \
+    {                                                                   \
+        TYPE *d = vd, *n = vn;                                          \
+        TYPE m = rm;                                                    \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned e;                                                     \
+        bool qc = false;                                                \
+        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
+            bool sat = false;                                           \
+            mergemask(&d[H##ESIZE(e)], FN(n[H##ESIZE(e)], m, &sat),     \
+                      mask);                                            \
+            qc |= sat & mask & 1;                                       \
+        }                                                               \
+        if (qc) {                                                       \
+            env->vfp.qc[0] = qc;                                        \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+    }
+
 /* provide unsigned 2-op scalar helpers for all sizes */
 #define DO_2OP_SCALAR_U(OP, FN)                 \
     DO_2OP_SCALAR(OP##b, 1, uint8_t, FN)        \
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR_U(vhaddu_scalar, do_vhadd_u)
 DO_2OP_SCALAR_S(vhsubs_scalar, do_vhsub_s)
 DO_2OP_SCALAR_U(vhsubu_scalar, do_vhsub_u)
 
+DO_2OP_SAT_SCALAR(vqaddu_scalarb, 1, uint8_t, DO_UQADD_B)
+DO_2OP_SAT_SCALAR(vqaddu_scalarh, 2, uint16_t, DO_UQADD_H)
+DO_2OP_SAT_SCALAR(vqaddu_scalarw, 4, uint32_t, DO_UQADD_W)
+DO_2OP_SAT_SCALAR(vqadds_scalarb, 1, int8_t, DO_SQADD_B)
+DO_2OP_SAT_SCALAR(vqadds_scalarh, 2, int16_t, DO_SQADD_H)
+DO_2OP_SAT_SCALAR(vqadds_scalarw, 4, int32_t, DO_SQADD_W)
+
+DO_2OP_SAT_SCALAR(vqsubu_scalarb, 1, uint8_t, DO_UQSUB_B)
+DO_2OP_SAT_SCALAR(vqsubu_scalarh, 2, uint16_t, DO_UQSUB_H)
+DO_2OP_SAT_SCALAR(vqsubu_scalarw, 4, uint32_t, DO_UQSUB_W)
+DO_2OP_SAT_SCALAR(vqsubs_scalarb, 1, int8_t, DO_SQSUB_B)
+DO_2OP_SAT_SCALAR(vqsubs_scalarh, 2, int16_t, DO_SQSUB_H)
+DO_2OP_SAT_SCALAR(vqsubs_scalarw, 4, int32_t, DO_SQSUB_W)
+
 static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
 {
     m &= 0xff;
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR(VHADD_S_scalar, vhadds_scalar)
 DO_2OP_SCALAR(VHADD_U_scalar, vhaddu_scalar)
 DO_2OP_SCALAR(VHSUB_S_scalar, vhsubs_scalar)
 DO_2OP_SCALAR(VHSUB_U_scalar, vhsubu_scalar)
+DO_2OP_SCALAR(VQADD_S_scalar, vqadds_scalar)
+DO_2OP_SCALAR(VQADD_U_scalar, vqaddu_scalar)
+DO_2OP_SCALAR(VQSUB_S_scalar, vqsubs_scalar)
+DO_2OP_SCALAR(VQSUB_U_scalar, vqsubu_scalar)
 DO_2OP_SCALAR(VBRSR, vbrsr)
 
 static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
-- 
2.20.1

Implement the MVE VQDMULH and VQRDMULH scalar insns, which multiply
elements by the scalar, double, possibly round, take the high half
and saturate.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-29-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  8 ++++++++
 target/arm/mve.decode      |  3 +++
 target/arm/mve_helper.c    | 25 +++++++++++++++++++++++++
 target/arm/translate-mve.c |  2 ++
 4 files changed, 38 insertions(+)

Implement the MVE VQDMULL scalar insn. This multiplies the top or
bottom half of each element by the scalar, doubles and saturates
to a double-width result.

Note that this encoding overlaps with VQADD and VQSUB; it uses
what in VQADD and VQSUB would be the 'size=0b11' encoding.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-30-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  5 +++
 target/arm/mve.decode      | 23 +++++++++++---
 target/arm/mve_helper.c    | 65 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c | 30 ++++++++++++++++++
 4 files changed, 119 insertions(+), 4 deletions(-)

diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-mve.h
+++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vbrsrb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vbrsrh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vbrsrw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(mve_vqdmullb_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqdmullb_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqdmullt_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(mve_vqdmullt_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(mve_vmlaldavsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 DEF_HELPER_FLAGS_4(mve_vmlaldavsw, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
 DEF_HELPER_FLAGS_4(mve_vmlaldavxsh, TCG_CALL_NO_WG, i64, env, ptr, ptr, i64)
diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
 %qm 5:1 1:3
 %qn 7:1 17:3
 
+# VQDMULL has size in bit 28: 0 for 16 bit, 1 for 32 bit
+%size_28 28:1 !function=plus_1
+
 &vldr_vstr rn qd imm p a w size l u
 &1op qd qm size
 &2op qd qm qn size
@@ -XXX,XX +XXX,XX @@
 @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
 
 @2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
+@2scalar_nosz .... .... .... .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
 
 # Vector loads and stores
 
@@ -XXX,XX +XXX,XX @@ VHADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 100 .... @2scalar
 VHSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 VHSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 100 .... @2scalar
 
-VQADD_S_scalar   1110 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
-VQADD_U_scalar   1111 1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
-VQSUB_S_scalar   1110 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
-VQSUB_U_scalar   1111 1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
+{
+  VQADD_S_scalar  1110  1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
+  VQADD_U_scalar  1111  1110 0 . .. ... 0 ... 0 1111 . 110 .... @2scalar
+  VQDMULLB_scalar 111 . 1110 0 . 11 ... 0 ... 0 1111 . 110 .... @2scalar_nosz \
+                  size=%size_28
+}
+
+{
+  VQSUB_S_scalar  1110  1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
+  VQSUB_U_scalar  1111  1110 0 . .. ... 0 ... 1 1111 . 110 .... @2scalar
+  VQDMULLT_scalar 111 . 1110 0 . 11 ... 0 ... 1 1111 . 110 .... @2scalar_nosz \
+                  size=%size_28
+}
+
 VBRSR            1111 1110 0 . .. ... 1 ... 1 1110 . 110 .... @2scalar
 
 VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
 VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
 
+
 # Predicate operations
 %mask_22_13      22:1 13:3
 VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve_helper.c
+++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT_SCALAR(vqrdmulh_scalarb, 1, int8_t, DO_QRDMULH_B)
 DO_2OP_SAT_SCALAR(vqrdmulh_scalarh, 2, int16_t, DO_QRDMULH_H)
 DO_2OP_SAT_SCALAR(vqrdmulh_scalarw, 4, int32_t, DO_QRDMULH_W)
 
+/*
+ * Long saturating scalar ops. As with DO_2OP_L, TYPE and H are for the
+ * input (smaller) type and LESIZE, LTYPE, LH for the output (long) type.
+ * SATMASK specifies which bits of the predicate mask matter for determining
+ * whether to propagate a saturation indication into FPSCR.QC -- for
+ * the 16x16->32 case we must check only the bit corresponding to the T or B
+ * half that we used, but for the 32x32->64 case we propagate if the mask
+ * bit is set for either half.
+ */
+#define DO_2OP_SAT_SCALAR_L(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN, SATMASK) \
+    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
+                                uint32_t rm)                            \
+    {                                                                   \
+        LTYPE *d = vd;                                                  \
+        TYPE *n = vn;                                                   \
+        TYPE m = rm;                                                    \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned le;                                                    \
+        bool qc = false;                                                \
+        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
+            bool sat = false;                                           \
+            LTYPE r = FN((LTYPE)n[H##ESIZE(le * 2 + TOP)], m, &sat);    \
+            mergemask(&d[H##LESIZE(le)], r, mask);                      \
+            qc |= sat && (mask & SATMASK);                              \
+        }                                                               \
+        if (qc) {                                                       \
+            env->vfp.qc[0] = qc;                                        \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+    }
+
+static inline int32_t do_qdmullh(int16_t n, int16_t m, bool *sat)
+{
+    int64_t r = ((int64_t)n * m) * 2;
+    return do_sat_bhw(r, INT32_MIN, INT32_MAX, sat);
+}
+
+static inline int64_t do_qdmullw(int32_t n, int32_t m, bool *sat)
+{
+    /* The multiply can't overflow, but the doubling might */
+    int64_t r = (int64_t)n * m;
+    if (r > INT64_MAX / 2) {
+        *sat = true;
+        return INT64_MAX;
+    } else if (r < INT64_MIN / 2) {
+        *sat = true;
+        return INT64_MIN;
+    } else {
+        return r * 2;
+    }
+}
+
+#define SATMASK16B 1
+#define SATMASK16T (1 << 2)
+#define SATMASK32 ((1 << 4) | 1)
+
+DO_2OP_SAT_SCALAR_L(vqdmullb_scalarh, 0, 2, int16_t, 4, int32_t, \
+                    do_qdmullh, SATMASK16B)
+DO_2OP_SAT_SCALAR_L(vqdmullb_scalarw, 0, 4, int32_t, 8, int64_t, \
+                    do_qdmullw, SATMASK32)
+DO_2OP_SAT_SCALAR_L(vqdmullt_scalarh, 1, 2, int16_t, 4, int32_t, \
+                    do_qdmullh, SATMASK16T)
+DO_2OP_SAT_SCALAR_L(vqdmullt_scalarw, 1, 4, int32_t, 8, int64_t, \
+                    do_qdmullw, SATMASK32)
+
 static inline uint32_t do_vbrsrb(uint32_t n, uint32_t m)
 {
     m &= 0xff;
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SCALAR(VQDMULH_scalar, vqdmulh_scalar)
 DO_2OP_SCALAR(VQRDMULH_scalar, vqrdmulh_scalar)
 DO_2OP_SCALAR(VBRSR, vbrsr)
 
+static bool trans_VQDMULLB_scalar(DisasContext *s, arg_2scalar *a)
+{
+    static MVEGenTwoOpScalarFn * const fns[] = {
+        NULL,
+        gen_helper_mve_vqdmullb_scalarh,
+        gen_helper_mve_vqdmullb_scalarw,
+        NULL,
+    };
+    if (a->qd == a->qn && a->size == MO_32) {
+        /* UNPREDICTABLE; we choose to undef */
+        return false;
+    }
+    return do_2op_scalar(s, a, fns[a->size]);
+}
+
+static bool trans_VQDMULLT_scalar(DisasContext *s, arg_2scalar *a)
+{
+    static MVEGenTwoOpScalarFn * const fns[] = {
+        NULL,
+        gen_helper_mve_vqdmullt_scalarh,
+        gen_helper_mve_vqdmullt_scalarw,
+        NULL,
+    };
+    if (a->qd == a->qn && a->size == MO_32) {
+        /* UNPREDICTABLE; we choose to undef */
+        return false;
+    }
+    return do_2op_scalar(s, a, fns[a->size]);
+}
+
 static bool do_long_dual_acc(DisasContext *s, arg_vmlaldav *a,
                              MVEGenDualAccOpFn *fn)
 {
-- 
2.20.1

Implement the vector forms of the MVE VQDMULH and VQRDMULH insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-31-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  8 ++++++++
 target/arm/mve.decode      |  3 +++
 target/arm/mve_helper.c    | 27 +++++++++++++++++++++++++++
 target/arm/translate-mve.c |  2 ++
 4 files changed, 40 insertions(+)

Implement the vector forms of the MVE VQADD and VQSUB insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-32-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 16 ++++++++++++++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 14 ++++++++++++++
 target/arm/translate-mve.c |  4 ++++
 4 files changed, 39 insertions(+)

Implement the MVE VQSHL insn (encoding T4, which is the
vector-shift-by-vector version).

The DO_SQSHL_OP and DO_UQSHL_OP macros here are derived from
the neon_helper.c code for qshl_u{8,16,32} and qshl_s{8,16,32}.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-33-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  8 ++++++++
 target/arm/mve.decode      | 12 ++++++++++++
 target/arm/mve_helper.c    | 34 ++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  2 ++
 4 files changed, 56 insertions(+)

Implement the MV VQRSHL (vector) insn.  Again, the code to perform
the actual shifts is borrowed from neon_helper.c.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-34-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 8 ++++++++
 target/arm/mve.decode      | 3 +++
 target/arm/mve_helper.c    | 6 ++++++
 target/arm/translate-mve.c | 2 ++
 4 files changed, 19 insertions(+)

Implement the MVE VSHL insn (vector form).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-35-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 8 ++++++++
 target/arm/mve.decode      | 3 +++
 target/arm/mve_helper.c    | 6 ++++++
 target/arm/translate-mve.c | 2 ++
 4 files changed, 19 insertions(+)

Implement the MVE VRSHL insn (vector form).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-36-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 8 ++++++++
 target/arm/mve.decode      | 3 +++
 target/arm/mve_helper.c    | 4 ++++
 target/arm/translate-mve.c | 2 ++
 4 files changed, 17 insertions(+)

Implement the MVE VQDMLADH and VQRDMLADH insns.  These multiply
elements, and then add pairs of products, double, possibly round,
saturate and return the high half of the result.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-37-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 16 +++++++
 target/arm/mve.decode      |  5 +++
 target/arm/mve_helper.c    | 89 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  4 ++
 4 files changed, 114 insertions(+)

diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-mve.h
+++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshlub, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 DEF_HELPER_FLAGS_4(mve_vqrshluh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 DEF_HELPER_FLAGS_4(mve_vqrshluw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
 
+DEF_HELPER_FLAGS_4(mve_vqdmladhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqdmladhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqdmladhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+
+DEF_HELPER_FLAGS_4(mve_vqdmladhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqdmladhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqdmladhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+
+DEF_HELPER_FLAGS_4(mve_vqrdmladhb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqrdmladhh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqrdmladhw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+
+DEF_HELPER_FLAGS_4(mve_vqrdmladhxb, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqrdmladhxh, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+DEF_HELPER_FLAGS_4(mve_vqrdmladhxw, TCG_CALL_NO_WG, void, env, ptr, ptr, ptr)
+
 DEF_HELPER_FLAGS_4(mve_vadd_scalarb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vadd_scalarh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(mve_vadd_scalarw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
diff --git a/target/arm/mve.decode b/target/arm/mve.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve.decode
+++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQSHL_U          111 1 1111 0 . .. ... 0 ... 0 0100 . 1 . 1 ... 0 @2op_rev
 VQRSHL_S         111 0 1111 0 . .. ... 0 ... 0 0101 . 1 . 1 ... 0 @2op_rev
 VQRSHL_U         111 1 1111 0 . .. ... 0 ... 0 0101 . 1 . 1 ... 0 @2op_rev
 
+VQDMLADH         1110 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 0 @2op
+VQDMLADHX        1110 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 0 @2op
+VQRDMLADH        1110 1110 0 . .. ... 0 ... 0 1110 . 0 . 0 ... 1 @2op
+VQRDMLADHX       1110 1110 0 . .. ... 0 ... 1 1110 . 0 . 0 ... 1 @2op
+
 # Vector miscellaneous
 
 VCLS             1111 1111 1 . 11 .. 00 ... 0 0100 01 . 0 ... 0 @1op
diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mve_helper.c
+++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
 DO_2OP_SAT_S(vqrshls, DO_SQRSHL_OP)
 DO_2OP_SAT_U(vqrshlu, DO_UQRSHL_OP)
 
+/*
+ * Multiply add dual returning high half
+ * The 'FN' here takes four inputs A, B, C, D, a 0/1 indicator of
+ * whether to add the rounding constant, and the pointer to the
+ * saturation flag, and should do "(A * B + C * D) * 2 + rounding constant",
+ * saturate to twice the input size and return the high half; or
+ * (A * B - C * D) etc for VQDMLSDH.
+ */
+#define DO_VQDMLADH_OP(OP, ESIZE, TYPE, XCHG, ROUND, FN)                \
+    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
+                                void *vm)                               \
+    {                                                                   \
+        TYPE *d = vd, *n = vn, *m = vm;                                 \
+        uint16_t mask = mve_element_mask(env);                          \
+        unsigned e;                                                     \
+        bool qc = false;                                                \
+        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
+            bool sat = false;                                           \
+            if ((e & 1) == XCHG) {                                      \
+                TYPE r = FN(n[H##ESIZE(e)],                             \
+                            m[H##ESIZE(e - XCHG)],                      \
+                            n[H##ESIZE(e + (1 - 2 * XCHG))],            \
+                            m[H##ESIZE(e + (1 - XCHG))],                \
+                            ROUND, &sat);                               \
+                mergemask(&d[H##ESIZE(e)], r, mask);                    \
+                qc |= sat & mask & 1;                                   \
+            }                                                           \
+        }                                                               \
+        if (qc) {                                                       \
+            env->vfp.qc[0] = qc;                                        \
+        }                                                               \
+        mve_advance_vpt(env);                                           \
+    }
+
+static int8_t do_vqdmladh_b(int8_t a, int8_t b, int8_t c, int8_t d,
+                            int round, bool *sat)
+{
+    int64_t r = ((int64_t)a * b + (int64_t)c * d) * 2 + (round << 7);
+    return do_sat_bhw(r, INT16_MIN, INT16_MAX, sat) >> 8;
+}
+
+static int16_t do_vqdmladh_h(int16_t a, int16_t b, int16_t c, int16_t d,
+                             int round, bool *sat)
+{
+    int64_t r = ((int64_t)a * b + (int64_t)c * d) * 2 + (round << 15);
+    return do_sat_bhw(r, INT32_MIN, INT32_MAX, sat) >> 16;
+}
+
+static int32_t do_vqdmladh_w(int32_t a, int32_t b, int32_t c, int32_t d,
+                             int round, bool *sat)
+{
+    int64_t m1 = (int64_t)a * b;
+    int64_t m2 = (int64_t)c * d;
+    int64_t r;
+    /*
+     * Architecturally we should do the entire add, double, round
+     * and then check for saturation. We do three saturating adds,
+     * but we need to be careful about the order. If the first
+     * m1 + m2 saturates then it's impossible for the *2+rc to
+     * bring it back into the non-saturated range. However, if
+     * m1 + m2 is negative then it's possible that doing the doubling
+     * would take the intermediate result below INT64_MAX and the
+     * addition of the rounding constant then brings it back in range.
+     * So we add half the rounding constant before doubling rather
+     * than adding the rounding constant after the doubling.
+     */
+    if (sadd64_overflow(m1, m2, &r) ||
+        sadd64_overflow(r, (round << 30), &r) ||
+        sadd64_overflow(r, r, &r)) {
+        *sat = true;
+        return r < 0 ? INT32_MAX : INT32_MIN;
+    }
+    return r >> 32;
+}
+
+DO_VQDMLADH_OP(vqdmladhb, 1, int8_t, 0, 0, do_vqdmladh_b)
+DO_VQDMLADH_OP(vqdmladhh, 2, int16_t, 0, 0, do_vqdmladh_h)
+DO_VQDMLADH_OP(vqdmladhw, 4, int32_t, 0, 0, do_vqdmladh_w)
+DO_VQDMLADH_OP(vqdmladhxb, 1, int8_t, 1, 0, do_vqdmladh_b)
+DO_VQDMLADH_OP(vqdmladhxh, 2, int16_t, 1, 0, do_vqdmladh_h)
+DO_VQDMLADH_OP(vqdmladhxw, 4, int32_t, 1, 0, do_vqdmladh_w)
+
+DO_VQDMLADH_OP(vqrdmladhb, 1, int8_t, 0, 1, do_vqdmladh_b)
+DO_VQDMLADH_OP(vqrdmladhh, 2, int16_t, 0, 1, do_vqdmladh_h)
+DO_VQDMLADH_OP(vqrdmladhw, 4, int32_t, 0, 1, do_vqdmladh_w)
+DO_VQDMLADH_OP(vqrdmladhxb, 1, int8_t, 1, 1, do_vqdmladh_b)
+DO_VQDMLADH_OP(vqrdmladhxh, 2, int16_t, 1, 1, do_vqdmladh_h)
+DO_VQDMLADH_OP(vqrdmladhxw, 4, int32_t, 1, 1, do_vqdmladh_w)
+
 #define DO_2OP_SCALAR(OP, ESIZE, TYPE, FN)                              \
     void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd, void *vn,   \
                                 uint32_t rm)                            \
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2OP(VQSHL_S, vqshls)
 DO_2OP(VQSHL_U, vqshlu)
 DO_2OP(VQRSHL_S, vqrshls)
 DO_2OP(VQRSHL_U, vqrshlu)
+DO_2OP(VQDMLADH, vqdmladh)
+DO_2OP(VQDMLADHX, vqdmladhx)
+DO_2OP(VQRDMLADH, vqrdmladh)
+DO_2OP(VQRDMLADHX, vqrdmladhx)
 
 static bool do_2op_scalar(DisasContext *s, arg_2scalar *a,
                           MVEGenTwoOpScalarFn fn)
-- 
2.20.1

Implement the MVE VQDMLSDH and VQRDMLSDH insns, which are
like VQDMLADH and VQRDMLADH except that products are subtracted
rather than added.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-38-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 16 ++++++++++++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 44 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  4 ++++
 4 files changed, 69 insertions(+)

Implement the vector form of the MVE VQDMULL insn.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-39-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  5 +++++
 target/arm/mve.decode      |  5 +++++
 target/arm/mve_helper.c    | 30 ++++++++++++++++++++++++++++++
 target/arm/translate-mve.c | 30 ++++++++++++++++++++++++++++++
 4 files changed, 70 insertions(+)

Implement the MVE VRHADD insn, which performs a rounded halving
addition.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-40-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 8 ++++++++
 target/arm/mve.decode      | 3 +++
 target/arm/mve_helper.c    | 6 ++++++
 target/arm/translate-mve.c | 2 ++
 4 files changed, 19 insertions(+)

Implement the MVE VADC and VSBC insns.  These perform an
add-with-carry or subtract-with-carry of the 32-bit elements in each
lane of the input vectors, where the carry-out of each add is the
carry-in of the next.  The initial carry input is either 1 or is from
FPSCR.C; the carry out at the end is written back to FPSCR.C.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-41-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  5 ++++
 target/arm/mve.decode      |  5 ++++
 target/arm/mve_helper.c    | 52 ++++++++++++++++++++++++++++++++++++++
 target/arm/translate-mve.c | 37 +++++++++++++++++++++++++++
 4 files changed, 99 insertions(+)

Implement the MVE VCADD insn, which performs a complex add with
rotate.  Note that the size=0b11 encoding is VSBC.

The architecture grants some leeway for the "destination and Vm
source overlap" case for the size MO_32 case, but we choose not to
make use of it, instead always calculating all 16 bytes worth of
results before setting the destination register.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-42-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  8 ++++++++
 target/arm/mve.decode      |  9 +++++++--
 target/arm/mve_helper.c    | 29 +++++++++++++++++++++++++++++
 target/arm/translate-mve.c |  7 +++++++
 4 files changed, 51 insertions(+), 2 deletions(-)

Implement the MVE VHCADD insn, which is similar to VCADD
but performs a halving step. This one overlaps with VADC.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-43-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    | 8 ++++++++
 target/arm/mve.decode      | 8 ++++++--
 target/arm/mve_helper.c    | 2 ++
 target/arm/translate-mve.c | 4 +++-
 4 files changed, 19 insertions(+), 3 deletions(-)

Implement the MVE VADDV insn, which performs an addition
across vector lanes.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-44-peter.maydell@linaro.org
---
 target/arm/helper-mve.h    |  7 +++++++
 target/arm/mve.decode      |  2 ++
 target/arm/mve_helper.c    | 24 +++++++++++++++++++++
 target/arm/translate-mve.c | 43 ++++++++++++++++++++++++++++++++++++++
 4 files changed, 76 insertions(+)

In a CPU with MVE, the VMOV (vector lane to general-purpose register)
and VMOV (general-purpose register to vector lane) insns are not
predicated, but they are subject to beatwise execution if they
are not in an IT block.

Since our implementation always executes all 4 beats in one tick,
this means only that we need to handle PSR.ECI:
 * we must do the usual check for bad ECI state
 * we must advance ECI state if the insn succeeds
 * if ECI says we should not be executing the beat corresponding
   to the lane of the vector register being accessed then we
   should skip performing the move

Note that if PSR.ECI is non-zero then we cannot be in an IT block.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210617121628.20116-45-peter.maydell@linaro.org
---
 target/arm/translate-a32.h |  2 +
 target/arm/translate-mve.c |  4 +-
 target/arm/translate-vfp.c | 77 +++++++++++++++++++++++++++++++++++---
 3 files changed, 75 insertions(+), 8 deletions(-)

diff --git a/target/arm/translate-a32.h b/target/arm/translate-a32.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a32.h
+++ b/target/arm/translate-a32.h
@@ -XXX,XX +XXX,XX @@ long neon_full_reg_offset(unsigned reg);
 long neon_element_offset(int reg, int element, MemOp memop);
 void gen_rev16(TCGv_i32 dest, TCGv_i32 var);
 void clear_eci_state(DisasContext *s);
+bool mve_eci_check(DisasContext *s);
+void mve_update_and_store_eci(DisasContext *s);
 
 static inline TCGv_i32 load_cpu_offset(int offset)
 {
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool mve_check_qreg_bank(DisasContext *s, int qmask)
     return qmask < 8;
 }
 
-static bool mve_eci_check(DisasContext *s)
+bool mve_eci_check(DisasContext *s)
 {
     /*
      * This is a beatwise insn: check that ECI is valid (not a
@@ -XXX,XX +XXX,XX @@ static void mve_update_eci(DisasContext *s)
     }
 }
 
-static void mve_update_and_store_eci(DisasContext *s)
+void mve_update_and_store_eci(DisasContext *s)
 {
     /*
      * For insns which don't call a helper function that will call
diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
     return true;
 }
 
+static bool mve_skip_vmov(DisasContext *s, int vn, int index, int size)
+{
+    /*
+     * In a CPU with MVE, the VMOV (vector lane to general-purpose register)
+     * and VMOV (general-purpose register to vector lane) insns are not
+     * predicated, but they are subject to beatwise execution if they are
+     * not in an IT block.
+     *
+     * Since our implementation always executes all 4 beats in one tick,
+     * this means only that if PSR.ECI says we should not be executing
+     * the beat corresponding to the lane of the vector register being
+     * accessed then we should skip performing the move, and that we need
+     * to do the usual check for bad ECI state and advance of ECI state.
+     *
+     * Note that if PSR.ECI is non-zero then we cannot be in an IT block.
+     *
+     * Return true if this VMOV scalar <-> gpreg should be skipped because
+     * the MVE PSR.ECI state says we skip the beat where the store happens.
+     */
+
+    /* Calculate the byte offset into Qn which we're going to access */
+    int ofs = (index << size) + ((vn & 1) * 8);
+
+    if (!dc_isar_feature(aa32_mve, s)) {
+        return false;
+    }
+
+    switch (s->eci) {
+    case ECI_NONE:
+        return false;
+    case ECI_A0:
+        return ofs < 4;
+    case ECI_A0A1:
+        return ofs < 8;
+    case ECI_A0A1A2:
+    case ECI_A0A1A2B0:
+        return ofs < 12;
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
 {
     /* VMOV scalar to general purpose register */
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
         return false;
     }
 
+    if (dc_isar_feature(aa32_mve, s)) {
+        if (!mve_eci_check(s)) {
+            return true;
+        }
+    }
+
     if (!vfp_access_check(s)) {
         return true;
     }
 
-    tmp = tcg_temp_new_i32();
-    read_neon_element32(tmp, a->vn, a->index, a->size | (a->u ? 0 : MO_SIGN));
-    store_reg(s, a->rt, tmp);
+    if (!mve_skip_vmov(s, a->vn, a->index, a->size)) {
+        tmp = tcg_temp_new_i32();
+        read_neon_element32(tmp, a->vn, a->index,
+                            a->size | (a->u ? 0 : MO_SIGN));
+        store_reg(s, a->rt, tmp);
+    }
 
+    if (dc_isar_feature(aa32_mve, s)) {
+        mve_update_and_store_eci(s);
+    }
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_from_gp(DisasContext *s, arg_VMOV_from_gp *a)
         return false;
     }
 
+    if (dc_isar_feature(aa32_mve, s)) {
+        if (!mve_eci_check(s)) {
+            return true;
+        }
+    }
+
     if (!vfp_access_check(s)) {
         return true;
     }
 
-    tmp = load_reg(s, a->rt);
-    write_neon_element32(tmp, a->vn, a->index, a->size);
-    tcg_temp_free_i32(tmp);
+    if (!mve_skip_vmov(s, a->vn, a->index, a->size)) {
+        tmp = load_reg(s, a->rt);
+        write_neon_element32(tmp, a->vn, a->index, a->size);
+        tcg_temp_free_i32(tmp);
+    }
 
+    if (dc_isar_feature(aa32_mve, s)) {
+        mve_update_and_store_eci(s);
+    }
     return true;
 }
 
-- 
2.20.1

From: Peter Collingbourne <pcc@google.com>

MTE3 introduces an asymmetric tag checking mode, in which loads are
checked synchronously and stores are checked asynchronously. Add
support for it.

Signed-off-by: Peter Collingbourne <pcc@google.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210616195614.11785-1-pcc@google.com
[PMM: Add line to emulation.rst]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/emulation.rst |  1 +
 target/arm/cpu64.c            |  2 +-
 target/arm/mte_helper.c       | 82 ++++++++++++++++++++++-------------
 3 files changed, 53 insertions(+), 32 deletions(-)

diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/emulation.rst
+++ b/docs/system/arm/emulation.rst
@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
 - FEAT_LSE (Large System Extensions)
 - FEAT_MTE (Memory Tagging Extension)
 - FEAT_MTE2 (Memory Tagging Extension)
+- FEAT_MTE3 (MTE Asymmetric Fault Handling)
 - FEAT_PAN (Privileged access never)
 - FEAT_PAN2 (AT S1E1R and AT S1E1W instruction variants affected by PSTATE.PAN)
 - FEAT_PAuth (Pointer authentication)
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          * during realize if the board provides no tag memory, much like
          * we do for EL2 with the virtualization=on property.
          */
-        t = FIELD_DP64(t, ID_AA64PFR1, MTE, 2);
+        t = FIELD_DP64(t, ID_AA64PFR1, MTE, 3);
         cpu->isar.id_aa64pfr1 = t;
 
         t = cpu->isar.id_aa64mmfr0;
diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(stzgm_tags)(CPUARMState *env, uint64_t ptr, uint64_t val)
     }
 }
 
+static void mte_sync_check_fail(CPUARMState *env, uint32_t desc,
+                                uint64_t dirty_ptr, uintptr_t ra)
+{
+    int is_write, syn;
+
+    env->exception.vaddress = dirty_ptr;
+
+    is_write = FIELD_EX32(desc, MTEDESC, WRITE);
+    syn = syn_data_abort_no_iss(arm_current_el(env) != 0, 0, 0, 0, 0, is_write,
+                                0x11);
+    raise_exception_ra(env, EXCP_DATA_ABORT, syn, exception_target_el(env), ra);
+    g_assert_not_reached();
+}
+
+static void mte_async_check_fail(CPUARMState *env, uint64_t dirty_ptr,
+                                 uintptr_t ra, ARMMMUIdx arm_mmu_idx, int el)
+{
+    int select;
+
+    if (regime_has_2_ranges(arm_mmu_idx)) {
+        select = extract64(dirty_ptr, 55, 1);
+    } else {
+        select = 0;
+    }
+    env->cp15.tfsr_el[el] |= 1 << select;
+#ifdef CONFIG_USER_ONLY
+    /*
+     * Stand in for a timer irq, setting _TIF_MTE_ASYNC_FAULT,
+     * which then sends a SIGSEGV when the thread is next scheduled.
+     * This cpu will return to the main loop at the end of the TB,
+     * which is rather sooner than "normal".  But the alternative
+     * is waiting until the next syscall.
+     */
+    qemu_cpu_kick(env_cpu(env));
+#endif
+}
+
 /* Record a tag check failure.  */
 static void mte_check_fail(CPUARMState *env, uint32_t desc,
                            uint64_t dirty_ptr, uintptr_t ra)
 {
     int mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
     ARMMMUIdx arm_mmu_idx = core_to_aa64_mmu_idx(mmu_idx);
-    int el, reg_el, tcf, select, is_write, syn;
+    int el, reg_el, tcf;
     uint64_t sctlr;
 
     reg_el = regime_el(env, arm_mmu_idx);
@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
     switch (tcf) {
     case 1:
         /* Tag check fail causes a synchronous exception. */
-        env->exception.vaddress = dirty_ptr;
-
-        is_write = FIELD_EX32(desc, MTEDESC, WRITE);
-        syn = syn_data_abort_no_iss(arm_current_el(env) != 0, 0, 0, 0, 0,
-                                    is_write, 0x11);
-        raise_exception_ra(env, EXCP_DATA_ABORT, syn,
-                           exception_target_el(env), ra);
-        /* noreturn, but fall through to the assert anyway */
+        mte_sync_check_fail(env, desc, dirty_ptr, ra);
+        break;
 
     case 0:
         /*
@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
 
     case 2:
         /* Tag check fail causes asynchronous flag set.  */
-        if (regime_has_2_ranges(arm_mmu_idx)) {
-            select = extract64(dirty_ptr, 55, 1);
-        } else {
-            select = 0;
-        }
-        env->cp15.tfsr_el[el] |= 1 << select;
-#ifdef CONFIG_USER_ONLY
-        /*
-         * Stand in for a timer irq, setting _TIF_MTE_ASYNC_FAULT,
-         * which then sends a SIGSEGV when the thread is next scheduled.
-         * This cpu will return to the main loop at the end of the TB,
-         * which is rather sooner than "normal".  But the alternative
-         * is waiting until the next syscall.
-         */
-        qemu_cpu_kick(env_cpu(env));
-#endif
+        mte_async_check_fail(env, dirty_ptr, ra, arm_mmu_idx, el);
         break;
 
-    default:
-        /* Case 3: Reserved. */
-        qemu_log_mask(LOG_GUEST_ERROR,
-                      "Tag check failure with SCTLR_EL%d.TCF%s "
-                      "set to reserved value %d\n",
-                      reg_el, el ? "" : "0", tcf);
+    case 3:
+        /*
+         * Tag check fail causes asynchronous flag set for stores, or
+         * a synchronous exception for loads.
+         */
+        if (FIELD_EX32(desc, MTEDESC, WRITE)) {
+            mte_async_check_fail(env, dirty_ptr, ra, arm_mmu_idx, el);
+        } else {
+            mte_sync_check_fail(env, desc, dirty_ptr, ra);
+        }
         break;
     }
 }
-- 
2.20.1

From: Alexandre Iooss <erdnaxe@crans.org>

This adds the target guide for BBC Micro:bit.

Information is taken from https://wiki.qemu.org/Features/MicroBit
and from hw/arm/nrf51_soc.c.

Signed-off-by: Alexandre Iooss <erdnaxe@crans.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Joel Stanley <joel@jms.id.au>
Message-id: 20210621075625.540471-1-erdnaxe@crans.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/system/arm/nrf.rst    | 51 ++++++++++++++++++++++++++++++++++++++
 docs/system/target-arm.rst |  1 +
 MAINTAINERS                |  1 +
 3 files changed, 53 insertions(+)
 create mode 100644 docs/system/arm/nrf.rst

diff --git a/docs/system/arm/nrf.rst b/docs/system/arm/nrf.rst
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/docs/system/arm/nrf.rst
@@ -XXX,XX +XXX,XX @@
+Nordic nRF boards (``microbit``)
+================================
+
+The `Nordic nRF`_ chips are a family of ARM-based System-on-Chip that
+are designed to be used for low-power and short-range wireless solutions.
+
+.. _Nordic nRF: https://www.nordicsemi.com/Products
+
+The nRF51 series is the first series for short range wireless applications.
+It is superseded by the nRF52 series.
+The following machines are based on this chip :
+
+- ``microbit``       BBC micro:bit board with nRF51822 SoC
+
+There are other series such as nRF52, nRF53 and nRF91 which are currently not
+supported by QEMU.
+
+Supported devices
+-----------------
+
+ * ARM Cortex-M0 (ARMv6-M)
+ * Serial ports (UART)
+ * Clock controller
+ * Timers
+ * Random Number Generator (RNG)
+ * GPIO controller
+ * NVMC
+ * SWI
+
+Missing devices
+---------------
+
+ * Watchdog
+ * Real-Time Clock (RTC) controller
+ * TWI (i2c)
+ * SPI controller
+ * Analog to Digital Converter (ADC)
+ * Quadrature decoder
+ * Radio
+
+Boot options
+------------
+
+The Micro:bit machine can be started using the ``-device`` option to load a
+firmware in `ihex format`_. Example:
+
+.. _ihex format: https://en.wikipedia.org/wiki/Intel_HEX
+
+.. code-block:: bash
+
+  $ qemu-system-arm -M microbit -device loader,file=test.hex
diff --git a/docs/system/target-arm.rst b/docs/system/target-arm.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/target-arm.rst
+++ b/docs/system/target-arm.rst
@@ -XXX,XX +XXX,XX @@ undocumented; you can get a complete list by running
    arm/digic
    arm/musicpal
    arm/gumstix
+   arm/nrf
    arm/nseries
    arm/nuvoton
    arm/orangepi
diff --git a/MAINTAINERS b/MAINTAINERS
index XXXXXXX..XXXXXXX 100644
--- a/MAINTAINERS
+++ b/MAINTAINERS
@@ -XXX,XX +XXX,XX @@ F: hw/*/microbit*.c
 F: include/hw/*/nrf51*.h
 F: include/hw/*/microbit*.h
 F: tests/qtest/microbit-test.c
+F: docs/system/arm/nrf.rst
 
 AVR Machines
 -------------
-- 
2.20.1