Series comparison

-[PULL 00/26] target-arm queue
+[PULL 00/21] target-arm queue
-Small pile of bug fixes for rc1. I've included my patches to get
+Hi; here's the latest batch of arm changes. The big thing
-our docs building with Sphinx 3, just for convenience...
+in here is the SMMUv3 changes to add stage-2 translation support.
+thanks
 -- PMM
-The following changes since commit b149dea55cce97cb226683d06af61984a1c11e96:
+The following changes since commit aa9bbd865502ed517624ab6fe7d4b5d89ca95e43:
-  Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20201102' into staging (2020-11-02 10:57:48 +0000)
+  Merge tag 'pull-ppc-20230528' of https://gitlab.com/danielhb/qemu into staging (2023-05-29 14:31:52 -0700)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20201102
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20230530
-for you to fetch changes up to ffb4fbf90a2f63c9cb33e4bb9f854c79bf04ca4a:
+for you to fetch changes up to b03d0d4f531a8b867e0aac1fab0b876903015680:
-  tests/qtest/npcm7xx_rng-test: Disable randomness tests (2020-11-02 16:52:18 +0000)
+  docs: sbsa: correct graphics card name (2023-05-30 13:32:46 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: Fix Neon emulation bugs on big-endian hosts
+ * fsl-imx6: Add SNVS support for i.MX6 boards
- * target/arm: fix handling of HCR.FB
+ * smmuv3: Add support for stage 2 translations
- * target/arm: fix LORID_EL1 access check
+ * hw/dma/xilinx_axidma: Check DMASR.HALTED to prevent infinite loop
- * disas/capstone: Fix monitor disassembly of >32 bytes
+ * hw/arm/xlnx-zynqmp: fix unsigned error when checking the RPUs number
- * hw/arm/smmuv3: Fix potential integer overflow (CID 1432363)
+ * cleanups for recent Kconfig changes
- * hw/arm/boot: fix SVE for EL3 direct kernel boot
+ * target/arm: Explicitly select short-format FSR for M-profile
- * hw/display/omap_lcdc: Fix potential NULL pointer dereference
+ * tests/qtest: Run arm-specific tests only if the required machine is available
- * hw/display/exynos4210_fimd: Fix potential NULL pointer dereference
+ * hw/arm/sbsa-ref: add GIC node into DT
- * target/arm: Get correct MMU index for other-security-state
+ * docs: sbsa: correct graphics card name
- * configure: Test that gio libs from pkg-config work
+ * Update copyright dates to 2023
  * hw/intc/arm_gicv3_cpuif: Make GIC maintenance interrupts work
  * docs: Fix building with Sphinx 3
  * tests/qtest/npcm7xx_rng-test: Disable randomness tests
 ----------------------------------------------------------------
-AlexChen (2):
+Clément Chigot (1):
-      hw/display/omap_lcdc: Fix potential NULL pointer dereference
+      hw/arm/xlnx-zynqmp: fix unsigned error when checking the RPUs number
       hw/display/exynos4210_fimd: Fix potential NULL pointer dereference
-Peter Maydell (9):
+Enze Li (1):
-      target/arm: Fix float16 pairwise Neon ops on big-endian hosts
+      Update copyright dates to 2023
       target/arm: Fix VUDOT/VSDOT (scalar) on big-endian hosts
       disas/capstone: Fix monitor disassembly of >32 bytes
       target/arm: Get correct MMU index for other-security-state
       configure: Test that gio libs from pkg-config work
       hw/intc/arm_gicv3_cpuif: Make GIC maintenance interrupts work
       scripts/kerneldoc: For Sphinx 3 use c:macro for macros with arguments
       qemu-option-trace.rst.inc: Don't use option:: markup
       tests/qtest/npcm7xx_rng-test: Disable randomness tests
-Philippe Mathieu-Daudé (1):
+Fabiano Rosas (3):
-      hw/arm/smmuv3: Fix potential integer overflow (CID 1432363)
+      target/arm: Explain why we need to select ARM_V7M
       arm/Kconfig: Keep Kconfig default entries in default.mak as documentation
       arm/Kconfig: Make TCG dependence explicit
-Richard Henderson (11):
+Marcin Juszkiewicz (2):
-      target/arm: Introduce neon_full_reg_offset
+      hw/arm/sbsa-ref: add GIC node into DT
-      target/arm: Move neon_element_offset to translate.c
+      docs: sbsa: correct graphics card name
       target/arm: Use neon_element_offset in neon_load/store_reg
       target/arm: Use neon_element_offset in vfp_reg_offset
       target/arm: Add read/write_neon_element32
       target/arm: Expand read/write_neon_element32 to all MemOp
       target/arm: Rename neon_load_reg32 to vfp_load_reg32
       target/arm: Add read/write_neon_element64
       target/arm: Rename neon_load_reg64 to vfp_load_reg64
       target/arm: Simplify do_long_3d and do_2scalar_long
       target/arm: Improve do_prewiden_3d
-Rémi Denis-Courmont (3):
+Mostafa Saleh (10):
-      target/arm: fix handling of HCR.FB
+      hw/arm/smmuv3: Add missing fields for IDR0
-      target/arm: fix LORID_EL1 access check
+      hw/arm/smmuv3: Update translation config to hold stage-2
-      hw/arm/boot: fix SVE for EL3 direct kernel boot
+      hw/arm/smmuv3: Refactor stage-1 PTW
       hw/arm/smmuv3: Add page table walk for stage-2
       hw/arm/smmuv3: Parse STE config for stage-2
       hw/arm/smmuv3: Make TLB lookup work for stage-2
       hw/arm/smmuv3: Add VMID to TLB tagging
       hw/arm/smmuv3: Add CMDs related to stage-2
       hw/arm/smmuv3: Add stage-2 support in iova notifier
       hw/arm/smmuv3: Add knob to choose translation stage and enable stage-2
- docs/qemu-option-trace.rst.inc     |   6 +-
+Peter Maydell (1):
- configure                          |  10 +-
+      target/arm: Explicitly select short-format FSR for M-profile
  include/hw/intc/arm_gicv3_common.h |   1 -
  disas/capstone.c                   |   2 +-
  hw/arm/boot.c                      |   3 +
  hw/arm/smmuv3.c                    |   3 +-
  hw/display/exynos4210_fimd.c       |   4 +-
  hw/display/omap_lcdc.c             |  10 +-
  hw/intc/arm_gicv3_cpuif.c          |   5 +-
  target/arm/helper.c                |  24 +-
  target/arm/m_helper.c              |   3 +-
  target/arm/translate.c             | 153 +++++++++---
  target/arm/vec_helper.c            |  12 +-
  tests/qtest/npcm7xx_rng-test.c     |  14 +-
  scripts/kernel-doc                 |  18 +-
  target/arm/translate-neon.c.inc    | 472 ++++++++++++++++++++-----------------
  target/arm/translate-vfp.c.inc     | 341 +++++++++++----------------
 files changed, 588 insertions(+), 493 deletions(-)
+Thomas Huth (1):
+      tests/qtest: Run arm-specific tests only if the required machine is available
+Tommy Wu (1):
+      hw/dma/xilinx_axidma: Check DMASR.HALTED to prevent infinite loop.
+Vitaly Cheptsov (1):
+      fsl-imx6: Add SNVS support for i.MX6 boards
+ docs/conf.py                                |   2 +-
+ docs/system/arm/sbsa.rst                    |   2 +-
+ configs/devices/aarch64-softmmu/default.mak |   6 +
+ configs/devices/arm-softmmu/default.mak     |  40 ++++
+ hw/arm/smmu-internal.h                      |  37 +++
+ hw/arm/smmuv3-internal.h                    |  12 +-
+ include/hw/arm/fsl-imx6.h                   |   2 +
+ include/hw/arm/smmu-common.h                |  45 +++-
+ include/hw/arm/smmuv3.h                     |   4 +
+ include/qemu/help-texts.h                   |   2 +-
+ hw/arm/fsl-imx6.c                           |   8 +
+ hw/arm/sbsa-ref.c                           |  19 +-
+ hw/arm/smmu-common.c                        | 209 ++++++++++++++--
+ hw/arm/smmuv3.c                             | 357 ++++++++++++++++++++++++----
+ hw/arm/xlnx-zynqmp.c                        |   2 +-
+ hw/dma/xilinx_axidma.c                      |  11 +-
+ target/arm/tcg/tlb_helper.c                 |  13 +-
+ hw/arm/Kconfig                              | 123 ++++++----
+ hw/arm/trace-events                         |  14 +-
+ target/arm/Kconfig                          |   3 +
+ tests/qtest/meson.build                     |   7 +-
+files changed, 773 insertions(+), 145 deletions(-)

-[PULL 15/26] target/arm: fix LORID_EL1 access check
+[PULL 01/21] fsl-imx6: Add SNVS support for i.MX6 boards
-From: Rémi Denis-Courmont <remi.denis.courmont@huawei.com>
+From: Vitaly Cheptsov <cheptsov@ispras.ru>
-Secure mode is not exempted from checking SCR_EL3.TLOR, and in the
+SNVS is supported on both i.MX6 and i.MX6UL and is needed
-future HCR_EL2.TLOR when S-EL2 is enabled.
+to support shutdown on the board.
-Signed-off-by: Rémi Denis-Courmont <remi.denis.courmont@huawei.com>
+Cc: Peter Maydell <peter.maydell@linaro.org> (odd fixer:SABRELITE / i.MX6)
 Cc: Jean-Christophe Dubois <jcd@tribudubois.net> (reviewer:SABRELITE / i.MX6)
 Cc: qemu-arm@nongnu.org (open list:SABRELITE / i.MX6)
 Cc: qemu-devel@nongnu.org (open list:All patches CC here)
 Signed-off-by: Vitaly Cheptsov <cheptsov@ispras.ru>
 Message-id: 20230515095015.66860-1-cheptsov@ispras.ru
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 19 +++++--------------
+ include/hw/arm/fsl-imx6.h | 2 ++
-file changed, 5 insertions(+), 14 deletions(-)
+ hw/arm/fsl-imx6.c         | 8 ++++++++
 files changed, 10 insertions(+)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/include/hw/arm/fsl-imx6.h b/include/hw/arm/fsl-imx6.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/include/hw/arm/fsl-imx6.h
-+++ b/target/arm/helper.c
++++ b/include/hw/arm/fsl-imx6.h
-@@ -XXX,XX +XXX,XX @@ static uint64_t id_aa64pfr0_read(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@
- #endif
+ #include "hw/cpu/a9mpcore.h"
+ #include "hw/misc/imx6_ccm.h"
- /* Shared logic between LORID and the rest of the LOR* registers.
+ #include "hw/misc/imx6_src.h"
-- * Secure state has already been delt with.
++#include "hw/misc/imx7_snvs.h"
-+ * Secure state exclusion has already been dealt with.
+ #include "hw/watchdog/wdt_imx2.h"
-  */
+ #include "hw/char/imx_serial.h"
--static CPAccessResult access_lor_ns(CPUARMState *env)
+ #include "hw/timer/imx_gpt.h"
-+static CPAccessResult access_lor_ns(CPUARMState *env,
+@@ -XXX,XX +XXX,XX @@ struct FslIMX6State {
-+                                    const ARMCPRegInfo *ri, bool isread)
+     A9MPPrivState  a9mpcore;
- {
+     IMX6CCMState   ccm;
-     int el = arm_current_el(env);
+     IMX6SRCState   src;
++    IMX7SNVSState  snvs;
-@@ -XXX,XX +XXX,XX @@ static CPAccessResult access_lor_ns(CPUARMState *env)
+     IMXSerialState uart[FSL_IMX6_NUM_UARTS];
-     return CP_ACCESS_OK;
+     IMXGPTState    gpt;
- }
+     IMXEPITState   epit[FSL_IMX6_NUM_EPITS];
+diff --git a/hw/arm/fsl-imx6.c b/hw/arm/fsl-imx6.c
--static CPAccessResult access_lorid(CPUARMState *env, const ARMCPRegInfo *ri,
+index XXXXXXX..XXXXXXX 100644
--                                   bool isread)
+--- a/hw/arm/fsl-imx6.c
--{
++++ b/hw/arm/fsl-imx6.c
--    if (arm_is_secure_below_el3(env)) {
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx6_init(Object *obj)
--        /* Access ok in secure mode.  */
--        return CP_ACCESS_OK;
+     object_initialize_child(obj, "src", &s->src, TYPE_IMX6_SRC);
--    }
--    return access_lor_ns(env);
++    object_initialize_child(obj, "snvs", &s->snvs, TYPE_IMX7_SNVS);
--}
++
--
+     for (i = 0; i < FSL_IMX6_NUM_UARTS; i++) {
- static CPAccessResult access_lor_other(CPUARMState *env,
+         snprintf(name, NAME_SIZE, "uart%d", i + 1);
-                                        const ARMCPRegInfo *ri, bool isread)
+         object_initialize_child(obj, name, &s->uart[i], TYPE_IMX_SERIAL);
- {
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx6_realize(DeviceState *dev, Error **errp)
-@@ -XXX,XX +XXX,XX @@ static CPAccessResult access_lor_other(CPUARMState *env,
+                        qdev_get_gpio_in(DEVICE(&s->a9mpcore),
-         /* Access denied in secure mode.  */
+                                         FSL_IMX6_ENET_MAC_1588_IRQ));
-         return CP_ACCESS_TRAP;
-     }
++    /*
--    return access_lor_ns(env);
++     * SNVS
-+    return access_lor_ns(env, ri, isread);
++     */
- }
++    sysbus_realize(SYS_BUS_DEVICE(&s->snvs), &error_abort);
++    sysbus_mmio_map(SYS_BUS_DEVICE(&s->snvs), 0, FSL_IMX6_SNVSHP_ADDR);
- /*
++
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo lor_reginfo[] = {
+     /*
-       .type = ARM_CP_CONST, .resetvalue = 0 },
+      * Watchdog
-     { .name = "LORID_EL1", .state = ARM_CP_STATE_AA64,
+      */
        .opc0 = 3, .opc1 = 0, .crn = 10, .crm = 4, .opc2 = 7,
 -      .access = PL1_R, .accessfn = access_lorid,
 +      .access = PL1_R, .accessfn = access_lor_ns,
        .type = ARM_CP_CONST, .resetvalue = 0 },
      REGINFO_SENTINEL
  };
 --
-.20.1
+.34.1

-[PULL 26/26] tests/qtest/npcm7xx_rng-test: Disable randomness tests
+[PULL 02/21] hw/arm/smmuv3: Add missing fields for IDR0
-The randomness tests in the NPCM7xx RNG test fail intermittently
+From: Mostafa Saleh <smostafa@google.com>
 but fairly frequently. On my machine running the test in a loop:
  while QTEST_QEMU_BINARY=./qemu-system-aarch64 ./tests/qtest/npcm7xx_rng-test; do true; done
-will fail in less than a minute with an error like:
+In preparation for adding stage-2 support.
-ERROR:../../tests/qtest/npcm7xx_rng-test.c:256:test_first_byte_runs:
+Add IDR0 fields related to stage-2.
 assertion failed (calc_runs_p(buf.l, sizeof(buf) * BITS_PER_BYTE) > 0.01): (0.00286205989 > 0.01)
-(Failures have been observed on all 4 of the randomness tests,
+VMID16: 16-bit VMID supported.
-not just first_byte_runs.)
+S2P: Stage-2 translation supported.
-It's not clear why these tests are failing like this, but intermittent
+They are described in 6.3.1 SMMU_IDR0.
 failures make CI and merge testing awkward, so disable running them
 unless a developer specifically sets QEMU_TEST_FLAKY_RNG_TESTS when
 running the test suite, until we work out the cause.
+No functional change intended.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
+Signed-off-by: Mostafa Saleh <smostafa@google.com>
+Tested-by: Eric Auger <eric.auger@redhat.com>
+Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
+Message-id: 20230516203327.2051088-2-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Message-id: 20201102152454.8287-1-peter.maydell@linaro.org
-Reviewed-by: Havard Skinnemoen <hskinnemoen@google.com>
 ---
- tests/qtest/npcm7xx_rng-test.c | 14 ++++++++++----
+ hw/arm/smmuv3-internal.h | 2 ++
-file changed, 10 insertions(+), 4 deletions(-)
+file changed, 2 insertions(+)
-diff --git a/tests/qtest/npcm7xx_rng-test.c b/tests/qtest/npcm7xx_rng-test.c
+diff --git a/hw/arm/smmuv3-internal.h b/hw/arm/smmuv3-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/tests/qtest/npcm7xx_rng-test.c
+--- a/hw/arm/smmuv3-internal.h
-+++ b/tests/qtest/npcm7xx_rng-test.c
++++ b/hw/arm/smmuv3-internal.h
-@@ -XXX,XX +XXX,XX @@ int main(int argc, char **argv)
+@@ -XXX,XX +XXX,XX @@ typedef enum SMMUTranslationStatus {
+ /* MMIO Registers */
-     qtest_add_func("npcm7xx_rng/enable_disable", test_enable_disable);
-     qtest_add_func("npcm7xx_rng/rosel", test_rosel);
+ REG32(IDR0,                0x0)
--    qtest_add_func("npcm7xx_rng/continuous/monobit", test_continuous_monobit);
++    FIELD(IDR0, S2P,         0 , 1)
--    qtest_add_func("npcm7xx_rng/continuous/runs", test_continuous_runs);
+     FIELD(IDR0, S1P,         1 , 1)
--    qtest_add_func("npcm7xx_rng/first_byte/monobit", test_first_byte_monobit);
+     FIELD(IDR0, TTF,         2 , 2)
--    qtest_add_func("npcm7xx_rng/first_byte/runs", test_first_byte_runs);
+     FIELD(IDR0, COHACC,      4 , 1)
-+    /*
+     FIELD(IDR0, ASID16,      12, 1)
-+     * These tests fail intermittently; only run them on explicit
++    FIELD(IDR0, VMID16,      18, 1)
-+     * request until we figure out why.
+     FIELD(IDR0, TTENDIAN,    21, 2)
-+     */
+     FIELD(IDR0, STALL_MODEL, 24, 2)
-+    if (getenv("QEMU_TEST_FLAKY_RNG_TESTS")) {
+     FIELD(IDR0, TERM_MODEL,  26, 1)
 +        qtest_add_func("npcm7xx_rng/continuous/monobit", test_continuous_monobit);
 +        qtest_add_func("npcm7xx_rng/continuous/runs", test_continuous_runs);
 +        qtest_add_func("npcm7xx_rng/first_byte/monobit", test_first_byte_monobit);
 +        qtest_add_func("npcm7xx_rng/first_byte/runs", test_first_byte_runs);
 +    }
      qtest_start("-machine npcm750-evb");
      ret = g_test_run();
 --
-.20.1
+.34.1

-[PULL 20/26] hw/display/exynos4210_fimd: Fix potential NULL pointer dereference
+[PULL 03/21] hw/arm/smmuv3: Update translation config to hold stage-2
-From: AlexChen <alex.chen@huawei.com>
+From: Mostafa Saleh <smostafa@google.com>
-In exynos4210_fimd_update(), the pointer s is dereferinced before
+In preparation for adding stage-2 support, add a S2 config
-being check if it is valid, which may lead to NULL pointer dereference.
+struct(SMMUS2Cfg), composed of the following fields and embedded in
-So move the assignment to global_width after checking that the s is valid.
+the main SMMUTransCfg:
  -tsz: Size of IPA input region (S2T0SZ)
  -sl0: Start level of translation (S2SL0)
  -affd: AF Fault Disable (S2AFFD)
  -record_faults: Record fault events (S2R)
  -granule_sz: Granule page shift (based on S2TG)
  -vmid: Virtual Machine ID (S2VMID)
  -vttb: Address of translation table base (S2TTB)
  -eff_ps: Effective PA output range (based on S2PS)
-Reported-by: Euler Robot <euler.robot@huawei.com>
+They will be used in the next patches in stage-2 address translation.
-Signed-off-by: Alex Chen <alex.chen@huawei.com>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+The fields in SMMUS2Cfg, are reordered to make the shared and stage-1
-Message-id: 5F9F8D88.9030102@huawei.com
+fields next to each other, this reordering didn't change the struct
 size (104 bytes before and after).
 Stage-1 only fields: aa64, asid, tt, ttb, tbi, record_faults, oas.
 oas is stage-1 output address size. However, it is used to check
 input address in case stage-1 is unimplemented or bypassed according
 to SMMUv3 manual IHI0070.E "3.4. Address sizes"
 Shared fields: stage, disabled, bypassed, aborted, iotlb_*.
 No functional change intended.
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Signed-off-by: Mostafa Saleh <smostafa@google.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-3-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/display/exynos4210_fimd.c | 4 +++-
+ include/hw/arm/smmu-common.h | 22 +++++++++++++++++++---
-file changed, 3 insertions(+), 1 deletion(-)
+file changed, 19 insertions(+), 3 deletions(-)
-diff --git a/hw/display/exynos4210_fimd.c b/hw/display/exynos4210_fimd.c
+diff --git a/include/hw/arm/smmu-common.h b/include/hw/arm/smmu-common.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/display/exynos4210_fimd.c
+--- a/include/hw/arm/smmu-common.h
-+++ b/hw/display/exynos4210_fimd.c
++++ b/include/hw/arm/smmu-common.h
-@@ -XXX,XX +XXX,XX @@ static void exynos4210_fimd_update(void *opaque)
+@@ -XXX,XX +XXX,XX @@ typedef struct SMMUTLBEntry {
-     bool blend = false;
+     uint8_t granule;
-     uint8_t *host_fb_addr;
+ } SMMUTLBEntry;
-     bool is_dirty = false;
--    const int global_width = (s->vidtcon[2] & FIMD_VIDTCON2_SIZE_MASK) + 1;
++/* Stage-2 configuration. */
-+    int global_width;
++typedef struct SMMUS2Cfg {
++    uint8_t tsz;            /* Size of IPA input region (S2T0SZ) */
-     if (!s || !s->console || !s->enabled ||
++    uint8_t sl0;            /* Start level of translation (S2SL0) */
-         surface_bits_per_pixel(qemu_console_surface(s->console)) == 0) {
++    bool affd;              /* AF Fault Disable (S2AFFD) */
-         return;
++    bool record_faults;     /* Record fault events (S2R) */
-     }
++    uint8_t granule_sz;     /* Granule page shift (based on S2TG) */
 +    uint8_t eff_ps;         /* Effective PA output range (based on S2PS) */
 +    uint16_t vmid;          /* Virtual Machine ID (S2VMID) */
 +    uint64_t vttb;          /* Address of translation table base (S2TTB) */
 +} SMMUS2Cfg;
 +
-+    global_width = (s->vidtcon[2] & FIMD_VIDTCON2_SIZE_MASK) + 1;
+ /*
-     exynos4210_update_resolution(s);
+  * Generic structure populated by derived SMMU devices
-     surface = qemu_console_surface(s->console);
+  * after decoding the configuration information and used as
+  * input to the page table walk
   */
  typedef struct SMMUTransCfg {
 +    /* Shared fields between stage-1 and stage-2. */
      int stage;                 /* translation stage */
 -    bool aa64;                 /* arch64 or aarch32 translation table */
      bool disabled;             /* smmu is disabled */
      bool bypassed;             /* translation is bypassed */
      bool aborted;              /* translation is aborted */
 +    uint32_t iotlb_hits;       /* counts IOTLB hits */
 +    uint32_t iotlb_misses;     /* counts IOTLB misses*/
 +    /* Used by stage-1 only. */
 +    bool aa64;                 /* arch64 or aarch32 translation table */
      bool record_faults;        /* record fault events */
      uint64_t ttb;              /* TT base address */
      uint8_t oas;               /* output address width */
      uint8_t tbi;               /* Top Byte Ignore */
      uint16_t asid;
      SMMUTransTableInfo tt[2];
 -    uint32_t iotlb_hits;       /* counts IOTLB hits for this asid */
 -    uint32_t iotlb_misses;     /* counts IOTLB misses for this asid */
 +    /* Used by stage-2 only. */
 +    struct SMMUS2Cfg s2cfg;
  } SMMUTransCfg;
  typedef struct SMMUDevice {
 --
-.20.1
+.34.1

-[PULL 10/26] target/arm: Simplify do_long_3d and do_2scalar_long
+[PULL 04/21] hw/arm/smmuv3: Refactor stage-1 PTW
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Mostafa Saleh <smostafa@google.com>
-In both cases, we can sink the write-back and perform
+In preparation for adding stage-2 support, rename smmu_ptw_64 to
-the accumulate into the normal destination temps.
+smmu_ptw_64_s1 and refactor some of the code so it can be reused in
 stage-2 page table walk.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Remove AA64 check from PTW as decode_cd already ensures that AA64 is
-Message-id: 20201030022618.785675-11-richard.henderson@linaro.org
+used, otherwise it faults with C_BAD_CD.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 A stage member is added to SMMUPTWEventInfo to differentiate
 between stage-1 and stage-2 ptw faults.
 Add stage argument to trace_smmu_ptw_level be consistent with other
 trace events.
 Signed-off-by: Mostafa Saleh <smostafa@google.com>
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-4-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-neon.c.inc | 23 +++++++++--------------
+ include/hw/arm/smmu-common.h | 16 +++++++++++++---
-file changed, 9 insertions(+), 14 deletions(-)
+ hw/arm/smmu-common.c         | 27 ++++++++++-----------------
  hw/arm/smmuv3.c              |  2 ++
  hw/arm/trace-events          |  2 +-
 files changed, 26 insertions(+), 21 deletions(-)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+diff --git a/include/hw/arm/smmu-common.h b/include/hw/arm/smmu-common.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+--- a/include/hw/arm/smmu-common.h
-+++ b/target/arm/translate-neon.c.inc
++++ b/include/hw/arm/smmu-common.h
-@@ -XXX,XX +XXX,XX @@ static bool do_long_3d(DisasContext *s, arg_3diff *a,
+@@ -XXX,XX +XXX,XX @@
-     if (accfn) {
+ #include "hw/pci/pci.h"
-         tmp = tcg_temp_new_i64();
+ #include "qom/object.h"
-         read_neon_element64(tmp, a->vd, 0, MO_64);
--        accfn(tmp, tmp, rd0);
+-#define SMMU_PCI_BUS_MAX      256
--        write_neon_element64(tmp, a->vd, 0, MO_64);
+-#define SMMU_PCI_DEVFN_MAX    256
-+        accfn(rd0, tmp, rd0);
+-#define SMMU_PCI_DEVFN(sid)   (sid & 0xFF)
-         read_neon_element64(tmp, a->vd, 1, MO_64);
++#define SMMU_PCI_BUS_MAX                    256
--        accfn(tmp, tmp, rd1);
++#define SMMU_PCI_DEVFN_MAX                  256
--        write_neon_element64(tmp, a->vd, 1, MO_64);
++#define SMMU_PCI_DEVFN(sid)                 (sid & 0xFF)
-+        accfn(rd1, tmp, rd1);
++
-         tcg_temp_free_i64(tmp);
++/* VMSAv8-64 Translation constants and functions */
--    } else {
++#define VMSA_LEVELS                         4
--        write_neon_element64(rd0, a->vd, 0, MO_64);
++
--        write_neon_element64(rd1, a->vd, 1, MO_64);
++#define VMSA_STRIDE(gran)                   ((gran) - VMSA_LEVELS + 1)
 +#define VMSA_BIT_LVL(isz, strd, lvl)        ((isz) - (strd) * \
 +                                             (VMSA_LEVELS - (lvl)))
 +#define VMSA_IDXMSK(isz, strd, lvl)         ((1ULL << \
 +                                             VMSA_BIT_LVL(isz, strd, lvl)) - 1)
  /*
   * Page table walk error types
@@ -XXX,XX +XXX,XX @@ typedef enum {
  } SMMUPTWEventType;
  typedef struct SMMUPTWEventInfo {
 +    int stage;
      SMMUPTWEventType type;
      dma_addr_t addr; /* fetched address that induced an abort, if any */
  } SMMUPTWEventInfo;
 diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmu-common.c
 +++ b/hw/arm/smmu-common.c
@@ -XXX,XX +XXX,XX @@ SMMUTransTableInfo *select_tt(SMMUTransCfg *cfg, dma_addr_t iova)
  }
  /**
 - * smmu_ptw_64 - VMSAv8-64 Walk of the page tables for a given IOVA
 + * smmu_ptw_64_s1 - VMSAv8-64 Walk of the page tables for a given IOVA
   * @cfg: translation config
   * @iova: iova to translate
   * @perm: access type
@@ -XXX,XX +XXX,XX @@ SMMUTransTableInfo *select_tt(SMMUTransCfg *cfg, dma_addr_t iova)
   * Upon success, @tlbe is filled with translated_addr and entry
   * permission rights.
   */
 -static int smmu_ptw_64(SMMUTransCfg *cfg,
 -                       dma_addr_t iova, IOMMUAccessFlags perm,
 -                       SMMUTLBEntry *tlbe, SMMUPTWEventInfo *info)
 +static int smmu_ptw_64_s1(SMMUTransCfg *cfg,
 +                          dma_addr_t iova, IOMMUAccessFlags perm,
 +                          SMMUTLBEntry *tlbe, SMMUPTWEventInfo *info)
  {
      dma_addr_t baseaddr, indexmask;
      int stage = cfg->stage;
@@ -XXX,XX +XXX,XX @@ static int smmu_ptw_64(SMMUTransCfg *cfg,
      }
-+    write_neon_element64(rd0, a->vd, 0, MO_64);
+     granule_sz = tt->granule_sz;
-+    write_neon_element64(rd1, a->vd, 1, MO_64);
+-    stride = granule_sz - 3;
-     tcg_temp_free_i64(rd0);
++    stride = VMSA_STRIDE(granule_sz);
-     tcg_temp_free_i64(rd1);
+     inputsize = 64 - tt->tsz;
+     level = 4 - (inputsize - 4) / stride;
-@@ -XXX,XX +XXX,XX @@ static bool do_2scalar_long(DisasContext *s, arg_2scalar *a,
+-    indexmask = (1ULL << (inputsize - (stride * (4 - level)))) - 1;
-     if (accfn) {
++    indexmask = VMSA_IDXMSK(inputsize, stride, level);
-         TCGv_i64 t64 = tcg_temp_new_i64();
+     baseaddr = extract64(tt->ttb, 0, 48);
-         read_neon_element64(t64, a->vd, 0, MO_64);
+     baseaddr &= ~indexmask;
--        accfn(t64, t64, rn0_64);
--        write_neon_element64(t64, a->vd, 0, MO_64);
+-    while (level <= 3) {
-+        accfn(rn0_64, t64, rn0_64);
++    while (level < VMSA_LEVELS) {
-         read_neon_element64(t64, a->vd, 1, MO_64);
+         uint64_t subpage_size = 1ULL << level_shift(level, granule_sz);
--        accfn(t64, t64, rn1_64);
+         uint64_t mask = subpage_size - 1;
--        write_neon_element64(t64, a->vd, 1, MO_64);
+         uint32_t offset = iova_level_offset(iova, inputsize, level, granule_sz);
-+        accfn(rn1_64, t64, rn1_64);
+@@ -XXX,XX +XXX,XX @@ static int smmu_ptw_64(SMMUTransCfg *cfg,
-         tcg_temp_free_i64(t64);
+         if (get_pte(baseaddr, offset, &pte, info)) {
--    } else {
+                 goto error;
--        write_neon_element64(rn0_64, a->vd, 0, MO_64);
+         }
--        write_neon_element64(rn1_64, a->vd, 1, MO_64);
+-        trace_smmu_ptw_level(level, iova, subpage_size,
-     }
++        trace_smmu_ptw_level(stage, level, iova, subpage_size,
-+
+                              baseaddr, offset, pte);
-+    write_neon_element64(rn0_64, a->vd, 0, MO_64);
-+    write_neon_element64(rn1_64, a->vd, 1, MO_64);
+         if (is_invalid_pte(pte) || is_reserved_pte(pte, level)) {
-     tcg_temp_free_i64(rn0_64);
+@@ -XXX,XX +XXX,XX @@ static int smmu_ptw_64(SMMUTransCfg *cfg,
-     tcg_temp_free_i64(rn1_64);
+     info->type = SMMU_PTW_ERR_TRANSLATION;
-     return true;
  error:
 +    info->stage = 1;
      tlbe->entry.perm = IOMMU_NONE;
      return -EINVAL;
  }
@@ -XXX,XX +XXX,XX @@ error:
  int smmu_ptw(SMMUTransCfg *cfg, dma_addr_t iova, IOMMUAccessFlags perm,
               SMMUTLBEntry *tlbe, SMMUPTWEventInfo *info)
  {
 -    if (!cfg->aa64) {
 -        /*
 -         * This code path is not entered as we check this while decoding
 -         * the configuration data in the derived SMMU model.
 -         */
 -        g_assert_not_reached();
 -    }
 -
 -    return smmu_ptw_64(cfg, iova, perm, tlbe, info);
 +    return smmu_ptw_64_s1(cfg, iova, perm, tlbe, info);
  }
  /**
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmuv3.c
 +++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static IOMMUTLBEntry smmuv3_translate(IOMMUMemoryRegion *mr, hwaddr addr,
      cached_entry = g_new0(SMMUTLBEntry, 1);
      if (smmu_ptw(cfg, aligned_addr, flag, cached_entry, &ptw_info)) {
 +        /* All faults from PTW has S2 field. */
 +        event.u.f_walk_eabt.s2 = (ptw_info.stage == 2);
          g_free(cached_entry);
          switch (ptw_info.type) {
          case SMMU_PTW_ERR_WALK_EABT:
 diff --git a/hw/arm/trace-events b/hw/arm/trace-events
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/trace-events
 +++ b/hw/arm/trace-events
@@ -XXX,XX +XXX,XX @@ virt_acpi_setup(void) "No fw cfg or ACPI disabled. Bailing out."
  # smmu-common.c
  smmu_add_mr(const char *name) "%s"
 -smmu_ptw_level(int level, uint64_t iova, size_t subpage_size, uint64_t baseaddr, uint32_t offset, uint64_t pte) "level=%d iova=0x%"PRIx64" subpage_sz=0x%zx baseaddr=0x%"PRIx64" offset=%d => pte=0x%"PRIx64
 +smmu_ptw_level(int stage, int level, uint64_t iova, size_t subpage_size, uint64_t baseaddr, uint32_t offset, uint64_t pte) "stage=%d level=%d iova=0x%"PRIx64" subpage_sz=0x%zx baseaddr=0x%"PRIx64" offset=%d => pte=0x%"PRIx64
  smmu_ptw_invalid_pte(int stage, int level, uint64_t baseaddr, uint64_t pteaddr, uint32_t offset, uint64_t pte) "stage=%d level=%d base@=0x%"PRIx64" pte@=0x%"PRIx64" offset=%d pte=0x%"PRIx64
  smmu_ptw_page_pte(int stage, int level,  uint64_t iova, uint64_t baseaddr, uint64_t pteaddr, uint64_t pte, uint64_t address) "stage=%d level=%d iova=0x%"PRIx64" base@=0x%"PRIx64" pte@=0x%"PRIx64" pte=0x%"PRIx64" page address = 0x%"PRIx64
  smmu_ptw_block_pte(int stage, int level, uint64_t baseaddr, uint64_t pteaddr, uint64_t pte, uint64_t iova, uint64_t gpa, int bsize_mb) "stage=%d level=%d base@=0x%"PRIx64" pte@=0x%"PRIx64" pte=0x%"PRIx64" iova=0x%"PRIx64" block address = 0x%"PRIx64" block size = %d MiB"
 --
-.20.1
+.34.1

-[PULL 05/26] target/arm: Add read/write_neon_element32
+[PULL 05/21] hw/arm/smmuv3: Add page table walk for stage-2
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Mostafa Saleh <smostafa@google.com>
-Model these off the aa64 read/write_vec_element functions.
+In preparation for adding stage-2 support, add Stage-2 PTW code.
-Use it within translate-neon.c.inc.  The new functions do
+Only Aarch64 format is supported as stage-1.
-not allocate or free temps, so this rearranges the calling
-code a bit.
+Nesting stage-1 and stage-2 is not supported right now.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+HTTU is not supported, SW is expected to maintain the Access flag.
-Message-id: 20201030022618.785675-6-richard.henderson@linaro.org
+This is described in the SMMUv3 manual(IHI 0070.E.a)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+"5.2. Stream Table Entry" in "[181] S2AFFD".
 This flag determines the behavior on access of a stage-2 page whose
 descriptor has AF == 0:
 - 0b0: An Access flag fault occurs (stall not supported).
 - 0b1: An Access flag fault never occurs.
 An Access fault takes priority over a Permission fault.
 There are 3 address size checks for stage-2 according to
 (IHI 0070.E.a) in "3.4. Address sizes".
 - As nesting is not supported, input address is passed directly to
 stage-2, and is checked against IAS.
 We use cfg->oas to hold the OAS when stage-1 is not used, this is set
 in the next patch.
 This check is done outside of smmu_ptw_64_s2 as it is not part of
 stage-2(it throws stage-1 fault), and the stage-2 function shouldn't
 change it's behavior when nesting is supported.
 When nesting is supported and we figure out how to combine TLB for
 stage-1 and stage-2 we can move this check into the stage-1 function
 as described in ARM DDI0487I.a in pseudocode
 aarch64/translation/vmsa_translation/AArch64.S1Translate
 aarch64/translation/vmsa_translation/AArch64.S1DisabledOutput
 - Input to stage-2 is checked against s2t0sz, and throws stage-2
 transaltion fault if exceeds it.
 - Output of stage-2 is checked against effective PA output range.
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Signed-off-by: Mostafa Saleh <smostafa@google.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-5-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c          |  26 ++++
+ hw/arm/smmu-internal.h |  35 ++++++++++
- target/arm/translate-neon.c.inc | 256 ++++++++++++++++++++------------
+ hw/arm/smmu-common.c   | 142 ++++++++++++++++++++++++++++++++++++++++-
-files changed, 183 insertions(+), 99 deletions(-)
+files changed, 176 insertions(+), 1 deletion(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/hw/arm/smmu-internal.h b/hw/arm/smmu-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/smmu-internal.h
-+++ b/target/arm/translate.c
++++ b/hw/arm/smmu-internal.h
-@@ -XXX,XX +XXX,XX @@ static inline void neon_store_reg32(TCGv_i32 var, int reg)
+@@ -XXX,XX +XXX,XX @@
-     tcg_gen_st_i32(var, cpu_env, vfp_reg_offset(false, reg));
+ #define PTE_APTABLE(pte) \
      (extract64(pte, 61, 2))
 +#define PTE_AF(pte) \
 +    (extract64(pte, 10, 1))
  /*
   * TODO: At the moment all transactions are considered as privileged (EL1)
   * as IOMMU translation callback does not pass user/priv attributes.
@@ -XXX,XX +XXX,XX @@
  #define is_permission_fault(ap, perm) \
      (((perm) & IOMMU_WO) && ((ap) & 0x2))
 +#define is_permission_fault_s2(s2ap, perm) \
 +    (!(((s2ap) & (perm)) == (perm)))
 +
  #define PTE_AP_TO_PERM(ap) \
      (IOMMU_ACCESS_FLAG(true, !((ap) & 0x2)))
@@ -XXX,XX +XXX,XX @@ uint64_t iova_level_offset(uint64_t iova, int inputsize,
              MAKE_64BIT_MASK(0, gsz - 3);
  }
-+static void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp size)
++/* FEAT_LPA2 and FEAT_TTST are not implemented. */
 +static inline int get_start_level(int sl0 , int granule_sz)
 +{
-+    long off = neon_element_offset(reg, ele, size);
++    /* ARM DDI0487I.a: Table D8-12. */
-+
++    if (granule_sz == 12) {
-+    switch (size) {
++        return 2 - sl0;
-+    case MO_32:
++    }
-+        tcg_gen_ld_i32(dest, cpu_env, off);
++    /* ARM DDI0487I.a: Table D8-22 and Table D8-31. */
-+        break;
++    return 3 - sl0;
 +    default:
 +        g_assert_not_reached();
 +    }
 +}
 +
-+static void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp size)
++/*
 + * Index in a concatenated first level stage-2 page table.
 + * ARM DDI0487I.a: D8.2.2 Concatenated translation tables.
 + */
 +static inline int pgd_concat_idx(int start_level, int granule_sz,
 +                                 dma_addr_t ipa)
 +{
-+    long off = neon_element_offset(reg, ele, size);
++    uint64_t ret;
-+
++    /*
-+    switch (size) {
++     * Get the number of bits handled by next levels, then any extra bits in
-+    case MO_32:
++     * the address should index the concatenated tables. This relation can be
-+        tcg_gen_st_i32(src, cpu_env, off);
++     * deduced from tables in ARM DDI0487I.a: D8.2.7-9
-+        break;
++     */
-+    default:
++    int shift =  level_shift(start_level - 1, granule_sz);
-+        g_assert_not_reached();
++
-+    }
++    ret = ipa >> shift;
 +    return ret;
 +}
 +
- static TCGv_ptr vfp_reg_ptr(bool dp, int reg)
+ #define SMMU_IOTLB_ASID(key) ((key).asid)
  typedef struct SMMUIOTLBPageInvInfo {
 diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmu-common.c
 +++ b/hw/arm/smmu-common.c
@@ -XXX,XX +XXX,XX @@ error:
      return -EINVAL;
  }
 +/**
 + * smmu_ptw_64_s2 - VMSAv8-64 Walk of the page tables for a given ipa
 + * for stage-2.
 + * @cfg: translation config
 + * @ipa: ipa to translate
 + * @perm: access type
 + * @tlbe: SMMUTLBEntry (out)
 + * @info: handle to an error info
 + *
 + * Return 0 on success, < 0 on error. In case of error, @info is filled
 + * and tlbe->perm is set to IOMMU_NONE.
 + * Upon success, @tlbe is filled with translated_addr and entry
 + * permission rights.
 + */
 +static int smmu_ptw_64_s2(SMMUTransCfg *cfg,
 +                          dma_addr_t ipa, IOMMUAccessFlags perm,
 +                          SMMUTLBEntry *tlbe, SMMUPTWEventInfo *info)
 +{
 +    const int stage = 2;
 +    int granule_sz = cfg->s2cfg.granule_sz;
 +    /* ARM DDI0487I.a: Table D8-7. */
 +    int inputsize = 64 - cfg->s2cfg.tsz;
 +    int level = get_start_level(cfg->s2cfg.sl0, granule_sz);
 +    int stride = VMSA_STRIDE(granule_sz);
 +    int idx = pgd_concat_idx(level, granule_sz, ipa);
 +    /*
 +     * Get the ttb from concatenated structure.
 +     * The offset is the idx * size of each ttb(number of ptes * (sizeof(pte))
 +     */
 +    uint64_t baseaddr = extract64(cfg->s2cfg.vttb, 0, 48) + (1 << stride) *
 +                                  idx * sizeof(uint64_t);
 +    dma_addr_t indexmask = VMSA_IDXMSK(inputsize, stride, level);
 +
 +    baseaddr &= ~indexmask;
 +
 +    /*
 +     * On input, a stage 2 Translation fault occurs if the IPA is outside the
 +     * range configured by the relevant S2T0SZ field of the STE.
 +     */
 +    if (ipa >= (1ULL << inputsize)) {
 +        info->type = SMMU_PTW_ERR_TRANSLATION;
 +        goto error;
 +    }
 +
 +    while (level < VMSA_LEVELS) {
 +        uint64_t subpage_size = 1ULL << level_shift(level, granule_sz);
 +        uint64_t mask = subpage_size - 1;
 +        uint32_t offset = iova_level_offset(ipa, inputsize, level, granule_sz);
 +        uint64_t pte, gpa;
 +        dma_addr_t pte_addr = baseaddr + offset * sizeof(pte);
 +        uint8_t s2ap;
 +
 +        if (get_pte(baseaddr, offset, &pte, info)) {
 +                goto error;
 +        }
 +        trace_smmu_ptw_level(stage, level, ipa, subpage_size,
 +                             baseaddr, offset, pte);
 +        if (is_invalid_pte(pte) || is_reserved_pte(pte, level)) {
 +            trace_smmu_ptw_invalid_pte(stage, level, baseaddr,
 +                                       pte_addr, offset, pte);
 +            break;
 +        }
 +
 +        if (is_table_pte(pte, level)) {
 +            baseaddr = get_table_pte_address(pte, granule_sz);
 +            level++;
 +            continue;
 +        } else if (is_page_pte(pte, level)) {
 +            gpa = get_page_pte_address(pte, granule_sz);
 +            trace_smmu_ptw_page_pte(stage, level, ipa,
 +                                    baseaddr, pte_addr, pte, gpa);
 +        } else {
 +            uint64_t block_size;
 +
 +            gpa = get_block_pte_address(pte, level, granule_sz,
 +                                        &block_size);
 +            trace_smmu_ptw_block_pte(stage, level, baseaddr,
 +                                     pte_addr, pte, ipa, gpa,
 +                                     block_size >> 20);
 +        }
 +
 +        /*
 +         * If S2AFFD and PTE.AF are 0 => fault. (5.2. Stream Table Entry)
 +         * An Access fault takes priority over a Permission fault.
 +         */
 +        if (!PTE_AF(pte) && !cfg->s2cfg.affd) {
 +            info->type = SMMU_PTW_ERR_ACCESS;
 +            goto error;
 +        }
 +
 +        s2ap = PTE_AP(pte);
 +        if (is_permission_fault_s2(s2ap, perm)) {
 +            info->type = SMMU_PTW_ERR_PERMISSION;
 +            goto error;
 +        }
 +
 +        /*
 +         * The address output from the translation causes a stage 2 Address
 +         * Size fault if it exceeds the effective PA output range.
 +         */
 +        if (gpa >= (1ULL << cfg->s2cfg.eff_ps)) {
 +            info->type = SMMU_PTW_ERR_ADDR_SIZE;
 +            goto error;
 +        }
 +
 +        tlbe->entry.translated_addr = gpa;
 +        tlbe->entry.iova = ipa & ~mask;
 +        tlbe->entry.addr_mask = mask;
 +        tlbe->entry.perm = s2ap;
 +        tlbe->level = level;
 +        tlbe->granule = granule_sz;
 +        return 0;
 +    }
 +    info->type = SMMU_PTW_ERR_TRANSLATION;
 +
 +error:
 +    info->stage = 2;
 +    tlbe->entry.perm = IOMMU_NONE;
 +    return -EINVAL;
 +}
 +
  /**
   * smmu_ptw - Walk the page tables for an IOVA, according to @cfg
   *
@@ -XXX,XX +XXX,XX @@ error:
  int smmu_ptw(SMMUTransCfg *cfg, dma_addr_t iova, IOMMUAccessFlags perm,
               SMMUTLBEntry *tlbe, SMMUPTWEventInfo *info)
  {
-     TCGv_ptr ret = tcg_temp_new_ptr();
+-    return smmu_ptw_64_s1(cfg, iova, perm, tlbe, info);
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
++    if (cfg->stage == 1) {
-index XXXXXXX..XXXXXXX 100644
++        return smmu_ptw_64_s1(cfg, iova, perm, tlbe, info);
---- a/target/arm/translate-neon.c.inc
++    } else if (cfg->stage == 2) {
-+++ b/target/arm/translate-neon.c.inc
++        /*
-@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
++         * If bypassing stage 1(or unimplemented), the input address is passed
-      * early. Since Q is 0 there are always just two passes, so instead
++         * directly to stage 2 as IPA. If the input address of a transaction
-      * of a complicated loop over each pass we just unroll.
++         * exceeds the size of the IAS, a stage 1 Address Size fault occurs.
-      */
++         * For AA64, IAS = OAS according to (IHI 0070.E.a) "3.4 Address sizes"
--    tmp = neon_load_reg(a->vn, 0);
++         */
--    tmp2 = neon_load_reg(a->vn, 1);
++        if (iova >= (1ULL << cfg->oas)) {
-+    tmp = tcg_temp_new_i32();
++            info->type = SMMU_PTW_ERR_ADDR_SIZE;
-+    tmp2 = tcg_temp_new_i32();
++            info->stage = 1;
-+    tmp3 = tcg_temp_new_i32();
++            tlbe->entry.perm = IOMMU_NONE;
-+
++            return -EINVAL;
-+    read_neon_element32(tmp, a->vn, 0, MO_32);
++        }
-+    read_neon_element32(tmp2, a->vn, 1, MO_32);
++
-     fn(tmp, tmp, tmp2);
++        return smmu_ptw_64_s2(cfg, iova, perm, tlbe, info);
--    tcg_temp_free_i32(tmp2);
++    }
++
--    tmp3 = neon_load_reg(a->vm, 0);
++    g_assert_not_reached();
 -    tmp2 = neon_load_reg(a->vm, 1);
 +    read_neon_element32(tmp3, a->vm, 0, MO_32);
 +    read_neon_element32(tmp2, a->vm, 1, MO_32);
      fn(tmp3, tmp3, tmp2);
 -    tcg_temp_free_i32(tmp2);
 -    neon_store_reg(a->vd, 0, tmp);
 -    neon_store_reg(a->vd, 1, tmp3);
 +    write_neon_element32(tmp, a->vd, 0, MO_32);
 +    write_neon_element32(tmp3, a->vd, 1, MO_32);
 +
 +    tcg_temp_free_i32(tmp);
 +    tcg_temp_free_i32(tmp2);
 +    tcg_temp_free_i32(tmp3);
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static bool do_2shift_env_32(DisasContext *s, arg_2reg_shift *a,
+ /**
       * 2-reg-and-shift operations, size < 3 case, where the
       * helper needs to be passed cpu_env.
       */
 -    TCGv_i32 constimm;
 +    TCGv_i32 constimm, tmp;
      int pass;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_env_32(DisasContext *s, arg_2reg_shift *a,
       * by immediate using the variable shift operations.
       */
      constimm = tcg_const_i32(dup_const(a->size, a->shift));
 +    tmp = tcg_temp_new_i32();
      for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
 +        read_neon_element32(tmp, a->vm, pass, MO_32);
          fn(tmp, cpu_env, tmp, constimm);
 -        neon_store_reg(a->vd, pass, tmp);
 +        write_neon_element32(tmp, a->vd, pass, MO_32);
      }
 +    tcg_temp_free_i32(tmp);
      tcg_temp_free_i32(constimm);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
      constimm = tcg_const_i64(-a->shift);
      rm1 = tcg_temp_new_i64();
      rm2 = tcg_temp_new_i64();
 +    rd = tcg_temp_new_i32();
      /* Load both inputs first to avoid potential overwrite if rm == rd */
      neon_load_reg64(rm1, a->vm);
      neon_load_reg64(rm2, a->vm + 1);
      shiftfn(rm1, rm1, constimm);
 -    rd = tcg_temp_new_i32();
      narrowfn(rd, cpu_env, rm1);
 -    neon_store_reg(a->vd, 0, rd);
 +    write_neon_element32(rd, a->vd, 0, MO_32);
      shiftfn(rm2, rm2, constimm);
 -    rd = tcg_temp_new_i32();
      narrowfn(rd, cpu_env, rm2);
 -    neon_store_reg(a->vd, 1, rd);
 +    write_neon_element32(rd, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(rd);
      tcg_temp_free_i64(rm1);
      tcg_temp_free_i64(rm2);
      tcg_temp_free_i64(constimm);
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
      constimm = tcg_const_i32(imm);
      /* Load all inputs first to avoid potential overwrite */
 -    rm1 = neon_load_reg(a->vm, 0);
 -    rm2 = neon_load_reg(a->vm, 1);
 -    rm3 = neon_load_reg(a->vm + 1, 0);
 -    rm4 = neon_load_reg(a->vm + 1, 1);
 +    rm1 = tcg_temp_new_i32();
 +    rm2 = tcg_temp_new_i32();
 +    rm3 = tcg_temp_new_i32();
 +    rm4 = tcg_temp_new_i32();
 +    read_neon_element32(rm1, a->vm, 0, MO_32);
 +    read_neon_element32(rm2, a->vm, 1, MO_32);
 +    read_neon_element32(rm3, a->vm, 2, MO_32);
 +    read_neon_element32(rm4, a->vm, 3, MO_32);
      rtmp = tcg_temp_new_i64();
      shiftfn(rm1, rm1, constimm);
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
      tcg_temp_free_i32(rm2);
      narrowfn(rm1, cpu_env, rtmp);
 -    neon_store_reg(a->vd, 0, rm1);
 +    write_neon_element32(rm1, a->vd, 0, MO_32);
 +    tcg_temp_free_i32(rm1);
      shiftfn(rm3, rm3, constimm);
      shiftfn(rm4, rm4, constimm);
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
      narrowfn(rm3, cpu_env, rtmp);
      tcg_temp_free_i64(rtmp);
 -    neon_store_reg(a->vd, 1, rm3);
 +    write_neon_element32(rm3, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(rm3);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_vshll_2sh(DisasContext *s, arg_2reg_shift *a,
          widen_mask = dup_const(a->size + 1, widen_mask);
      }
 -    rm0 = neon_load_reg(a->vm, 0);
 -    rm1 = neon_load_reg(a->vm, 1);
 +    rm0 = tcg_temp_new_i32();
 +    rm1 = tcg_temp_new_i32();
 +    read_neon_element32(rm0, a->vm, 0, MO_32);
 +    read_neon_element32(rm1, a->vm, 1, MO_32);
      tmp = tcg_temp_new_i64();
      widenfn(tmp, rm0);
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
      if (src1_wide) {
          neon_load_reg64(rn0_64, a->vn);
      } else {
 -        TCGv_i32 tmp = neon_load_reg(a->vn, 0);
 +        TCGv_i32 tmp = tcg_temp_new_i32();
 +        read_neon_element32(tmp, a->vn, 0, MO_32);
          widenfn(rn0_64, tmp);
          tcg_temp_free_i32(tmp);
      }
 -    rm = neon_load_reg(a->vm, 0);
 +    rm = tcg_temp_new_i32();
 +    read_neon_element32(rm, a->vm, 0, MO_32);
      widenfn(rm_64, rm);
      tcg_temp_free_i32(rm);
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
      if (src1_wide) {
          neon_load_reg64(rn1_64, a->vn + 1);
      } else {
 -        TCGv_i32 tmp = neon_load_reg(a->vn, 1);
 +        TCGv_i32 tmp = tcg_temp_new_i32();
 +        read_neon_element32(tmp, a->vn, 1, MO_32);
          widenfn(rn1_64, tmp);
          tcg_temp_free_i32(tmp);
      }
 -    rm = neon_load_reg(a->vm, 1);
 +    rm = tcg_temp_new_i32();
 +    read_neon_element32(rm, a->vm, 1, MO_32);
      neon_store_reg64(rn0_64, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool do_narrow_3d(DisasContext *s, arg_3diff *a,
      narrowfn(rd1, rn_64);
 -    neon_store_reg(a->vd, 0, rd0);
 -    neon_store_reg(a->vd, 1, rd1);
 +    write_neon_element32(rd0, a->vd, 0, MO_32);
 +    write_neon_element32(rd1, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(rd0);
 +    tcg_temp_free_i32(rd1);
      tcg_temp_free_i64(rn_64);
      tcg_temp_free_i64(rm_64);
@@ -XXX,XX +XXX,XX @@ static bool do_long_3d(DisasContext *s, arg_3diff *a,
      rd0 = tcg_temp_new_i64();
      rd1 = tcg_temp_new_i64();
 -    rn = neon_load_reg(a->vn, 0);
 -    rm = neon_load_reg(a->vm, 0);
 +    rn = tcg_temp_new_i32();
 +    rm = tcg_temp_new_i32();
 +    read_neon_element32(rn, a->vn, 0, MO_32);
 +    read_neon_element32(rm, a->vm, 0, MO_32);
      opfn(rd0, rn, rm);
 -    tcg_temp_free_i32(rn);
 -    tcg_temp_free_i32(rm);
 -    rn = neon_load_reg(a->vn, 1);
 -    rm = neon_load_reg(a->vm, 1);
 +    read_neon_element32(rn, a->vn, 1, MO_32);
 +    read_neon_element32(rm, a->vm, 1, MO_32);
      opfn(rd1, rn, rm);
      tcg_temp_free_i32(rn);
      tcg_temp_free_i32(rm);
@@ -XXX,XX +XXX,XX @@ static void gen_neon_dup_high16(TCGv_i32 var)
  static inline TCGv_i32 neon_get_scalar(int size, int reg)
  {
 -    TCGv_i32 tmp;
 -    if (size == 1) {
 -        tmp = neon_load_reg(reg & 7, reg >> 4);
 +    TCGv_i32 tmp = tcg_temp_new_i32();
 +    if (size == MO_16) {
 +        read_neon_element32(tmp, reg & 7, reg >> 4, MO_32);
          if (reg & 8) {
              gen_neon_dup_high16(tmp);
          } else {
              gen_neon_dup_low16(tmp);
          }
      } else {
 -        tmp = neon_load_reg(reg & 15, reg >> 4);
 +        read_neon_element32(tmp, reg & 15, reg >> 4, MO_32);
      }
      return tmp;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_2scalar(DisasContext *s, arg_2scalar *a,
       * perform an accumulation operation of that result into the
       * destination.
       */
 -    TCGv_i32 scalar;
 +    TCGv_i32 scalar, tmp;
      int pass;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static bool do_2scalar(DisasContext *s, arg_2scalar *a,
      }
      scalar = neon_get_scalar(a->size, a->vm);
 +    tmp = tcg_temp_new_i32();
      for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        TCGv_i32 tmp = neon_load_reg(a->vn, pass);
 +        read_neon_element32(tmp, a->vn, pass, MO_32);
          opfn(tmp, tmp, scalar);
          if (accfn) {
 -            TCGv_i32 rd = neon_load_reg(a->vd, pass);
 +            TCGv_i32 rd = tcg_temp_new_i32();
 +            read_neon_element32(rd, a->vd, pass, MO_32);
              accfn(tmp, rd, tmp);
              tcg_temp_free_i32(rd);
          }
 -        neon_store_reg(a->vd, pass, tmp);
 +        write_neon_element32(tmp, a->vd, pass, MO_32);
      }
 +    tcg_temp_free_i32(tmp);
      tcg_temp_free_i32(scalar);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_vqrdmlah_2sc(DisasContext *s, arg_2scalar *a,
       * performs a kind of fused op-then-accumulate using a helper
       * function that takes all of rd, rn and the scalar at once.
       */
 -    TCGv_i32 scalar;
 +    TCGv_i32 scalar, rn, rd;
      int pass;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static bool do_vqrdmlah_2sc(DisasContext *s, arg_2scalar *a,
      }
      scalar = neon_get_scalar(a->size, a->vm);
 +    rn = tcg_temp_new_i32();
 +    rd = tcg_temp_new_i32();
      for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        TCGv_i32 rn = neon_load_reg(a->vn, pass);
 -        TCGv_i32 rd = neon_load_reg(a->vd, pass);
 +        read_neon_element32(rn, a->vn, pass, MO_32);
 +        read_neon_element32(rd, a->vd, pass, MO_32);
          opfn(rd, cpu_env, rn, scalar, rd);
 -        tcg_temp_free_i32(rn);
 -        neon_store_reg(a->vd, pass, rd);
 +        write_neon_element32(rd, a->vd, pass, MO_32);
      }
 +    tcg_temp_free_i32(rn);
 +    tcg_temp_free_i32(rd);
      tcg_temp_free_i32(scalar);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool do_2scalar_long(DisasContext *s, arg_2scalar *a,
      scalar = neon_get_scalar(a->size, a->vm);
      /* Load all inputs before writing any outputs, in case of overlap */
 -    rn = neon_load_reg(a->vn, 0);
 +    rn = tcg_temp_new_i32();
 +    read_neon_element32(rn, a->vn, 0, MO_32);
      rn0_64 = tcg_temp_new_i64();
      opfn(rn0_64, rn, scalar);
 -    tcg_temp_free_i32(rn);
 -    rn = neon_load_reg(a->vn, 1);
 +    read_neon_element32(rn, a->vn, 1, MO_32);
      rn1_64 = tcg_temp_new_i64();
      opfn(rn1_64, rn, scalar);
      tcg_temp_free_i32(rn);
@@ -XXX,XX +XXX,XX @@ static bool trans_VTBL(DisasContext *s, arg_VTBL *a)
          return false;
      }
      n <<= 3;
 +    tmp = tcg_temp_new_i32();
      if (a->op) {
 -        tmp = neon_load_reg(a->vd, 0);
 +        read_neon_element32(tmp, a->vd, 0, MO_32);
      } else {
 -        tmp = tcg_temp_new_i32();
          tcg_gen_movi_i32(tmp, 0);
      }
 -    tmp2 = neon_load_reg(a->vm, 0);
 +    tmp2 = tcg_temp_new_i32();
 +    read_neon_element32(tmp2, a->vm, 0, MO_32);
      ptr1 = vfp_reg_ptr(true, a->vn);
      tmp4 = tcg_const_i32(n);
      gen_helper_neon_tbl(tmp2, tmp2, tmp, ptr1, tmp4);
 -    tcg_temp_free_i32(tmp);
 +
      if (a->op) {
 -        tmp = neon_load_reg(a->vd, 1);
 +        read_neon_element32(tmp, a->vd, 1, MO_32);
      } else {
 -        tmp = tcg_temp_new_i32();
          tcg_gen_movi_i32(tmp, 0);
      }
 -    tmp3 = neon_load_reg(a->vm, 1);
 +    tmp3 = tcg_temp_new_i32();
 +    read_neon_element32(tmp3, a->vm, 1, MO_32);
      gen_helper_neon_tbl(tmp3, tmp3, tmp, ptr1, tmp4);
 +    tcg_temp_free_i32(tmp);
      tcg_temp_free_i32(tmp4);
      tcg_temp_free_ptr(ptr1);
 -    neon_store_reg(a->vd, 0, tmp2);
 -    neon_store_reg(a->vd, 1, tmp3);
 -    tcg_temp_free_i32(tmp);
 +
 +    write_neon_element32(tmp2, a->vd, 0, MO_32);
 +    write_neon_element32(tmp3, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(tmp2);
 +    tcg_temp_free_i32(tmp3);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP_scalar(DisasContext *s, arg_VDUP_scalar *a)
  static bool trans_VREV64(DisasContext *s, arg_VREV64 *a)
  {
      int pass, half;
 +    TCGv_i32 tmp[2];
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VREV64(DisasContext *s, arg_VREV64 *a)
          return true;
      }
 -    for (pass = 0; pass < (a->q ? 2 : 1); pass++) {
 -        TCGv_i32 tmp[2];
 +    tmp[0] = tcg_temp_new_i32();
 +    tmp[1] = tcg_temp_new_i32();
 +    for (pass = 0; pass < (a->q ? 2 : 1); pass++) {
          for (half = 0; half < 2; half++) {
 -            tmp[half] = neon_load_reg(a->vm, pass * 2 + half);
 +            read_neon_element32(tmp[half], a->vm, pass * 2 + half, MO_32);
              switch (a->size) {
              case 0:
                  tcg_gen_bswap32_i32(tmp[half], tmp[half]);
@@ -XXX,XX +XXX,XX @@ static bool trans_VREV64(DisasContext *s, arg_VREV64 *a)
                  g_assert_not_reached();
              }
          }
 -        neon_store_reg(a->vd, pass * 2, tmp[1]);
 -        neon_store_reg(a->vd, pass * 2 + 1, tmp[0]);
 +        write_neon_element32(tmp[1], a->vd, pass * 2, MO_32);
 +        write_neon_element32(tmp[0], a->vd, pass * 2 + 1, MO_32);
      }
 +
 +    tcg_temp_free_i32(tmp[0]);
 +    tcg_temp_free_i32(tmp[1]);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_2misc_pairwise(DisasContext *s, arg_2misc *a,
          rm0_64 = tcg_temp_new_i64();
          rm1_64 = tcg_temp_new_i64();
          rd_64 = tcg_temp_new_i64();
 -        tmp = neon_load_reg(a->vm, pass * 2);
 +
 +        tmp = tcg_temp_new_i32();
 +        read_neon_element32(tmp, a->vm, pass * 2, MO_32);
          widenfn(rm0_64, tmp);
 -        tcg_temp_free_i32(tmp);
 -        tmp = neon_load_reg(a->vm, pass * 2 + 1);
 +        read_neon_element32(tmp, a->vm, pass * 2 + 1, MO_32);
          widenfn(rm1_64, tmp);
          tcg_temp_free_i32(tmp);
 +
          opfn(rd_64, rm0_64, rm1_64);
          tcg_temp_free_i64(rm0_64);
          tcg_temp_free_i64(rm1_64);
@@ -XXX,XX +XXX,XX @@ static bool do_vmovn(DisasContext *s, arg_2misc *a,
      narrowfn(rd0, cpu_env, rm);
      neon_load_reg64(rm, a->vm + 1);
      narrowfn(rd1, cpu_env, rm);
 -    neon_store_reg(a->vd, 0, rd0);
 -    neon_store_reg(a->vd, 1, rd1);
 +    write_neon_element32(rd0, a->vd, 0, MO_32);
 +    write_neon_element32(rd1, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(rd0);
 +    tcg_temp_free_i32(rd1);
      tcg_temp_free_i64(rm);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_VSHLL(DisasContext *s, arg_2misc *a)
      }
      rd = tcg_temp_new_i64();
 +    rm0 = tcg_temp_new_i32();
 +    rm1 = tcg_temp_new_i32();
 -    rm0 = neon_load_reg(a->vm, 0);
 -    rm1 = neon_load_reg(a->vm, 1);
 +    read_neon_element32(rm0, a->vm, 0, MO_32);
 +    read_neon_element32(rm1, a->vm, 1, MO_32);
      widenfn(rd, rm0);
      tcg_gen_shli_i64(rd, rd, 8 << a->size);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_F16_F32(DisasContext *s, arg_2misc *a)
      fpst = fpstatus_ptr(FPST_STD);
      ahp = get_ahp_flag();
 -    tmp = neon_load_reg(a->vm, 0);
 +    tmp = tcg_temp_new_i32();
 +    read_neon_element32(tmp, a->vm, 0, MO_32);
      gen_helper_vfp_fcvt_f32_to_f16(tmp, tmp, fpst, ahp);
 -    tmp2 = neon_load_reg(a->vm, 1);
 +    tmp2 = tcg_temp_new_i32();
 +    read_neon_element32(tmp2, a->vm, 1, MO_32);
      gen_helper_vfp_fcvt_f32_to_f16(tmp2, tmp2, fpst, ahp);
      tcg_gen_shli_i32(tmp2, tmp2, 16);
      tcg_gen_or_i32(tmp2, tmp2, tmp);
 -    tcg_temp_free_i32(tmp);
 -    tmp = neon_load_reg(a->vm, 2);
 +    read_neon_element32(tmp, a->vm, 2, MO_32);
      gen_helper_vfp_fcvt_f32_to_f16(tmp, tmp, fpst, ahp);
 -    tmp3 = neon_load_reg(a->vm, 3);
 -    neon_store_reg(a->vd, 0, tmp2);
 +    tmp3 = tcg_temp_new_i32();
 +    read_neon_element32(tmp3, a->vm, 3, MO_32);
 +    write_neon_element32(tmp2, a->vd, 0, MO_32);
 +    tcg_temp_free_i32(tmp2);
      gen_helper_vfp_fcvt_f32_to_f16(tmp3, tmp3, fpst, ahp);
      tcg_gen_shli_i32(tmp3, tmp3, 16);
      tcg_gen_or_i32(tmp3, tmp3, tmp);
 -    neon_store_reg(a->vd, 1, tmp3);
 +    write_neon_element32(tmp3, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(tmp3);
      tcg_temp_free_i32(tmp);
      tcg_temp_free_i32(ahp);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_F32_F16(DisasContext *s, arg_2misc *a)
      fpst = fpstatus_ptr(FPST_STD);
      ahp = get_ahp_flag();
      tmp3 = tcg_temp_new_i32();
 -    tmp = neon_load_reg(a->vm, 0);
 -    tmp2 = neon_load_reg(a->vm, 1);
 +    tmp2 = tcg_temp_new_i32();
 +    tmp = tcg_temp_new_i32();
 +    read_neon_element32(tmp, a->vm, 0, MO_32);
 +    read_neon_element32(tmp2, a->vm, 1, MO_32);
      tcg_gen_ext16u_i32(tmp3, tmp);
      gen_helper_vfp_fcvt_f16_to_f32(tmp3, tmp3, fpst, ahp);
 -    neon_store_reg(a->vd, 0, tmp3);
 +    write_neon_element32(tmp3, a->vd, 0, MO_32);
      tcg_gen_shri_i32(tmp, tmp, 16);
      gen_helper_vfp_fcvt_f16_to_f32(tmp, tmp, fpst, ahp);
 -    neon_store_reg(a->vd, 1, tmp);
 -    tmp3 = tcg_temp_new_i32();
 +    write_neon_element32(tmp, a->vd, 1, MO_32);
 +    tcg_temp_free_i32(tmp);
      tcg_gen_ext16u_i32(tmp3, tmp2);
      gen_helper_vfp_fcvt_f16_to_f32(tmp3, tmp3, fpst, ahp);
 -    neon_store_reg(a->vd, 2, tmp3);
 +    write_neon_element32(tmp3, a->vd, 2, MO_32);
 +    tcg_temp_free_i32(tmp3);
      tcg_gen_shri_i32(tmp2, tmp2, 16);
      gen_helper_vfp_fcvt_f16_to_f32(tmp2, tmp2, fpst, ahp);
 -    neon_store_reg(a->vd, 3, tmp2);
 +    write_neon_element32(tmp2, a->vd, 3, MO_32);
 +    tcg_temp_free_i32(tmp2);
      tcg_temp_free_i32(ahp);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ DO_2M_CRYPTO(SHA256SU0, aa32_sha2, 2)
  static bool do_2misc(DisasContext *s, arg_2misc *a, NeonGenOneOpFn *fn)
  {
 +    TCGv_i32 tmp;
      int pass;
      /* Handle a 2-reg-misc operation by iterating 32 bits at a time */
@@ -XXX,XX +XXX,XX @@ static bool do_2misc(DisasContext *s, arg_2misc *a, NeonGenOneOpFn *fn)
          return true;
      }
 +    tmp = tcg_temp_new_i32();
      for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        TCGv_i32 tmp = neon_load_reg(a->vm, pass);
 +        read_neon_element32(tmp, a->vm, pass, MO_32);
          fn(tmp, tmp);
 -        neon_store_reg(a->vd, pass, tmp);
 +        write_neon_element32(tmp, a->vd, pass, MO_32);
      }
 +    tcg_temp_free_i32(tmp);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_VTRN(DisasContext *s, arg_2misc *a)
          return true;
      }
 -    if (a->size == 2) {
 +    tmp = tcg_temp_new_i32();
 +    tmp2 = tcg_temp_new_i32();
 +    if (a->size == MO_32) {
          for (pass = 0; pass < (a->q ? 4 : 2); pass += 2) {
 -            tmp = neon_load_reg(a->vm, pass);
 -            tmp2 = neon_load_reg(a->vd, pass + 1);
 -            neon_store_reg(a->vm, pass, tmp2);
 -            neon_store_reg(a->vd, pass + 1, tmp);
 +            read_neon_element32(tmp, a->vm, pass, MO_32);
 +            read_neon_element32(tmp2, a->vd, pass + 1, MO_32);
 +            write_neon_element32(tmp2, a->vm, pass, MO_32);
 +            write_neon_element32(tmp, a->vd, pass + 1, MO_32);
          }
      } else {
          for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -            tmp = neon_load_reg(a->vm, pass);
 -            tmp2 = neon_load_reg(a->vd, pass);
 -            if (a->size == 0) {
 +            read_neon_element32(tmp, a->vm, pass, MO_32);
 +            read_neon_element32(tmp2, a->vd, pass, MO_32);
 +            if (a->size == MO_8) {
                  gen_neon_trn_u8(tmp, tmp2);
              } else {
                  gen_neon_trn_u16(tmp, tmp2);
              }
 -            neon_store_reg(a->vm, pass, tmp2);
 -            neon_store_reg(a->vd, pass, tmp);
 +            write_neon_element32(tmp2, a->vm, pass, MO_32);
 +            write_neon_element32(tmp, a->vd, pass, MO_32);
          }
      }
 +    tcg_temp_free_i32(tmp);
 +    tcg_temp_free_i32(tmp2);
      return true;
  }
 --
-.20.1
+.34.1

-[PULL 02/26] target/arm: Move neon_element_offset to translate.c
+[PULL 06/21] hw/arm/smmuv3: Parse STE config for stage-2
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Mostafa Saleh <smostafa@google.com>
-This will shortly have users outside of translate-neon.c.inc.
+Parse stage-2 configuration from STE and populate it in SMMUS2Cfg.
+Validity of field values are checked when possible.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20201030022618.785675-3-richard.henderson@linaro.org
+Only AA64 tables are supported and Small Translation Tables (STT) are
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+not supported.
 According to SMMUv3 UM(IHI0070E) "5.2 Stream Table Entry": All fields
 with an S2 prefix (with the exception of S2VMID) are IGNORED when
 stage-2 bypasses translation (Config[1] == 0).
 Which means that VMID can be used(for TLB tagging) even if stage-2 is
 bypassed, so we parse it unconditionally when S2P exists. Otherwise
 it is set to -1.(only S1P)
 As stall is not supported, if S2S is set the translation would abort.
 For S2R, we reuse the same code used for stage-1 with flag
 record_faults. However when nested translation is supported we would
 need to separate stage-1 and stage-2 faults.
 Fix wrong shift in STE_S2HD, STE_S2HA, STE_S2S.
 Signed-off-by: Mostafa Saleh <smostafa@google.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Message-id: 20230516203327.2051088-6-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c          | 20 ++++++++++++++++++++
+ hw/arm/smmuv3-internal.h     |  10 +-
- target/arm/translate-neon.c.inc | 19 -------------------
+ include/hw/arm/smmu-common.h |   1 +
-files changed, 20 insertions(+), 19 deletions(-)
+ include/hw/arm/smmuv3.h      |   3 +
+ hw/arm/smmuv3.c              | 181 +++++++++++++++++++++++++++++++++--
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+files changed, 185 insertions(+), 10 deletions(-)
 diff --git a/hw/arm/smmuv3-internal.h b/hw/arm/smmuv3-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/smmuv3-internal.h
-+++ b/target/arm/translate.c
++++ b/hw/arm/smmuv3-internal.h
-@@ -XXX,XX +XXX,XX @@ static long neon_full_reg_offset(unsigned reg)
+@@ -XXX,XX +XXX,XX @@ typedef struct CD {
-     return offsetof(CPUARMState, vfp.zregs[reg >> 1].d[reg & 1]);
+ #define STE_S2TG(x)        extract32((x)->word[5], 14, 2)
  #define STE_S2PS(x)        extract32((x)->word[5], 16, 3)
  #define STE_S2AA64(x)      extract32((x)->word[5], 19, 1)
 -#define STE_S2HD(x)        extract32((x)->word[5], 24, 1)
 -#define STE_S2HA(x)        extract32((x)->word[5], 25, 1)
 -#define STE_S2S(x)         extract32((x)->word[5], 26, 1)
 +#define STE_S2ENDI(x)      extract32((x)->word[5], 20, 1)
 +#define STE_S2AFFD(x)      extract32((x)->word[5], 21, 1)
 +#define STE_S2HD(x)        extract32((x)->word[5], 23, 1)
 +#define STE_S2HA(x)        extract32((x)->word[5], 24, 1)
 +#define STE_S2S(x)         extract32((x)->word[5], 25, 1)
 +#define STE_S2R(x)         extract32((x)->word[5], 26, 1)
 +
  #define STE_CTXPTR(x)                                           \
      ({                                                          \
          unsigned long addr;                                     \
 diff --git a/include/hw/arm/smmu-common.h b/include/hw/arm/smmu-common.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/smmu-common.h
 +++ b/include/hw/arm/smmu-common.h
@@ -XXX,XX +XXX,XX @@
  /* VMSAv8-64 Translation constants and functions */
  #define VMSA_LEVELS                         4
 +#define VMSA_MAX_S2_CONCAT                  16
  #define VMSA_STRIDE(gran)                   ((gran) - VMSA_LEVELS + 1)
  #define VMSA_BIT_LVL(isz, strd, lvl)        ((isz) - (strd) * \
 diff --git a/include/hw/arm/smmuv3.h b/include/hw/arm/smmuv3.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/smmuv3.h
 +++ b/include/hw/arm/smmuv3.h
@@ -XXX,XX +XXX,XX @@ struct SMMUv3Class {
  #define TYPE_ARM_SMMUV3   "arm-smmuv3"
  OBJECT_DECLARE_TYPE(SMMUv3State, SMMUv3Class, ARM_SMMUV3)
 +#define STAGE1_SUPPORTED(s)      FIELD_EX32(s->idr[0], IDR0, S1P)
 +#define STAGE2_SUPPORTED(s)      FIELD_EX32(s->idr[0], IDR0, S2P)
 +
  #endif
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmuv3.c
 +++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@
  #include "smmuv3-internal.h"
  #include "smmu-internal.h"
 +#define PTW_RECORD_FAULT(cfg)   (((cfg)->stage == 1) ? (cfg)->record_faults : \
 +                                 (cfg)->s2cfg.record_faults)
 +
  /**
   * smmuv3_trigger_irq - pulse @irq if enabled and update
   * GERROR register in case of GERROR interrupt
@@ -XXX,XX +XXX,XX @@ static int smmu_get_cd(SMMUv3State *s, STE *ste, uint32_t ssid,
      return 0;
  }
 +/*
-+ * Return the offset of a 2**SIZE piece of a NEON register, at index ELE,
++ * Max valid value is 39 when SMMU_IDR3.STT == 0.
-+ * where 0 is the least significant end of the register.
++ * In architectures after SMMUv3.0:
 + * - If STE.S2TG selects a 4KB or 16KB granule, the minimum valid value for this
 + *   field is MAX(16, 64-IAS)
 + * - If STE.S2TG selects a 64KB granule, the minimum valid value for this field
 + *   is (64-IAS).
 + * As we only support AA64, IAS = OAS.
 + */
-+static long neon_element_offset(int reg, int element, MemOp size)
++static bool s2t0sz_valid(SMMUTransCfg *cfg)
 +{
-+    int element_size = 1 << size;
++    if (cfg->s2cfg.tsz > 39) {
-+    int ofs = element * element_size;
++        return false;
-+#ifdef HOST_WORDS_BIGENDIAN
++    }
 +
 +    if (cfg->s2cfg.granule_sz == 16) {
 +        return (cfg->s2cfg.tsz >= 64 - oas2bits(SMMU_IDR5_OAS));
 +    }
 +
 +    return (cfg->s2cfg.tsz >= MAX(64 - oas2bits(SMMU_IDR5_OAS), 16));
 +}
 +
 +/*
 + * Return true if s2 page table config is valid.
 + * This checks with the configured start level, ias_bits and granularity we can
 + * have a valid page table as described in ARM ARM D8.2 Translation process.
 + * The idea here is to see for the highest possible number of IPA bits, how
 + * many concatenated tables we would need, if it is more than 16, then this is
 + * not possible.
 + */
 +static bool s2_pgtable_config_valid(uint8_t sl0, uint8_t t0sz, uint8_t gran)
 +{
 +    int level = get_start_level(sl0, gran);
 +    uint64_t ipa_bits = 64 - t0sz;
 +    uint64_t max_ipa = (1ULL << ipa_bits) - 1;
 +    int nr_concat = pgd_concat_idx(level, gran, max_ipa) + 1;
 +
 +    return nr_concat <= VMSA_MAX_S2_CONCAT;
 +}
 +
 +static int decode_ste_s2_cfg(SMMUTransCfg *cfg, STE *ste)
 +{
 +    cfg->stage = 2;
 +
 +    if (STE_S2AA64(ste) == 0x0) {
 +        qemu_log_mask(LOG_UNIMP,
 +                      "SMMUv3 AArch32 tables not supported\n");
 +        g_assert_not_reached();
 +    }
 +
 +    switch (STE_S2TG(ste)) {
 +    case 0x0: /* 4KB */
 +        cfg->s2cfg.granule_sz = 12;
 +        break;
 +    case 0x1: /* 64KB */
 +        cfg->s2cfg.granule_sz = 16;
 +        break;
 +    case 0x2: /* 16KB */
 +        cfg->s2cfg.granule_sz = 14;
 +        break;
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "SMMUv3 bad STE S2TG: %x\n", STE_S2TG(ste));
 +        goto bad_ste;
 +    }
 +
 +    cfg->s2cfg.vttb = STE_S2TTB(ste);
 +
 +    cfg->s2cfg.sl0 = STE_S2SL0(ste);
 +    /* FEAT_TTST not supported. */
 +    if (cfg->s2cfg.sl0 == 0x3) {
 +        qemu_log_mask(LOG_UNIMP, "SMMUv3 S2SL0 = 0x3 has no meaning!\n");
 +        goto bad_ste;
 +    }
 +
 +    /* For AA64, The effective S2PS size is capped to the OAS. */
 +    cfg->s2cfg.eff_ps = oas2bits(MIN(STE_S2PS(ste), SMMU_IDR5_OAS));
 +    /*
-+     * Calculate the offset assuming fully little-endian,
++     * It is ILLEGAL for the address in S2TTB to be outside the range
-+     * then XOR to account for the order of the 8-byte units.
++     * described by the effective S2PS value.
 +     */
-+    if (element_size < 8) {
++    if (cfg->s2cfg.vttb & ~(MAKE_64BIT_MASK(0, cfg->s2cfg.eff_ps))) {
-+        ofs ^= 8 - element_size;
++        qemu_log_mask(LOG_GUEST_ERROR,
-+    }
++                      "SMMUv3 S2TTB too large 0x%lx, effective PS %d bits\n",
-+#endif
++                      cfg->s2cfg.vttb,  cfg->s2cfg.eff_ps);
-+    return neon_full_reg_offset(reg) + ofs;
++        goto bad_ste;
 +    }
 +
 +    cfg->s2cfg.tsz = STE_S2T0SZ(ste);
 +
 +    if (!s2t0sz_valid(cfg)) {
 +        qemu_log_mask(LOG_GUEST_ERROR, "SMMUv3 bad STE S2T0SZ = %d\n",
 +                      cfg->s2cfg.tsz);
 +        goto bad_ste;
 +    }
 +
 +    if (!s2_pgtable_config_valid(cfg->s2cfg.sl0, cfg->s2cfg.tsz,
 +                                    cfg->s2cfg.granule_sz)) {
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "SMMUv3 STE stage 2 config not valid!\n");
 +        goto bad_ste;
 +    }
 +
 +    /* Only LE supported(IDR0.TTENDIAN). */
 +    if (STE_S2ENDI(ste)) {
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "SMMUv3 STE_S2ENDI only supports LE!\n");
 +        goto bad_ste;
 +    }
 +
 +    cfg->s2cfg.affd = STE_S2AFFD(ste);
 +
 +    cfg->s2cfg.record_faults = STE_S2R(ste);
 +    /* As stall is not supported. */
 +    if (STE_S2S(ste)) {
 +        qemu_log_mask(LOG_UNIMP, "SMMUv3 Stall not implemented!\n");
 +        goto bad_ste;
 +    }
 +
 +    /* This is still here as stage 2 has not been fully enabled yet. */
 +    qemu_log_mask(LOG_UNIMP, "SMMUv3 does not support stage 2 yet\n");
 +    goto bad_ste;
 +
 +    return 0;
 +
 +bad_ste:
 +    return -EINVAL;
 +}
 +
- static inline long vfp_reg_offset(bool dp, unsigned reg)
+ /* Returns < 0 in case of invalid STE, 0 otherwise */
  static int decode_ste(SMMUv3State *s, SMMUTransCfg *cfg,
                        STE *ste, SMMUEventInfo *event)
  {
-     if (dp) {
+     uint32_t config;
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
++    int ret;
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+     if (!STE_VALID(ste)) {
-+++ b/target/arm/translate-neon.c.inc
+         if (!event->inval_ste_allowed) {
-@@ -XXX,XX +XXX,XX @@ static inline int neon_3same_fp_size(DisasContext *s, int x)
+@@ -XXX,XX +XXX,XX @@ static int decode_ste(SMMUv3State *s, SMMUTransCfg *cfg,
- #include "decode-neon-ls.c.inc"
+         return 0;
- #include "decode-neon-shared.c.inc"
+     }
--/* Return the offset of a 2**SIZE piece of a NEON register, at index ELE,
+-    if (STE_CFG_S2_ENABLED(config)) {
-- * where 0 is the least significant end of the register.
+-        qemu_log_mask(LOG_UNIMP, "SMMUv3 does not support stage 2 yet\n");
-- */
++    /*
--static inline long
++     * If a stage is enabled in SW while not advertised, throw bad ste
--neon_element_offset(int reg, int element, MemOp size)
++     * according to user manual(IHI0070E) "5.2 Stream Table Entry".
--{
++     */
--    int element_size = 1 << size;
++    if (!STAGE1_SUPPORTED(s) && STE_CFG_S1_ENABLED(config)) {
--    int ofs = element * element_size;
++        qemu_log_mask(LOG_GUEST_ERROR, "SMMUv3 S1 used but not supported.\n");
--#ifdef HOST_WORDS_BIGENDIAN
+         goto bad_ste;
--    /* Calculate the offset assuming fully little-endian,
+     }
--     * then XOR to account for the order of the 8-byte units.
++    if (!STAGE2_SUPPORTED(s) && STE_CFG_S2_ENABLED(config)) {
--     */
++        qemu_log_mask(LOG_GUEST_ERROR, "SMMUv3 S2 used but not supported.\n");
--    if (element_size < 8) {
++        goto bad_ste;
--        ofs ^= 8 - element_size;
++    }
--    }
++
--#endif
++    if (STAGE2_SUPPORTED(s)) {
--    return neon_full_reg_offset(reg) + ofs;
++        /* VMID is considered even if s2 is disabled. */
--}
++        cfg->s2cfg.vmid = STE_S2VMID(ste);
--
++    } else {
- static void neon_load_element(TCGv_i32 var, int reg, int ele, MemOp mop)
++        /* Default to -1 */
- {
++        cfg->s2cfg.vmid = -1;
-     long offset = neon_element_offset(reg, ele, mop & MO_SIZE);
++    }
 +
 +    if (STE_CFG_S2_ENABLED(config)) {
 +        /*
 +         * Stage-1 OAS defaults to OAS even if not enabled as it would be used
 +         * in input address check for stage-2.
 +         */
 +        cfg->oas = oas2bits(SMMU_IDR5_OAS);
 +        ret = decode_ste_s2_cfg(cfg, ste);
 +        if (ret) {
 +            goto bad_ste;
 +        }
 +    }
      if (STE_S1CDMAX(ste) != 0) {
          qemu_log_mask(LOG_UNIMP,
@@ -XXX,XX +XXX,XX @@ static IOMMUTLBEntry smmuv3_translate(IOMMUMemoryRegion *mr, hwaddr addr,
      if (cached_entry) {
          if ((flag & IOMMU_WO) && !(cached_entry->entry.perm & IOMMU_WO)) {
              status = SMMU_TRANS_ERROR;
 -            if (cfg->record_faults) {
 +            /*
 +             * We know that the TLB only contains either stage-1 or stage-2 as
 +             * nesting is not supported. So it is sufficient to check the
 +             * translation stage to know the TLB stage for now.
 +             */
 +            event.u.f_walk_eabt.s2 = (cfg->stage == 2);
 +            if (PTW_RECORD_FAULT(cfg)) {
                  event.type = SMMU_EVT_F_PERMISSION;
                  event.u.f_permission.addr = addr;
                  event.u.f_permission.rnw = flag & 0x1;
@@ -XXX,XX +XXX,XX @@ static IOMMUTLBEntry smmuv3_translate(IOMMUMemoryRegion *mr, hwaddr addr,
              event.u.f_walk_eabt.addr2 = ptw_info.addr;
              break;
          case SMMU_PTW_ERR_TRANSLATION:
 -            if (cfg->record_faults) {
 +            if (PTW_RECORD_FAULT(cfg)) {
                  event.type = SMMU_EVT_F_TRANSLATION;
                  event.u.f_translation.addr = addr;
                  event.u.f_translation.rnw = flag & 0x1;
              }
              break;
          case SMMU_PTW_ERR_ADDR_SIZE:
 -            if (cfg->record_faults) {
 +            if (PTW_RECORD_FAULT(cfg)) {
                  event.type = SMMU_EVT_F_ADDR_SIZE;
                  event.u.f_addr_size.addr = addr;
                  event.u.f_addr_size.rnw = flag & 0x1;
              }
              break;
          case SMMU_PTW_ERR_ACCESS:
 -            if (cfg->record_faults) {
 +            if (PTW_RECORD_FAULT(cfg)) {
                  event.type = SMMU_EVT_F_ACCESS;
                  event.u.f_access.addr = addr;
                  event.u.f_access.rnw = flag & 0x1;
              }
              break;
          case SMMU_PTW_ERR_PERMISSION:
 -            if (cfg->record_faults) {
 +            if (PTW_RECORD_FAULT(cfg)) {
                  event.type = SMMU_EVT_F_PERMISSION;
                  event.u.f_permission.addr = addr;
                  event.u.f_permission.rnw = flag & 0x1;
 --
-.20.1
+.34.1

-[PULL 17/26] hw/arm/smmuv3: Fix potential integer overflow (CID 1432363)
+[PULL 07/21] hw/arm/smmuv3: Make TLB lookup work for stage-2
-From: Philippe Mathieu-Daudé <philmd@redhat.com>
+From: Mostafa Saleh <smostafa@google.com>
-Use the BIT_ULL() macro to ensure we use 64-bit arithmetic.
+Right now, either stage-1 or stage-2 are supported, this simplifies
-This fixes the following Coverity issue (OVERFLOW_BEFORE_WIDEN):
+how we can deal with TLBs.
 This patch makes TLB lookup work if stage-2 is enabled instead of
 stage-1.
 TLB lookup is done before a PTW, if a valid entry is found we won't
 do the PTW.
 To be able to do TLB lookup, we need the correct tagging info, as
 granularity and input size, so we get this based on the supported
 translation stage. The TLB entries are added correctly from each
 stage PTW.
-  CID 1432363 (#1 of 1): Unintentional integer overflow:
+When nested translation is supported, this would need to change, for
 example if we go with a combined TLB implementation, we would need to
 use the min of the granularities in TLB.
-  overflow_before_widen:
+As stage-2 shouldn't be tagged by ASID, it will be set to -1 if S1P
-    Potentially overflowing expression 1 << scale with type int
+is not enabled.
     (32 bits, signed) is evaluated using 32-bit arithmetic, and
     then used in a context that expects an expression of type
     hwaddr (64 bits, unsigned).
-Signed-off-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Signed-off-by: Mostafa Saleh <smostafa@google.com>
-Acked-by: Eric Auger <eric.auger@redhat.com>
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
-Message-id: 20201030144617.1535064-1-philmd@redhat.com
+Tested-by: Eric Auger <eric.auger@redhat.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-7-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/smmuv3.c | 3 ++-
+ hw/arm/smmuv3.c | 44 +++++++++++++++++++++++++++++++++-----------
-file changed, 2 insertions(+), 1 deletion(-)
+file changed, 33 insertions(+), 11 deletions(-)
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmuv3.c
 +++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static int smmuv3_decode_config(IOMMUMemoryRegion *mr, SMMUTransCfg *cfg,
-  */
+     STE ste;
+     CD cd;
- #include "qemu/osdep.h"
-+#include "qemu/bitops.h"
++    /* ASID defaults to -1 (if s1 is not supported). */
- #include "hw/irq.h"
++    cfg->asid = -1;
- #include "hw/sysbus.h"
++
- #include "migration/vmstate.h"
+     ret = smmu_find_ste(s, sid, &ste, event);
-@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
+     if (ret) {
-         scale = CMD_SCALE(cmd);
+         return ret;
-         num = CMD_NUM(cmd);
+@@ -XXX,XX +XXX,XX @@ static IOMMUTLBEntry smmuv3_translate(IOMMUMemoryRegion *mr, hwaddr addr,
-         ttl = CMD_TTL(cmd);
+         .addr_mask = ~(hwaddr)0,
--        num_pages = (num + 1) * (1 << (scale));
+         .perm = IOMMU_NONE,
-+        num_pages = (num + 1) * BIT_ULL(scale);
+     };
 +    /*
 +     * Combined attributes used for TLB lookup, as only one stage is supported,
 +     * it will hold attributes based on the enabled stage.
 +     */
 +    SMMUTransTableInfo tt_combined;
      qemu_mutex_lock(&s->mutex);
@@ -XXX,XX +XXX,XX @@ static IOMMUTLBEntry smmuv3_translate(IOMMUMemoryRegion *mr, hwaddr addr,
          goto epilogue;
      }
-     if (type == SMMU_CMD_TLBI_NH_VA) {
+-    tt = select_tt(cfg, addr);
 -    if (!tt) {
 -        if (cfg->record_faults) {
 -            event.type = SMMU_EVT_F_TRANSLATION;
 -            event.u.f_translation.addr = addr;
 -            event.u.f_translation.rnw = flag & 0x1;
 +    if (cfg->stage == 1) {
 +        /* Select stage1 translation table. */
 +        tt = select_tt(cfg, addr);
 +        if (!tt) {
 +            if (cfg->record_faults) {
 +                event.type = SMMU_EVT_F_TRANSLATION;
 +                event.u.f_translation.addr = addr;
 +                event.u.f_translation.rnw = flag & 0x1;
 +            }
 +            status = SMMU_TRANS_ERROR;
 +            goto epilogue;
          }
 -        status = SMMU_TRANS_ERROR;
 -        goto epilogue;
 -    }
 +        tt_combined.granule_sz = tt->granule_sz;
 +        tt_combined.tsz = tt->tsz;
 -    page_mask = (1ULL << (tt->granule_sz)) - 1;
 +    } else {
 +        /* Stage2. */
 +        tt_combined.granule_sz = cfg->s2cfg.granule_sz;
 +        tt_combined.tsz = cfg->s2cfg.tsz;
 +    }
 +    /*
 +     * TLB lookup looks for granule and input size for a translation stage,
 +     * as only one stage is supported right now, choose the right values
 +     * from the configuration.
 +     */
 +    page_mask = (1ULL << tt_combined.granule_sz) - 1;
      aligned_addr = addr & ~page_mask;
 -    cached_entry = smmu_iotlb_lookup(bs, cfg, tt, aligned_addr);
 +    cached_entry = smmu_iotlb_lookup(bs, cfg, &tt_combined, aligned_addr);
      if (cached_entry) {
          if ((flag & IOMMU_WO) && !(cached_entry->entry.perm & IOMMU_WO)) {
              status = SMMU_TRANS_ERROR;
 --
-.20.1
+.34.1

-[PULL 19/26] hw/display/omap_lcdc: Fix potential NULL pointer dereference
+[PULL 08/21] hw/arm/smmuv3: Add VMID to TLB tagging
-From: AlexChen <alex.chen@huawei.com>
+From: Mostafa Saleh <smostafa@google.com>
-In omap_lcd_interrupts(), the pointer omap_lcd is dereferinced before
+Allow TLB to be tagged with VMID.
-being check if it is valid, which may lead to NULL pointer dereference.
-So move the assignment to surface after checking that the omap_lcd is valid
+If stage-1 is only supported, VMID is set to -1 and ignored from STE
-and move surface_bits_per_pixel(surface) to after the surface assignment.
+and CMD_TLBI_NH* cmds.
-Reported-by: Euler Robot <euler.robot@huawei.com>
+Update smmu_iotlb_insert trace event to have vmid.
-Signed-off-by: AlexChen <alex.chen@huawei.com>
-Message-id: 5F9CDB8A.9000001@huawei.com
+Signed-off-by: Mostafa Saleh <smostafa@google.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-8-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/display/omap_lcdc.c | 10 +++++++---
+ hw/arm/smmu-internal.h       |  2 ++
-file changed, 7 insertions(+), 3 deletions(-)
+ include/hw/arm/smmu-common.h |  5 +++--
+ hw/arm/smmu-common.c         | 36 ++++++++++++++++++++++--------------
-diff --git a/hw/display/omap_lcdc.c b/hw/display/omap_lcdc.c
+ hw/arm/smmuv3.c              | 12 +++++++++---
-index XXXXXXX..XXXXXXX 100644
+ hw/arm/trace-events          |  6 +++---
---- a/hw/display/omap_lcdc.c
+files changed, 39 insertions(+), 22 deletions(-)
-+++ b/hw/display/omap_lcdc.c
-@@ -XXX,XX +XXX,XX @@ static void omap_lcd_interrupts(struct omap_lcd_panel_s *s)
+diff --git a/hw/arm/smmu-internal.h b/hw/arm/smmu-internal.h
- static void omap_update_display(void *opaque)
+index XXXXXXX..XXXXXXX 100644
- {
+--- a/hw/arm/smmu-internal.h
-     struct omap_lcd_panel_s *omap_lcd = (struct omap_lcd_panel_s *) opaque;
++++ b/hw/arm/smmu-internal.h
--    DisplaySurface *surface = qemu_console_surface(omap_lcd->con);
+@@ -XXX,XX +XXX,XX @@ static inline int pgd_concat_idx(int start_level, int granule_sz,
-+    DisplaySurface *surface;
+ }
-     draw_line_func draw_line;
-     int size, height, first, last;
+ #define SMMU_IOTLB_ASID(key) ((key).asid)
-     int width, linesize, step, bpp, frame_offset;
++#define SMMU_IOTLB_VMID(key) ((key).vmid)
-     hwaddr frame_base;
+ typedef struct SMMUIOTLBPageInvInfo {
--    if (!omap_lcd || omap_lcd->plm == 1 || !omap_lcd->enable ||
+     int asid;
--        !surface_bits_per_pixel(surface)) {
++    int vmid;
-+    if (!omap_lcd || omap_lcd->plm == 1 || !omap_lcd->enable) {
+     uint64_t iova;
-+        return;
+     uint64_t mask;
  } SMMUIOTLBPageInvInfo;
 diff --git a/include/hw/arm/smmu-common.h b/include/hw/arm/smmu-common.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/smmu-common.h
 +++ b/include/hw/arm/smmu-common.h
@@ -XXX,XX +XXX,XX @@ typedef struct SMMUPciBus {
  typedef struct SMMUIOTLBKey {
      uint64_t iova;
      uint16_t asid;
 +    uint16_t vmid;
      uint8_t tg;
      uint8_t level;
  } SMMUIOTLBKey;
@@ -XXX,XX +XXX,XX @@ IOMMUMemoryRegion *smmu_iommu_mr(SMMUState *s, uint32_t sid);
  SMMUTLBEntry *smmu_iotlb_lookup(SMMUState *bs, SMMUTransCfg *cfg,
                                  SMMUTransTableInfo *tt, hwaddr iova);
  void smmu_iotlb_insert(SMMUState *bs, SMMUTransCfg *cfg, SMMUTLBEntry *entry);
 -SMMUIOTLBKey smmu_get_iotlb_key(uint16_t asid, uint64_t iova,
 +SMMUIOTLBKey smmu_get_iotlb_key(uint16_t asid, uint16_t vmid, uint64_t iova,
                                  uint8_t tg, uint8_t level);
  void smmu_iotlb_inv_all(SMMUState *s);
  void smmu_iotlb_inv_asid(SMMUState *s, uint16_t asid);
 -void smmu_iotlb_inv_iova(SMMUState *s, int asid, dma_addr_t iova,
 +void smmu_iotlb_inv_iova(SMMUState *s, int asid, int vmid, dma_addr_t iova,
                           uint8_t tg, uint64_t num_pages, uint8_t ttl);
  /* Unmap the range of all the notifiers registered to any IOMMU mr */
 diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmu-common.c
 +++ b/hw/arm/smmu-common.c
@@ -XXX,XX +XXX,XX @@ static guint smmu_iotlb_key_hash(gconstpointer v)
      /* Jenkins hash */
      a = b = c = JHASH_INITVAL + sizeof(*key);
 -    a += key->asid + key->level + key->tg;
 +    a += key->asid + key->vmid + key->level + key->tg;
      b += extract64(key->iova, 0, 32);
      c += extract64(key->iova, 32, 32);
@@ -XXX,XX +XXX,XX @@ static gboolean smmu_iotlb_key_equal(gconstpointer v1, gconstpointer v2)
      SMMUIOTLBKey *k1 = (SMMUIOTLBKey *)v1, *k2 = (SMMUIOTLBKey *)v2;
      return (k1->asid == k2->asid) && (k1->iova == k2->iova) &&
 -           (k1->level == k2->level) && (k1->tg == k2->tg);
 +           (k1->level == k2->level) && (k1->tg == k2->tg) &&
 +           (k1->vmid == k2->vmid);
  }
 -SMMUIOTLBKey smmu_get_iotlb_key(uint16_t asid, uint64_t iova,
 +SMMUIOTLBKey smmu_get_iotlb_key(uint16_t asid, uint16_t vmid, uint64_t iova,
                                  uint8_t tg, uint8_t level)
  {
 -    SMMUIOTLBKey key = {.asid = asid, .iova = iova, .tg = tg, .level = level};
 +    SMMUIOTLBKey key = {.asid = asid, .vmid = vmid, .iova = iova,
 +                        .tg = tg, .level = level};
      return key;
  }
@@ -XXX,XX +XXX,XX @@ SMMUTLBEntry *smmu_iotlb_lookup(SMMUState *bs, SMMUTransCfg *cfg,
          uint64_t mask = subpage_size - 1;
          SMMUIOTLBKey key;
 -        key = smmu_get_iotlb_key(cfg->asid, iova & ~mask, tg, level);
 +        key = smmu_get_iotlb_key(cfg->asid, cfg->s2cfg.vmid,
 +                                 iova & ~mask, tg, level);
          entry = g_hash_table_lookup(bs->iotlb, &key);
          if (entry) {
              break;
@@ -XXX,XX +XXX,XX @@ SMMUTLBEntry *smmu_iotlb_lookup(SMMUState *bs, SMMUTransCfg *cfg,
      if (entry) {
          cfg->iotlb_hits++;
 -        trace_smmu_iotlb_lookup_hit(cfg->asid, iova,
 +        trace_smmu_iotlb_lookup_hit(cfg->asid, cfg->s2cfg.vmid, iova,
                                      cfg->iotlb_hits, cfg->iotlb_misses,
 * cfg->iotlb_hits /
                                      (cfg->iotlb_hits + cfg->iotlb_misses));
      } else {
          cfg->iotlb_misses++;
 -        trace_smmu_iotlb_lookup_miss(cfg->asid, iova,
 +        trace_smmu_iotlb_lookup_miss(cfg->asid, cfg->s2cfg.vmid, iova,
                                       cfg->iotlb_hits, cfg->iotlb_misses,
 * cfg->iotlb_hits /
                                       (cfg->iotlb_hits + cfg->iotlb_misses));
@@ -XXX,XX +XXX,XX @@ void smmu_iotlb_insert(SMMUState *bs, SMMUTransCfg *cfg, SMMUTLBEntry *new)
          smmu_iotlb_inv_all(bs);
      }
 -    *key = smmu_get_iotlb_key(cfg->asid, new->entry.iova, tg, new->level);
 -    trace_smmu_iotlb_insert(cfg->asid, new->entry.iova, tg, new->level);
 +    *key = smmu_get_iotlb_key(cfg->asid, cfg->s2cfg.vmid, new->entry.iova,
 +                              tg, new->level);
 +    trace_smmu_iotlb_insert(cfg->asid, cfg->s2cfg.vmid, new->entry.iova,
 +                            tg, new->level);
      g_hash_table_insert(bs->iotlb, key, new);
  }
@@ -XXX,XX +XXX,XX @@ static gboolean smmu_hash_remove_by_asid(gpointer key, gpointer value,
      return SMMU_IOTLB_ASID(*iotlb_key) == asid;
  }
 -
 -static gboolean smmu_hash_remove_by_asid_iova(gpointer key, gpointer value,
 +static gboolean smmu_hash_remove_by_asid_vmid_iova(gpointer key, gpointer value,
                                                gpointer user_data)
  {
      SMMUTLBEntry *iter = (SMMUTLBEntry *)value;
@@ -XXX,XX +XXX,XX @@ static gboolean smmu_hash_remove_by_asid_iova(gpointer key, gpointer value,
      if (info->asid >= 0 && info->asid != SMMU_IOTLB_ASID(iotlb_key)) {
          return false;
      }
 +    if (info->vmid >= 0 && info->vmid != SMMU_IOTLB_VMID(iotlb_key)) {
 +        return false;
 +    }
+     return ((info->iova & ~entry->addr_mask) == entry->iova) ||
+            ((entry->iova & ~info->mask) == info->iova);
+ }
+-void smmu_iotlb_inv_iova(SMMUState *s, int asid, dma_addr_t iova,
++void smmu_iotlb_inv_iova(SMMUState *s, int asid, int vmid, dma_addr_t iova,
+                          uint8_t tg, uint64_t num_pages, uint8_t ttl)
+ {
+     /* if tg is not set we use 4KB range invalidation */
+     uint8_t granule = tg ? tg * 2 + 10 : 12;
+     if (ttl && (num_pages == 1) && (asid >= 0)) {
+-        SMMUIOTLBKey key = smmu_get_iotlb_key(asid, iova, tg, ttl);
++        SMMUIOTLBKey key = smmu_get_iotlb_key(asid, vmid, iova, tg, ttl);
+         if (g_hash_table_remove(s->iotlb, &key)) {
+             return;
+@@ -XXX,XX +XXX,XX @@ void smmu_iotlb_inv_iova(SMMUState *s, int asid, dma_addr_t iova,
+     SMMUIOTLBPageInvInfo info = {
+         .asid = asid, .iova = iova,
++        .vmid = vmid,
+         .mask = (num_pages * 1 << granule) - 1};
+     g_hash_table_foreach_remove(s->iotlb,
+-                                smmu_hash_remove_by_asid_iova,
++                                smmu_hash_remove_by_asid_vmid_iova,
+                                 &info);
+ }
+diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/smmuv3.c
++++ b/hw/arm/smmuv3.c
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
+ {
+     dma_addr_t end, addr = CMD_ADDR(cmd);
+     uint8_t type = CMD_TYPE(cmd);
+-    uint16_t vmid = CMD_VMID(cmd);
++    int vmid = -1;
+     uint8_t scale = CMD_SCALE(cmd);
+     uint8_t num = CMD_NUM(cmd);
+     uint8_t ttl = CMD_TTL(cmd);
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
+     uint64_t num_pages;
+     uint8_t granule;
+     int asid = -1;
++    SMMUv3State *smmuv3 = ARM_SMMUV3(s);
 +
-+    surface = qemu_console_surface(omap_lcd->con);
++    /* Only consider VMID if stage-2 is supported. */
-+    if (!surface_bits_per_pixel(surface)) {
++    if (STAGE2_SUPPORTED(smmuv3)) {
 +        vmid = CMD_VMID(cmd);
 +    }
      if (type == SMMU_CMD_TLBI_NH_VA) {
          asid = CMD_ASID(cmd);
@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
      if (!tg) {
          trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, 1, ttl, leaf);
          smmuv3_inv_notifiers_iova(s, asid, addr, tg, 1);
 -        smmu_iotlb_inv_iova(s, asid, addr, tg, 1, ttl);
 +        smmu_iotlb_inv_iova(s, asid, vmid, addr, tg, 1, ttl);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
+         num_pages = (mask + 1) >> granule;
+         trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, num_pages, ttl, leaf);
+         smmuv3_inv_notifiers_iova(s, asid, addr, tg, num_pages);
+-        smmu_iotlb_inv_iova(s, asid, addr, tg, num_pages, ttl);
++        smmu_iotlb_inv_iova(s, asid, vmid, addr, tg, num_pages, ttl);
+         addr += mask + 1;
+     }
+ }
+diff --git a/hw/arm/trace-events b/hw/arm/trace-events
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/trace-events
++++ b/hw/arm/trace-events
+@@ -XXX,XX +XXX,XX @@ smmu_iotlb_inv_all(void) "IOTLB invalidate all"
+ smmu_iotlb_inv_asid(uint16_t asid) "IOTLB invalidate asid=%d"
+ smmu_iotlb_inv_iova(uint16_t asid, uint64_t addr) "IOTLB invalidate asid=%d addr=0x%"PRIx64
+ smmu_inv_notifiers_mr(const char *name) "iommu mr=%s"
+-smmu_iotlb_lookup_hit(uint16_t asid, uint64_t addr, uint32_t hit, uint32_t miss, uint32_t p) "IOTLB cache HIT asid=%d addr=0x%"PRIx64" hit=%d miss=%d hit rate=%d"
+-smmu_iotlb_lookup_miss(uint16_t asid, uint64_t addr, uint32_t hit, uint32_t miss, uint32_t p) "IOTLB cache MISS asid=%d addr=0x%"PRIx64" hit=%d miss=%d hit rate=%d"
+-smmu_iotlb_insert(uint16_t asid, uint64_t addr, uint8_t tg, uint8_t level) "IOTLB ++ asid=%d addr=0x%"PRIx64" tg=%d level=%d"
++smmu_iotlb_lookup_hit(uint16_t asid, uint16_t vmid, uint64_t addr, uint32_t hit, uint32_t miss, uint32_t p) "IOTLB cache HIT asid=%d vmid=%d addr=0x%"PRIx64" hit=%d miss=%d hit rate=%d"
++smmu_iotlb_lookup_miss(uint16_t asid, uint16_t vmid, uint64_t addr, uint32_t hit, uint32_t miss, uint32_t p) "IOTLB cache MISS asid=%d vmid=%d addr=0x%"PRIx64" hit=%d miss=%d hit rate=%d"
++smmu_iotlb_insert(uint16_t asid, uint16_t vmid, uint64_t addr, uint8_t tg, uint8_t level) "IOTLB ++ asid=%d vmid=%d addr=0x%"PRIx64" tg=%d level=%d"
+ # smmuv3.c
+ smmuv3_read_mmio(uint64_t addr, uint64_t val, unsigned size, uint32_t r) "addr: 0x%"PRIx64" val:0x%"PRIx64" size: 0x%x(%d)"
 --
-.20.1
+.34.1

-[PULL 09/26] target/arm: Rename neon_load_reg64 to vfp_load_reg64
+[PULL 09/21] hw/arm/smmuv3: Add CMDs related to stage-2
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Mostafa Saleh <smostafa@google.com>
-The only uses of this function are for loading VFP
+CMD_TLBI_S2_IPA: As S1+S2 is not enabled, for now this can be the
-double-precision values, and nothing to do with NEON.
+same as CMD_TLBI_NH_VAA.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+CMD_TLBI_S12_VMALL: Added new function to invalidate TLB by VMID.
-Message-id: 20201030022618.785675-10-richard.henderson@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+For stage-1 only commands, add a check to throw CERROR_ILL if used
 when stage-1 is not supported.
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Signed-off-by: Mostafa Saleh <smostafa@google.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-9-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c         |  8 ++--
+ include/hw/arm/smmu-common.h |  1 +
- target/arm/translate-vfp.c.inc | 84 +++++++++++++++++-----------------
+ hw/arm/smmu-common.c         | 16 +++++++++++
-files changed, 46 insertions(+), 46 deletions(-)
+ hw/arm/smmuv3.c              | 55 ++++++++++++++++++++++++++++++------
+ hw/arm/trace-events          |  4 ++-
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+files changed, 67 insertions(+), 9 deletions(-)
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+diff --git a/include/hw/arm/smmu-common.h b/include/hw/arm/smmu-common.h
-+++ b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ static long vfp_reg_offset(bool dp, unsigned reg)
+--- a/include/hw/arm/smmu-common.h
 +++ b/include/hw/arm/smmu-common.h
@@ -XXX,XX +XXX,XX @@ SMMUIOTLBKey smmu_get_iotlb_key(uint16_t asid, uint16_t vmid, uint64_t iova,
                                  uint8_t tg, uint8_t level);
  void smmu_iotlb_inv_all(SMMUState *s);
  void smmu_iotlb_inv_asid(SMMUState *s, uint16_t asid);
 +void smmu_iotlb_inv_vmid(SMMUState *s, uint16_t vmid);
  void smmu_iotlb_inv_iova(SMMUState *s, int asid, int vmid, dma_addr_t iova,
                           uint8_t tg, uint64_t num_pages, uint8_t ttl);
 diff --git a/hw/arm/smmu-common.c b/hw/arm/smmu-common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmu-common.c
 +++ b/hw/arm/smmu-common.c
@@ -XXX,XX +XXX,XX @@ static gboolean smmu_hash_remove_by_asid(gpointer key, gpointer value,
      return SMMU_IOTLB_ASID(*iotlb_key) == asid;
  }
 +
 +static gboolean smmu_hash_remove_by_vmid(gpointer key, gpointer value,
 +                                         gpointer user_data)
 +{
 +    uint16_t vmid = *(uint16_t *)user_data;
 +    SMMUIOTLBKey *iotlb_key = (SMMUIOTLBKey *)key;
 +
 +    return SMMU_IOTLB_VMID(*iotlb_key) == vmid;
 +}
 +
  static gboolean smmu_hash_remove_by_asid_vmid_iova(gpointer key, gpointer value,
                                                gpointer user_data)
  {
@@ -XXX,XX +XXX,XX @@ void smmu_iotlb_inv_asid(SMMUState *s, uint16_t asid)
      g_hash_table_foreach_remove(s->iotlb, smmu_hash_remove_by_asid, &asid);
  }
 +inline void smmu_iotlb_inv_vmid(SMMUState *s, uint16_t vmid)
 +{
 +    trace_smmu_iotlb_inv_vmid(vmid);
 +    g_hash_table_foreach_remove(s->iotlb, smmu_hash_remove_by_vmid, &vmid);
 +}
 +
  /* VMSAv8-64 Translation */
  /**
 diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/smmuv3.c
 +++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static void smmuv3_inv_notifiers_iova(SMMUState *s, int asid, dma_addr_t iova,
      }
  }
--static inline void neon_load_reg64(TCGv_i64 var, int reg)
+-static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
-+static inline void vfp_load_reg64(TCGv_i64 var, int reg)
++static void smmuv3_range_inval(SMMUState *s, Cmd *cmd)
  {
--    tcg_gen_ld_i64(var, cpu_env, vfp_reg_offset(1, reg));
+     dma_addr_t end, addr = CMD_ADDR(cmd);
-+    tcg_gen_ld_i64(var, cpu_env, vfp_reg_offset(true, reg));
+     uint8_t type = CMD_TYPE(cmd);
- }
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
+     }
--static inline void neon_store_reg64(TCGv_i64 var, int reg)
-+static inline void vfp_store_reg64(TCGv_i64 var, int reg)
+     if (!tg) {
- {
+-        trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, 1, ttl, leaf);
--    tcg_gen_st_i64(var, cpu_env, vfp_reg_offset(1, reg));
++        trace_smmuv3_range_inval(vmid, asid, addr, tg, 1, ttl, leaf);
-+    tcg_gen_st_i64(var, cpu_env, vfp_reg_offset(true, reg));
+         smmuv3_inv_notifiers_iova(s, asid, addr, tg, 1);
- }
+         smmu_iotlb_inv_iova(s, asid, vmid, addr, tg, 1, ttl);
+         return;
- static inline void vfp_load_reg32(TCGv_i32 var, int reg)
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_s1_range_inval(SMMUState *s, Cmd *cmd)
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
+         uint64_t mask = dma_aligned_pow2_mask(addr, end, 64);
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.c.inc
+         num_pages = (mask + 1) >> granule;
-+++ b/target/arm/translate-vfp.c.inc
+-        trace_smmuv3_s1_range_inval(vmid, asid, addr, tg, num_pages, ttl, leaf);
-@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
++        trace_smmuv3_range_inval(vmid, asid, addr, tg, num_pages, ttl, leaf);
-         tcg_gen_ext_i32_i64(nf, cpu_NF);
+         smmuv3_inv_notifiers_iova(s, asid, addr, tg, num_pages);
-         tcg_gen_ext_i32_i64(vf, cpu_VF);
+         smmu_iotlb_inv_iova(s, asid, vmid, addr, tg, num_pages, ttl);
+         addr += mask + 1;
--        neon_load_reg64(frn, rn);
+@@ -XXX,XX +XXX,XX @@ static int smmuv3_cmdq_consume(SMMUv3State *s)
--        neon_load_reg64(frm, rm);
+         {
-+        vfp_load_reg64(frn, rn);
+             uint16_t asid = CMD_ASID(&cmd);
-+        vfp_load_reg64(frm, rm);
-         switch (a->cc) {
++            if (!STAGE1_SUPPORTED(s)) {
-         case 0: /* eq: Z */
++                cmd_error = SMMU_CERROR_ILL;
-             tcg_gen_movcond_i64(TCG_COND_EQ, dest, zf, zero,
++                break;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
++            }
-             tcg_temp_free_i64(tmp);
++
              trace_smmuv3_cmdq_tlbi_nh_asid(asid);
              smmu_inv_notifiers_all(&s->smmu_state);
              smmu_iotlb_inv_asid(bs, asid);
              break;
          }
--        neon_store_reg64(dest, rd);
+         case SMMU_CMD_TLBI_NH_ALL:
-+        vfp_store_reg64(dest, rd);
++            if (!STAGE1_SUPPORTED(s)) {
-         tcg_temp_free_i64(frn);
++                cmd_error = SMMU_CERROR_ILL;
-         tcg_temp_free_i64(frm);
++                break;
-         tcg_temp_free_i64(dest);
++            }
-@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
++            QEMU_FALLTHROUGH;
-         TCGv_i64 tcg_res;
+         case SMMU_CMD_TLBI_NSNH_ALL:
-         tcg_op = tcg_temp_new_i64();
+             trace_smmuv3_cmdq_tlbi_nh();
-         tcg_res = tcg_temp_new_i64();
+             smmu_inv_notifiers_all(&s->smmu_state);
--        neon_load_reg64(tcg_op, rm);
+@@ -XXX,XX +XXX,XX @@ static int smmuv3_cmdq_consume(SMMUv3State *s)
-+        vfp_load_reg64(tcg_op, rm);
+             break;
-         gen_helper_rintd(tcg_res, tcg_op, fpst);
+         case SMMU_CMD_TLBI_NH_VAA:
--        neon_store_reg64(tcg_res, rd);
+         case SMMU_CMD_TLBI_NH_VA:
-+        vfp_store_reg64(tcg_res, rd);
+-            smmuv3_s1_range_inval(bs, &cmd);
-         tcg_temp_free_i64(tcg_op);
++            if (!STAGE1_SUPPORTED(s)) {
-         tcg_temp_free_i64(tcg_res);
++                cmd_error = SMMU_CERROR_ILL;
-     } else {
++                break;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
++            }
-         tcg_double = tcg_temp_new_i64();
++            smmuv3_range_inval(bs, &cmd);
-         tcg_res = tcg_temp_new_i64();
++            break;
-         tcg_tmp = tcg_temp_new_i32();
++        case SMMU_CMD_TLBI_S12_VMALL:
--        neon_load_reg64(tcg_double, rm);
++        {
-+        vfp_load_reg64(tcg_double, rm);
++            uint16_t vmid = CMD_VMID(&cmd);
-         if (is_signed) {
++
-             gen_helper_vfp_tosld(tcg_res, tcg_double, tcg_shift, fpst);
++            if (!STAGE2_SUPPORTED(s)) {
-         } else {
++                cmd_error = SMMU_CERROR_ILL;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_dp(DisasContext *s, arg_VLDR_VSTR_dp *a)
++                break;
-     tmp = tcg_temp_new_i64();
++            }
-     if (a->l) {
++
-         gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
++            trace_smmuv3_cmdq_tlbi_s12_vmid(vmid);
--        neon_store_reg64(tmp, a->vd);
++            smmu_inv_notifiers_all(&s->smmu_state);
-+        vfp_store_reg64(tmp, a->vd);
++            smmu_iotlb_inv_vmid(bs, vmid);
-     } else {
++            break;
--        neon_load_reg64(tmp, a->vd);
++        }
-+        vfp_load_reg64(tmp, a->vd);
++        case SMMU_CMD_TLBI_S2_IPA:
-         gen_aa32_st64(s, tmp, addr, get_mem_index(s));
++            if (!STAGE2_SUPPORTED(s)) {
-     }
++                cmd_error = SMMU_CERROR_ILL;
-     tcg_temp_free_i64(tmp);
++                break;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_dp(DisasContext *s, arg_VLDM_VSTM_dp *a)
++            }
-         if (a->l) {
++            /*
-             /* load */
++             * As currently only either s1 or s2 are supported
-             gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
++             * we can reuse same function for s2.
--            neon_store_reg64(tmp, a->vd + i);
++             */
-+            vfp_store_reg64(tmp, a->vd + i);
++            smmuv3_range_inval(bs, &cmd);
-         } else {
+             break;
-             /* store */
+         case SMMU_CMD_TLBI_EL3_ALL:
--            neon_load_reg64(tmp, a->vd + i);
+         case SMMU_CMD_TLBI_EL3_VA:
-+            vfp_load_reg64(tmp, a->vd + i);
+@@ -XXX,XX +XXX,XX @@ static int smmuv3_cmdq_consume(SMMUv3State *s)
-             gen_aa32_st64(s, tmp, addr, get_mem_index(s));
+         case SMMU_CMD_TLBI_EL2_ASID:
          case SMMU_CMD_TLBI_EL2_VA:
          case SMMU_CMD_TLBI_EL2_VAA:
 -        case SMMU_CMD_TLBI_S12_VMALL:
 -        case SMMU_CMD_TLBI_S2_IPA:
          case SMMU_CMD_ATC_INV:
          case SMMU_CMD_PRI_RESP:
          case SMMU_CMD_RESUME:
@@ -XXX,XX +XXX,XX @@ static int smmuv3_cmdq_consume(SMMUv3State *s)
              break;
          default:
              cmd_error = SMMU_CERROR_ILL;
 -            qemu_log_mask(LOG_GUEST_ERROR,
 -                          "Illegal command type: %d\n", CMD_TYPE(&cmd));
              break;
          }
-         tcg_gen_addi_i32(addr, addr, offset);
+         qemu_mutex_unlock(&s->mutex);
-@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_dp(DisasContext *s, VFPGen3OpDPFn *fn,
+         if (cmd_error) {
-     fd = tcg_temp_new_i64();
++            if (cmd_error == SMMU_CERROR_ILL) {
-     fpst = fpstatus_ptr(FPST_FPCR);
++                qemu_log_mask(LOG_GUEST_ERROR,
++                              "Illegal command type: %d\n", CMD_TYPE(&cmd));
--    neon_load_reg64(f0, vn);
++            }
--    neon_load_reg64(f1, vm);
+             break;
 +    vfp_load_reg64(f0, vn);
 +    vfp_load_reg64(f1, vm);
      for (;;) {
          if (reads_vd) {
 -            neon_load_reg64(fd, vd);
 +            vfp_load_reg64(fd, vd);
          }
-         fn(fd, f0, f1, fpst);
+         /*
--        neon_store_reg64(fd, vd);
+diff --git a/hw/arm/trace-events b/hw/arm/trace-events
-+        vfp_store_reg64(fd, vd);
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/trace-events
-         if (veclen == 0) {
++++ b/hw/arm/trace-events
-             break;
+@@ -XXX,XX +XXX,XX @@ smmu_ptw_block_pte(int stage, int level, uint64_t baseaddr, uint64_t pteaddr, ui
-@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_dp(DisasContext *s, VFPGen3OpDPFn *fn,
+ smmu_get_pte(uint64_t baseaddr, int index, uint64_t pteaddr, uint64_t pte) "baseaddr=0x%"PRIx64" index=0x%x, pteaddr=0x%"PRIx64", pte=0x%"PRIx64
-         veclen--;
+ smmu_iotlb_inv_all(void) "IOTLB invalidate all"
-         vd = vfp_advance_dreg(vd, delta_d);
+ smmu_iotlb_inv_asid(uint16_t asid) "IOTLB invalidate asid=%d"
-         vn = vfp_advance_dreg(vn, delta_d);
++smmu_iotlb_inv_vmid(uint16_t vmid) "IOTLB invalidate vmid=%d"
--        neon_load_reg64(f0, vn);
+ smmu_iotlb_inv_iova(uint16_t asid, uint64_t addr) "IOTLB invalidate asid=%d addr=0x%"PRIx64
-+        vfp_load_reg64(f0, vn);
+ smmu_inv_notifiers_mr(const char *name) "iommu mr=%s"
-         if (delta_m) {
+ smmu_iotlb_lookup_hit(uint16_t asid, uint16_t vmid, uint64_t addr, uint32_t hit, uint32_t miss, uint32_t p) "IOTLB cache HIT asid=%d vmid=%d addr=0x%"PRIx64" hit=%d miss=%d hit rate=%d"
-             vm = vfp_advance_dreg(vm, delta_m);
+@@ -XXX,XX +XXX,XX @@ smmuv3_cmdq_cfgi_ste_range(int start, int end) "start=0x%x - end=0x%x"
--            neon_load_reg64(f1, vm);
+ smmuv3_cmdq_cfgi_cd(uint32_t sid) "sid=0x%x"
-+            vfp_load_reg64(f1, vm);
+ smmuv3_config_cache_hit(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache HIT for sid=0x%x (hits=%d, misses=%d, hit rate=%d)"
-         }
+ smmuv3_config_cache_miss(uint32_t sid, uint32_t hits, uint32_t misses, uint32_t perc) "Config cache MISS for sid=0x%x (hits=%d, misses=%d, hit rate=%d)"
-     }
+-smmuv3_s1_range_inval(int vmid, int asid, uint64_t addr, uint8_t tg, uint64_t num_pages, uint8_t ttl, bool leaf) "vmid=%d asid=%d addr=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64" ttl=%d leaf=%d"
++smmuv3_range_inval(int vmid, int asid, uint64_t addr, uint8_t tg, uint64_t num_pages, uint8_t ttl, bool leaf) "vmid=%d asid=%d addr=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64" ttl=%d leaf=%d"
-@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
+ smmuv3_cmdq_tlbi_nh(void) ""
-     f0 = tcg_temp_new_i64();
+ smmuv3_cmdq_tlbi_nh_asid(uint16_t asid) "asid=%d"
-     fd = tcg_temp_new_i64();
++smmuv3_cmdq_tlbi_s12_vmid(uint16_t vmid) "vmid=%d"
+ smmuv3_config_cache_inv(uint32_t sid) "Config cache INV for sid=0x%x"
--    neon_load_reg64(f0, vm);
+ smmuv3_notify_flag_add(const char *iommu) "ADD SMMUNotifier node for iommu mr=%s"
-+    vfp_load_reg64(f0, vm);
+ smmuv3_notify_flag_del(const char *iommu) "DEL SMMUNotifier node for iommu mr=%s"
      for (;;) {
          fn(fd, f0);
 -        neon_store_reg64(fd, vd);
 +        vfp_store_reg64(fd, vd);
          if (veclen == 0) {
              break;
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
              /* single source one-many */
              while (veclen--) {
                  vd = vfp_advance_dreg(vd, delta_d);
 -                neon_store_reg64(fd, vd);
 +                vfp_store_reg64(fd, vd);
              }
              break;
          }
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_dp(DisasContext *s, VFPGen2OpDPFn *fn, int vd, int vm)
          veclen--;
          vd = vfp_advance_dreg(vd, delta_d);
          vd = vfp_advance_dreg(vm, delta_m);
 -        neon_load_reg64(f0, vm);
 +        vfp_load_reg64(f0, vm);
      }
      tcg_temp_free_i64(f0);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
      vm = tcg_temp_new_i64();
      vd = tcg_temp_new_i64();
 -    neon_load_reg64(vn, a->vn);
 -    neon_load_reg64(vm, a->vm);
 +    vfp_load_reg64(vn, a->vn);
 +    vfp_load_reg64(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
          gen_helper_vfp_negd(vn, vn);
      }
 -    neon_load_reg64(vd, a->vd);
 +    vfp_load_reg64(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
          gen_helper_vfp_negd(vd, vd);
      }
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
 -    neon_store_reg64(vd, a->vd);
 +    vfp_store_reg64(vd, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i64(vn);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
      fd = tcg_const_i64(vfp_expand_imm(MO_64, a->imm));
      for (;;) {
 -        neon_store_reg64(fd, vd);
 +        vfp_store_reg64(fd, vd);
          if (veclen == 0) {
              break;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_dp(DisasContext *s, arg_VCMP_dp *a)
      vd = tcg_temp_new_i64();
      vm = tcg_temp_new_i64();
 -    neon_load_reg64(vd, a->vd);
 +    vfp_load_reg64(vd, a->vd);
      if (a->z) {
          tcg_gen_movi_i64(vm, 0);
      } else {
 -        neon_load_reg64(vm, a->vm);
 +        vfp_load_reg64(vm, a->vm);
      }
      if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_f64_f16(DisasContext *s, arg_VCVT_f64_f16 *a)
      tcg_gen_ld16u_i32(tmp, cpu_env, vfp_f16_offset(a->vm, a->t));
      vd = tcg_temp_new_i64();
      gen_helper_vfp_fcvt_f16_to_f64(vd, tmp, fpst, ahp_mode);
 -    neon_store_reg64(vd, a->vd);
 +    vfp_store_reg64(vd, a->vd);
      tcg_temp_free_i32(ahp_mode);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_f16_f64(DisasContext *s, arg_VCVT_f16_f64 *a)
      tmp = tcg_temp_new_i32();
      vm = tcg_temp_new_i64();
 -    neon_load_reg64(vm, a->vm);
 +    vfp_load_reg64(vm, a->vm);
      gen_helper_vfp_fcvt_f64_to_f16(tmp, vm, fpst, ahp_mode);
      tcg_temp_free_i64(vm);
      tcg_gen_st16_i32(tmp, cpu_env, vfp_f16_offset(a->vd, a->t));
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_dp(DisasContext *s, arg_VRINTR_dp *a)
      }
      tmp = tcg_temp_new_i64();
 -    neon_load_reg64(tmp, a->vm);
 +    vfp_load_reg64(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_rintd(tmp, tmp, fpst);
 -    neon_store_reg64(tmp, a->vd);
 +    vfp_store_reg64(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i64(tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_dp(DisasContext *s, arg_VRINTZ_dp *a)
      }
      tmp = tcg_temp_new_i64();
 -    neon_load_reg64(tmp, a->vm);
 +    vfp_load_reg64(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      tcg_rmode = tcg_const_i32(float_round_to_zero);
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
      gen_helper_rintd(tmp, tmp, fpst);
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 -    neon_store_reg64(tmp, a->vd);
 +    vfp_store_reg64(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i64(tmp);
      tcg_temp_free_i32(tcg_rmode);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_dp(DisasContext *s, arg_VRINTX_dp *a)
      }
      tmp = tcg_temp_new_i64();
 -    neon_load_reg64(tmp, a->vm);
 +    vfp_load_reg64(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_rintd_exact(tmp, tmp, fpst);
 -    neon_store_reg64(tmp, a->vd);
 +    vfp_store_reg64(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i64(tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_sp(DisasContext *s, arg_VCVT_sp *a)
      vd = tcg_temp_new_i64();
      vfp_load_reg32(vm, a->vm);
      gen_helper_vfp_fcvtds(vd, vm, cpu_env);
 -    neon_store_reg64(vd, a->vd);
 +    vfp_store_reg64(vd, a->vd);
      tcg_temp_free_i32(vm);
      tcg_temp_free_i64(vd);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp(DisasContext *s, arg_VCVT_dp *a)
      vd = tcg_temp_new_i32();
      vm = tcg_temp_new_i64();
 -    neon_load_reg64(vm, a->vm);
 +    vfp_load_reg64(vm, a->vm);
      gen_helper_vfp_fcvtsd(vd, vm, cpu_env);
      vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i32(vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_int_dp(DisasContext *s, arg_VCVT_int_dp *a)
          /* u32 -> f64 */
          gen_helper_vfp_uitod(vd, vm, fpst);
      }
 -    neon_store_reg64(vd, a->vd);
 +    vfp_store_reg64(vd, a->vd);
      tcg_temp_free_i32(vm);
      tcg_temp_free_i64(vd);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VJCVT(DisasContext *s, arg_VJCVT *a)
      vm = tcg_temp_new_i64();
      vd = tcg_temp_new_i32();
 -    neon_load_reg64(vm, a->vm);
 +    vfp_load_reg64(vm, a->vm);
      gen_helper_vjcvt(vd, vm, cpu_env);
      vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i64(vm);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_dp(DisasContext *s, arg_VCVT_fix_dp *a)
      frac_bits = (a->opc & 1) ? (32 - a->imm) : (16 - a->imm);
      vd = tcg_temp_new_i64();
 -    neon_load_reg64(vd, a->vd);
 +    vfp_load_reg64(vd, a->vd);
      fpst = fpstatus_ptr(FPST_FPCR);
      shift = tcg_const_i32(frac_bits);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_dp(DisasContext *s, arg_VCVT_fix_dp *a)
          g_assert_not_reached();
      }
 -    neon_store_reg64(vd, a->vd);
 +    vfp_store_reg64(vd, a->vd);
      tcg_temp_free_i64(vd);
      tcg_temp_free_i32(shift);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp_int(DisasContext *s, arg_VCVT_dp_int *a)
      fpst = fpstatus_ptr(FPST_FPCR);
      vm = tcg_temp_new_i64();
      vd = tcg_temp_new_i32();
 -    neon_load_reg64(vm, a->vm);
 +    vfp_load_reg64(vm, a->vm);
      if (a->s) {
          if (a->rz) {
 --
-.20.1
+.34.1

-[PULL 04/26] target/arm: Use neon_element_offset in vfp_reg_offset
+[PULL 10/21] hw/arm/smmuv3: Add stage-2 support in iova notifier
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Mostafa Saleh <smostafa@google.com>
-This seems a bit more readable than using offsetof CPU_DoubleU.
+In smmuv3_notify_iova, read the granule based on translation stage
 and use VMID if valid value is sent.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Mostafa Saleh <smostafa@google.com>
-Message-id: 20201030022618.785675-5-richard.henderson@linaro.org
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-10-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 13 ++++---------
+ hw/arm/smmuv3.c     | 39 ++++++++++++++++++++++++++-------------
-file changed, 4 insertions(+), 9 deletions(-)
+ hw/arm/trace-events |  2 +-
 files changed, 27 insertions(+), 14 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/smmuv3.c
-+++ b/target/arm/translate.c
++++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@ static long neon_element_offset(int reg, int element, MemOp size)
+@@ -XXX,XX +XXX,XX @@ epilogue:
-     return neon_full_reg_offset(reg) + ofs;
+  * @mr: IOMMU mr region handle
   * @n: notifier to be called
   * @asid: address space ID or negative value if we don't care
 + * @vmid: virtual machine ID or negative value if we don't care
   * @iova: iova
   * @tg: translation granule (if communicated through range invalidation)
   * @num_pages: number of @granule sized pages (if tg != 0), otherwise 1
   */
  static void smmuv3_notify_iova(IOMMUMemoryRegion *mr,
                                 IOMMUNotifier *n,
 -                               int asid, dma_addr_t iova,
 -                               uint8_t tg, uint64_t num_pages)
 +                               int asid, int vmid,
 +                               dma_addr_t iova, uint8_t tg,
 +                               uint64_t num_pages)
  {
      SMMUDevice *sdev = container_of(mr, SMMUDevice, iommu);
      IOMMUTLBEvent event;
      uint8_t granule;
 +    SMMUv3State *s = sdev->smmu;
      if (!tg) {
          SMMUEventInfo event = {.inval_ste_allowed = true};
@@ -XXX,XX +XXX,XX @@ static void smmuv3_notify_iova(IOMMUMemoryRegion *mr,
              return;
          }
 -        tt = select_tt(cfg, iova);
 -        if (!tt) {
 +        if (vmid >= 0 && cfg->s2cfg.vmid != vmid) {
              return;
          }
 -        granule = tt->granule_sz;
 +
 +        if (STAGE1_SUPPORTED(s)) {
 +            tt = select_tt(cfg, iova);
 +            if (!tt) {
 +                return;
 +            }
 +            granule = tt->granule_sz;
 +        } else {
 +            granule = cfg->s2cfg.granule_sz;
 +        }
 +
      } else {
          granule = tg * 2 + 10;
      }
@@ -XXX,XX +XXX,XX @@ static void smmuv3_notify_iova(IOMMUMemoryRegion *mr,
      memory_region_notify_iommu_one(n, &event);
  }
--static inline long vfp_reg_offset(bool dp, unsigned reg)
+-/* invalidate an asid/iova range tuple in all mr's */
-+/* Return the offset of a VFP Dreg (dp = true) or VFP Sreg (dp = false). */
+-static void smmuv3_inv_notifiers_iova(SMMUState *s, int asid, dma_addr_t iova,
-+static long vfp_reg_offset(bool dp, unsigned reg)
+-                                      uint8_t tg, uint64_t num_pages)
 +/* invalidate an asid/vmid/iova range tuple in all mr's */
 +static void smmuv3_inv_notifiers_iova(SMMUState *s, int asid, int vmid,
 +                                      dma_addr_t iova, uint8_t tg,
 +                                      uint64_t num_pages)
  {
-     if (dp) {
+     SMMUDevice *sdev;
--        return offsetof(CPUARMState, vfp.zregs[reg >> 1].d[reg & 1]);
-+        return neon_element_offset(reg, 0, MO_64);
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_inv_notifiers_iova(SMMUState *s, int asid, dma_addr_t iova,
-     } else {
+         IOMMUMemoryRegion *mr = &sdev->iommu;
--        long ofs = offsetof(CPUARMState, vfp.zregs[reg >> 2].d[(reg >> 1) & 1]);
+         IOMMUNotifier *n;
--        if (reg & 1) {
--            ofs += offsetof(CPU_DoubleU, l.upper);
+-        trace_smmuv3_inv_notifiers_iova(mr->parent_obj.name, asid, iova,
--        } else {
+-                                        tg, num_pages);
--            ofs += offsetof(CPU_DoubleU, l.lower);
++        trace_smmuv3_inv_notifiers_iova(mr->parent_obj.name, asid, vmid,
--        }
++                                        iova, tg, num_pages);
--        return ofs;
-+        return neon_element_offset(reg >> 1, reg & 1, MO_32);
+         IOMMU_NOTIFIER_FOREACH(n, mr) {
 -            smmuv3_notify_iova(mr, n, asid, iova, tg, num_pages);
 +            smmuv3_notify_iova(mr, n, asid, vmid, iova, tg, num_pages);
          }
      }
  }
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_range_inval(SMMUState *s, Cmd *cmd)
+     if (!tg) {
+         trace_smmuv3_range_inval(vmid, asid, addr, tg, 1, ttl, leaf);
+-        smmuv3_inv_notifiers_iova(s, asid, addr, tg, 1);
++        smmuv3_inv_notifiers_iova(s, asid, vmid, addr, tg, 1);
+         smmu_iotlb_inv_iova(s, asid, vmid, addr, tg, 1, ttl);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_range_inval(SMMUState *s, Cmd *cmd)
+         num_pages = (mask + 1) >> granule;
+         trace_smmuv3_range_inval(vmid, asid, addr, tg, num_pages, ttl, leaf);
+-        smmuv3_inv_notifiers_iova(s, asid, addr, tg, num_pages);
++        smmuv3_inv_notifiers_iova(s, asid, vmid, addr, tg, num_pages);
+         smmu_iotlb_inv_iova(s, asid, vmid, addr, tg, num_pages, ttl);
+         addr += mask + 1;
+     }
+diff --git a/hw/arm/trace-events b/hw/arm/trace-events
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/trace-events
++++ b/hw/arm/trace-events
+@@ -XXX,XX +XXX,XX @@ smmuv3_cmdq_tlbi_s12_vmid(uint16_t vmid) "vmid=%d"
+ smmuv3_config_cache_inv(uint32_t sid) "Config cache INV for sid=0x%x"
+ smmuv3_notify_flag_add(const char *iommu) "ADD SMMUNotifier node for iommu mr=%s"
+ smmuv3_notify_flag_del(const char *iommu) "DEL SMMUNotifier node for iommu mr=%s"
+-smmuv3_inv_notifiers_iova(const char *name, uint16_t asid, uint64_t iova, uint8_t tg, uint64_t num_pages) "iommu mr=%s asid=%d iova=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64
++smmuv3_inv_notifiers_iova(const char *name, uint16_t asid, uint16_t vmid, uint64_t iova, uint8_t tg, uint64_t num_pages) "iommu mr=%s asid=%d vmid=%d iova=0x%"PRIx64" tg=%d num_pages=0x%"PRIx64
 --
-.20.1
+.34.1

-[PULL 11/26] target/arm: Improve do_prewiden_3d
+[PULL 11/21] hw/arm/smmuv3: Add knob to choose translation stage and enable stage-2
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Mostafa Saleh <smostafa@google.com>
-We can use proper widening loads to extend 32-bit inputs,
+As everything is in place, we can use a new system property to
-and skip the "widenfn" step.
+advertise which stage is supported and remove bad_ste from STE
 stage2 config.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+The property added arm-smmuv3.stage can have 3 values:
-Message-id: 20201030022618.785675-12-richard.henderson@linaro.org
+- "1": Stage-1 only is advertised.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+- "2": Stage-2 only is advertised.
 If not passed or an unsupported value is passed, it will default to
 stage-1.
 Advertise VMID16.
 Don't try to decode CD, if stage-2 is configured.
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Signed-off-by: Mostafa Saleh <smostafa@google.com>
 Tested-by: Eric Auger <eric.auger@redhat.com>
 Tested-by: Jean-Philippe Brucker <jean-philippe@linaro.org>
 Message-id: 20230516203327.2051088-11-smostafa@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c          |  6 +++
+ include/hw/arm/smmuv3.h |  1 +
- target/arm/translate-neon.c.inc | 66 ++++++++++++++++++---------------
+ hw/arm/smmuv3.c         | 32 ++++++++++++++++++++++----------
-files changed, 43 insertions(+), 29 deletions(-)
+files changed, 23 insertions(+), 10 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/include/hw/arm/smmuv3.h b/include/hw/arm/smmuv3.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/include/hw/arm/smmuv3.h
-+++ b/target/arm/translate.c
++++ b/include/hw/arm/smmuv3.h
-@@ -XXX,XX +XXX,XX @@ static void read_neon_element64(TCGv_i64 dest, int reg, int ele, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ struct SMMUv3State {
-     long off = neon_element_offset(reg, ele, memop);
+     qemu_irq     irq[4];
-     switch (memop) {
+     QemuMutex mutex;
-+    case MO_SL:
++    char *stage;
-+        tcg_gen_ld32s_i64(dest, cpu_env, off);
+ };
-+        break;
-+    case MO_UL:
+ typedef enum {
-+        tcg_gen_ld32u_i64(dest, cpu_env, off);
+diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 +        break;
      case MO_Q:
          tcg_gen_ld_i64(dest, cpu_env, off);
          break;
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+--- a/hw/arm/smmuv3.c
-+++ b/target/arm/translate-neon.c.inc
++++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm_1r(DisasContext *s, arg_1reg_imm *a)
+@@ -XXX,XX +XXX,XX @@
- static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
+ #include "hw/irq.h"
-                            NeonGenWidenFn *widenfn,
+ #include "hw/sysbus.h"
-                            NeonGenTwo64OpFn *opfn,
+ #include "migration/vmstate.h"
--                           bool src1_wide)
++#include "hw/qdev-properties.h"
-+                           int src1_mop, int src2_mop)
+ #include "hw/qdev-core.h"
  #include "hw/pci/pci.h"
  #include "cpu.h"
@@ -XXX,XX +XXX,XX @@ void smmuv3_record_event(SMMUv3State *s, SMMUEventInfo *info)
  static void smmuv3_init_regs(SMMUv3State *s)
  {
-     /* 3-regs different lengths, prewidening case (VADDL/VSUBL/VAADW/VSUBW) */
+-    /**
-     TCGv_i64 rn0_64, rn1_64, rm_64;
+-     * IDR0: stage1 only, AArch64 only, coherent access, 16b ASID,
--    TCGv_i32 rm;
+-     *       multi-level stream table
+-     */
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+-    s->idr[0] = FIELD_DP32(s->idr[0], IDR0, S1P, 1); /* stage 1 supported */
-         return false;
++    /* Based on sys property, the stages supported in smmu will be advertised.*/
-@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
++    if (s->stage && !strcmp("2", s->stage)) {
-         return false;
++        s->idr[0] = FIELD_DP32(s->idr[0], IDR0, S2P, 1);
 +    } else {
 +        s->idr[0] = FIELD_DP32(s->idr[0], IDR0, S1P, 1);
 +    }
 +
      s->idr[0] = FIELD_DP32(s->idr[0], IDR0, TTF, 2); /* AArch64 PTW only */
      s->idr[0] = FIELD_DP32(s->idr[0], IDR0, COHACC, 1); /* IO coherent */
      s->idr[0] = FIELD_DP32(s->idr[0], IDR0, ASID16, 1); /* 16-bit ASID */
 +    s->idr[0] = FIELD_DP32(s->idr[0], IDR0, VMID16, 1); /* 16-bit VMID */
      s->idr[0] = FIELD_DP32(s->idr[0], IDR0, TTENDIAN, 2); /* little endian */
      s->idr[0] = FIELD_DP32(s->idr[0], IDR0, STALL_MODEL, 1); /* No stall */
      /* terminated transaction will always be aborted/error returned */
@@ -XXX,XX +XXX,XX @@ static int decode_ste_s2_cfg(SMMUTransCfg *cfg, STE *ste)
          goto bad_ste;
      }
--    if (!widenfn || !opfn) {
+-    /* This is still here as stage 2 has not been fully enabled yet. */
-+    if (!opfn) {
+-    qemu_log_mask(LOG_UNIMP, "SMMUv3 does not support stage 2 yet\n");
-         /* size == 3 case, which is an entirely different insn group */
+-    goto bad_ste;
-         return false;
+-
      return 0;
  bad_ste:
@@ -XXX,XX +XXX,XX @@ static int smmuv3_decode_config(IOMMUMemoryRegion *mr, SMMUTransCfg *cfg,
          return ret;
      }
--    if ((a->vd & 1) || (src1_wide && (a->vn & 1))) {
+-    if (cfg->aborted || cfg->bypassed) {
-+    if ((a->vd & 1) || (src1_mop == MO_Q && (a->vn & 1))) {
++    if (cfg->aborted || cfg->bypassed || (cfg->stage == 2)) {
-         return false;
+         return 0;
      }
-@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
+@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_smmuv3 = {
      rn1_64 = tcg_temp_new_i64();
      rm_64 = tcg_temp_new_i64();
 -    if (src1_wide) {
 -        read_neon_element64(rn0_64, a->vn, 0, MO_64);
 +    if (src1_mop >= 0) {
 +        read_neon_element64(rn0_64, a->vn, 0, src1_mop);
      } else {
          TCGv_i32 tmp = tcg_temp_new_i32();
          read_neon_element32(tmp, a->vn, 0, MO_32);
          widenfn(rn0_64, tmp);
          tcg_temp_free_i32(tmp);
      }
--    rm = tcg_temp_new_i32();
+ };
--    read_neon_element32(rm, a->vm, 0, MO_32);
-+    if (src2_mop >= 0) {
++static Property smmuv3_properties[] = {
-+        read_neon_element64(rm_64, a->vm, 0, src2_mop);
++    /*
-+    } else {
++     * Stages of translation advertised.
-+        TCGv_i32 tmp = tcg_temp_new_i32();
++     * "1": Stage 1
-+        read_neon_element32(tmp, a->vm, 0, MO_32);
++     * "2": Stage 2
-+        widenfn(rm_64, tmp);
++     * Defaults to stage 1
-+        tcg_temp_free_i32(tmp);
++     */
-+    }
++    DEFINE_PROP_STRING("stage", SMMUv3State, stage),
++    DEFINE_PROP_END_OF_LIST()
--    widenfn(rm_64, rm);
++};
--    tcg_temp_free_i32(rm);
++
-     opfn(rn0_64, rn0_64, rm_64);
+ static void smmuv3_instance_init(Object *obj)
+ {
-     /*
+     /* Nothing much to do here as of now */
-      * Load second pass inputs before storing the first pass result, to
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_class_init(ObjectClass *klass, void *data)
-      * avoid incorrect results if a narrow input overlaps with the result.
+                                        &c->parent_phases);
-      */
+     c->parent_realize = dc->realize;
--    if (src1_wide) {
+     dc->realize = smmu_realize;
--        read_neon_element64(rn1_64, a->vn, 1, MO_64);
++    device_class_set_props(dc, smmuv3_properties);
 +    if (src1_mop >= 0) {
 +        read_neon_element64(rn1_64, a->vn, 1, src1_mop);
      } else {
          TCGv_i32 tmp = tcg_temp_new_i32();
          read_neon_element32(tmp, a->vn, 1, MO_32);
          widenfn(rn1_64, tmp);
          tcg_temp_free_i32(tmp);
      }
 -    rm = tcg_temp_new_i32();
 -    read_neon_element32(rm, a->vm, 1, MO_32);
 +    if (src2_mop >= 0) {
 +        read_neon_element64(rm_64, a->vm, 1, src2_mop);
 +    } else {
 +        TCGv_i32 tmp = tcg_temp_new_i32();
 +        read_neon_element32(tmp, a->vm, 1, MO_32);
 +        widenfn(rm_64, tmp);
 +        tcg_temp_free_i32(tmp);
 +    }
      write_neon_element64(rn0_64, a->vd, 0, MO_64);
 -    widenfn(rm_64, rm);
 -    tcg_temp_free_i32(rm);
      opfn(rn1_64, rn1_64, rm_64);
      write_neon_element64(rn1_64, a->vd, 1, MO_64);
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
      return true;
  }
--#define DO_PREWIDEN(INSN, S, EXT, OP, SRC1WIDE)                         \
+ static int smmuv3_notify_flag_changed(IOMMUMemoryRegion *iommu,
 +#define DO_PREWIDEN(INSN, S, OP, SRC1WIDE, SIGN)                        \
      static bool trans_##INSN##_3d(DisasContext *s, arg_3diff *a)        \
      {                                                                   \
          static NeonGenWidenFn * const widenfn[] = {                     \
              gen_helper_neon_widen_##S##8,                               \
              gen_helper_neon_widen_##S##16,                              \
 -            tcg_gen_##EXT##_i32_i64,                                    \
 -            NULL,                                                       \
 +            NULL, NULL,                                                 \
          };                                                              \
          static NeonGenTwo64OpFn * const addfn[] = {                     \
              gen_helper_neon_##OP##l_u16,                                \
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
              tcg_gen_##OP##_i64,                                         \
              NULL,                                                       \
          };                                                              \
 -        return do_prewiden_3d(s, a, widenfn[a->size],                   \
 -                              addfn[a->size], SRC1WIDE);                \
 +        int narrow_mop = a->size == MO_32 ? MO_32 | SIGN : -1;          \
 +        return do_prewiden_3d(s, a, widenfn[a->size], addfn[a->size],   \
 +                              SRC1WIDE ? MO_Q : narrow_mop,             \
 +                              narrow_mop);                              \
      }
 -DO_PREWIDEN(VADDL_S, s, ext, add, false)
 -DO_PREWIDEN(VADDL_U, u, extu, add, false)
 -DO_PREWIDEN(VSUBL_S, s, ext, sub, false)
 -DO_PREWIDEN(VSUBL_U, u, extu, sub, false)
 -DO_PREWIDEN(VADDW_S, s, ext, add, true)
 -DO_PREWIDEN(VADDW_U, u, extu, add, true)
 -DO_PREWIDEN(VSUBW_S, s, ext, sub, true)
 -DO_PREWIDEN(VSUBW_U, u, extu, sub, true)
 +DO_PREWIDEN(VADDL_S, s, add, false, MO_SIGN)
 +DO_PREWIDEN(VADDL_U, u, add, false, 0)
 +DO_PREWIDEN(VSUBL_S, s, sub, false, MO_SIGN)
 +DO_PREWIDEN(VSUBL_U, u, sub, false, 0)
 +DO_PREWIDEN(VADDW_S, s, add, true, MO_SIGN)
 +DO_PREWIDEN(VADDW_U, u, add, true, 0)
 +DO_PREWIDEN(VSUBW_S, s, sub, true, MO_SIGN)
 +DO_PREWIDEN(VSUBW_U, u, sub, true, 0)
  static bool do_narrow_3d(DisasContext *s, arg_3diff *a,
                           NeonGenTwo64OpFn *opfn, NeonGenNarrowFn *narrowfn)
 --
-.20.1
+.34.1

-[PULL 08/26] target/arm: Add read/write_neon_element64
+[PULL 12/21] hw/dma/xilinx_axidma: Check DMASR.HALTED to prevent infinite loop.
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Tommy Wu <tommy.wu@sifive.com>
-Replace all uses of neon_load/store_reg64 within translate-neon.c.inc.
+When we receive a packet from the xilinx_axienet and then try to s2mem
 through the xilinx_axidma, if the descriptor ring buffer is full in the
 xilinx axidma driver, we’ll assert the DMASR.HALTED in the
 function : stream_process_s2mem and return 0. In the end, we’ll be stuck in
 an infinite loop in axienet_eth_rx_notify.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+This patch checks the DMASR.HALTED state when we try to push data
-Message-id: 20201030022618.785675-9-richard.henderson@linaro.org
+from xilinx axi-enet to xilinx axi-dma. When the DMASR.HALTED is asserted,
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+we will not keep pushing the data and then prevent the infinte loop.
 Signed-off-by: Tommy Wu <tommy.wu@sifive.com>
 Reviewed-by: Edgar E. Iglesias <edgar@zeroasic.com>
 Reviewed-by: Frank Chang <frank.chang@sifive.com>
 Message-id: 20230519062137.1251741-1-tommy.wu@sifive.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c          | 26 +++++++++
+ hw/dma/xilinx_axidma.c | 11 ++++++++---
- target/arm/translate-neon.c.inc | 94 ++++++++++++++++-----------------
+file changed, 8 insertions(+), 3 deletions(-)
 files changed, 73 insertions(+), 47 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/hw/dma/xilinx_axidma.c b/hw/dma/xilinx_axidma.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/dma/xilinx_axidma.c
-+++ b/target/arm/translate.c
++++ b/hw/dma/xilinx_axidma.c
-@@ -XXX,XX +XXX,XX @@ static void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ static inline int stream_idle(struct Stream *s)
-     }
+     return !!(s->regs[R_DMASR] & DMASR_IDLE);
  }
-+static void read_neon_element64(TCGv_i64 dest, int reg, int ele, MemOp memop)
++static inline int stream_halted(struct Stream *s)
 +{
-+    long off = neon_element_offset(reg, ele, memop);
++    return !!(s->regs[R_DMASR] & DMASR_HALTED);
 +
 +    switch (memop) {
 +    case MO_Q:
 +        tcg_gen_ld_i64(dest, cpu_env, off);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +}
 +
- static void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp memop)
+ static void stream_reset(struct Stream *s)
  {
-     long off = neon_element_offset(reg, ele, memop);
+     s->regs[R_DMASR] = DMASR_HALTED;  /* starts up halted.  */
-@@ -XXX,XX +XXX,XX @@ static void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp memop)
+@@ -XXX,XX +XXX,XX @@ static void stream_process_mem2s(struct Stream *s, StreamSink *tx_data_dev,
      uint64_t addr;
      bool eop;
 -    if (!stream_running(s) || stream_idle(s)) {
 +    if (!stream_running(s) || stream_idle(s) || stream_halted(s)) {
          return;
      }
- }
+@@ -XXX,XX +XXX,XX @@ static size_t stream_process_s2mem(struct Stream *s, unsigned char *buf,
-+static void write_neon_element64(TCGv_i64 src, int reg, int ele, MemOp memop)
+     unsigned int rxlen;
-+{
+     size_t pos = 0;
-+    long off = neon_element_offset(reg, ele, memop);
-+
+-    if (!stream_running(s) || stream_idle(s)) {
-+    switch (memop) {
++    if (!stream_running(s) || stream_idle(s) || stream_halted(s)) {
-+    case MO_64:
+         return 0;
 +        tcg_gen_st_i64(src, cpu_env, off);
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +}
 +
  static TCGv_ptr vfp_reg_ptr(bool dp, int reg)
  {
      TCGv_ptr ret = tcg_temp_new_ptr();
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_env_64(DisasContext *s, arg_2reg_shift *a,
      for (pass = 0; pass < a->q + 1; pass++) {
          TCGv_i64 tmp = tcg_temp_new_i64();
 -        neon_load_reg64(tmp, a->vm + pass);
 +        read_neon_element64(tmp, a->vm, pass, MO_64);
          fn(tmp, cpu_env, tmp, constimm);
 -        neon_store_reg64(tmp, a->vd + pass);
 +        write_neon_element64(tmp, a->vd, pass, MO_64);
          tcg_temp_free_i64(tmp);
      }
-     tcg_temp_free_i64(constimm);
-@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
+@@ -XXX,XX +XXX,XX @@ xilinx_axidma_data_stream_can_push(StreamSink *obj,
-     rd = tcg_temp_new_i32();
+     XilinxAXIDMAStreamSink *ds = XILINX_AXI_DMA_DATA_STREAM(obj);
+     struct Stream *s = &ds->dma->streams[1];
-     /* Load both inputs first to avoid potential overwrite if rm == rd */
--    neon_load_reg64(rm1, a->vm);
+-    if (!stream_running(s) || stream_idle(s)) {
--    neon_load_reg64(rm2, a->vm + 1);
++    if (!stream_running(s) || stream_idle(s) || stream_halted(s)) {
-+    read_neon_element64(rm1, a->vm, 0, MO_64);
+         ds->dma->notify = notify;
-+    read_neon_element64(rm2, a->vm, 1, MO_64);
+         ds->dma->notify_opaque = notify_opaque;
+         return false;
      shiftfn(rm1, rm1, constimm);
      narrowfn(rd, cpu_env, rm1);
@@ -XXX,XX +XXX,XX @@ static bool do_vshll_2sh(DisasContext *s, arg_2reg_shift *a,
          tcg_gen_shli_i64(tmp, tmp, a->shift);
          tcg_gen_andi_i64(tmp, tmp, ~widen_mask);
      }
 -    neon_store_reg64(tmp, a->vd);
 +    write_neon_element64(tmp, a->vd, 0, MO_64);
      widenfn(tmp, rm1);
      tcg_temp_free_i32(rm1);
@@ -XXX,XX +XXX,XX @@ static bool do_vshll_2sh(DisasContext *s, arg_2reg_shift *a,
          tcg_gen_shli_i64(tmp, tmp, a->shift);
          tcg_gen_andi_i64(tmp, tmp, ~widen_mask);
      }
 -    neon_store_reg64(tmp, a->vd + 1);
 +    write_neon_element64(tmp, a->vd, 1, MO_64);
      tcg_temp_free_i64(tmp);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
      rm_64 = tcg_temp_new_i64();
      if (src1_wide) {
 -        neon_load_reg64(rn0_64, a->vn);
 +        read_neon_element64(rn0_64, a->vn, 0, MO_64);
      } else {
          TCGv_i32 tmp = tcg_temp_new_i32();
          read_neon_element32(tmp, a->vn, 0, MO_32);
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
       * avoid incorrect results if a narrow input overlaps with the result.
       */
      if (src1_wide) {
 -        neon_load_reg64(rn1_64, a->vn + 1);
 +        read_neon_element64(rn1_64, a->vn, 1, MO_64);
      } else {
          TCGv_i32 tmp = tcg_temp_new_i32();
          read_neon_element32(tmp, a->vn, 1, MO_32);
@@ -XXX,XX +XXX,XX @@ static bool do_prewiden_3d(DisasContext *s, arg_3diff *a,
      rm = tcg_temp_new_i32();
      read_neon_element32(rm, a->vm, 1, MO_32);
 -    neon_store_reg64(rn0_64, a->vd);
 +    write_neon_element64(rn0_64, a->vd, 0, MO_64);
      widenfn(rm_64, rm);
      tcg_temp_free_i32(rm);
      opfn(rn1_64, rn1_64, rm_64);
 -    neon_store_reg64(rn1_64, a->vd + 1);
 +    write_neon_element64(rn1_64, a->vd, 1, MO_64);
      tcg_temp_free_i64(rn0_64);
      tcg_temp_free_i64(rn1_64);
@@ -XXX,XX +XXX,XX @@ static bool do_narrow_3d(DisasContext *s, arg_3diff *a,
      rd0 = tcg_temp_new_i32();
      rd1 = tcg_temp_new_i32();
 -    neon_load_reg64(rn_64, a->vn);
 -    neon_load_reg64(rm_64, a->vm);
 +    read_neon_element64(rn_64, a->vn, 0, MO_64);
 +    read_neon_element64(rm_64, a->vm, 0, MO_64);
      opfn(rn_64, rn_64, rm_64);
      narrowfn(rd0, rn_64);
 -    neon_load_reg64(rn_64, a->vn + 1);
 -    neon_load_reg64(rm_64, a->vm + 1);
 +    read_neon_element64(rn_64, a->vn, 1, MO_64);
 +    read_neon_element64(rm_64, a->vm, 1, MO_64);
      opfn(rn_64, rn_64, rm_64);
@@ -XXX,XX +XXX,XX @@ static bool do_long_3d(DisasContext *s, arg_3diff *a,
      /* Don't store results until after all loads: they might overlap */
      if (accfn) {
          tmp = tcg_temp_new_i64();
 -        neon_load_reg64(tmp, a->vd);
 +        read_neon_element64(tmp, a->vd, 0, MO_64);
          accfn(tmp, tmp, rd0);
 -        neon_store_reg64(tmp, a->vd);
 -        neon_load_reg64(tmp, a->vd + 1);
 +        write_neon_element64(tmp, a->vd, 0, MO_64);
 +        read_neon_element64(tmp, a->vd, 1, MO_64);
          accfn(tmp, tmp, rd1);
 -        neon_store_reg64(tmp, a->vd + 1);
 +        write_neon_element64(tmp, a->vd, 1, MO_64);
          tcg_temp_free_i64(tmp);
      } else {
 -        neon_store_reg64(rd0, a->vd);
 -        neon_store_reg64(rd1, a->vd + 1);
 +        write_neon_element64(rd0, a->vd, 0, MO_64);
 +        write_neon_element64(rd1, a->vd, 1, MO_64);
      }
      tcg_temp_free_i64(rd0);
@@ -XXX,XX +XXX,XX @@ static bool do_2scalar_long(DisasContext *s, arg_2scalar *a,
      if (accfn) {
          TCGv_i64 t64 = tcg_temp_new_i64();
 -        neon_load_reg64(t64, a->vd);
 +        read_neon_element64(t64, a->vd, 0, MO_64);
          accfn(t64, t64, rn0_64);
 -        neon_store_reg64(t64, a->vd);
 -        neon_load_reg64(t64, a->vd + 1);
 +        write_neon_element64(t64, a->vd, 0, MO_64);
 +        read_neon_element64(t64, a->vd, 1, MO_64);
          accfn(t64, t64, rn1_64);
 -        neon_store_reg64(t64, a->vd + 1);
 +        write_neon_element64(t64, a->vd, 1, MO_64);
          tcg_temp_free_i64(t64);
      } else {
 -        neon_store_reg64(rn0_64, a->vd);
 -        neon_store_reg64(rn1_64, a->vd + 1);
 +        write_neon_element64(rn0_64, a->vd, 0, MO_64);
 +        write_neon_element64(rn1_64, a->vd, 1, MO_64);
      }
      tcg_temp_free_i64(rn0_64);
      tcg_temp_free_i64(rn1_64);
@@ -XXX,XX +XXX,XX @@ static bool trans_VEXT(DisasContext *s, arg_VEXT *a)
          right = tcg_temp_new_i64();
          dest = tcg_temp_new_i64();
 -        neon_load_reg64(right, a->vn);
 -        neon_load_reg64(left, a->vm);
 +        read_neon_element64(right, a->vn, 0, MO_64);
 +        read_neon_element64(left, a->vm, 0, MO_64);
          tcg_gen_extract2_i64(dest, right, left, a->imm * 8);
 -        neon_store_reg64(dest, a->vd);
 +        write_neon_element64(dest, a->vd, 0, MO_64);
          tcg_temp_free_i64(left);
          tcg_temp_free_i64(right);
@@ -XXX,XX +XXX,XX @@ static bool trans_VEXT(DisasContext *s, arg_VEXT *a)
          destright = tcg_temp_new_i64();
          if (a->imm < 8) {
 -            neon_load_reg64(right, a->vn);
 -            neon_load_reg64(middle, a->vn + 1);
 +            read_neon_element64(right, a->vn, 0, MO_64);
 +            read_neon_element64(middle, a->vn, 1, MO_64);
              tcg_gen_extract2_i64(destright, right, middle, a->imm * 8);
 -            neon_load_reg64(left, a->vm);
 +            read_neon_element64(left, a->vm, 0, MO_64);
              tcg_gen_extract2_i64(destleft, middle, left, a->imm * 8);
          } else {
 -            neon_load_reg64(right, a->vn + 1);
 -            neon_load_reg64(middle, a->vm);
 +            read_neon_element64(right, a->vn, 1, MO_64);
 +            read_neon_element64(middle, a->vm, 0, MO_64);
              tcg_gen_extract2_i64(destright, right, middle, (a->imm - 8) * 8);
 -            neon_load_reg64(left, a->vm + 1);
 +            read_neon_element64(left, a->vm, 1, MO_64);
              tcg_gen_extract2_i64(destleft, middle, left, (a->imm - 8) * 8);
          }
 -        neon_store_reg64(destright, a->vd);
 -        neon_store_reg64(destleft, a->vd + 1);
 +        write_neon_element64(destright, a->vd, 0, MO_64);
 +        write_neon_element64(destleft, a->vd, 1, MO_64);
          tcg_temp_free_i64(destright);
          tcg_temp_free_i64(destleft);
@@ -XXX,XX +XXX,XX @@ static bool do_2misc_pairwise(DisasContext *s, arg_2misc *a,
          if (accfn) {
              TCGv_i64 tmp64 = tcg_temp_new_i64();
 -            neon_load_reg64(tmp64, a->vd + pass);
 +            read_neon_element64(tmp64, a->vd, pass, MO_64);
              accfn(rd_64, tmp64, rd_64);
              tcg_temp_free_i64(tmp64);
          }
 -        neon_store_reg64(rd_64, a->vd + pass);
 +        write_neon_element64(rd_64, a->vd, pass, MO_64);
          tcg_temp_free_i64(rd_64);
      }
      return true;
@@ -XXX,XX +XXX,XX @@ static bool do_vmovn(DisasContext *s, arg_2misc *a,
      rd0 = tcg_temp_new_i32();
      rd1 = tcg_temp_new_i32();
 -    neon_load_reg64(rm, a->vm);
 +    read_neon_element64(rm, a->vm, 0, MO_64);
      narrowfn(rd0, cpu_env, rm);
 -    neon_load_reg64(rm, a->vm + 1);
 +    read_neon_element64(rm, a->vm, 1, MO_64);
      narrowfn(rd1, cpu_env, rm);
      write_neon_element32(rd0, a->vd, 0, MO_32);
      write_neon_element32(rd1, a->vd, 1, MO_32);
@@ -XXX,XX +XXX,XX @@ static bool trans_VSHLL(DisasContext *s, arg_2misc *a)
      widenfn(rd, rm0);
      tcg_gen_shli_i64(rd, rd, 8 << a->size);
 -    neon_store_reg64(rd, a->vd);
 +    write_neon_element64(rd, a->vd, 0, MO_64);
      widenfn(rd, rm1);
      tcg_gen_shli_i64(rd, rd, 8 << a->size);
 -    neon_store_reg64(rd, a->vd + 1);
 +    write_neon_element64(rd, a->vd, 1, MO_64);
      tcg_temp_free_i64(rd);
      tcg_temp_free_i32(rm0);
@@ -XXX,XX +XXX,XX @@ static bool trans_VSWP(DisasContext *s, arg_2misc *a)
      rm = tcg_temp_new_i64();
      rd = tcg_temp_new_i64();
      for (pass = 0; pass < (a->q ? 2 : 1); pass++) {
 -        neon_load_reg64(rm, a->vm + pass);
 -        neon_load_reg64(rd, a->vd + pass);
 -        neon_store_reg64(rm, a->vd + pass);
 -        neon_store_reg64(rd, a->vm + pass);
 +        read_neon_element64(rm, a->vm, pass, MO_64);
 +        read_neon_element64(rd, a->vd, pass, MO_64);
 +        write_neon_element64(rm, a->vd, pass, MO_64);
 +        write_neon_element64(rd, a->vm, pass, MO_64);
      }
      tcg_temp_free_i64(rm);
      tcg_temp_free_i64(rd);
 --
-.20.1
+.34.1

-[PULL 16/26] disas/capstone: Fix monitor disassembly of >32 bytes
+[PULL 13/21] hw/arm/xlnx-zynqmp: fix unsigned error when checking the RPUs number
-If we're using the capstone disassembler, disassembly of a run of
+From: Clément Chigot <chigot@adacore.com>
 instructions more than 32 bytes long disassembles the wrong data for
 instructions beyond the 32 byte mark:
-(qemu) xp /16x 0x100
+When passing --smp with a number lower than XLNX_ZYNQMP_NUM_APU_CPUS,
-0000000000000100: 0x00000005 0x54410001 0x00000001 0x00001000
+the expression (ms->smp.cpus - XLNX_ZYNQMP_NUM_APU_CPUS) will result
-0000000000000110: 0x00000000 0x00000004 0x54410002 0x3c000000
+in a positive number as ms->smp.cpus is a unsigned int.
-0000000000000120: 0x00000000 0x00000004 0x54410009 0x74736574
+This will raise the following error afterwards, as Qemu will try to
-0000000000000130: 0x00000000 0x00000000 0x00000000 0x00000000
+instantiate some additional RPUs.
-(qemu) xp /16i 0x100
+  | $ qemu-system-aarch64 --smp 1 -M xlnx-zcu102
-x00000100: 00000005 andeq r0, r0, r5
+  | **
-x00000104: 54410001 strbpl r0, [r1], #-1
+  | ERROR:../src/tcg/tcg.c:777:tcg_register_thread:
-x00000108: 00000001 andeq r0, r0, r1
+  |   assertion failed: (n < tcg_max_ctxs)
 x0000010c: 00001000 andeq r1, r0, r0
 x00000110: 00000000 andeq r0, r0, r0
 x00000114: 00000004 andeq r0, r0, r4
 x00000118: 54410002 strbpl r0, [r1], #-2
 x0000011c: 3c000000 .byte 0x00, 0x00, 0x00, 0x3c
 x00000120: 54410001 strbpl r0, [r1], #-1
 x00000124: 00000001 andeq r0, r0, r1
 x00000128: 00001000 andeq r1, r0, r0
 x0000012c: 00000000 andeq r0, r0, r0
 x00000130: 00000004 andeq r0, r0, r4
 x00000134: 54410002 strbpl r0, [r1], #-2
 x00000138: 3c000000 .byte 0x00, 0x00, 0x00, 0x3c
 x0000013c: 00000000 andeq r0, r0, r0
-Here the disassembly of 0x120..0x13f is using the data that is in
+Signed-off-by: Clément Chigot <chigot@adacore.com>
-x104..0x123.
+Reviewed-by: Francisco Iglesias <frasse.iglesias@gmail.com>
+Tested-by: Francisco Iglesias <frasse.iglesias@gmail.com>
-This is caused by passing the wrong value to the read_memory_func().
+Message-id: 20230524143714.565792-1-chigot@adacore.com
 The intention is that at this point in the loop the 'cap_buf' buffer
 already contains 'csize' bytes of data for the instruction at guest
 addr 'pc', and we want to read in an extra 'tsize' bytes.  Those
 extra bytes are therefore at 'pc + csize', not 'pc'.  On the first
 time through the loop 'csize' happens to be zero, so the initial read
 of 32 bytes into cap_buf is correct and as long as the disassembly
 never needs to read more data we return the correct information.
 Use the correct guest address in the call to read_memory_func().
 Cc: qemu-stable@nongnu.org
 Fixes: https://bugs.launchpad.net/qemu/+bug/1900779
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20201022132445.25039-1-peter.maydell@linaro.org
 ---
- disas/capstone.c | 2 +-
+ hw/arm/xlnx-zynqmp.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/disas/capstone.c b/disas/capstone.c
+diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
 index XXXXXXX..XXXXXXX 100644
---- a/disas/capstone.c
+--- a/hw/arm/xlnx-zynqmp.c
-+++ b/disas/capstone.c
++++ b/hw/arm/xlnx-zynqmp.c
-@@ -XXX,XX +XXX,XX @@ bool cap_disas_monitor(disassemble_info *info, uint64_t pc, int count)
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_create_rpu(MachineState *ms, XlnxZynqMPState *s,
+                                    const char *boot_cpu, Error **errp)
-         /* Make certain that we can make progress.  */
+ {
-         assert(tsize != 0);
+     int i;
--        info->read_memory_func(pc, cap_buf + csize, tsize, info);
+-    int num_rpus = MIN(ms->smp.cpus - XLNX_ZYNQMP_NUM_APU_CPUS,
-+        info->read_memory_func(pc + csize, cap_buf + csize, tsize, info);
++    int num_rpus = MIN((int)(ms->smp.cpus - XLNX_ZYNQMP_NUM_APU_CPUS),
-         csize += tsize;
+                        XLNX_ZYNQMP_NUM_RPU_CPUS);
-         if (cs_disasm_iter(handle, &cbuf, &csize, &pc, insn)) {
+     if (num_rpus <= 0) {
 --
-.20.1
+.34.1

-[PULL 14/26] target/arm: fix handling of HCR.FB
+[PULL 14/21] tests/qtest: Run arm-specific tests only if the required machine is available
-From: Rémi Denis-Courmont <remi.denis.courmont@huawei.com>
+From: Thomas Huth <thuth@redhat.com>
-HCR should be applied when NS is set, not when it is cleared.
+pflash-cfi02-test.c always uses the "musicpal" machine for testing,
 test-arm-mptimer.c always uses the "vexpress-a9" machine, and
 microbit-test.c requires the "microbit" machine, so we should only
 run these tests if the machines have been enabled in the configuration.
-Signed-off-by: Rémi Denis-Courmont <remi.denis.courmont@huawei.com>
+Signed-off-by: Thomas Huth <thuth@redhat.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Fabiano Rosas <farosas@suse.de>
 Message-id: 20230524080600.1618137-1-thuth@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 5 ++---
+ tests/qtest/meson.build | 7 ++++---
-file changed, 2 insertions(+), 3 deletions(-)
+file changed, 4 insertions(+), 3 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/tests/qtest/meson.build
-+++ b/target/arm/helper.c
++++ b/tests/qtest/meson.build
-@@ -XXX,XX +XXX,XX @@ static void tlbimvaa_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
+@@ -XXX,XX +XXX,XX @@ qtests_arm = \
+   (config_all_devices.has_key('CONFIG_CMSDK_APB_DUALTIMER') ? ['cmsdk-apb-dualtimer-test'] : []) + \
- /*
+   (config_all_devices.has_key('CONFIG_CMSDK_APB_TIMER') ? ['cmsdk-apb-timer-test'] : []) + \
-  * Non-IS variants of TLB operations are upgraded to
+   (config_all_devices.has_key('CONFIG_CMSDK_APB_WATCHDOG') ? ['cmsdk-apb-watchdog-test'] : []) + \
-- * IS versions if we are at NS EL1 and HCR_EL2.FB is set to
+-  (config_all_devices.has_key('CONFIG_PFLASH_CFI02') ? ['pflash-cfi02-test'] : []) +         \
-+ * IS versions if we are at EL1 and HCR_EL2.FB is effectively set to
++  (config_all_devices.has_key('CONFIG_PFLASH_CFI02') and
-  * force broadcast of these operations.
++   config_all_devices.has_key('CONFIG_MUSICPAL') ? ['pflash-cfi02-test'] : []) + \
-  */
+   (config_all_devices.has_key('CONFIG_ASPEED_SOC') ? qtests_aspeed : []) + \
- static bool tlb_force_broadcast(CPUARMState *env)
+   (config_all_devices.has_key('CONFIG_NPCM7XX') ? qtests_npcm7xx : []) + \
- {
+   (config_all_devices.has_key('CONFIG_GENERIC_LOADER') ? ['hexloader-test'] : []) + \
--    return (env->cp15.hcr_el2 & HCR_FB) &&
+   (config_all_devices.has_key('CONFIG_TPM_TIS_I2C') ? ['tpm-tis-i2c-test'] : []) + \
--        arm_current_el(env) == 1 && arm_is_secure_below_el3(env);
++  (config_all_devices.has_key('CONFIG_VEXPRESS') ? ['test-arm-mptimer'] : []) + \
-+    return arm_current_el(env) == 1 && (arm_hcr_el2_eff(env) & HCR_FB);
++  (config_all_devices.has_key('CONFIG_MICROBIT') ? ['microbit-test'] : []) + \
- }
+   ['arm-cpu-features',
+-   'microbit-test',
- static void tlbiall_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-   'test-arm-mptimer',
     'boot-serial-test']
  # TODO: once aarch64 TCG is fixed on ARM 32 bit host, make bios-tables-test unconditional
 --
-.20.1
+.34.1

-[PULL 21/26] target/arm: Get correct MMU index for other-security-state
+[PULL 15/21] target/arm: Explicitly select short-format FSR for M-profile
-In arm_v7m_mmu_idx_for_secstate() we get the 'priv' level to pass to
+For M-profile, there is no guest-facing A-profile format FSR, but we
-armv7m_mmu_idx_for_secstate_and_priv() by calling arm_current_el().
+still use the env->exception.fsr field to pass fault information from
-This is incorrect when the security state being queried is not the
+the point where a fault is raised to the code in
-current one, because arm_current_el() uses the current security state
+arm_v7m_cpu_do_interrupt() which interprets it and sets the M-profile
-to determine which of the banked CONTROL.nPRIV bits to look at.
+specific fault status registers.  So it doesn't matter whether we
-The effect was that if (for instance) Secure state was in privileged
+fill in env->exception.fsr in the short format or the LPAE format, as
-mode but Non-Secure was not then we would return the wrong MMU index.
+long as both sides agree.  As it happens arm_v7m_cpu_do_interrupt()
 assumes short-form.
-The only places where we are using this function in a way that could
+In compute_fsr_fsc() we weren't explicitly choosing short-form for
-trigger this bug are for the stack loads during a v8M function-return
+M-profile, but instead relied on it falling out in the wash because
-and for the instruction fetch of a v8M SG insn.
+arm_s1_regime_using_lpae_format() would be false.  This was broken in
 commit 452c67a4 when we added v8R support, because we said "PMSAv8 is
 always LPAE format" (as it is for v8R), forgetting that we were
 implicitly using this code path on M-profile. At that point we would
 hit a g_assert_not_reached():
  ERROR:../../target/arm/internals.h:549:arm_fi_to_lfsc: code should not be reached
-Fix the bug by expanding out the M-profile version of the
+#7  0x0000555555e055f7 in arm_fi_to_lfsc (fi=0x7fffecff9a90) at ../../target/arm/internals.h:549
-arm_current_el() logic inline so it can use the passed in secstate
+#8  0x0000555555e05a27 in compute_fsr_fsc (env=0x555557356670, fi=0x7fffecff9a90, target_el=1, mmu_idx=1, ret_fsc=0x7fffecff9a1c)
-rather than env->v7m.secure.
+    at ../../target/arm/tlb_helper.c:95
 #9  0x0000555555e05b62 in arm_deliver_fault (cpu=0x555557354800, addr=268961344, access_type=MMU_INST_FETCH, mmu_idx=1, fi=0x7fffecff9a90)
     at ../../target/arm/tlb_helper.c:132
 #10 0x0000555555e06095 in arm_cpu_tlb_fill (cs=0x555557354800, address=268961344, size=1, access_type=MMU_INST_FETCH, mmu_idx=1, probe=false, retaddr=0)
     at ../../target/arm/tlb_helper.c:260
+The specific assertion changed when commit fcc7404eff24b4c added
+"assert not M-profile" to arm_is_secure_below_el3(), because the
+conditions being checked in compute_fsr_fsc() include
+arm_el_is_aa64(), which will end up calling arm_is_secure_below_el3()
+and asserting before we try to call arm_fi_to_lfsc():
+#7  0x0000555555efaf43 in arm_is_secure_below_el3 (env=0x5555574665a0) at ../../target/arm/cpu.h:2396
+#8  0x0000555555efb103 in arm_is_el2_enabled (env=0x5555574665a0) at ../../target/arm/cpu.h:2448
+#9  0x0000555555efb204 in arm_el_is_aa64 (env=0x5555574665a0, el=1) at ../../target/arm/cpu.h:2509
+#10 0x0000555555efbdfd in compute_fsr_fsc (env=0x5555574665a0, fi=0x7fffecff99e0, target_el=1, mmu_idx=1, ret_fsc=0x7fffecff996c)
+Avoid the assertion and the incorrect FSR format selection by
+explicitly making M-profile use the short-format in this function.
+Fixes: 452c67a42704 ("target/arm: Enable TTBCR_EAE for ARMv8-R AArch32")a
+Resolves: https://gitlab.com/qemu-project/qemu/-/issues/1658
+Cc: qemu-stable@nongnu.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20201022164408.13214-1-peter.maydell@linaro.org
+Message-id: 20230523131726.866635-1-peter.maydell@linaro.org
 ---
- target/arm/m_helper.c | 3 ++-
+ target/arm/tcg/tlb_helper.c | 13 +++++++++++--
-file changed, 2 insertions(+), 1 deletion(-)
+file changed, 11 insertions(+), 2 deletions(-)
-diff --git a/target/arm/m_helper.c b/target/arm/m_helper.c
+diff --git a/target/arm/tcg/tlb_helper.c b/target/arm/tcg/tlb_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/m_helper.c
+--- a/target/arm/tcg/tlb_helper.c
-+++ b/target/arm/m_helper.c
++++ b/target/arm/tcg/tlb_helper.c
-@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
+@@ -XXX,XX +XXX,XX @@ static uint32_t compute_fsr_fsc(CPUARMState *env, ARMMMUFaultInfo *fi,
- /* Return the MMU index for a v7M CPU in the specified security state */
+     ARMMMUIdx arm_mmu_idx = core_to_arm_mmu_idx(env, mmu_idx);
- ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate)
+     uint32_t fsr, fsc;
- {
--    bool priv = arm_current_el(env) != 0;
+-    if (target_el == 2 || arm_el_is_aa64(env, target_el) ||
-+    bool priv = arm_v7m_is_handler_mode(env) ||
+-        arm_s1_regime_using_lpae_format(env, arm_mmu_idx)) {
-+        !(env->v7m.control[secstate] & 1);
++    /*
++     * For M-profile there is no guest-facing FSR. We compute a
-     return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
++     * short-form value for env->exception.fsr which we will then
- }
++     * examine in arm_v7m_cpu_do_interrupt(). In theory we could
 +     * use the LPAE format instead as long as both bits of code agree
 +     * (and arm_fi_to_lfsc() handled the M-profile specific
 +     * ARMFault_QEMU_NSCExec and ARMFault_QEMU_SFault cases).
 +     */
 +    if (!arm_feature(env, ARM_FEATURE_M) &&
 +        (target_el == 2 || arm_el_is_aa64(env, target_el) ||
 +         arm_s1_regime_using_lpae_format(env, arm_mmu_idx))) {
          /*
           * LPAE format fault status register : bottom 6 bits are
           * status code in the same form as needed for syndrome
 --
-.20.1
+.34.1

-[PULL 18/26] hw/arm/boot: fix SVE for EL3 direct kernel boot
+[PULL 16/21] target/arm: Explain why we need to select ARM_V7M
-From: Rémi Denis-Courmont <remi.denis.courmont@huawei.com>
+From: Fabiano Rosas <farosas@suse.de>
-When booting a CPU with EL3 using the -kernel flag, set up CPTR_EL3 so
+We currently need to select ARM_V7M unconditionally when TCG is
-that SVE will not trap to EL3.
+present in the build because some translate.c helpers and the whole of
 m_helpers.c are not yet under CONFIG_ARM_V7M.
-Signed-off-by: Rémi Denis-Courmont <remi.denis.courmont@huawei.com>
+Suggested-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Fabiano Rosas <farosas@suse.de>
-Message-id: 20201030151541.11976-1-remi@remlab.net
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20230523180525.29994-2-farosas@suse.de
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/boot.c | 3 +++
+ target/arm/Kconfig | 3 +++
 file changed, 3 insertions(+)
-diff --git a/hw/arm/boot.c b/hw/arm/boot.c
+diff --git a/target/arm/Kconfig b/target/arm/Kconfig
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/boot.c
+--- a/target/arm/Kconfig
-+++ b/hw/arm/boot.c
++++ b/target/arm/Kconfig
-@@ -XXX,XX +XXX,XX @@ static void do_cpu_reset(void *opaque)
+@@ -XXX,XX +XXX,XX @@
-                     if (cpu_isar_feature(aa64_mte, cpu)) {
+ config ARM
-                         env->cp15.scr_el3 |= SCR_ATA;
+     bool
-                     }
+     select ARM_COMPATIBLE_SEMIHOSTING if TCG
-+                    if (cpu_isar_feature(aa64_sve, cpu)) {
++
-+                        env->cp15.cptr_el[3] |= CPTR_EZ;
++    # We need to select this until we move m_helper.c and the
-+                    }
++    # translate.c v7m helpers under ARM_V7M.
-                     /* AArch64 kernels never boot in secure mode */
+     select ARM_V7M if TCG
-                     assert(!info->secure_boot);
-                     /* This hook is only supported for AArch32 currently:
+ config AARCH64
 --
-.20.1
+.34.1

-[PULL 25/26] qemu-option-trace.rst.inc: Don't use option:: markup
+[PULL 17/21] arm/Kconfig: Keep Kconfig default entries in default.mak as documentation
-Sphinx 3.2 is pickier than earlier versions about the option:: markup,
+From: Fabiano Rosas <farosas@suse.de>
 and complains about our usage in qemu-option-trace.rst:
-../../docs/qemu-option-trace.rst.inc:4:Malformed option description
+When we moved the arm default CONFIGs into Kconfig and removed them
-  '[enable=]PATTERN', should look like "opt", "-opt args", "--opt args",
+from default.mak, we made it harder to identify which CONFIGs are
-  "/opt args" or "+opt args"
+selected by default in case users want to disable them.
-In this file, we're really trying to document the different parts of
+Bring back the default entries into default.mak, but keep them
-the top-level --trace option, which qemu-nbd.rst and qemu-img.rst
+commented out. This way users can keep their workflows of editing
-have already introduced with an option:: markup.  So it's not right
+default.mak to remove build options without needing to search through
-to use option:: here anyway.  Switch to a different markup
+Kconfig.
 (definition lists) which gives about the same formatted output.
-(Unlike option::, this markup doesn't produce index entries; but
+Reported-by: Thomas Huth <thuth@redhat.com>
-at the moment we don't do anything much with indexes anyway, and
+Signed-off-by: Fabiano Rosas <farosas@suse.de>
-in any case I think it doesn't make much sense to have individual
+Reviewed-by: Thomas Huth <thuth@redhat.com>
-index entries for the sub-parts of the --trace option.)
+Message-id: 20230523180525.29994-3-farosas@suse.de
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  configs/devices/aarch64-softmmu/default.mak |  6 ++++
  configs/devices/arm-softmmu/default.mak     | 40 +++++++++++++++++++++
 files changed, 46 insertions(+)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/configs/devices/aarch64-softmmu/default.mak b/configs/devices/aarch64-softmmu/default.mak
 Reviewed-by: Daniel P. Berrangé <berrange@redhat.com>
 Tested-by: Stefan Hajnoczi <stefanha@redhat.com>
 Message-id: 20201030174700.7204-3-peter.maydell@linaro.org
 ---
  docs/qemu-option-trace.rst.inc | 6 +++---
 file changed, 3 insertions(+), 3 deletions(-)
 diff --git a/docs/qemu-option-trace.rst.inc b/docs/qemu-option-trace.rst.inc
 index XXXXXXX..XXXXXXX 100644
---- a/docs/qemu-option-trace.rst.inc
+--- a/configs/devices/aarch64-softmmu/default.mak
-+++ b/docs/qemu-option-trace.rst.inc
++++ b/configs/devices/aarch64-softmmu/default.mak
 @@ -XXX,XX +XXX,XX @@
- Specify tracing options.
+ # We support all the 32 bit boards so need all their config
+ include ../arm-softmmu/default.mak
--.. option:: [enable=]PATTERN
++
-+``[enable=]PATTERN``
++# These are selected by default when TCG is enabled, uncomment them to
++# keep out of the build.
-   Immediately enable events matching *PATTERN*
++# CONFIG_XLNX_ZYNQMP_ARM=n
-   (either event name or a globbing pattern).  This option is only
++# CONFIG_XLNX_VERSAL=n
-@@ -XXX,XX +XXX,XX @@ Specify tracing options.
++# CONFIG_SBSA_REF=n
+diff --git a/configs/devices/arm-softmmu/default.mak b/configs/devices/arm-softmmu/default.mak
-   Use :option:`-trace help` to print a list of names of trace points.
+index XXXXXXX..XXXXXXX 100644
+--- a/configs/devices/arm-softmmu/default.mak
--.. option:: events=FILE
++++ b/configs/devices/arm-softmmu/default.mak
-+``events=FILE``
+@@ -XXX,XX +XXX,XX @@
+ # CONFIG_TEST_DEVICES=n
-   Immediately enable events listed in *FILE*.
-   The file must contain one event name (as listed in the ``trace-events-all``
+ CONFIG_ARM_VIRT=y
-@@ -XXX,XX +XXX,XX @@ Specify tracing options.
++
-   available if QEMU has been compiled with the ``simple``, ``log`` or
++# These are selected by default when TCG is enabled, uncomment them to
-   ``ftrace`` tracing backend.
++# keep out of the build.
++# CONFIG_CUBIEBOARD=n
--.. option:: file=FILE
++# CONFIG_EXYNOS4=n
-+``file=FILE``
++# CONFIG_HIGHBANK=n
++# CONFIG_INTEGRATOR=n
-   Log output traces to *FILE*.
++# CONFIG_FSL_IMX31=n
-   This option is only available if QEMU has been compiled with
++# CONFIG_MUSICPAL=n
 +# CONFIG_MUSCA=n
 +# CONFIG_CHEETAH=n
 +# CONFIG_SX1=n
 +# CONFIG_NSERIES=n
 +# CONFIG_STELLARIS=n
 +# CONFIG_STM32VLDISCOVERY=n
 +# CONFIG_REALVIEW=n
 +# CONFIG_VERSATILE=n
 +# CONFIG_VEXPRESS=n
 +# CONFIG_ZYNQ=n
 +# CONFIG_MAINSTONE=n
 +# CONFIG_GUMSTIX=n
 +# CONFIG_SPITZ=n
 +# CONFIG_TOSA=n
 +# CONFIG_Z2=n
 +# CONFIG_NPCM7XX=n
 +# CONFIG_COLLIE=n
 +# CONFIG_ASPEED_SOC=n
 +# CONFIG_NETDUINO2=n
 +# CONFIG_NETDUINOPLUS2=n
 +# CONFIG_OLIMEX_STM32_H405=n
 +# CONFIG_MPS2=n
 +# CONFIG_RASPI=n
 +# CONFIG_DIGIC=n
 +# CONFIG_SABRELITE=n
 +# CONFIG_EMCRAFT_SF2=n
 +# CONFIG_MICROBIT=n
 +# CONFIG_FSL_IMX25=n
 +# CONFIG_FSL_IMX7=n
 +# CONFIG_FSL_IMX6UL=n
 +# CONFIG_ALLWINNER_H3=n
 --
-.20.1
+.34.1

-[PULL 01/26] target/arm: Introduce neon_full_reg_offset
+[PULL 18/21] arm/Kconfig: Make TCG dependence explicit
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Fabiano Rosas <farosas@suse.de>
-This function makes it clear that we're talking about the whole
+Replace the 'default y if TCG' pattern with 'default y; depends on
-register, and not the 32-bit piece at index 0.  This fixes a bug
+TCG'.
-when running on a big-endian host.
+That makes explict that there is a dependence on TCG and enabling
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+these CONFIGs via .mak files without TCG present will fail earlier.
-Message-id: 20201030022618.785675-2-richard.henderson@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Suggested-by: Paolo Bonzini <pbonzini@redhat.com>
 Signed-off-by: Fabiano Rosas <farosas@suse.de>
 Reviewed-by: Thomas Huth <thuth@redhat.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20230523180525.29994-4-farosas@suse.de
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c          |  8 ++++++
+ hw/arm/Kconfig | 123 ++++++++++++++++++++++++++++++++-----------------
- target/arm/translate-neon.c.inc | 44 ++++++++++++++++-----------------
+file changed, 82 insertions(+), 41 deletions(-)
- target/arm/translate-vfp.c.inc  |  2 +-
-files changed, 31 insertions(+), 23 deletions(-)
+diff --git a/hw/arm/Kconfig b/hw/arm/Kconfig
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/Kconfig
-+++ b/target/arm/translate.c
++++ b/hw/arm/Kconfig
-@@ -XXX,XX +XXX,XX @@ static inline void gen_hlt(DisasContext *s, int imm)
+@@ -XXX,XX +XXX,XX @@ config ARM_VIRT
-     unallocated_encoding(s);
- }
+ config CHEETAH
+     bool
-+/*
+-    default y if TCG && ARM
-+ * Return the offset of a "full" NEON Dreg.
++    default y
-+ */
++    depends on TCG && ARM
-+static long neon_full_reg_offset(unsigned reg)
+     select OMAP
-+{
+     select TSC210X
-+    return offsetof(CPUARMState, vfp.zregs[reg >> 1].d[reg & 1]);
-+}
+ config CUBIEBOARD
-+
+     bool
- static inline long vfp_reg_offset(bool dp, unsigned reg)
+-    default y if TCG && ARM
- {
++    default y
-     if (dp) {
++    depends on TCG && ARM
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+     select ALLWINNER_A10
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+ config DIGIC
-+++ b/target/arm/translate-neon.c.inc
+     bool
-@@ -XXX,XX +XXX,XX @@ neon_element_offset(int reg, int element, MemOp size)
+-    default y if TCG && ARM
-         ofs ^= 8 - element_size;
++    default y
-     }
++    depends on TCG && ARM
- #endif
+     select PTIMER
--    return neon_reg_offset(reg, 0) + ofs;
+     select PFLASH_CFI02
-+    return neon_full_reg_offset(reg) + ofs;
- }
+ config EXYNOS4
+     bool
- static void neon_load_element(TCGv_i32 var, int reg, int ele, MemOp mop)
+-    default y if TCG && ARM
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
++    default y
-              * We cannot write 16 bytes at once because the
++    depends on TCG && ARM
-              * destination is unaligned.
+     imply I2C_DEVICES
-              */
+     select A9MPCORE
--            tcg_gen_gvec_dup_i32(size, neon_reg_offset(vd, 0),
+     select I2C
-+            tcg_gen_gvec_dup_i32(size, neon_full_reg_offset(vd),
+@@ -XXX,XX +XXX,XX @@ config EXYNOS4
-, 8, tmp);
--            tcg_gen_gvec_mov(0, neon_reg_offset(vd + 1, 0),
+ config HIGHBANK
--                             neon_reg_offset(vd, 0), 8, 8);
+     bool
-+            tcg_gen_gvec_mov(0, neon_full_reg_offset(vd + 1),
+-    default y if TCG && ARM
-+                             neon_full_reg_offset(vd), 8, 8);
++    default y
-         } else {
++    depends on TCG && ARM
--            tcg_gen_gvec_dup_i32(size, neon_reg_offset(vd, 0),
+     select A9MPCORE
-+            tcg_gen_gvec_dup_i32(size, neon_full_reg_offset(vd),
+     select A15MPCORE
-                                  vec_size, vec_size, tmp);
+     select AHCI
-         }
+@@ -XXX,XX +XXX,XX @@ config HIGHBANK
-         tcg_gen_addi_i32(addr, addr, 1 << size);
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
+ config INTEGRATOR
- static bool do_3same(DisasContext *s, arg_3same *a, GVecGen3Fn fn)
+     bool
- {
+-    default y if TCG && ARM
-     int vec_size = a->q ? 16 : 8;
++    default y
--    int rd_ofs = neon_reg_offset(a->vd, 0);
++    depends on TCG && ARM
--    int rn_ofs = neon_reg_offset(a->vn, 0);
+     select ARM_TIMER
--    int rm_ofs = neon_reg_offset(a->vm, 0);
+     select INTEGRATOR_DEBUG
-+    int rd_ofs = neon_full_reg_offset(a->vd);
+     select PL011 # UART
-+    int rn_ofs = neon_full_reg_offset(a->vn);
+@@ -XXX,XX +XXX,XX @@ config INTEGRATOR
-+    int rm_ofs = neon_full_reg_offset(a->vm);
+ config MAINSTONE
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+     bool
-         return false;
+-    default y if TCG && ARM
-@@ -XXX,XX +XXX,XX @@ static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
++    default y
- {
++    depends on TCG && ARM
-     /* Handle a 2-reg-shift insn which can be vectorized. */
+     select PXA2XX
-     int vec_size = a->q ? 16 : 8;
+     select PFLASH_CFI01
--    int rd_ofs = neon_reg_offset(a->vd, 0);
+     select SMC91C111
--    int rm_ofs = neon_reg_offset(a->vm, 0);
-+    int rd_ofs = neon_full_reg_offset(a->vd);
+ config MUSCA
-+    int rm_ofs = neon_full_reg_offset(a->vm);
+     bool
+-    default y if TCG && ARM
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
++    default y
-         return false;
++    depends on TCG && ARM
-@@ -XXX,XX +XXX,XX @@ static bool do_fp_2sh(DisasContext *s, arg_2reg_shift *a,
+     select ARMSSE
- {
+     select PL011
-     /* FP operations in 2-reg-and-shift group */
+     select PL031
-     int vec_size = a->q ? 16 : 8;
+@@ -XXX,XX +XXX,XX @@ config MARVELL_88W8618
--    int rd_ofs = neon_reg_offset(a->vd, 0);
--    int rm_ofs = neon_reg_offset(a->vm, 0);
+ config MUSICPAL
-+    int rd_ofs = neon_full_reg_offset(a->vd);
+     bool
-+    int rm_ofs = neon_full_reg_offset(a->vm);
+-    default y if TCG && ARM
-     TCGv_ptr fpst;
++    default y
++    depends on TCG && ARM
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+     select OR_IRQ
-@@ -XXX,XX +XXX,XX @@ static bool do_1reg_imm(DisasContext *s, arg_1reg_imm *a,
+     select BITBANG_I2C
-         return true;
+     select MARVELL_88W8618
-     }
+@@ -XXX,XX +XXX,XX @@ config MUSICPAL
--    reg_ofs = neon_reg_offset(a->vd, 0);
+ config NETDUINO2
-+    reg_ofs = neon_full_reg_offset(a->vd);
+     bool
-     vec_size = a->q ? 16 : 8;
+-    default y if TCG && ARM
-     imm = asimd_imm_const(a->imm, a->cmode, a->op);
++    default y
++    depends on TCG && ARM
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMULL_P_3d(DisasContext *s, arg_3diff *a)
+     select STM32F205_SOC
-         return true;
-     }
+ config NETDUINOPLUS2
+     bool
--    tcg_gen_gvec_3_ool(neon_reg_offset(a->vd, 0),
+-    default y if TCG && ARM
--                       neon_reg_offset(a->vn, 0),
++    default y
--                       neon_reg_offset(a->vm, 0),
++    depends on TCG && ARM
-+    tcg_gen_gvec_3_ool(neon_full_reg_offset(a->vd),
+     select STM32F405_SOC
-+                       neon_full_reg_offset(a->vn),
-+                       neon_full_reg_offset(a->vm),
+ config OLIMEX_STM32_H405
-, 16, 0, fn_gvec);
+     bool
-     return true;
+-    default y if TCG && ARM
- }
++    default y
-@@ -XXX,XX +XXX,XX @@ static bool do_2scalar_fp_vec(DisasContext *s, arg_2scalar *a,
++    depends on TCG && ARM
- {
+     select STM32F405_SOC
-     /* Two registers and a scalar, using gvec */
-     int vec_size = a->q ? 16 : 8;
+ config NSERIES
--    int rd_ofs = neon_reg_offset(a->vd, 0);
+     bool
--    int rn_ofs = neon_reg_offset(a->vn, 0);
+-    default y if TCG && ARM
-+    int rd_ofs = neon_full_reg_offset(a->vd);
++    default y
-+    int rn_ofs = neon_full_reg_offset(a->vn);
++    depends on TCG && ARM
-     int rm_ofs;
+     select OMAP
-     int idx;
+     select TMP105   # temperature sensor
-     TCGv_ptr fpstatus;
+     select BLIZZARD # LCD/TV controller
-@@ -XXX,XX +XXX,XX @@ static bool do_2scalar_fp_vec(DisasContext *s, arg_2scalar *a,
+@@ -XXX,XX +XXX,XX @@ config PXA2XX
-     /* a->vm is M:Vm, which encodes both register and index */
-     idx = extract32(a->vm, a->size + 2, 2);
+ config GUMSTIX
-     a->vm = extract32(a->vm, 0, a->size + 2);
+     bool
--    rm_ofs = neon_reg_offset(a->vm, 0);
+-    default y if TCG && ARM
-+    rm_ofs = neon_full_reg_offset(a->vm);
++    default y
++    depends on TCG && ARM
-     fpstatus = fpstatus_ptr(a->size == 1 ? FPST_STD_F16 : FPST_STD);
+     select PFLASH_CFI01
-     tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpstatus,
+     select SMC91C111
-@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP_scalar(DisasContext *s, arg_VDUP_scalar *a)
+     select PXA2XX
-         return true;
-     }
+ config TOSA
+     bool
--    tcg_gen_gvec_dup_mem(a->size, neon_reg_offset(a->vd, 0),
+-    default y if TCG && ARM
-+    tcg_gen_gvec_dup_mem(a->size, neon_full_reg_offset(a->vd),
++    default y
-                          neon_element_offset(a->vm, a->index, a->size),
++    depends on TCG && ARM
-                          a->q ? 16 : 8, a->q ? 16 : 8);
+     select ZAURUS  # scoop
-     return true;
+     select MICRODRIVE
-@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_F32_F16(DisasContext *s, arg_2misc *a)
+     select PXA2XX
- static bool do_2misc_vec(DisasContext *s, arg_2misc *a, GVecGen2Fn *fn)
+@@ -XXX,XX +XXX,XX @@ config TOSA
- {
-     int vec_size = a->q ? 16 : 8;
+ config SPITZ
--    int rd_ofs = neon_reg_offset(a->vd, 0);
+     bool
--    int rm_ofs = neon_reg_offset(a->vm, 0);
+-    default y if TCG && ARM
-+    int rd_ofs = neon_full_reg_offset(a->vd);
++    default y
-+    int rm_ofs = neon_full_reg_offset(a->vm);
++    depends on TCG && ARM
+     select ADS7846 # touch-screen controller
-     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+     select MAX111X # A/D converter
-         return false;
+     select WM8750  # audio codec
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
+@@ -XXX,XX +XXX,XX @@ config SPITZ
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.c.inc
+ config Z2
-+++ b/target/arm/translate-vfp.c.inc
+     bool
-@@ -XXX,XX +XXX,XX @@ static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
+-    default y if TCG && ARM
-     }
++    default y
++    depends on TCG && ARM
-     tmp = load_reg(s, a->rt);
+     select PFLASH_CFI01
--    tcg_gen_gvec_dup_i32(size, neon_reg_offset(a->vn, 0),
+     select WM8750
-+    tcg_gen_gvec_dup_i32(size, neon_full_reg_offset(a->vn),
+     select PL011 # UART
-                          vec_size, vec_size, tmp);
+@@ -XXX,XX +XXX,XX @@ config Z2
-     tcg_temp_free_i32(tmp);
  config REALVIEW
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply PCI_DEVICES
      imply PCI_TESTDEV
      imply I2C_DEVICES
@@ -XXX,XX +XXX,XX @@ config REALVIEW
  config SBSA_REF
      bool
 -    default y if TCG && AARCH64
 +    default y
 +    depends on TCG && AARCH64
      imply PCI_DEVICES
      select AHCI
      select ARM_SMMUV3
@@ -XXX,XX +XXX,XX @@ config SBSA_REF
  config SABRELITE
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select FSL_IMX6
      select SSI_M25P80
  config STELLARIS
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply I2C_DEVICES
      select ARM_V7M
      select CMSDK_APB_WATCHDOG
@@ -XXX,XX +XXX,XX @@ config STELLARIS
  config STM32VLDISCOVERY
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select STM32F100_SOC
  config STRONGARM
@@ -XXX,XX +XXX,XX @@ config STRONGARM
  config COLLIE
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select PFLASH_CFI01
      select ZAURUS  # scoop
      select STRONGARM
  config SX1
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select OMAP
  config VERSATILE
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select ARM_TIMER # sp804
      select PFLASH_CFI01
      select LSI_SCSI_PCI
@@ -XXX,XX +XXX,XX @@ config VERSATILE
  config VEXPRESS
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select A9MPCORE
      select A15MPCORE
      select ARM_MPTIMER
@@ -XXX,XX +XXX,XX @@ config VEXPRESS
  config ZYNQ
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select A9MPCORE
      select CADENCE # UART
      select PFLASH_CFI02
@@ -XXX,XX +XXX,XX @@ config ZYNQ
  config ARM_V7M
      bool
      # currently v7M must be included in a TCG build due to translate.c
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select PTIMER
  config ALLWINNER_A10
@@ -XXX,XX +XXX,XX @@ config ALLWINNER_A10
  config ALLWINNER_H3
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select ALLWINNER_A10_PIT
      select ALLWINNER_SUN8I_EMAC
      select ALLWINNER_I2C
@@ -XXX,XX +XXX,XX @@ config ALLWINNER_H3
  config RASPI
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select FRAMEBUFFER
      select PL011 # UART
      select SDHCI
@@ -XXX,XX +XXX,XX @@ config STM32F405_SOC
  config XLNX_ZYNQMP_ARM
      bool
 -    default y if TCG && AARCH64
 +    default y
 +    depends on TCG && AARCH64
      select AHCI
      select ARM_GIC
      select CADENCE
@@ -XXX,XX +XXX,XX @@ config XLNX_ZYNQMP_ARM
  config XLNX_VERSAL
      bool
 -    default y if TCG && AARCH64
 +    default y
 +    depends on TCG && AARCH64
      select ARM_GIC
      select PL011
      select CADENCE
@@ -XXX,XX +XXX,XX @@ config XLNX_VERSAL
  config NPCM7XX
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select A9MPCORE
      select ADM1272
      select ARM_GIC
@@ -XXX,XX +XXX,XX @@ config NPCM7XX
  config FSL_IMX25
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply I2C_DEVICES
      select IMX
      select IMX_FEC
@@ -XXX,XX +XXX,XX @@ config FSL_IMX25
  config FSL_IMX31
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply I2C_DEVICES
      select SERIAL
      select IMX
@@ -XXX,XX +XXX,XX @@ config FSL_IMX6
  config ASPEED_SOC
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select DS1338
      select FTGMAC100
      select I2C
@@ -XXX,XX +XXX,XX @@ config ASPEED_SOC
  config MPS2
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply I2C_DEVICES
      select ARMSSE
      select LAN9118
@@ -XXX,XX +XXX,XX @@ config MPS2
  config FSL_IMX7
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply PCI_DEVICES
      imply TEST_DEVICES
      imply I2C_DEVICES
@@ -XXX,XX +XXX,XX @@ config ARM_SMMUV3
  config FSL_IMX6UL
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      imply I2C_DEVICES
      select A15MPCORE
      select IMX
@@ -XXX,XX +XXX,XX @@ config FSL_IMX6UL
  config MICROBIT
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select NRF51_SOC
  config NRF51_SOC
@@ -XXX,XX +XXX,XX @@ config NRF51_SOC
  config EMCRAFT_SF2
      bool
 -    default y if TCG && ARM
 +    default y
 +    depends on TCG && ARM
      select MSF2
      select SSI_M25P80
 --
-.20.1
+.34.1

-[PULL 06/26] target/arm: Expand read/write_neon_element32 to all MemOp
+[PULL 19/21] Update copyright dates to 2023
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Enze Li <lienze@kylinos.cn>
-We can then use this to improve VMOV (scalar to gp) and
+I noticed that in the latest version, the copyright string is still
-VMOV (gp to scalar) so that we simply perform the memory
+, even though 2023 is halfway through.  This patch fixes that and
-operation that we wanted, rather than inserting or
+fixes the documentation along with it.
 extracting from a 32-bit quantity.
-These were the last uses of neon_load/store_reg, so remove them.
+Signed-off-by: Enze Li <lienze@kylinos.cn>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20201030022618.785675-7-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20230525064345.1152801-1-lienze@kylinos.cn
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c         | 50 +++++++++++++-----------
+ docs/conf.py              | 2 +-
- target/arm/translate-vfp.c.inc | 71 +++++-----------------------------
+ include/qemu/help-texts.h | 2 +-
-files changed, 37 insertions(+), 84 deletions(-)
+files changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/docs/conf.py b/docs/conf.py
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/docs/conf.py
-+++ b/target/arm/translate.c
++++ b/docs/conf.py
-@@ -XXX,XX +XXX,XX @@ static long neon_full_reg_offset(unsigned reg)
+@@ -XXX,XX +XXX,XX @@
-  * Return the offset of a 2**SIZE piece of a NEON register, at index ELE,
-  * where 0 is the least significant end of the register.
+ # General information about the project.
-  */
+ project = u'QEMU'
--static long neon_element_offset(int reg, int element, MemOp size)
+-copyright = u'2022, The QEMU Project Developers'
-+static long neon_element_offset(int reg, int element, MemOp memop)
++copyright = u'2023, The QEMU Project Developers'
- {
+ author = u'The QEMU Project Developers'
--    int element_size = 1 << size;
-+    int element_size = 1 << (memop & MO_SIZE);
+ # The version info for the project you're documenting, acts as replacement for
-     int ofs = element * element_size;
+diff --git a/include/qemu/help-texts.h b/include/qemu/help-texts.h
  #ifdef HOST_WORDS_BIGENDIAN
      /*
@@ -XXX,XX +XXX,XX @@ static long vfp_reg_offset(bool dp, unsigned reg)
      }
  }
 -static TCGv_i32 neon_load_reg(int reg, int pass)
 -{
 -    TCGv_i32 tmp = tcg_temp_new_i32();
 -    tcg_gen_ld_i32(tmp, cpu_env, neon_element_offset(reg, pass, MO_32));
 -    return tmp;
 -}
 -
 -static void neon_store_reg(int reg, int pass, TCGv_i32 var)
 -{
 -    tcg_gen_st_i32(var, cpu_env, neon_element_offset(reg, pass, MO_32));
 -    tcg_temp_free_i32(var);
 -}
 -
  static inline void neon_load_reg64(TCGv_i64 var, int reg)
  {
      tcg_gen_ld_i64(var, cpu_env, vfp_reg_offset(1, reg));
@@ -XXX,XX +XXX,XX @@ static inline void neon_store_reg32(TCGv_i32 var, int reg)
      tcg_gen_st_i32(var, cpu_env, vfp_reg_offset(false, reg));
  }
 -static void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp size)
 +static void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp memop)
  {
 -    long off = neon_element_offset(reg, ele, size);
 +    long off = neon_element_offset(reg, ele, memop);
 -    switch (size) {
 -    case MO_32:
 +    switch (memop) {
 +    case MO_SB:
 +        tcg_gen_ld8s_i32(dest, cpu_env, off);
 +        break;
 +    case MO_UB:
 +        tcg_gen_ld8u_i32(dest, cpu_env, off);
 +        break;
 +    case MO_SW:
 +        tcg_gen_ld16s_i32(dest, cpu_env, off);
 +        break;
 +    case MO_UW:
 +        tcg_gen_ld16u_i32(dest, cpu_env, off);
 +        break;
 +    case MO_UL:
 +    case MO_SL:
          tcg_gen_ld_i32(dest, cpu_env, off);
          break;
      default:
@@ -XXX,XX +XXX,XX @@ static void read_neon_element32(TCGv_i32 dest, int reg, int ele, MemOp size)
      }
  }
 -static void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp size)
 +static void write_neon_element32(TCGv_i32 src, int reg, int ele, MemOp memop)
  {
 -    long off = neon_element_offset(reg, ele, size);
 +    long off = neon_element_offset(reg, ele, memop);
 -    switch (size) {
 +    switch (memop) {
 +    case MO_8:
 +        tcg_gen_st8_i32(src, cpu_env, off);
 +        break;
 +    case MO_16:
 +        tcg_gen_st16_i32(src, cpu_env, off);
 +        break;
      case MO_32:
          tcg_gen_st_i32(src, cpu_env, off);
          break;
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.c.inc
+--- a/include/qemu/help-texts.h
-+++ b/target/arm/translate-vfp.c.inc
++++ b/include/qemu/help-texts.h
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
+@@ -XXX,XX +XXX,XX @@
- {
+ #define QEMU_HELP_TEXTS_H
-     /* VMOV scalar to general purpose register */
-     TCGv_i32 tmp;
+ /* Copyright string for -version arguments, About dialogs, etc */
--    int pass;
+-#define QEMU_COPYRIGHT "Copyright (c) 2003-2022 " \
--    uint32_t offset;
++#define QEMU_COPYRIGHT "Copyright (c) 2003-2023 " \
+     "Fabrice Bellard and the QEMU Project developers"
--    /* SIZE == 2 is a VFP instruction; otherwise NEON.  */
--    if (a->size == 2
+ /* Bug reporting information for --help arguments, About dialogs, etc */
 +    /* SIZE == MO_32 is a VFP instruction; otherwise NEON.  */
 +    if (a->size == MO_32
          ? !dc_isar_feature(aa32_fpsp_v2, s)
          : !arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
          return false;
      }
 -    offset = a->index << a->size;
 -    pass = extract32(offset, 2, 1);
 -    offset = extract32(offset, 0, 2) * 8;
 -
      if (!vfp_access_check(s)) {
          return true;
      }
 -    tmp = neon_load_reg(a->vn, pass);
 -    switch (a->size) {
 -    case 0:
 -        if (offset) {
 -            tcg_gen_shri_i32(tmp, tmp, offset);
 -        }
 -        if (a->u) {
 -            gen_uxtb(tmp);
 -        } else {
 -            gen_sxtb(tmp);
 -        }
 -        break;
 -    case 1:
 -        if (a->u) {
 -            if (offset) {
 -                tcg_gen_shri_i32(tmp, tmp, 16);
 -            } else {
 -                gen_uxth(tmp);
 -            }
 -        } else {
 -            if (offset) {
 -                tcg_gen_sari_i32(tmp, tmp, 16);
 -            } else {
 -                gen_sxth(tmp);
 -            }
 -        }
 -        break;
 -    case 2:
 -        break;
 -    }
 +    tmp = tcg_temp_new_i32();
 +    read_neon_element32(tmp, a->vn, a->index, a->size | (a->u ? 0 : MO_SIGN));
      store_reg(s, a->rt, tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_to_gp(DisasContext *s, arg_VMOV_to_gp *a)
  static bool trans_VMOV_from_gp(DisasContext *s, arg_VMOV_from_gp *a)
  {
      /* VMOV general purpose register to scalar */
 -    TCGv_i32 tmp, tmp2;
 -    int pass;
 -    uint32_t offset;
 +    TCGv_i32 tmp;
 -    /* SIZE == 2 is a VFP instruction; otherwise NEON.  */
 -    if (a->size == 2
 +    /* SIZE == MO_32 is a VFP instruction; otherwise NEON.  */
 +    if (a->size == MO_32
          ? !dc_isar_feature(aa32_fpsp_v2, s)
          : !arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_from_gp(DisasContext *s, arg_VMOV_from_gp *a)
          return false;
      }
 -    offset = a->index << a->size;
 -    pass = extract32(offset, 2, 1);
 -    offset = extract32(offset, 0, 2) * 8;
 -
      if (!vfp_access_check(s)) {
          return true;
      }
      tmp = load_reg(s, a->rt);
 -    switch (a->size) {
 -    case 0:
 -        tmp2 = neon_load_reg(a->vn, pass);
 -        tcg_gen_deposit_i32(tmp, tmp2, tmp, offset, 8);
 -        tcg_temp_free_i32(tmp2);
 -        break;
 -    case 1:
 -        tmp2 = neon_load_reg(a->vn, pass);
 -        tcg_gen_deposit_i32(tmp, tmp2, tmp, offset, 16);
 -        tcg_temp_free_i32(tmp2);
 -        break;
 -    case 2:
 -        break;
 -    }
 -    neon_store_reg(a->vn, pass, tmp);
 +    write_neon_element32(tmp, a->vn, a->index, a->size);
 +    tcg_temp_free_i32(tmp);
      return true;
  }
 --
-.20.1
+.34.1

-[PULL 07/26] target/arm: Rename neon_load_reg32 to vfp_load_reg32
+[PULL 20/21] hw/arm/sbsa-ref: add GIC node into DT
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-The only uses of this function are for loading VFP
+Let add GIC information into DeviceTree as part of SBSA-REF versioning.
 single-precision values, and nothing to do with NEON.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Trusted Firmware will read it and provide to next firmware level.
-Message-id: 20201030022618.785675-8-richard.henderson@linaro.org
 Bumps platform version to 0.1 one so we can check is node is present.
 Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c         |   4 +-
+ hw/arm/sbsa-ref.c | 19 ++++++++++++++++++-
- target/arm/translate-vfp.c.inc | 184 ++++++++++++++++-----------------
+file changed, 18 insertions(+), 1 deletion(-)
 files changed, 94 insertions(+), 94 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/sbsa-ref.c
-+++ b/target/arm/translate.c
++++ b/hw/arm/sbsa-ref.c
-@@ -XXX,XX +XXX,XX @@ static inline void neon_store_reg64(TCGv_i64 var, int reg)
+@@ -XXX,XX +XXX,XX @@
-     tcg_gen_st_i64(var, cpu_env, vfp_reg_offset(1, reg));
+ #include "exec/hwaddr.h"
  #include "kvm_arm.h"
  #include "hw/arm/boot.h"
 +#include "hw/arm/fdt.h"
  #include "hw/arm/smmuv3.h"
  #include "hw/block/flash.h"
  #include "hw/boards.h"
@@ -XXX,XX +XXX,XX @@ static uint64_t sbsa_ref_cpu_mp_affinity(SBSAMachineState *sms, int idx)
      return arm_cpu_mp_affinity(idx, clustersz);
  }
--static inline void neon_load_reg32(TCGv_i32 var, int reg)
++static void sbsa_fdt_add_gic_node(SBSAMachineState *sms)
-+static inline void vfp_load_reg32(TCGv_i32 var, int reg)
++{
- {
++    char *nodename;
-     tcg_gen_ld_i32(var, cpu_env, vfp_reg_offset(false, reg));
++
 +    nodename = g_strdup_printf("/intc");
 +    qemu_fdt_add_subnode(sms->fdt, nodename);
 +    qemu_fdt_setprop_sized_cells(sms->fdt, nodename, "reg",
 +                                 2, sbsa_ref_memmap[SBSA_GIC_DIST].base,
 +                                 2, sbsa_ref_memmap[SBSA_GIC_DIST].size,
 +                                 2, sbsa_ref_memmap[SBSA_GIC_REDIST].base,
 +                                 2, sbsa_ref_memmap[SBSA_GIC_REDIST].size);
 +
 +    g_free(nodename);
 +}
  /*
   * Firmware on this machine only uses ACPI table to load OS, these limited
   * device tree nodes are just to let firmware know the info which varies from
@@ -XXX,XX +XXX,XX @@ static void create_fdt(SBSAMachineState *sms)
       *                        fw compatibility.
       */
      qemu_fdt_setprop_cell(fdt, "/", "machine-version-major", 0);
 -    qemu_fdt_setprop_cell(fdt, "/", "machine-version-minor", 0);
 +    qemu_fdt_setprop_cell(fdt, "/", "machine-version-minor", 1);
      if (ms->numa_state->have_numa_distance) {
          int size = nb_numa_nodes * nb_numa_nodes * 3 * sizeof(uint32_t);
@@ -XXX,XX +XXX,XX @@ static void create_fdt(SBSAMachineState *sms)
          g_free(nodename);
      }
 +
 +    sbsa_fdt_add_gic_node(sms);
  }
--static inline void neon_store_reg32(TCGv_i32 var, int reg)
+ #define SBSA_FLASH_SECTOR_SIZE (256 * KiB)
 +static inline void vfp_store_reg32(TCGv_i32 var, int reg)
  {
      tcg_gen_st_i32(var, cpu_env, vfp_reg_offset(false, reg));
  }
 diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c.inc
 +++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
          frn = tcg_temp_new_i32();
          frm = tcg_temp_new_i32();
          dest = tcg_temp_new_i32();
 -        neon_load_reg32(frn, rn);
 -        neon_load_reg32(frm, rm);
 +        vfp_load_reg32(frn, rn);
 +        vfp_load_reg32(frm, rm);
          switch (a->cc) {
          case 0: /* eq: Z */
              tcg_gen_movcond_i32(TCG_COND_EQ, dest, cpu_ZF, zero,
@@ -XXX,XX +XXX,XX @@ static bool trans_VSEL(DisasContext *s, arg_VSEL *a)
          if (sz == 1) {
              tcg_gen_andi_i32(dest, dest, 0xffff);
          }
 -        neon_store_reg32(dest, rd);
 +        vfp_store_reg32(dest, rd);
          tcg_temp_free_i32(frn);
          tcg_temp_free_i32(frm);
          tcg_temp_free_i32(dest);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINT(DisasContext *s, arg_VRINT *a)
          TCGv_i32 tcg_res;
          tcg_op = tcg_temp_new_i32();
          tcg_res = tcg_temp_new_i32();
 -        neon_load_reg32(tcg_op, rm);
 +        vfp_load_reg32(tcg_op, rm);
          if (sz == 1) {
              gen_helper_rinth(tcg_res, tcg_op, fpst);
          } else {
              gen_helper_rints(tcg_res, tcg_op, fpst);
          }
 -        neon_store_reg32(tcg_res, rd);
 +        vfp_store_reg32(tcg_res, rd);
          tcg_temp_free_i32(tcg_op);
          tcg_temp_free_i32(tcg_res);
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
              gen_helper_vfp_tould(tcg_res, tcg_double, tcg_shift, fpst);
          }
          tcg_gen_extrl_i64_i32(tcg_tmp, tcg_res);
 -        neon_store_reg32(tcg_tmp, rd);
 +        vfp_store_reg32(tcg_tmp, rd);
          tcg_temp_free_i32(tcg_tmp);
          tcg_temp_free_i64(tcg_res);
          tcg_temp_free_i64(tcg_double);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
          TCGv_i32 tcg_single, tcg_res;
          tcg_single = tcg_temp_new_i32();
          tcg_res = tcg_temp_new_i32();
 -        neon_load_reg32(tcg_single, rm);
 +        vfp_load_reg32(tcg_single, rm);
          if (sz == 1) {
              if (is_signed) {
                  gen_helper_vfp_toslh(tcg_res, tcg_single, tcg_shift, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT(DisasContext *s, arg_VCVT *a)
                  gen_helper_vfp_touls(tcg_res, tcg_single, tcg_shift, fpst);
              }
          }
 -        neon_store_reg32(tcg_res, rd);
 +        vfp_store_reg32(tcg_res, rd);
          tcg_temp_free_i32(tcg_res);
          tcg_temp_free_i32(tcg_single);
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
      if (a->l) {
          /* VFP to general purpose register */
          tmp = tcg_temp_new_i32();
 -        neon_load_reg32(tmp, a->vn);
 +        vfp_load_reg32(tmp, a->vn);
          tcg_gen_andi_i32(tmp, tmp, 0xffff);
          store_reg(s, a->rt, tmp);
      } else {
          /* general purpose register to VFP */
          tmp = load_reg(s, a->rt);
          tcg_gen_andi_i32(tmp, tmp, 0xffff);
 -        neon_store_reg32(tmp, a->vn);
 +        vfp_store_reg32(tmp, a->vn);
          tcg_temp_free_i32(tmp);
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_single(DisasContext *s, arg_VMOV_single *a)
      if (a->l) {
          /* VFP to general purpose register */
          tmp = tcg_temp_new_i32();
 -        neon_load_reg32(tmp, a->vn);
 +        vfp_load_reg32(tmp, a->vn);
          if (a->rt == 15) {
              /* Set the 4 flag bits in the CPSR.  */
              gen_set_nzcv(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_single(DisasContext *s, arg_VMOV_single *a)
      } else {
          /* general purpose register to VFP */
          tmp = load_reg(s, a->rt);
 -        neon_store_reg32(tmp, a->vn);
 +        vfp_store_reg32(tmp, a->vn);
          tcg_temp_free_i32(tmp);
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_64_sp(DisasContext *s, arg_VMOV_64_sp *a)
      if (a->op) {
          /* fpreg to gpreg */
          tmp = tcg_temp_new_i32();
 -        neon_load_reg32(tmp, a->vm);
 +        vfp_load_reg32(tmp, a->vm);
          store_reg(s, a->rt, tmp);
          tmp = tcg_temp_new_i32();
 -        neon_load_reg32(tmp, a->vm + 1);
 +        vfp_load_reg32(tmp, a->vm + 1);
          store_reg(s, a->rt2, tmp);
      } else {
          /* gpreg to fpreg */
          tmp = load_reg(s, a->rt);
 -        neon_store_reg32(tmp, a->vm);
 +        vfp_store_reg32(tmp, a->vm);
          tcg_temp_free_i32(tmp);
          tmp = load_reg(s, a->rt2);
 -        neon_store_reg32(tmp, a->vm + 1);
 +        vfp_store_reg32(tmp, a->vm + 1);
          tcg_temp_free_i32(tmp);
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_64_dp(DisasContext *s, arg_VMOV_64_dp *a)
      if (a->op) {
          /* fpreg to gpreg */
          tmp = tcg_temp_new_i32();
 -        neon_load_reg32(tmp, a->vm * 2);
 +        vfp_load_reg32(tmp, a->vm * 2);
          store_reg(s, a->rt, tmp);
          tmp = tcg_temp_new_i32();
 -        neon_load_reg32(tmp, a->vm * 2 + 1);
 +        vfp_load_reg32(tmp, a->vm * 2 + 1);
          store_reg(s, a->rt2, tmp);
      } else {
          /* gpreg to fpreg */
          tmp = load_reg(s, a->rt);
 -        neon_store_reg32(tmp, a->vm * 2);
 +        vfp_store_reg32(tmp, a->vm * 2);
          tcg_temp_free_i32(tmp);
          tmp = load_reg(s, a->rt2);
 -        neon_store_reg32(tmp, a->vm * 2 + 1);
 +        vfp_store_reg32(tmp, a->vm * 2 + 1);
          tcg_temp_free_i32(tmp);
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_hp(DisasContext *s, arg_VLDR_VSTR_sp *a)
      tmp = tcg_temp_new_i32();
      if (a->l) {
          gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
 -        neon_store_reg32(tmp, a->vd);
 +        vfp_store_reg32(tmp, a->vd);
      } else {
 -        neon_load_reg32(tmp, a->vd);
 +        vfp_load_reg32(tmp, a->vd);
          gen_aa32_st16(s, tmp, addr, get_mem_index(s));
      }
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_sp(DisasContext *s, arg_VLDR_VSTR_sp *a)
      tmp = tcg_temp_new_i32();
      if (a->l) {
          gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
 -        neon_store_reg32(tmp, a->vd);
 +        vfp_store_reg32(tmp, a->vd);
      } else {
 -        neon_load_reg32(tmp, a->vd);
 +        vfp_load_reg32(tmp, a->vd);
          gen_aa32_st32(s, tmp, addr, get_mem_index(s));
      }
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_sp(DisasContext *s, arg_VLDM_VSTM_sp *a)
          if (a->l) {
              /* load */
              gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
 -            neon_store_reg32(tmp, a->vd + i);
 +            vfp_store_reg32(tmp, a->vd + i);
          } else {
              /* store */
 -            neon_load_reg32(tmp, a->vd + i);
 +            vfp_load_reg32(tmp, a->vd + i);
              gen_aa32_st32(s, tmp, addr, get_mem_index(s));
          }
          tcg_gen_addi_i32(addr, addr, offset);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_sp(DisasContext *s, VFPGen3OpSPFn *fn,
      fd = tcg_temp_new_i32();
      fpst = fpstatus_ptr(FPST_FPCR);
 -    neon_load_reg32(f0, vn);
 -    neon_load_reg32(f1, vm);
 +    vfp_load_reg32(f0, vn);
 +    vfp_load_reg32(f1, vm);
      for (;;) {
          if (reads_vd) {
 -            neon_load_reg32(fd, vd);
 +            vfp_load_reg32(fd, vd);
          }
          fn(fd, f0, f1, fpst);
 -        neon_store_reg32(fd, vd);
 +        vfp_store_reg32(fd, vd);
          if (veclen == 0) {
              break;
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_sp(DisasContext *s, VFPGen3OpSPFn *fn,
          veclen--;
          vd = vfp_advance_sreg(vd, delta_d);
          vn = vfp_advance_sreg(vn, delta_d);
 -        neon_load_reg32(f0, vn);
 +        vfp_load_reg32(f0, vn);
          if (delta_m) {
              vm = vfp_advance_sreg(vm, delta_m);
 -            neon_load_reg32(f1, vm);
 +            vfp_load_reg32(f1, vm);
          }
      }
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
      fd = tcg_temp_new_i32();
      fpst = fpstatus_ptr(FPST_FPCR_F16);
 -    neon_load_reg32(f0, vn);
 -    neon_load_reg32(f1, vm);
 +    vfp_load_reg32(f0, vn);
 +    vfp_load_reg32(f1, vm);
      if (reads_vd) {
 -        neon_load_reg32(fd, vd);
 +        vfp_load_reg32(fd, vd);
      }
      fn(fd, f0, f1, fpst);
 -    neon_store_reg32(fd, vd);
 +    vfp_store_reg32(fd, vd);
      tcg_temp_free_i32(f0);
      tcg_temp_free_i32(f1);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_sp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
      f0 = tcg_temp_new_i32();
      fd = tcg_temp_new_i32();
 -    neon_load_reg32(f0, vm);
 +    vfp_load_reg32(f0, vm);
      for (;;) {
          fn(fd, f0);
 -        neon_store_reg32(fd, vd);
 +        vfp_store_reg32(fd, vd);
          if (veclen == 0) {
              break;
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_sp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
              /* single source one-many */
              while (veclen--) {
                  vd = vfp_advance_sreg(vd, delta_d);
 -                neon_store_reg32(fd, vd);
 +                vfp_store_reg32(fd, vd);
              }
              break;
          }
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_sp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
          veclen--;
          vd = vfp_advance_sreg(vd, delta_d);
          vm = vfp_advance_sreg(vm, delta_m);
 -        neon_load_reg32(f0, vm);
 +        vfp_load_reg32(f0, vm);
      }
      tcg_temp_free_i32(f0);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
      }
      f0 = tcg_temp_new_i32();
 -    neon_load_reg32(f0, vm);
 +    vfp_load_reg32(f0, vm);
      fn(f0, f0);
 -    neon_store_reg32(f0, vd);
 +    vfp_store_reg32(f0, vd);
      tcg_temp_free_i32(f0);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
      vm = tcg_temp_new_i32();
      vd = tcg_temp_new_i32();
 -    neon_load_reg32(vn, a->vn);
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vn, a->vn);
 +    vfp_load_reg32(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
          gen_helper_vfp_negh(vn, vn);
      }
 -    neon_load_reg32(vd, a->vd);
 +    vfp_load_reg32(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
          gen_helper_vfp_negh(vd, vd);
      }
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(vn);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
      vm = tcg_temp_new_i32();
      vd = tcg_temp_new_i32();
 -    neon_load_reg32(vn, a->vn);
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vn, a->vn);
 +    vfp_load_reg32(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
          gen_helper_vfp_negs(vn, vn);
      }
 -    neon_load_reg32(vd, a->vd);
 +    vfp_load_reg32(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
          gen_helper_vfp_negs(vd, vd);
      }
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(vn);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_hp(DisasContext *s, arg_VMOV_imm_sp *a)
      }
      fd = tcg_const_i32(vfp_expand_imm(MO_16, a->imm));
 -    neon_store_reg32(fd, a->vd);
 +    vfp_store_reg32(fd, a->vd);
      tcg_temp_free_i32(fd);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_sp(DisasContext *s, arg_VMOV_imm_sp *a)
      fd = tcg_const_i32(vfp_expand_imm(MO_32, a->imm));
      for (;;) {
 -        neon_store_reg32(fd, vd);
 +        vfp_store_reg32(fd, vd);
          if (veclen == 0) {
              break;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
      vd = tcg_temp_new_i32();
      vm = tcg_temp_new_i32();
 -    neon_load_reg32(vd, a->vd);
 +    vfp_load_reg32(vd, a->vd);
      if (a->z) {
          tcg_gen_movi_i32(vm, 0);
      } else {
 -        neon_load_reg32(vm, a->vm);
 +        vfp_load_reg32(vm, a->vm);
      }
      if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_sp(DisasContext *s, arg_VCMP_sp *a)
      vd = tcg_temp_new_i32();
      vm = tcg_temp_new_i32();
 -    neon_load_reg32(vd, a->vd);
 +    vfp_load_reg32(vd, a->vd);
      if (a->z) {
          tcg_gen_movi_i32(vm, 0);
      } else {
 -        neon_load_reg32(vm, a->vm);
 +        vfp_load_reg32(vm, a->vm);
      }
      if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_f32_f16(DisasContext *s, arg_VCVT_f32_f16 *a)
      /* The T bit tells us if we want the low or high 16 bits of Vm */
      tcg_gen_ld16u_i32(tmp, cpu_env, vfp_f16_offset(a->vm, a->t));
      gen_helper_vfp_fcvt_f16_to_f32(tmp, tmp, fpst, ahp_mode);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_i32(ahp_mode);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_f16_f32(DisasContext *s, arg_VCVT_f16_f32 *a)
      ahp_mode = get_ahp_flag();
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      gen_helper_vfp_fcvt_f32_to_f16(tmp, tmp, fpst, ahp_mode);
      tcg_gen_st16_i32(tmp, cpu_env, vfp_f16_offset(a->vd, a->t));
      tcg_temp_free_i32(ahp_mode);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth(tmp, tmp, fpst);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_sp(DisasContext *s, arg_VRINTR_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_rints(tmp, tmp, fpst);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      tcg_rmode = tcg_const_i32(float_round_to_zero);
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
      gen_helper_rinth(tmp, tmp, fpst);
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tcg_rmode);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_sp(DisasContext *s, arg_VRINTZ_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      tcg_rmode = tcg_const_i32(float_round_to_zero);
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
      gen_helper_rints(tmp, tmp, fpst);
      gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tcg_rmode);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth_exact(tmp, tmp, fpst);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_sp(DisasContext *s, arg_VRINTX_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    neon_load_reg32(tmp, a->vm);
 +    vfp_load_reg32(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_rints_exact(tmp, tmp, fpst);
 -    neon_store_reg32(tmp, a->vd);
 +    vfp_store_reg32(tmp, a->vd);
      tcg_temp_free_ptr(fpst);
      tcg_temp_free_i32(tmp);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_sp(DisasContext *s, arg_VCVT_sp *a)
      vm = tcg_temp_new_i32();
      vd = tcg_temp_new_i64();
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vm, a->vm);
      gen_helper_vfp_fcvtds(vd, vm, cpu_env);
      neon_store_reg64(vd, a->vd);
      tcg_temp_free_i32(vm);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp(DisasContext *s, arg_VCVT_dp *a)
      vm = tcg_temp_new_i64();
      neon_load_reg64(vm, a->vm);
      gen_helper_vfp_fcvtsd(vd, vm, cpu_env);
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i32(vd);
      tcg_temp_free_i64(vm);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_int_hp(DisasContext *s, arg_VCVT_int_sp *a)
      }
      vm = tcg_temp_new_i32();
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vm, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      if (a->s) {
          /* i32 -> f16 */
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_int_hp(DisasContext *s, arg_VCVT_int_sp *a)
          /* u32 -> f16 */
          gen_helper_vfp_uitoh(vm, vm, fpst);
      }
 -    neon_store_reg32(vm, a->vd);
 +    vfp_store_reg32(vm, a->vd);
      tcg_temp_free_i32(vm);
      tcg_temp_free_ptr(fpst);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_int_sp(DisasContext *s, arg_VCVT_int_sp *a)
      }
      vm = tcg_temp_new_i32();
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vm, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      if (a->s) {
          /* i32 -> f32 */
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_int_sp(DisasContext *s, arg_VCVT_int_sp *a)
          /* u32 -> f32 */
          gen_helper_vfp_uitos(vm, vm, fpst);
      }
 -    neon_store_reg32(vm, a->vd);
 +    vfp_store_reg32(vm, a->vd);
      tcg_temp_free_i32(vm);
      tcg_temp_free_ptr(fpst);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_int_dp(DisasContext *s, arg_VCVT_int_dp *a)
      vm = tcg_temp_new_i32();
      vd = tcg_temp_new_i64();
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vm, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR);
      if (a->s) {
          /* i32 -> f64 */
@@ -XXX,XX +XXX,XX @@ static bool trans_VJCVT(DisasContext *s, arg_VJCVT *a)
      vd = tcg_temp_new_i32();
      neon_load_reg64(vm, a->vm);
      gen_helper_vjcvt(vd, vm, cpu_env);
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i64(vm);
      tcg_temp_free_i32(vd);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_hp(DisasContext *s, arg_VCVT_fix_sp *a)
      frac_bits = (a->opc & 1) ? (32 - a->imm) : (16 - a->imm);
      vd = tcg_temp_new_i32();
 -    neon_load_reg32(vd, a->vd);
 +    vfp_load_reg32(vd, a->vd);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      shift = tcg_const_i32(frac_bits);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_hp(DisasContext *s, arg_VCVT_fix_sp *a)
          g_assert_not_reached();
      }
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i32(vd);
      tcg_temp_free_i32(shift);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_sp(DisasContext *s, arg_VCVT_fix_sp *a)
      frac_bits = (a->opc & 1) ? (32 - a->imm) : (16 - a->imm);
      vd = tcg_temp_new_i32();
 -    neon_load_reg32(vd, a->vd);
 +    vfp_load_reg32(vd, a->vd);
      fpst = fpstatus_ptr(FPST_FPCR);
      shift = tcg_const_i32(frac_bits);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_fix_sp(DisasContext *s, arg_VCVT_fix_sp *a)
          g_assert_not_reached();
      }
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i32(vd);
      tcg_temp_free_i32(shift);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      vm = tcg_temp_new_i32();
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vm, a->vm);
      if (a->s) {
          if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
              gen_helper_vfp_touih(vm, vm, fpst);
          }
      }
 -    neon_store_reg32(vm, a->vd);
 +    vfp_store_reg32(vm, a->vd);
      tcg_temp_free_i32(vm);
      tcg_temp_free_ptr(fpst);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_sp_int(DisasContext *s, arg_VCVT_sp_int *a)
      fpst = fpstatus_ptr(FPST_FPCR);
      vm = tcg_temp_new_i32();
 -    neon_load_reg32(vm, a->vm);
 +    vfp_load_reg32(vm, a->vm);
      if (a->s) {
          if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_sp_int(DisasContext *s, arg_VCVT_sp_int *a)
              gen_helper_vfp_touis(vm, vm, fpst);
          }
      }
 -    neon_store_reg32(vm, a->vd);
 +    vfp_store_reg32(vm, a->vd);
      tcg_temp_free_i32(vm);
      tcg_temp_free_ptr(fpst);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp_int(DisasContext *s, arg_VCVT_dp_int *a)
              gen_helper_vfp_touid(vd, vm, fpst);
          }
      }
 -    neon_store_reg32(vd, a->vd);
 +    vfp_store_reg32(vd, a->vd);
      tcg_temp_free_i32(vd);
      tcg_temp_free_i64(vm);
      tcg_temp_free_ptr(fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
      /* Insert low half of Vm into high half of Vd */
      rm = tcg_temp_new_i32();
      rd = tcg_temp_new_i32();
 -    neon_load_reg32(rm, a->vm);
 -    neon_load_reg32(rd, a->vd);
 +    vfp_load_reg32(rm, a->vm);
 +    vfp_load_reg32(rd, a->vd);
      tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
 -    neon_store_reg32(rd, a->vd);
 +    vfp_store_reg32(rd, a->vd);
      tcg_temp_free_i32(rm);
      tcg_temp_free_i32(rd);
      return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOVX(DisasContext *s, arg_VINS *a)
      /* Set Vd to high half of Vm */
      rm = tcg_temp_new_i32();
 -    neon_load_reg32(rm, a->vm);
 +    vfp_load_reg32(rm, a->vm);
      tcg_gen_shri_i32(rm, rm, 16);
 -    neon_store_reg32(rm, a->vd);
 +    vfp_store_reg32(rm, a->vd);
      tcg_temp_free_i32(rm);
      return true;
  }
 --
-.20.1
+.34.1

-[PULL 03/26] target/arm: Use neon_element_offset in neon_load/store_reg
+[PULL 21/21] docs: sbsa: correct graphics card name
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-These are the only users of neon_reg_offset, so remove that.
+We moved from VGA to Bochs to have PCIe card.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
 Message-id: 20201030022618.785675-4-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 14 ++------------
+ docs/system/arm/sbsa.rst | 2 +-
-file changed, 2 insertions(+), 12 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/docs/system/arm/sbsa.rst b/docs/system/arm/sbsa.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/docs/system/arm/sbsa.rst
-+++ b/target/arm/translate.c
++++ b/docs/system/arm/sbsa.rst
-@@ -XXX,XX +XXX,XX @@ static inline long vfp_reg_offset(bool dp, unsigned reg)
+@@ -XXX,XX +XXX,XX @@ The sbsa-ref board supports:
-     }
+   - System bus EHCI controller
- }
+   - CDROM and hard disc on AHCI bus
+   - E1000E ethernet card on PCIe bus
--/* Return the offset of a 32-bit piece of a NEON register.
+-  - VGA display adaptor on PCIe bus
--   zero is the least significant end of the register.  */
++  - Bochs display adapter on PCIe bus
--static inline long
+   - A generic SBSA watchdog device
 -neon_reg_offset (int reg, int n)
 -{
 -    int sreg;
 -    sreg = reg * 2 + n;
 -    return vfp_reg_offset(0, sreg);
 -}
 -
  static TCGv_i32 neon_load_reg(int reg, int pass)
  {
      TCGv_i32 tmp = tcg_temp_new_i32();
 -    tcg_gen_ld_i32(tmp, cpu_env, neon_reg_offset(reg, pass));
 +    tcg_gen_ld_i32(tmp, cpu_env, neon_element_offset(reg, pass, MO_32));
      return tmp;
  }
  static void neon_store_reg(int reg, int pass, TCGv_i32 var)
  {
 -    tcg_gen_st_i32(var, cpu_env, neon_reg_offset(reg, pass));
 +    tcg_gen_st_i32(var, cpu_env, neon_element_offset(reg, pass, MO_32));
      tcg_temp_free_i32(var);
  }
 --
-.20.1
+.34.1

-[PULL 12/26] target/arm: Fix float16 pairwise Neon ops on big-endian hosts
+Deleted patch
-In the neon_padd/pmax/pmin helpers for float16, a cut-and-paste error
-meant we were using the H4() address swizzler macro rather than the
-H2() which is required for 2-byte data.  This had no effect on
-little-endian hosts but meant we put the result data into the
-destination Dreg in the wrong order on big-endian hosts.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20201028191712.4910-2-peter.maydell@linaro.org
----
- target/arm/vec_helper.c | 8 ++++----
-file changed, 4 insertions(+), 4 deletions(-)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
-         r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
-         r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
-                                                                         \
--        d[H4(0)] = r0;                                                  \
--        d[H4(1)] = r1;                                                  \
--        d[H4(2)] = r2;                                                  \
--        d[H4(3)] = r3;                                                  \
-+        d[H2(0)] = r0;                                                  \
-+        d[H2(1)] = r1;                                                  \
-+        d[H2(2)] = r2;                                                  \
-+        d[H2(3)] = r3;                                                  \
-     }
- DO_NEON_PAIRWISE(neon_padd, add)
---
-.20.1

-[PULL 13/26] target/arm: Fix VUDOT/VSDOT (scalar) on big-endian hosts
+Deleted patch
-The helper functions for performing the udot/sdot operations against
-a scalar were not using an address-swizzling macro when converting
-the index of the scalar element into a pointer into the vm array.
-This had no effect on little-endian hosts but meant we generated
-incorrect results on big-endian hosts.
-For these insns, the index is indexing over group of 4 8-bit values,
-so 32 bits per indexed entity, and H4() is therefore what we want.
-(For Neon the only possible input indexes are 0 and 1.)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20201028191712.4910-3-peter.maydell@linaro.org
----
- target/arm/vec_helper.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sdot_idx_b)(void *vd, void *vn, void *vm, uint32_t desc)
-     intptr_t index = simd_data(desc);
-     uint32_t *d = vd;
-     int8_t *n = vn;
--    int8_t *m_indexed = (int8_t *)vm + index * 4;
-+    int8_t *m_indexed = (int8_t *)vm + H4(index) * 4;
-     /* Notice the special case of opr_sz == 8, from aa64/aa32 advsimd.
-      * Otherwise opr_sz is a multiple of 16.
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_udot_idx_b)(void *vd, void *vn, void *vm, uint32_t desc)
-     intptr_t index = simd_data(desc);
-     uint32_t *d = vd;
-     uint8_t *n = vn;
--    uint8_t *m_indexed = (uint8_t *)vm + index * 4;
-+    uint8_t *m_indexed = (uint8_t *)vm + H4(index) * 4;
-     /* Notice the special case of opr_sz == 8, from aa64/aa32 advsimd.
-      * Otherwise opr_sz is a multiple of 16.
---
-.20.1

-[PULL 22/26] configure: Test that gio libs from pkg-config work
+Deleted patch
-On some hosts (eg Ubuntu Bionic) pkg-config returns a set of
-libraries for gio-2.0 which don't actually work when compiling
-statically. (Specifically, the returned library string includes
--lmount, but not -lblkid which -lmount depends upon, so linking
-fails due to missing symbols.)
-Check that the libraries work, and don't enable gio if they don't,
-in the same way we do for gnutls.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Message-id: 20200928160402.7961-1-peter.maydell@linaro.org
----
- configure | 10 +++++++++-
-file changed, 9 insertions(+), 1 deletion(-)
-diff --git a/configure b/configure
-index XXXXXXX..XXXXXXX 100755
---- a/configure
-+++ b/configure
-@@ -XXX,XX +XXX,XX @@ if test "$static" = yes && test "$mingw32" = yes; then
- fi
- if $pkg_config --atleast-version=$glib_req_ver gio-2.0; then
--    gio=yes
-     gio_cflags=$($pkg_config --cflags gio-2.0)
-     gio_libs=$($pkg_config --libs gio-2.0)
-     gdbus_codegen=$($pkg_config --variable=gdbus_codegen gio-2.0)
-     if [ ! -x "$gdbus_codegen" ]; then
-         gdbus_codegen=
-     fi
-+    # Check that the libraries actually work -- Ubuntu 18.04 ships
-+    # with pkg-config --static --libs data for gio-2.0 that is missing
-+    # -lblkid and will give a link error.
-+    write_c_skeleton
-+    if compile_prog "" "gio_libs" ; then
-+        gio=yes
-+    else
-+        gio=no
-+    fi
- else
-     gio=no
- fi
---
-.20.1

-[PULL 23/26] hw/intc/arm_gicv3_cpuif: Make GIC maintenance interrupts work
+Deleted patch
-In gicv3_init_cpuif() we copy the ARMCPU gicv3_maintenance_interrupt
-into the GICv3CPUState struct's maintenance_irq field.  This will
-only work if the board happens to have already wired up the CPU
-maintenance IRQ before the GIC was realized.  Unfortunately this is
-not the case for the 'virt' board, and so the value that gets copied
-is NULL (since a qemu_irq is really a pointer to an IRQState struct
-under the hood).  The effect is that the CPU interface code never
-actually raises the maintenance interrupt line.
-Instead, since the GICv3CPUState has a pointer to the CPUState, make
-the dereference at the point where we want to raise the interrupt, to
-avoid an implicit requirement on board code to wire things up in a
-particular order.
-Reported-by: Jose Martins <josemartins90@gmail.com>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20201009153904.28529-1-peter.maydell@linaro.org
-Reviewed-by: Luc Michel <luc@lmichel.fr>
----
- include/hw/intc/arm_gicv3_common.h | 1 -
- hw/intc/arm_gicv3_cpuif.c          | 5 ++---
-files changed, 2 insertions(+), 4 deletions(-)
-diff --git a/include/hw/intc/arm_gicv3_common.h b/include/hw/intc/arm_gicv3_common.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/intc/arm_gicv3_common.h
-+++ b/include/hw/intc/arm_gicv3_common.h
-@@ -XXX,XX +XXX,XX @@ struct GICv3CPUState {
-     qemu_irq parent_fiq;
-     qemu_irq parent_virq;
-     qemu_irq parent_vfiq;
--    qemu_irq maintenance_irq;
-     /* Redistributor */
-     uint32_t level;                  /* Current IRQ level */
-diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_cpuif.c
-+++ b/hw/intc/arm_gicv3_cpuif.c
-@@ -XXX,XX +XXX,XX @@ static void gicv3_cpuif_virt_update(GICv3CPUState *cs)
-     int irqlevel = 0;
-     int fiqlevel = 0;
-     int maintlevel = 0;
-+    ARMCPU *cpu = ARM_CPU(cs->cpu);
-     idx = hppvi_index(cs);
-     trace_gicv3_cpuif_virt_update(gicv3_redist_affid(cs), idx);
-@@ -XXX,XX +XXX,XX @@ static void gicv3_cpuif_virt_update(GICv3CPUState *cs)
-     qemu_set_irq(cs->parent_vfiq, fiqlevel);
-     qemu_set_irq(cs->parent_virq, irqlevel);
--    qemu_set_irq(cs->maintenance_irq, maintlevel);
-+    qemu_set_irq(cpu->gicv3_maintenance_interrupt, maintlevel);
- }
- static uint64_t icv_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
-@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
-             && cpu->gic_num_lrs) {
-             int j;
--            cs->maintenance_irq = cpu->gicv3_maintenance_interrupt;
--
-             cs->num_list_regs = cpu->gic_num_lrs;
-             cs->vpribits = cpu->gic_vpribits;
-             cs->vprebits = cpu->gic_vprebits;
---
-.20.1

-[PULL 24/26] scripts/kerneldoc: For Sphinx 3 use c:macro for macros with arguments
+Deleted patch
-The kerneldoc script currently emits Sphinx markup for a macro with
-arguments that uses the c:function directive. This is correct for
-Sphinx versions earlier than Sphinx 3, where c:macro doesn't allow
-documentation of macros with arguments and c:function is not picky
-about the syntax of what it is passed. However, in Sphinx 3 the
-c:macro directive was enhanced to support macros with arguments,
-and c:function was made more picky about what syntax it accepted.
-When kerneldoc is told that it needs to produce output for Sphinx
-or later, make it emit c:function only for functions and c:macro
-for macros with arguments. We assume that anything with a return
-type is a function and anything without is a macro.
-This fixes the Sphinx error:
-/home/petmay01/linaro/qemu-from-laptop/qemu/docs/../include/qom/object.h:155:Error in declarator
-If declarator-id with parameters (e.g., 'void f(int arg)'):
-  Invalid C declaration: Expected identifier in nested name. [error at 25]
-    DECLARE_INSTANCE_CHECKER ( InstanceType,  OBJ_NAME,  TYPENAME)
-    -------------------------^
-If parenthesis in noptr-declarator (e.g., 'void (*f(int arg))(double)'):
-  Error in declarator or parameters
-  Invalid C declaration: Expecting "(" in parameters. [error at 39]
-    DECLARE_INSTANCE_CHECKER ( InstanceType,  OBJ_NAME,  TYPENAME)
-    ---------------------------------------^
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Daniel P. Berrangé <berrange@redhat.com>
-Tested-by: Stefan Hajnoczi <stefanha@redhat.com>
-Message-id: 20201030174700.7204-2-peter.maydell@linaro.org
----
- scripts/kernel-doc | 18 +++++++++++++++++-
-file changed, 17 insertions(+), 1 deletion(-)
-diff --git a/scripts/kernel-doc b/scripts/kernel-doc
-index XXXXXXX..XXXXXXX 100755
---- a/scripts/kernel-doc
-+++ b/scripts/kernel-doc
-@@ -XXX,XX +XXX,XX @@ sub output_function_rst(%) {
-     output_highlight_rst($args{'purpose'});
-     $start = "\n\n**Syntax**\n\n  ``";
-     } else {
--    print ".. c:function:: ";
-+        if ((split(/\./, $sphinx_version))[0] >= 3) {
-+            # Sphinx 3 and later distinguish macros and functions and
-+            # complain if you use c:function with something that's not
-+            # syntactically valid as a function declaration.
-+            # We assume that anything with a return type is a function
-+            # and anything without is a macro.
-+            if ($args{'functiontype'} ne "") {
-+                print ".. c:function:: ";
-+            } else {
-+                print ".. c:macro:: ";
-+            }
-+        } else {
-+            # Older Sphinx don't support documenting macros that take
-+            # arguments with c:macro, and don't complain about the use
-+            # of c:function for this.
-+            print ".. c:function:: ";
-+        }
-     }
-     if ($args{'functiontype'} ne "") {
-     $start .= $args{'functiontype'} . " " . $args{'function'} . " (";
---
-.20.1

Small pile of bug fixes for rc1. I've included my patches to get
our docs building with Sphinx 3, just for convenience...

-- PMM

The following changes since commit b149dea55cce97cb226683d06af61984a1c11e96:

Merge remote-tracking branch 'remotes/cschoenebeck/tags/pull-9p-20201102' into staging (2020-11-02 10:57:48 +0000)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20201102

for you to fetch changes up to ffb4fbf90a2f63c9cb33e4bb9f854c79bf04ca4a:

tests/qtest/npcm7xx_rng-test: Disable randomness tests (2020-11-02 16:52:18 +0000)

----------------------------------------------------------------
target-arm queue:
 * target/arm: Fix Neon emulation bugs on big-endian hosts
 * target/arm: fix handling of HCR.FB
 * target/arm: fix LORID_EL1 access check
 * disas/capstone: Fix monitor disassembly of >32 bytes
 * hw/arm/smmuv3: Fix potential integer overflow (CID 1432363)
 * hw/arm/boot: fix SVE for EL3 direct kernel boot
 * hw/display/omap_lcdc: Fix potential NULL pointer dereference
 * hw/display/exynos4210_fimd: Fix potential NULL pointer dereference
 * target/arm: Get correct MMU index for other-security-state
 * configure: Test that gio libs from pkg-config work
 * hw/intc/arm_gicv3_cpuif: Make GIC maintenance interrupts work
 * docs: Fix building with Sphinx 3
 * tests/qtest/npcm7xx_rng-test: Disable randomness tests

----------------------------------------------------------------
AlexChen (2):
      hw/display/omap_lcdc: Fix potential NULL pointer dereference
      hw/display/exynos4210_fimd: Fix potential NULL pointer dereference

Peter Maydell (9):
      target/arm: Fix float16 pairwise Neon ops on big-endian hosts
      target/arm: Fix VUDOT/VSDOT (scalar) on big-endian hosts
      disas/capstone: Fix monitor disassembly of >32 bytes
      target/arm: Get correct MMU index for other-security-state
      configure: Test that gio libs from pkg-config work
      hw/intc/arm_gicv3_cpuif: Make GIC maintenance interrupts work
      scripts/kerneldoc: For Sphinx 3 use c:macro for macros with arguments
      qemu-option-trace.rst.inc: Don't use option:: markup
      tests/qtest/npcm7xx_rng-test: Disable randomness tests

Philippe Mathieu-Daudé (1):
      hw/arm/smmuv3: Fix potential integer overflow (CID 1432363)

Richard Henderson (11):
      target/arm: Introduce neon_full_reg_offset
      target/arm: Move neon_element_offset to translate.c
      target/arm: Use neon_element_offset in neon_load/store_reg
      target/arm: Use neon_element_offset in vfp_reg_offset
      target/arm: Add read/write_neon_element32
      target/arm: Expand read/write_neon_element32 to all MemOp
      target/arm: Rename neon_load_reg32 to vfp_load_reg32
      target/arm: Add read/write_neon_element64
      target/arm: Rename neon_load_reg64 to vfp_load_reg64
      target/arm: Simplify do_long_3d and do_2scalar_long
      target/arm: Improve do_prewiden_3d

Rémi Denis-Courmont (3):
      target/arm: fix handling of HCR.FB
      target/arm: fix LORID_EL1 access check
      hw/arm/boot: fix SVE for EL3 direct kernel boot