Series comparison

-[Qemu-devel] [PULL 00/25] target-arm queue
+[PULL 00/43] target-arm queue
-target-arm queue. This has the "plumb txattrs through various
+First arm pullreq for 6.1 cycle. The big stuff here is RTH's alignment series.
 bits of exec.c" patches, and a collection of bug fixes from
 various people.
 thanks
 -- PMM
+The following changes since commit ccdf06c1db192152ac70a1dd974c624f566cb7d4:
+  Open 6.1 development tree (2021-04-30 11:15:40 +0100)
 The following changes since commit a3ac12fba028df90f7b3dbec924995c126c41022:
   Merge remote-tracking branch 'remotes/ehabkost/tags/numa-next-pull-request' into staging (2018-05-31 11:12:36 +0100)
 are available in the Git repository at:
-  git://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20180531
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210430
-for you to fetch changes up to 49d1dca0520ea71bc21867fab6647f474fcf857b:
+for you to fetch changes up to a6091108aa44e9017af4ca13c43f55a629e3744c:
-  KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice (2018-05-31 14:52:53 +0100)
+  hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows (2021-04-30 11:16:52 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: Honour FPCR.FZ in FRECPX
+ * hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
- * MAINTAINERS: Add entries for newer MPS2 boards and devices
+ * hw: add compat machines for 6.1
- * hw/intc/arm_gicv3: Fix APxR<n> register dispatching
+ * Fault misaligned accesses where the architecture requires it
- * arm_gicv3_kvm: fix bug in writing zero bits back to the in-kernel
+ * Fix some corner cases of MTE faults (notably with misaligned accesses)
-   GIC state
+ * Make Thumb store insns UNDEF for Rn==1111
- * tcg: Fix helper function vs host abi for float16
+ * hw/arm/smmuv3: Support 16K translation granule
  * arm: fix qemu crash on startup with -bios option
  * arm: fix malloc type mismatch
  * xlnx-zdma: Correct mem leaks and memset to zero on desc unaligned errors
  * Correct CPACR reset value for v7 cores
  * memory.h: Improve IOMMU related documentation
  * exec: Plumb transaction attributes through various functions in
    preparation for allowing IOMMUs to see them
  * vmstate.h: Provide VMSTATE_BOOL_SUB_ARRAY
  * ARM: ACPI: Fix use-after-free due to memory realloc
  * KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice
 ----------------------------------------------------------------
-Francisco Iglesias (1):
+Cornelia Huck (1):
-      xlnx-zdma: Correct mem leaks and memset to zero on desc unaligned errors
+      hw: add compat machines for 6.1
-Igor Mammedov (1):
+Kunkun Jiang (1):
-      arm: fix qemu crash on startup with -bios option
+      hw/arm/smmuv3: Support 16K translation granule
-Jan Kiszka (1):
+Peter Maydell (2):
-      hw/intc/arm_gicv3: Fix APxR<n> register dispatching
+      target/arm: Make Thumb store insns UNDEF for Rn==1111
       hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
-Paolo Bonzini (1):
+Richard Henderson (39):
-      arm: fix malloc type mismatch
+      target/arm: Fix mte_checkN
       target/arm: Split out mte_probe_int
       target/arm: Fix unaligned checks for mte_check1, mte_probe1
       test/tcg/aarch64: Add mte-5
       target/arm: Replace MTEDESC ESIZE+TSIZE with SIZEM1
       target/arm: Merge mte_check1, mte_checkN
       target/arm: Rename mte_probe1 to mte_probe
       target/arm: Simplify sve mte checking
       target/arm: Remove log2_esize parameter to gen_mte_checkN
       target/arm: Fix decode of align in VLDST_single
       target/arm: Rename TBFLAG_A32, SCTLR_B
       target/arm: Rename TBFLAG_ANY, PSTATE_SS
       target/arm: Add wrapper macros for accessing tbflags
       target/arm: Introduce CPUARMTBFlags
       target/arm: Move mode specific TB flags to tb->cs_base
       target/arm: Move TBFLAG_AM32 bits to the top
       target/arm: Move TBFLAG_ANY bits to the bottom
       target/arm: Add ALIGN_MEM to TBFLAG_ANY
       target/arm: Adjust gen_aa32_{ld, st}_i32 for align+endianness
       target/arm: Merge gen_aa32_frob64 into gen_aa32_ld_i64
       target/arm: Fix SCTLR_B test for TCGv_i64 load/store
       target/arm: Adjust gen_aa32_{ld, st}_i64 for align+endianness
       target/arm: Enforce word alignment for LDRD/STRD
       target/arm: Enforce alignment for LDA/LDAH/STL/STLH
       target/arm: Enforce alignment for LDM/STM
       target/arm: Enforce alignment for RFE
       target/arm: Enforce alignment for SRS
       target/arm: Enforce alignment for VLDM/VSTM
       target/arm: Enforce alignment for VLDR/VSTR
       target/arm: Enforce alignment for VLDn (all lanes)
       target/arm: Enforce alignment for VLDn/VSTn (multiple)
       target/arm: Enforce alignment for VLDn/VSTn (single)
       target/arm: Use finalize_memop for aa64 gpr load/store
       target/arm: Use finalize_memop for aa64 fpr load/store
       target/arm: Enforce alignment for aa64 load-acq/store-rel
       target/arm: Use MemOp for size + endian in aa64 vector ld/st
       target/arm: Enforce alignment for aa64 vector LDn/STn (multiple)
       target/arm: Enforce alignment for aa64 vector LDn/STn (single)
       target/arm: Enforce alignment for sve LD1R
-Peter Maydell (17):
+ include/hw/boards.h               |   3 +
-      target/arm: Honour FPCR.FZ in FRECPX
+ include/hw/i386/pc.h              |   3 +
-      MAINTAINERS: Add entries for newer MPS2 boards and devices
+ include/hw/pci-host/gpex.h        |   4 +
-      Correct CPACR reset value for v7 cores
+ target/arm/cpu.h                  | 105 ++++++++++-----
-      memory.h: Improve IOMMU related documentation
+ target/arm/helper-a64.h           |   3 +-
-      Make tb_invalidate_phys_addr() take a MemTxAttrs argument
+ target/arm/internals.h            |  11 +-
-      Make address_space_translate{, _cached}() take a MemTxAttrs argument
+ target/arm/translate-a64.h        |   2 +-
-      Make address_space_map() take a MemTxAttrs argument
+ target/arm/translate.h            |  38 ++++++
-      Make address_space_access_valid() take a MemTxAttrs argument
+ target/arm/neon-ls.decode         |   4 +-
-      Make flatview_extend_translation() take a MemTxAttrs argument
+ hw/arm/smmuv3.c                   |   6 +-
-      Make memory_region_access_valid() take a MemTxAttrs argument
+ hw/arm/virt.c                     |   7 +-
-      Make MemoryRegion valid.accepts callback take a MemTxAttrs argument
+ hw/core/machine.c                 |   5 +
-      Make flatview_access_valid() take a MemTxAttrs argument
+ hw/i386/pc.c                      |   3 +
-      Make flatview_translate() take a MemTxAttrs argument
+ hw/i386/pc_piix.c                 |  14 +-
-      Make address_space_get_iotlb_entry() take a MemTxAttrs argument
+ hw/i386/pc_q35.c                  |  13 +-
-      Make flatview_do_translate() take a MemTxAttrs argument
+ hw/pci-host/gpex.c                |  56 +++++++-
-      Make address_space_translate_iommu take a MemTxAttrs argument
+ hw/ppc/spapr.c                    |  17 ++-
-      vmstate.h: Provide VMSTATE_BOOL_SUB_ARRAY
+ hw/s390x/s390-virtio-ccw.c        |  14 +-
  target/arm/helper-a64.c           |   2 +-
  target/arm/helper.c               | 162 ++++++++++++----------
  target/arm/mte_helper.c           | 185 ++++++++++---------------
  target/arm/sve_helper.c           | 100 +++++---------
  target/arm/translate-a64.c        | 236 ++++++++++++++++----------------
  target/arm/translate-sve.c        |  11 +-
  target/arm/translate.c            | 274 ++++++++++++++++++++++----------------
  tests/tcg/aarch64/mte-5.c         |  44 ++++++
  target/arm/translate-neon.c.inc   | 117 ++++++++++++----
  target/arm/translate-vfp.c.inc    |  20 +--
  tests/tcg/aarch64/Makefile.target |   2 +-
 files changed, 878 insertions(+), 583 deletions(-)
  create mode 100644 tests/tcg/aarch64/mte-5.c
-Richard Henderson (1):
-      tcg: Fix helper function vs host abi for float16
-Shannon Zhao (3):
-      arm_gicv3_kvm: increase clroffset accordingly
-      ARM: ACPI: Fix use-after-free due to memory realloc
-      KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice
- include/exec/exec-all.h        |   5 +-
- include/exec/helper-head.h     |   2 +-
- include/exec/memory-internal.h |   3 +-
- include/exec/memory.h          | 128 +++++++++++++++++++++++++++++++++++------
- include/migration/vmstate.h    |   3 +
- include/sysemu/dma.h           |   6 +-
- accel/tcg/translate-all.c      |   4 +-
- exec.c                         |  95 ++++++++++++++++++------------
- hw/arm/boot.c                  |  18 +++---
- hw/arm/virt-acpi-build.c       |  20 +++++--
- hw/dma/xlnx-zdma.c             |  10 +++-
- hw/hppa/dino.c                 |   3 +-
- hw/intc/arm_gic_kvm.c          |   1 -
- hw/intc/arm_gicv3_cpuif.c      |  12 ++--
- hw/intc/arm_gicv3_kvm.c        |   2 +-
- hw/nvram/fw_cfg.c              |  12 ++--
- hw/s390x/s390-pci-inst.c       |   3 +-
- hw/scsi/esp.c                  |   3 +-
- hw/vfio/common.c               |   3 +-
- hw/virtio/vhost.c              |   3 +-
- hw/xen/xen_pt_msi.c            |   3 +-
- memory.c                       |  12 ++--
- memory_ldst.inc.c              |  18 +++---
- target/arm/gdbstub.c           |   3 +-
- target/arm/helper-a64.c        |  41 +++++++------
- target/arm/helper.c            |  90 ++++++++++++++++-------------
- target/ppc/mmu-hash64.c        |   3 +-
- target/riscv/helper.c          |   2 +-
- target/s390x/diag.c            |   6 +-
- target/s390x/excp_helper.c     |   3 +-
- target/s390x/mmu_helper.c      |   3 +-
- target/s390x/sigp.c            |   3 +-
- target/xtensa/op_helper.c      |   3 +-
- MAINTAINERS                    |   9 ++-
-files changed, 353 insertions(+), 182 deletions(-)

-New patch
+[PULL 01/43] hw/arm/smmuv3: Support 16K translation granule
+From: Kunkun Jiang <jiangkunkun@huawei.com>
+The driver can query some bits in SMMUv3 IDR5 to learn which
+translation granules are supported. Arm recommends that SMMUv3
+implementations support at least 4K and 64K granules. But in
+the vSMMUv3, there seems to be no reason not to support 16K
+translation granule. In addition, if 16K is not supported,
+vSVA will failed to be enabled in the future for 16K guest
+kernel. So it'd better to support it.
+Signed-off-by: Kunkun Jiang <jiangkunkun@huawei.com>
+Reviewed-by: Eric Auger <eric.auger@redhat.com>
+Tested-by: Eric Auger <eric.auger@redhat.com>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/smmuv3.c | 6 ++++--
+file changed, 4 insertions(+), 2 deletions(-)
+diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/smmuv3.c
++++ b/hw/arm/smmuv3.c
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_init_regs(SMMUv3State *s)
+     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, RIL, 1);
+     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, HAD, 1);
+-   /* 4K and 64K granule support */
++    /* 4K, 16K and 64K granule support */
+     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN4K, 1);
++    s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN16K, 1);
+     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN64K, 1);
+     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, OAS, SMMU_IDR5_OAS); /* 44 bits */
+@@ -XXX,XX +XXX,XX @@ static int decode_cd(SMMUTransCfg *cfg, CD *cd, SMMUEventInfo *event)
+         tg = CD_TG(cd, i);
+         tt->granule_sz = tg2granule(tg, i);
+-        if ((tt->granule_sz != 12 && tt->granule_sz != 16) || CD_ENDI(cd)) {
++        if ((tt->granule_sz != 12 && tt->granule_sz != 14 &&
++             tt->granule_sz != 16) || CD_ENDI(cd)) {
+             goto bad_cd;
+         }
+--
+.20.1

-New patch
+[PULL 02/43] target/arm: Make Thumb store insns UNDEF for Rn==1111
+The Arm ARM specifies that for Thumb encodings of the various plain
+store insns, if the Rn field is 1111 then we must UNDEF.  This is
+different from the Arm encodings, where this case is either
+UNPREDICTABLE or has well-defined behaviour.  The exclusive stores,
+store-release and STRD do not have this UNDEF case for any encoding.
+Enforce the UNDEF for this case in the Thumb plain store insns.
+Fixes: https://bugs.launchpad.net/qemu/+bug/1922887
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210408162402.5822-1-peter.maydell@linaro.org
+---
+ target/arm/translate.c | 16 ++++++++++++++++
+file changed, 16 insertions(+)
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
+     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
+     TCGv_i32 addr, tmp;
++    /*
++     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
++     * is either UNPREDICTABLE or has defined behaviour
++     */
++    if (s->thumb && a->rn == 15) {
++        return false;
++    }
++
+     addr = op_addr_rr_pre(s, a);
+     tmp = load_reg(s, a->rt);
+@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
+     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
+     TCGv_i32 addr, tmp;
++    /*
++     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
++     * is either UNPREDICTABLE or has defined behaviour
++     */
++    if (s->thumb && a->rn == 15) {
++        return false;
++    }
++
+     addr = op_addr_ri_pre(s, a);
+     tmp = load_reg(s, a->rt);
+--
+.20.1

-[Qemu-devel] [PULL 24/25] ARM: ACPI: Fix use-after-free due to memory realloc
+[PULL 03/43] target/arm: Fix mte_checkN
-From: Shannon Zhao <zhaoshenglong@huawei.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-acpi_data_push uses g_array_set_size to resize the memory size. If there
+We were incorrectly assuming that only the first byte of an MTE access
-is no enough contiguous memory, the address will be changed. So previous
+is checked against the tags.  But per the ARM, unaligned accesses are
-pointer could not be used any more. It must update the pointer and use
+pre-decomposed into single-byte accesses.  So by the time we reach the
-the new one.
+actual MTE check in the ARM pseudocode, all accesses are aligned.
-Also, previous codes wrongly use le32 conversion of iort->node_offset
+Therefore, the first failure is always either the first byte of the
-for subsequent computations that will result incorrect value if host is
+access, or the first byte of the granule.
 not litlle endian. So use the non-converted one instead.
-Signed-off-by: Shannon Zhao <zhaoshenglong@huawei.com>
+In addition, some of the arithmetic is off for last-first -> count.
-Reviewed-by: Eric Auger <eric.auger@redhat.com>
+This does not become directly visible until a later patch that passes
-Message-id: 1527663951-14552-1-git-send-email-zhaoshenglong@huawei.com
+single bytes into this function, so ptr == ptr_last.
 Buglink: https://bugs.launchpad.net/bugs/1921948
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210416183106.1516563-2-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 [PMM: tweaked a comment]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/virt-acpi-build.c | 20 +++++++++++++++-----
+ target/arm/mte_helper.c | 40 ++++++++++++++++++----------------------
-file changed, 15 insertions(+), 5 deletions(-)
+file changed, 18 insertions(+), 22 deletions(-)
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
+diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
+--- a/target/arm/mte_helper.c
-+++ b/hw/arm/virt-acpi-build.c
++++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
+@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-     AcpiIortItsGroup *its;
+                     uint64_t ptr, uintptr_t ra)
-     AcpiIortTable *iort;
+ {
-     AcpiIortSmmu3 *smmu;
+     int mmu_idx, ptr_tag, bit55;
--    size_t node_size, iort_length, smmu_offset = 0;
+-    uint64_t ptr_last, ptr_end, prev_page, next_page;
-+    size_t node_size, iort_node_offset, iort_length, smmu_offset = 0;
+-    uint64_t tag_first, tag_end;
-     AcpiIortRC *rc;
+-    uint64_t tag_byte_first, tag_byte_end;
+-    uint32_t esize, total, tag_count, tag_size, n, c;
-     iort = acpi_data_push(table_data, sizeof(*iort));
++    uint64_t ptr_last, prev_page, next_page;
-@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
++    uint64_t tag_first, tag_last;
++    uint64_t tag_byte_first, tag_byte_last;
-     iort_length = sizeof(*iort);
++    uint32_t total, tag_count, tag_size, n, c;
-     iort->node_count = cpu_to_le32(nb_nodes);
+     uint8_t *mem1, *mem2;
--    iort->node_offset = cpu_to_le32(sizeof(*iort));
+     MMUAccessType type;
-+    /*
-+     * Use a copy in case table_data->data moves during acpi_data_push
+@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-+     * operations.
-+     */
+     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
-+    iort_node_offset = sizeof(*iort);
+     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
-+    iort->node_offset = cpu_to_le32(iort_node_offset);
+-    esize = FIELD_EX32(desc, MTEDESC, ESIZE);
+     total = FIELD_EX32(desc, MTEDESC, TSIZE);
-     /* ITS group node */
-     node_size =  sizeof(*its) + sizeof(uint32_t);
+-    /* Find the addr of the end of the access, and of the last element. */
-@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
+-    ptr_end = ptr + total;
-         int irq =  vms->irqmap[VIRT_SMMU];
+-    ptr_last = ptr_end - esize;
++    /* Find the addr of the end of the access */
-         /* SMMUv3 node */
++    ptr_last = ptr + total - 1;
--        smmu_offset = iort->node_offset + node_size;
-+        smmu_offset = iort_node_offset + node_size;
+     /* Round the bounds to the tag granule, and compute the number of tags. */
-         node_size = sizeof(*smmu) + sizeof(*idmap);
+     tag_first = QEMU_ALIGN_DOWN(ptr, TAG_GRANULE);
-         iort_length += node_size;
+-    tag_end = QEMU_ALIGN_UP(ptr_last, TAG_GRANULE);
-         smmu = acpi_data_push(table_data, node_size);
+-    tag_count = (tag_end - tag_first) / TAG_GRANULE;
-@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
++    tag_last = QEMU_ALIGN_DOWN(ptr_last, TAG_GRANULE);
-         idmap->id_count = cpu_to_le32(0xFFFF);
++    tag_count = ((tag_last - tag_first) / TAG_GRANULE) + 1;
-         idmap->output_base = 0;
-         /* output IORT node is the ITS group node (the first node) */
+     /* Round the bounds to twice the tag granule, and compute the bytes. */
--        idmap->output_reference = cpu_to_le32(iort->node_offset);
+     tag_byte_first = QEMU_ALIGN_DOWN(ptr, 2 * TAG_GRANULE);
-+        idmap->output_reference = cpu_to_le32(iort_node_offset);
+-    tag_byte_end = QEMU_ALIGN_UP(ptr_last, 2 * TAG_GRANULE);
 +    tag_byte_last = QEMU_ALIGN_DOWN(ptr_last, 2 * TAG_GRANULE);
      /* Locate the page boundaries. */
      prev_page = ptr & TARGET_PAGE_MASK;
      next_page = prev_page + TARGET_PAGE_SIZE;
 -    if (likely(tag_end - prev_page <= TARGET_PAGE_SIZE)) {
 +    if (likely(tag_last - prev_page <= TARGET_PAGE_SIZE)) {
          /* Memory access stays on one page. */
 -        tag_size = (tag_byte_end - tag_byte_first) / (2 * TAG_GRANULE);
 +        tag_size = ((tag_byte_last - tag_byte_first) / (2 * TAG_GRANULE)) + 1;
          mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
                                    MMU_DATA_LOAD, tag_size, ra);
          if (!mem1) {
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
          mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, next_page - ptr,
                                    MMU_DATA_LOAD, tag_size, ra);
 -        tag_size = (tag_byte_end - next_page) / (2 * TAG_GRANULE);
 +        tag_size = ((tag_byte_last - next_page) / (2 * TAG_GRANULE)) + 1;
          mem2 = allocation_tag_mem(env, mmu_idx, next_page, type,
 -                                  ptr_end - next_page,
 +                                  ptr_last - next_page + 1,
                                    MMU_DATA_LOAD, tag_size, ra);
          /*
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
      }
-     /* Root Complex Node */
+     /*
-@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
+-     * If we failed, we know which granule.  Compute the element that
-         idmap->output_reference = cpu_to_le32(smmu_offset);
+-     * is first in that granule, and signal failure on that element.
-     } else {
++     * If we failed, we know which granule.  For the first granule, the
-         /* output IORT node is the ITS group node (the first node) */
++     * failure address is @ptr, the first byte accessed.  Otherwise the
--        idmap->output_reference = cpu_to_le32(iort->node_offset);
++     * failure address is the first byte of the nth granule.
-+        idmap->output_reference = cpu_to_le32(iort_node_offset);
+      */
      if (unlikely(n < tag_count)) {
 -        uint64_t fail_ofs;
 -
 -        fail_ofs = tag_first + n * TAG_GRANULE - ptr;
 -        fail_ofs = ROUND_UP(fail_ofs, esize);
 -        mte_check_fail(env, desc, ptr + fail_ofs, ra);
 +        uint64_t fault = (n == 0 ? ptr : tag_first + n * TAG_GRANULE);
 +        mte_check_fail(env, desc, fault, ra);
      }
-+    /*
+  done:
 +     * Update the pointer address in case table_data->data moves during above
 +     * acpi_data_push operations.
 +     */
 +    iort = (AcpiIortTable *)(table_data->data + iort_start);
      iort->length = cpu_to_le32(iort_length);
      build_header(linker, table_data, (void *)(table_data->data + iort_start),
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 22/25] Make address_space_translate_iommu take a MemTxAttrs argument
+[PULL 04/43] target/arm: Split out mte_probe_int
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to address_space_translate_iommu().
+Split out a helper function from mte_checkN to perform
+all of the checking and address manpulation.  So far,
+just use this in mte_checkN itself.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-3-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-14-peter.maydell@linaro.org
 ---
- exec.c | 8 +++++---
+ target/arm/mte_helper.c | 52 +++++++++++++++++++++++++++++++----------
-file changed, 5 insertions(+), 3 deletions(-)
+file changed, 40 insertions(+), 12 deletions(-)
-diff --git a/exec.c b/exec.c
+diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+--- a/target/arm/mte_helper.c
-+++ b/exec.c
++++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ address_space_translate_internal(AddressSpaceDispatch *d, hwaddr addr, hwaddr *x
+@@ -XXX,XX +XXX,XX @@ static int checkN(uint8_t *mem, int odd, int cmp, int count)
-  * @is_write: whether the translation operation is for write
+     return n;
-  * @is_mmio: whether this can be MMIO, set true if it can
+ }
-  * @target_as: the address space targeted by the IOMMU
-+ * @attrs: transaction attributes
+-uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-  *
+-                    uint64_t ptr, uintptr_t ra)
-  * This function is called from RCU critical section.  It is the common
++/**
-  * part of flatview_do_translate and address_space_translate_cached.
++ * mte_probe_int() - helper for mte_probe and mte_check
-@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection address_space_translate_iommu(IOMMUMemoryRegion *iomm
++ * @env: CPU environment
-                                                          hwaddr *page_mask_out,
++ * @desc: MTEDESC descriptor
-                                                          bool is_write,
++ * @ptr: virtual address of the base of the access
-                                                          bool is_mmio,
++ * @fault: return virtual address of the first check failure
--                                                         AddressSpace **target_as)
++ *
-+                                                         AddressSpace **target_as,
++ * Internal routine for both mte_probe and mte_check.
-+                                                         MemTxAttrs attrs)
++ * Return zero on failure, filling in *fault.
 + * Return negative on trivial success for tbi disabled.
 + * Return positive on success with tbi enabled.
 + */
 +static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
 +                         uintptr_t ra, uint32_t total, uint64_t *fault)
  {
-     MemoryRegionSection *section;
+     int mmu_idx, ptr_tag, bit55;
-     hwaddr page_mask = (hwaddr)-1;
+     uint64_t ptr_last, prev_page, next_page;
-@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection flatview_do_translate(FlatView *fv,
+     uint64_t tag_first, tag_last;
-         return address_space_translate_iommu(iommu_mr, xlat,
+     uint64_t tag_byte_first, tag_byte_last;
-                                              plen_out, page_mask_out,
+-    uint32_t total, tag_count, tag_size, n, c;
-                                              is_write, is_mmio,
++    uint32_t tag_count, tag_size, n, c;
--                                             target_as);
+     uint8_t *mem1, *mem2;
-+                                             target_as, attrs);
+     MMUAccessType type;
      bit55 = extract64(ptr, 55, 1);
 +    *fault = ptr;
      /* If TBI is disabled, the access is unchecked, and ptr is not dirty. */
      if (unlikely(!tbi_check(desc, bit55))) {
 -        return ptr;
 +        return -1;
      }
-     if (page_mask_out) {
-         /* Not behind an IOMMU, use default page size. */
+     ptr_tag = allocation_tag_from_addr(ptr);
-@@ -XXX,XX +XXX,XX @@ static inline MemoryRegion *address_space_translate_cached(
+     if (tcma_check(desc, bit55, ptr_tag)) {
-     section = address_space_translate_iommu(iommu_mr, xlat, plen,
+-        goto done;
-                                             NULL, is_write, true,
++        return 1;
--                                            &target_as);
+     }
-+                                            &target_as, attrs);
-     return section.mr;
+     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
      type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
 -    total = FIELD_EX32(desc, MTEDESC, TSIZE);
      /* Find the addr of the end of the access */
      ptr_last = ptr + total - 1;
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
          mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
                                    MMU_DATA_LOAD, tag_size, ra);
          if (!mem1) {
 -            goto done;
 +            return 1;
          }
          /* Perform all of the comparisons. */
          n = checkN(mem1, ptr & TAG_GRANULE, ptr_tag, tag_count);
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
          }
          if (n == c) {
              if (!mem2) {
 -                goto done;
 +                return 1;
              }
              n += checkN(mem2, 0, ptr_tag, tag_count - c);
          }
      }
 +    if (likely(n == tag_count)) {
 +        return 1;
 +    }
 +
      /*
       * If we failed, we know which granule.  For the first granule, the
       * failure address is @ptr, the first byte accessed.  Otherwise the
       * failure address is the first byte of the nth granule.
       */
 -    if (unlikely(n < tag_count)) {
 -        uint64_t fault = (n == 0 ? ptr : tag_first + n * TAG_GRANULE);
 -        mte_check_fail(env, desc, fault, ra);
 +    if (n > 0) {
 +        *fault = tag_first + n * TAG_GRANULE;
      }
 +    return 0;
 +}
 - done:
 +uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
 +                    uint64_t ptr, uintptr_t ra)
 +{
 +    uint64_t fault;
 +    uint32_t total = FIELD_EX32(desc, MTEDESC, TSIZE);
 +    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
 +
 +    if (unlikely(ret == 0)) {
 +        mte_check_fail(env, desc, fault, ra);
 +    } else if (ret < 0) {
 +        return ptr;
 +    }
      return useronly_clean_ptr(ptr);
  }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 11/25] Make tb_invalidate_phys_addr() take a MemTxAttrs argument
+[PULL 05/43] target/arm: Fix unaligned checks for mte_check1, mte_probe1
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to tb_invalidate_phys_addr().
 Its callers either have an attrs value to hand, or don't care
 and can use MEMTXATTRS_UNSPECIFIED.
+We were incorrectly assuming that only the first byte of an MTE access
+is checked against the tags.  But per the ARM, unaligned accesses are
+pre-decomposed into single-byte accesses.  So by the time we reach the
+actual MTE check in the ARM pseudocode, all accesses are aligned.
+We cannot tell a priori whether or not a given scalar access is aligned,
+therefore we must at least check.  Use mte_probe_int, which is already
+set up for checking multiple granules.
+Buglink: https://bugs.launchpad.net/bugs/1921948
+Tested-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Message-id: 20180521140402.23318-3-peter.maydell@linaro.org
 ---
- include/exec/exec-all.h   | 5 +++--
+ target/arm/mte_helper.c | 109 +++++++++++++---------------------------
- accel/tcg/translate-all.c | 2 +-
+file changed, 35 insertions(+), 74 deletions(-)
  exec.c                    | 2 +-
  target/xtensa/op_helper.c | 3 ++-
 files changed, 7 insertions(+), 5 deletions(-)
-diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
+diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/exec-all.h
+--- a/target/arm/mte_helper.c
-+++ b/include/exec/exec-all.h
++++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ void tlb_set_page_with_attrs(CPUState *cpu, target_ulong vaddr,
+@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
  void tlb_set_page(CPUState *cpu, target_ulong vaddr,
                    hwaddr paddr, int prot,
                    int mmu_idx, target_ulong size);
 -void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr);
 +void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr, MemTxAttrs attrs);
  void probe_write(CPUArchState *env, target_ulong addr, int size, int mmu_idx,
                   uintptr_t retaddr);
  #else
@@ -XXX,XX +XXX,XX @@ static inline void tlb_flush_by_mmuidx_all_cpus_synced(CPUState *cpu,
                                                         uint16_t idxmap)
  {
  }
 -static inline void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr)
 +static inline void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr,
 +                                           MemTxAttrs attrs)
  {
  }
  #endif
 diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translate-all.c
 +++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static TranslationBlock *tb_find_pc(uintptr_t tc_ptr)
  }
  #if !defined(CONFIG_USER_ONLY)
 -void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr)
 +void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr, MemTxAttrs attrs)
  {
      ram_addr_t ram_addr;
      MemoryRegion *mr;
 diff --git a/exec.c b/exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/exec.c
 +++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static void breakpoint_invalidate(CPUState *cpu, target_ulong pc)
      if (phys != -1) {
          /* Locks grabbed by tb_invalidate_phys_addr */
          tb_invalidate_phys_addr(cpu->cpu_ases[asidx].as,
 -                                phys | (pc & ~TARGET_PAGE_MASK));
 +                                phys | (pc & ~TARGET_PAGE_MASK), attrs);
      }
  }
- #endif
-diff --git a/target/xtensa/op_helper.c b/target/xtensa/op_helper.c
+-/*
-index XXXXXXX..XXXXXXX 100644
+- * Perform an MTE checked access for a single logical or atomic access.
---- a/target/xtensa/op_helper.c
+- */
-+++ b/target/xtensa/op_helper.c
+-static bool mte_probe1_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
-@@ -XXX,XX +XXX,XX @@ static void tb_invalidate_virtual_addr(CPUXtensaState *env, uint32_t vaddr)
+-                           uintptr_t ra, int bit55)
-     int ret = xtensa_get_physical_addr(env, false, vaddr, 2, 0,
+-{
-             &paddr, &page_size, &access);
+-    int mem_tag, mmu_idx, ptr_tag, size;
-     if (ret == 0) {
+-    MMUAccessType type;
--        tb_invalidate_phys_addr(&address_space_memory, paddr);
+-    uint8_t *mem;
-+        tb_invalidate_phys_addr(&address_space_memory, paddr,
+-
-+                                MEMTXATTRS_UNSPECIFIED);
+-    ptr_tag = allocation_tag_from_addr(ptr);
-     }
+-
 -    if (tcma_check(desc, bit55, ptr_tag)) {
 -        return true;
 -    }
 -
 -    mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
 -    type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
 -    size = FIELD_EX32(desc, MTEDESC, ESIZE);
 -
 -    mem = allocation_tag_mem(env, mmu_idx, ptr, type, size,
 -                             MMU_DATA_LOAD, 1, ra);
 -    if (!mem) {
 -        return true;
 -    }
 -
 -    mem_tag = load_tag1(ptr, mem);
 -    return ptr_tag == mem_tag;
 -}
 -
 -/*
 - * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
 - * Returns false if the access is Checked and the check failed.  This
 - * is only intended to probe the tag -- the validity of the page must
 - * be checked beforehand.
 - */
 -bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
 -{
 -    int bit55 = extract64(ptr, 55, 1);
 -
 -    /* If TBI is disabled, the access is unchecked. */
 -    if (unlikely(!tbi_check(desc, bit55))) {
 -        return true;
 -    }
 -
 -    return mte_probe1_int(env, desc, ptr, 0, bit55);
 -}
 -
 -uint64_t mte_check1(CPUARMState *env, uint32_t desc,
 -                    uint64_t ptr, uintptr_t ra)
 -{
 -    int bit55 = extract64(ptr, 55, 1);
 -
 -    /* If TBI is disabled, the access is unchecked, and ptr is not dirty. */
 -    if (unlikely(!tbi_check(desc, bit55))) {
 -        return ptr;
 -    }
 -
 -    if (unlikely(!mte_probe1_int(env, desc, ptr, ra, bit55))) {
 -        mte_check_fail(env, desc, ptr, ra);
 -    }
 -
 -    return useronly_clean_ptr(ptr);
 -}
 -
 -uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 -{
 -    return mte_check1(env, desc, ptr, GETPC());
 -}
 -
 -/*
 - * Perform an MTE checked access for multiple logical accesses.
 - */
 -
  /**
   * checkN:
   * @tag: tag memory to test
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_checkN)(CPUARMState *env, uint32_t desc, uint64_t ptr)
      return mte_checkN(env, desc, ptr, GETPC());
  }
++uint64_t mte_check1(CPUARMState *env, uint32_t desc,
++                    uint64_t ptr, uintptr_t ra)
++{
++    uint64_t fault;
++    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
++    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
++
++    if (unlikely(ret == 0)) {
++        mte_check_fail(env, desc, fault, ra);
++    } else if (ret < 0) {
++        return ptr;
++    }
++    return useronly_clean_ptr(ptr);
++}
++
++uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
++{
++    return mte_check1(env, desc, ptr, GETPC());
++}
++
++/*
++ * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
++ * Returns false if the access is Checked and the check failed.  This
++ * is only intended to probe the tag -- the validity of the page must
++ * be checked beforehand.
++ */
++bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
++{
++    uint64_t fault;
++    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
++    int ret = mte_probe_int(env, desc, ptr, 0, total, &fault);
++
++    return ret != 0;
++}
++
+ /*
+  * Perform an MTE checked access for DC_ZVA.
+  */
 --
-.17.1
+.20.1

-New patch
+[PULL 06/43] test/tcg/aarch64: Add mte-5
+From: Richard Henderson <richard.henderson@linaro.org>
+Buglink: https://bugs.launchpad.net/bugs/1921948
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-5-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ tests/tcg/aarch64/mte-5.c         | 44 +++++++++++++++++++++++++++++++
+ tests/tcg/aarch64/Makefile.target |  2 +-
+files changed, 45 insertions(+), 1 deletion(-)
+ create mode 100644 tests/tcg/aarch64/mte-5.c
+diff --git a/tests/tcg/aarch64/mte-5.c b/tests/tcg/aarch64/mte-5.c
+new file mode 100644
+index XXXXXXX..XXXXXXX
+--- /dev/null
++++ b/tests/tcg/aarch64/mte-5.c
+@@ -XXX,XX +XXX,XX @@
++/*
++ * Memory tagging, faulting unaligned access.
++ *
++ * Copyright (c) 2021 Linaro Ltd
++ * SPDX-License-Identifier: GPL-2.0-or-later
++ */
++
++#include "mte.h"
++
++void pass(int sig, siginfo_t *info, void *uc)
++{
++    assert(info->si_code == SEGV_MTESERR);
++    exit(0);
++}
++
++int main(int ac, char **av)
++{
++    struct sigaction sa;
++    void *p0, *p1, *p2;
++    long excl = 1;
++
++    enable_mte(PR_MTE_TCF_SYNC);
++    p0 = alloc_mte_mem(sizeof(*p0));
++
++    /* Create two differently tagged pointers.  */
++    asm("irg %0,%1,%2" : "=r"(p1) : "r"(p0), "r"(excl));
++    asm("gmi %0,%1,%0" : "+r"(excl) : "r" (p1));
++    assert(excl != 1);
++    asm("irg %0,%1,%2" : "=r"(p2) : "r"(p0), "r"(excl));
++    assert(p1 != p2);
++
++    memset(&sa, 0, sizeof(sa));
++    sa.sa_sigaction = pass;
++    sa.sa_flags = SA_SIGINFO;
++    sigaction(SIGSEGV, &sa, NULL);
++
++    /* Store store two different tags in sequential granules. */
++    asm("stg %0, [%0]" : : "r"(p1));
++    asm("stg %0, [%0]" : : "r"(p2 + 16));
++
++    /* Perform an unaligned load crossing the granules. */
++    asm volatile("ldr %0, [%1]" : "=r"(p0) : "r"(p1 + 12));
++    abort();
++}
+diff --git a/tests/tcg/aarch64/Makefile.target b/tests/tcg/aarch64/Makefile.target
+index XXXXXXX..XXXXXXX 100644
+--- a/tests/tcg/aarch64/Makefile.target
++++ b/tests/tcg/aarch64/Makefile.target
+@@ -XXX,XX +XXX,XX @@ AARCH64_TESTS += bti-2
+ # MTE Tests
+ ifneq ($(DOCKER_IMAGE)$(CROSS_CC_HAS_ARMV8_MTE),)
+-AARCH64_TESTS += mte-1 mte-2 mte-3 mte-4 mte-6
++AARCH64_TESTS += mte-1 mte-2 mte-3 mte-4 mte-5 mte-6
+ mte-%: CFLAGS += -march=armv8.5-a+memtag
+ endif
+--
+.20.1

-New patch
+[PULL 07/43] target/arm: Replace MTEDESC ESIZE+TSIZE with SIZEM1
+From: Richard Henderson <richard.henderson@linaro.org>
+After recent changes, mte_checkN does not use ESIZE,
+and mte_check1 never used TSIZE.  We can combine the
+two into a single field: SIZEM1.
+Choose to pass size - 1 because size == 0 is never used,
+our immediate need in mte_probe_int is for the address
+of the last byte (ptr + size - 1), and since almost all
+operations are powers of 2, this makes the immediate
+constant one bit smaller.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-6-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/internals.h     |  4 ++--
+ target/arm/mte_helper.c    | 18 ++++++++----------
+ target/arm/translate-a64.c |  5 ++---
+ target/arm/translate-sve.c |  5 ++---
+files changed, 14 insertions(+), 18 deletions(-)
+diff --git a/target/arm/internals.h b/target/arm/internals.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/internals.h
++++ b/target/arm/internals.h
+@@ -XXX,XX +XXX,XX @@
+ #define TARGET_ARM_INTERNALS_H
+ #include "hw/registerfields.h"
++#include "tcg/tcg-gvec-desc.h"
+ #include "syndrome.h"
+ /* register banks for CPU modes */
+@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, MIDX,  0, 4)
+ FIELD(MTEDESC, TBI,   4, 2)
+ FIELD(MTEDESC, TCMA,  6, 2)
+ FIELD(MTEDESC, WRITE, 8, 1)
+-FIELD(MTEDESC, ESIZE, 9, 5)
+-FIELD(MTEDESC, TSIZE, 14, 10)  /* mte_checkN only */
++FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
+ bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
+ uint64_t mte_check1(CPUARMState *env, uint32_t desc,
+diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mte_helper.c
++++ b/target/arm/mte_helper.c
+@@ -XXX,XX +XXX,XX @@ static int checkN(uint8_t *mem, int odd, int cmp, int count)
+  * Return positive on success with tbi enabled.
+  */
+ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
+-                         uintptr_t ra, uint32_t total, uint64_t *fault)
++                         uintptr_t ra, uint64_t *fault)
+ {
+     int mmu_idx, ptr_tag, bit55;
+     uint64_t ptr_last, prev_page, next_page;
+     uint64_t tag_first, tag_last;
+     uint64_t tag_byte_first, tag_byte_last;
+-    uint32_t tag_count, tag_size, n, c;
++    uint32_t sizem1, tag_count, tag_size, n, c;
+     uint8_t *mem1, *mem2;
+     MMUAccessType type;
+@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
+     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
+     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
++    sizem1 = FIELD_EX32(desc, MTEDESC, SIZEM1);
+     /* Find the addr of the end of the access */
+-    ptr_last = ptr + total - 1;
++    ptr_last = ptr + sizem1;
+     /* Round the bounds to the tag granule, and compute the number of tags. */
+     tag_first = QEMU_ALIGN_DOWN(ptr, TAG_GRANULE);
+@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
+     if (likely(tag_last - prev_page <= TARGET_PAGE_SIZE)) {
+         /* Memory access stays on one page. */
+         tag_size = ((tag_byte_last - tag_byte_first) / (2 * TAG_GRANULE)) + 1;
+-        mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
++        mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, sizem1 + 1,
+                                   MMU_DATA_LOAD, tag_size, ra);
+         if (!mem1) {
+             return 1;
+@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
+                     uint64_t ptr, uintptr_t ra)
+ {
+     uint64_t fault;
+-    uint32_t total = FIELD_EX32(desc, MTEDESC, TSIZE);
+-    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
++    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
+     if (unlikely(ret == 0)) {
+         mte_check_fail(env, desc, fault, ra);
+@@ -XXX,XX +XXX,XX @@ uint64_t mte_check1(CPUARMState *env, uint32_t desc,
+                     uint64_t ptr, uintptr_t ra)
+ {
+     uint64_t fault;
+-    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
+-    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
++    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
+     if (unlikely(ret == 0)) {
+         mte_check_fail(env, desc, fault, ra);
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
+ bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
+ {
+     uint64_t fault;
+-    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
+-    int ret = mte_probe_int(env, desc, ptr, 0, total, &fault);
++    int ret = mte_probe_int(env, desc, ptr, 0, &fault);
+     return ret != 0;
+ }
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-a64.c
++++ b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
+         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
+         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
+         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
+-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << log2_size);
++        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << log2_size) - 1);
+         tcg_desc = tcg_const_i32(desc);
+         ret = new_tmp_a64(s);
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
+         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
+         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
+         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
+-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << log2_esize);
+-        desc = FIELD_DP32(desc, MTEDESC, TSIZE, total_size);
++        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, total_size - 1);
+         tcg_desc = tcg_const_i32(desc);
+         ret = new_tmp_a64(s);
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-sve.c
++++ b/target/arm/translate-sve.c
+@@ -XXX,XX +XXX,XX @@ static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
+         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
+         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
+         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
+-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << msz);
+-        desc = FIELD_DP32(desc, MTEDESC, TSIZE, mte_n << msz);
++        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (mte_n << msz) - 1);
+         desc <<= SVE_MTEDESC_SHIFT;
+     } else {
+         addr = clean_data_tbi(s, addr);
+@@ -XXX,XX +XXX,XX @@ static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm,
+         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
+         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
+         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
+-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << msz);
++        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << msz) - 1);
+         desc <<= SVE_MTEDESC_SHIFT;
+     }
+     desc = simd_desc(vsz, vsz, desc | scale);
+--
+.20.1

-[Qemu-devel] [PULL 17/25] Make MemoryRegion valid.accepts callback take a MemTxAttrs argument
+[PULL 08/43] target/arm: Merge mte_check1, mte_checkN
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to the MemoryRegion valid.accepts
 callback. We'll need this for subpage_accepts().
-We could take the approach we used with the read and write
+The mte_check1 and mte_checkN functions are now identical.
-callbacks and add new a new _with_attrs version, but since there
+Drop mte_check1 and rename mte_checkN to mte_check.
 are so few implementations of the accepts hook we just change
 them all.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-9-peter.maydell@linaro.org
 ---
- include/exec/memory.h |  3 ++-
+ target/arm/helper-a64.h    |  3 +--
- exec.c                |  9 ++++++---
+ target/arm/internals.h     |  5 +----
- hw/hppa/dino.c        |  3 ++-
+ target/arm/mte_helper.c    | 26 +++-----------------------
- hw/nvram/fw_cfg.c     | 12 ++++++++----
+ target/arm/sve_helper.c    | 14 +++++++-------
- hw/scsi/esp.c         |  3 ++-
+ target/arm/translate-a64.c |  4 ++--
- hw/xen/xen_pt_msi.c   |  3 ++-
+files changed, 14 insertions(+), 38 deletions(-)
  memory.c              |  5 +++--
 files changed, 25 insertions(+), 13 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/target/arm/helper-a64.h
-+++ b/include/exec/memory.h
++++ b/target/arm/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ struct MemoryRegionOps {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(autdb, TCG_CALL_NO_WG, i64, env, i64, i64)
-          * as a machine check exception).
+ DEF_HELPER_FLAGS_2(xpaci, TCG_CALL_NO_RWG_SE, i64, env, i64)
-          */
+ DEF_HELPER_FLAGS_2(xpacd, TCG_CALL_NO_RWG_SE, i64, env, i64)
-         bool (*accepts)(void *opaque, hwaddr addr,
--                        unsigned size, bool is_write);
+-DEF_HELPER_FLAGS_3(mte_check1, TCG_CALL_NO_WG, i64, env, i32, i64)
-+                        unsigned size, bool is_write,
+-DEF_HELPER_FLAGS_3(mte_checkN, TCG_CALL_NO_WG, i64, env, i32, i64)
-+                        MemTxAttrs attrs);
++DEF_HELPER_FLAGS_3(mte_check, TCG_CALL_NO_WG, i64, env, i32, i64)
-     } valid;
+ DEF_HELPER_FLAGS_3(mte_check_zva, TCG_CALL_NO_WG, i64, env, i32, i64)
-     /* Internal implementation constraints: */
+ DEF_HELPER_FLAGS_3(irg, TCG_CALL_NO_RWG, i64, env, i64, i64)
-     struct {
+ DEF_HELPER_FLAGS_4(addsubg, TCG_CALL_NO_RWG_SE, i64, env, i64, s32, i32)
-diff --git a/exec.c b/exec.c
+diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+--- a/target/arm/internals.h
-+++ b/exec.c
++++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ static void notdirty_mem_write(void *opaque, hwaddr ram_addr,
+@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, WRITE, 8, 1)
  FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
  bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
 -uint64_t mte_check1(CPUARMState *env, uint32_t desc,
 -                    uint64_t ptr, uintptr_t ra);
 -uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
 -                    uint64_t ptr, uintptr_t ra);
 +uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra);
  static inline int allocation_tag_from_addr(uint64_t ptr)
  {
 diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mte_helper.c
 +++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
      return 0;
  }
- static bool notdirty_mem_accepts(void *opaque, hwaddr addr,
+-uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
--                                 unsigned size, bool is_write)
+-                    uint64_t ptr, uintptr_t ra)
-+                                 unsigned size, bool is_write,
++uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra)
 +                                 MemTxAttrs attrs)
  {
-     return is_write;
+     uint64_t fault;
      int ret = mte_probe_int(env, desc, ptr, ra, &fault);
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
      return useronly_clean_ptr(ptr);
  }
-@@ -XXX,XX +XXX,XX @@ static MemTxResult subpage_write(void *opaque, hwaddr addr,
 -uint64_t HELPER(mte_checkN)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 +uint64_t HELPER(mte_check)(CPUARMState *env, uint32_t desc, uint64_t ptr)
  {
 -    return mte_checkN(env, desc, ptr, GETPC());
 -}
 -
 -uint64_t mte_check1(CPUARMState *env, uint32_t desc,
 -                    uint64_t ptr, uintptr_t ra)
 -{
 -    uint64_t fault;
 -    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
 -
 -    if (unlikely(ret == 0)) {
 -        mte_check_fail(env, desc, fault, ra);
 -    } else if (ret < 0) {
 -        return ptr;
 -    }
 -    return useronly_clean_ptr(ptr);
 -}
 -
 -uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 -{
 -    return mte_check1(env, desc, ptr, GETPC());
 +    return mte_check(env, desc, ptr, GETPC());
  }
- static bool subpage_accepts(void *opaque, hwaddr addr,
+ /*
--                            unsigned len, bool is_write)
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-+                            unsigned len, bool is_write,
+index XXXXXXX..XXXXXXX 100644
-+                            MemTxAttrs attrs)
+--- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_mte_check1(SVEContLdSt *info, CPUARMState *env,
                                       uintptr_t ra)
  {
-     subpage_t *subpage = opaque;
+     sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
- #if defined(DEBUG_SUBPAGE)
+-                                mtedesc, ra, mte_check1);
-@@ -XXX,XX +XXX,XX @@ static void readonly_mem_write(void *opaque, hwaddr addr,
++                                mtedesc, ra, mte_check);
  }
- static bool readonly_mem_accepts(void *opaque, hwaddr addr,
+ static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
--                                 unsigned size, bool is_write)
+@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
-+                                 unsigned size, bool is_write,
+                                      uintptr_t ra)
 +                                 MemTxAttrs attrs)
  {
-     return is_write;
+     sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
 -                                mtedesc, ra, mte_checkN);
 +                                mtedesc, ra, mte_check);
  }
-diff --git a/hw/hppa/dino.c b/hw/hppa/dino.c
@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
      if (fault == FAULT_FIRST) {
          /* Trapping mte check for the first-fault element.  */
          if (mtedesc) {
 -            mte_check1(env, mtedesc, addr + mem_off, retaddr);
 +            mte_check(env, mtedesc, addr + mem_off, retaddr);
          }
          /*
@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                                               info.attrs, BP_MEM_READ, retaddr);
                      }
                      if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
 -                        mte_check1(env, mtedesc, addr, retaddr);
 +                        mte_check(env, mtedesc, addr, retaddr);
                      }
                      host_fn(&scratch, reg_off, info.host);
                  } else {
@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                                               BP_MEM_READ, retaddr);
                      }
                      if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
 -                        mte_check1(env, mtedesc, addr, retaddr);
 +                        mte_check(env, mtedesc, addr, retaddr);
                      }
                      tlb_fn(env, &scratch, reg_off, addr, retaddr);
                  }
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
       */
      addr = base + (off_fn(vm, reg_off) << scale);
      if (mtedesc) {
 -        mte_check1(env, mtedesc, addr, retaddr);
 +        mte_check(env, mtedesc, addr, retaddr);
      }
      tlb_fn(env, vd, reg_off, addr, retaddr);
@@ -XXX,XX +XXX,XX @@ void sve_st1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                  }
                  if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
 -                    mte_check1(env, mtedesc, addr, retaddr);
 +                    mte_check(env, mtedesc, addr, retaddr);
                  }
              }
              i += 1;
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/hppa/dino.c
+--- a/target/arm/translate-a64.c
-+++ b/hw/hppa/dino.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void gsc_to_pci_forwarding(DinoState *s)
+@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
- }
+         tcg_desc = tcg_const_i32(desc);
- static bool dino_chip_mem_valid(void *opaque, hwaddr addr,
+         ret = new_tmp_a64(s);
--                                unsigned size, bool is_write)
+-        gen_helper_mte_check1(ret, cpu_env, tcg_desc, addr);
-+                                unsigned size, bool is_write,
++        gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
-+                                MemTxAttrs attrs)
+         tcg_temp_free_i32(tcg_desc);
- {
-     switch (addr) {
+         return ret;
-     case DINO_IAR0:
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-diff --git a/hw/nvram/fw_cfg.c b/hw/nvram/fw_cfg.c
+         tcg_desc = tcg_const_i32(desc);
-index XXXXXXX..XXXXXXX 100644
---- a/hw/nvram/fw_cfg.c
+         ret = new_tmp_a64(s);
-+++ b/hw/nvram/fw_cfg.c
+-        gen_helper_mte_checkN(ret, cpu_env, tcg_desc, addr);
-@@ -XXX,XX +XXX,XX @@ static void fw_cfg_dma_mem_write(void *opaque, hwaddr addr,
++        gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
- }
+         tcg_temp_free_i32(tcg_desc);
- static bool fw_cfg_dma_mem_valid(void *opaque, hwaddr addr,
+         return ret;
 -                                  unsigned size, bool is_write)
 +                                 unsigned size, bool is_write,
 +                                 MemTxAttrs attrs)
  {
      return !is_write || ((size == 4 && (addr == 0 || addr == 4)) ||
                           (size == 8 && addr == 0));
  }
  static bool fw_cfg_data_mem_valid(void *opaque, hwaddr addr,
 -                                  unsigned size, bool is_write)
 +                                  unsigned size, bool is_write,
 +                                  MemTxAttrs attrs)
  {
      return addr == 0;
  }
@@ -XXX,XX +XXX,XX @@ static void fw_cfg_ctl_mem_write(void *opaque, hwaddr addr,
  }
  static bool fw_cfg_ctl_mem_valid(void *opaque, hwaddr addr,
 -                                 unsigned size, bool is_write)
 +                                 unsigned size, bool is_write,
 +                                 MemTxAttrs attrs)
  {
      return is_write && size == 2;
  }
@@ -XXX,XX +XXX,XX @@ static void fw_cfg_comb_write(void *opaque, hwaddr addr,
  }
  static bool fw_cfg_comb_valid(void *opaque, hwaddr addr,
 -                                  unsigned size, bool is_write)
 +                              unsigned size, bool is_write,
 +                              MemTxAttrs attrs)
  {
      return (size == 1) || (is_write && size == 2);
  }
 diff --git a/hw/scsi/esp.c b/hw/scsi/esp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/scsi/esp.c
 +++ b/hw/scsi/esp.c
@@ -XXX,XX +XXX,XX @@ void esp_reg_write(ESPState *s, uint32_t saddr, uint64_t val)
  }
  static bool esp_mem_accepts(void *opaque, hwaddr addr,
 -                            unsigned size, bool is_write)
 +                            unsigned size, bool is_write,
 +                            MemTxAttrs attrs)
  {
      return (size == 1) || (is_write && size == 4);
  }
 diff --git a/hw/xen/xen_pt_msi.c b/hw/xen/xen_pt_msi.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/xen/xen_pt_msi.c
 +++ b/hw/xen/xen_pt_msi.c
@@ -XXX,XX +XXX,XX @@ static uint64_t pci_msix_read(void *opaque, hwaddr addr,
  }
  static bool pci_msix_accepts(void *opaque, hwaddr addr,
 -                             unsigned size, bool is_write)
 +                             unsigned size, bool is_write,
 +                             MemTxAttrs attrs)
  {
      return !(addr & (size - 1));
  }
 diff --git a/memory.c b/memory.c
 index XXXXXXX..XXXXXXX 100644
 --- a/memory.c
 +++ b/memory.c
@@ -XXX,XX +XXX,XX @@ static void unassigned_mem_write(void *opaque, hwaddr addr,
  }
  static bool unassigned_mem_accepts(void *opaque, hwaddr addr,
 -                                   unsigned size, bool is_write)
 +                                   unsigned size, bool is_write,
 +                                   MemTxAttrs attrs)
  {
      return false;
  }
@@ -XXX,XX +XXX,XX @@ bool memory_region_access_valid(MemoryRegion *mr,
      access_size = MAX(MIN(size, access_size_max), access_size_min);
      for (i = 0; i < size; i += access_size) {
          if (!mr->ops->valid.accepts(mr->opaque, addr + i, access_size,
 -                                    is_write)) {
 +                                    is_write, attrs)) {
              return false;
          }
      }
 --
-.17.1
+.20.1

-New patch
+[PULL 09/43] target/arm: Rename mte_probe1 to mte_probe
+From: Richard Henderson <richard.henderson@linaro.org>
+For consistency with the mte_check1 + mte_checkN merge
+to mte_check, rename the probe function as well.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-8-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/internals.h  | 2 +-
+ target/arm/mte_helper.c | 6 +++---
+ target/arm/sve_helper.c | 6 +++---
+files changed, 7 insertions(+), 7 deletions(-)
+diff --git a/target/arm/internals.h b/target/arm/internals.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/internals.h
++++ b/target/arm/internals.h
+@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, TCMA,  6, 2)
+ FIELD(MTEDESC, WRITE, 8, 1)
+ FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
+-bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
++bool mte_probe(CPUARMState *env, uint32_t desc, uint64_t ptr);
+ uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra);
+ static inline int allocation_tag_from_addr(uint64_t ptr)
+diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/mte_helper.c
++++ b/target/arm/mte_helper.c
+@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
+      * exception for inaccessible pages, and resolves the virtual address
+      * into the softmmu tlb.
+      *
+-     * When RA == 0, this is for mte_probe1.  The page is expected to be
++     * When RA == 0, this is for mte_probe.  The page is expected to be
+      * valid.  Indicate to probe_access_flags no-fault, then assert that
+      * we received a valid page.
+      */
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_check)(CPUARMState *env, uint32_t desc, uint64_t ptr)
+ }
+ /*
+- * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
++ * No-fault version of mte_check, to be used by SVE for MemSingleNF.
+  * Returns false if the access is Checked and the check failed.  This
+  * is only intended to probe the tag -- the validity of the page must
+  * be checked beforehand.
+  */
+-bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
++bool mte_probe(CPUARMState *env, uint32_t desc, uint64_t ptr)
+ {
+     uint64_t fault;
+     int ret = mte_probe_int(env, desc, ptr, 0, &fault);
+diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/sve_helper.c
++++ b/target/arm/sve_helper.c
+@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
+                 /* Watchpoint hit, see below. */
+                 goto do_fault;
+             }
+-            if (mtedesc && !mte_probe1(env, mtedesc, addr + mem_off)) {
++            if (mtedesc && !mte_probe(env, mtedesc, addr + mem_off)) {
+                 goto do_fault;
+             }
+             /*
+@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
+                      & BP_MEM_READ)) {
+                     goto do_fault;
+                 }
+-                if (mtedesc && !mte_probe1(env, mtedesc, addr + mem_off)) {
++                if (mtedesc && !mte_probe(env, mtedesc, addr + mem_off)) {
+                     goto do_fault;
+                 }
+                 host_fn(vd, reg_off, host + mem_off);
+@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
+                 }
+                 if (mtedesc &&
+                     arm_tlb_mte_tagged(&info.attrs) &&
+-                    !mte_probe1(env, mtedesc, addr)) {
++                    !mte_probe(env, mtedesc, addr)) {
+                     goto fault;
+                 }
+--
+.20.1

-New patch
+[PULL 10/43] target/arm: Simplify sve mte checking
+From: Richard Henderson <richard.henderson@linaro.org>
 Now that mte_check1 and mte_checkN have been merged, we can
 merge sve_cont_ldst_mte_check1 and sve_cont_ldst_mte_checkN.
 Which means that we can eliminate the function pointer into
 sve_ldN_r and sve_stN_r, calling sve_cont_ldst_mte_check directly.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210416183106.1516563-9-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/sve_helper.c | 84 +++++++++++++----------------------------
 file changed, 26 insertions(+), 58 deletions(-)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_watchpoints(SVEContLdSt *info, CPUARMState *env,
  #endif
  }
 -typedef uint64_t mte_check_fn(CPUARMState *, uint32_t, uint64_t, uintptr_t);
 -
 -static inline QEMU_ALWAYS_INLINE
 -void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
 -                                 uint64_t *vg, target_ulong addr, int esize,
 -                                 int msize, uint32_t mtedesc, uintptr_t ra,
 -                                 mte_check_fn *check)
 +static void sve_cont_ldst_mte_check(SVEContLdSt *info, CPUARMState *env,
 +                                    uint64_t *vg, target_ulong addr, int esize,
 +                                    int msize, uint32_t mtedesc, uintptr_t ra)
  {
      intptr_t mem_off, reg_off, reg_last;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
              uint64_t pg = vg[reg_off >> 6];
              do {
                  if ((pg >> (reg_off & 63)) & 1) {
 -                    check(env, mtedesc, addr, ra);
 +                    mte_check(env, mtedesc, addr, ra);
                  }
                  reg_off += esize;
                  mem_off += msize;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
              uint64_t pg = vg[reg_off >> 6];
              do {
                  if ((pg >> (reg_off & 63)) & 1) {
 -                    check(env, mtedesc, addr, ra);
 +                    mte_check(env, mtedesc, addr, ra);
                  }
                  reg_off += esize;
                  mem_off += msize;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
      }
  }
 -typedef void sve_cont_ldst_mte_check_fn(SVEContLdSt *info, CPUARMState *env,
 -                                        uint64_t *vg, target_ulong addr,
 -                                        int esize, int msize, uint32_t mtedesc,
 -                                        uintptr_t ra);
 -
 -static void sve_cont_ldst_mte_check1(SVEContLdSt *info, CPUARMState *env,
 -                                     uint64_t *vg, target_ulong addr,
 -                                     int esize, int msize, uint32_t mtedesc,
 -                                     uintptr_t ra)
 -{
 -    sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
 -                                mtedesc, ra, mte_check);
 -}
 -
 -static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
 -                                     uint64_t *vg, target_ulong addr,
 -                                     int esize, int msize, uint32_t mtedesc,
 -                                     uintptr_t ra)
 -{
 -    sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
 -                                mtedesc, ra, mte_check);
 -}
 -
 -
  /*
   * Common helper for all contiguous 1,2,3,4-register predicated stores.
   */
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r(CPUARMState *env, uint64_t *vg, const target_ulong addr,
                 uint32_t desc, const uintptr_t retaddr,
                 const int esz, const int msz, const int N, uint32_t mtedesc,
                 sve_ldst1_host_fn *host_fn,
 -               sve_ldst1_tlb_fn *tlb_fn,
 -               sve_cont_ldst_mte_check_fn *mte_check_fn)
 +               sve_ldst1_tlb_fn *tlb_fn)
  {
      const unsigned rd = simd_data(desc);
      const intptr_t reg_max = simd_oprsz(desc);
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r(CPUARMState *env, uint64_t *vg, const target_ulong addr,
       * Handle mte checks for all active elements.
       * Since TBI must be set for MTE, !mtedesc => !mte_active.
       */
 -    if (mte_check_fn && mtedesc) {
 -        mte_check_fn(&info, env, vg, addr, 1 << esz, N << msz,
 -                     mtedesc, retaddr);
 +    if (mtedesc) {
 +        sve_cont_ldst_mte_check(&info, env, vg, addr, 1 << esz, N << msz,
 +                                mtedesc, retaddr);
      }
      flags = info.page[0].flags | info.page[1].flags;
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r_mte(CPUARMState *env, uint64_t *vg, target_ulong addr,
          mtedesc = 0;
      }
 -    sve_ldN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn,
 -              N == 1 ? sve_cont_ldst_mte_check1 : sve_cont_ldst_mte_checkN);
 +    sve_ldN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn);
  }
  #define DO_LD1_1(NAME, ESZ)                                             \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,                 \
                              target_ulong addr, uint32_t desc)           \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MO_8, 1, 0,            \
 -              sve_##NAME##_host, sve_##NAME##_tlb, NULL);               \
 +              sve_##NAME##_host, sve_##NAME##_tlb);                     \
  }                                                                       \
  void HELPER(sve_##NAME##_r_mte)(CPUARMState *env, void *vg,             \
                                  target_ulong addr, uint32_t desc)       \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_le_r)(CPUARMState *env, void *vg,              \
                                 target_ulong addr, uint32_t desc)        \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1, 0,             \
 -              sve_##NAME##_le_host, sve_##NAME##_le_tlb, NULL);         \
 +              sve_##NAME##_le_host, sve_##NAME##_le_tlb);               \
  }                                                                       \
  void HELPER(sve_##NAME##_be_r)(CPUARMState *env, void *vg,              \
                                 target_ulong addr, uint32_t desc)        \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1, 0,             \
 -              sve_##NAME##_be_host, sve_##NAME##_be_tlb, NULL);         \
 +              sve_##NAME##_be_host, sve_##NAME##_be_tlb);               \
  }                                                                       \
  void HELPER(sve_##NAME##_le_r_mte)(CPUARMState *env, void *vg,          \
 -                                 target_ulong addr, uint32_t desc)      \
 +                                   target_ulong addr, uint32_t desc)    \
  {                                                                       \
      sve_ldN_r_mte(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1,            \
                    sve_##NAME##_le_host, sve_##NAME##_le_tlb);           \
  }                                                                       \
  void HELPER(sve_##NAME##_be_r_mte)(CPUARMState *env, void *vg,          \
 -                                 target_ulong addr, uint32_t desc)      \
 +                                   target_ulong addr, uint32_t desc)    \
  {                                                                       \
      sve_ldN_r_mte(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1,            \
                    sve_##NAME##_be_host, sve_##NAME##_be_tlb);           \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ld##N##bb_r)(CPUARMState *env, void *vg,                \
                               target_ulong addr, uint32_t desc)          \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), MO_8, MO_8, N, 0,           \
 -              sve_ld1bb_host, sve_ld1bb_tlb, NULL);                     \
 +              sve_ld1bb_host, sve_ld1bb_tlb);                           \
  }                                                                       \
  void HELPER(sve_ld##N##bb_r_mte)(CPUARMState *env, void *vg,            \
                                   target_ulong addr, uint32_t desc)      \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ld##N##SUFF##_le_r)(CPUARMState *env, void *vg,         \
                                      target_ulong addr, uint32_t desc)   \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, ESZ, N, 0,             \
 -              sve_ld1##SUFF##_le_host, sve_ld1##SUFF##_le_tlb, NULL);   \
 +              sve_ld1##SUFF##_le_host, sve_ld1##SUFF##_le_tlb);         \
  }                                                                       \
  void HELPER(sve_ld##N##SUFF##_be_r)(CPUARMState *env, void *vg,         \
                                      target_ulong addr, uint32_t desc)   \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, ESZ, N, 0,             \
 -              sve_ld1##SUFF##_be_host, sve_ld1##SUFF##_be_tlb, NULL);   \
 +              sve_ld1##SUFF##_be_host, sve_ld1##SUFF##_be_tlb);         \
  }                                                                       \
  void HELPER(sve_ld##N##SUFF##_le_r_mte)(CPUARMState *env, void *vg,     \
                                          target_ulong addr, uint32_t desc) \
@@ -XXX,XX +XXX,XX @@ void sve_stN_r(CPUARMState *env, uint64_t *vg, target_ulong addr,
                 uint32_t desc, const uintptr_t retaddr,
                 const int esz, const int msz, const int N, uint32_t mtedesc,
                 sve_ldst1_host_fn *host_fn,
 -               sve_ldst1_tlb_fn *tlb_fn,
 -               sve_cont_ldst_mte_check_fn *mte_check_fn)
 +               sve_ldst1_tlb_fn *tlb_fn)
  {
      const unsigned rd = simd_data(desc);
      const intptr_t reg_max = simd_oprsz(desc);
@@ -XXX,XX +XXX,XX @@ void sve_stN_r(CPUARMState *env, uint64_t *vg, target_ulong addr,
       * Handle mte checks for all active elements.
       * Since TBI must be set for MTE, !mtedesc => !mte_active.
       */
 -    if (mte_check_fn && mtedesc) {
 -        mte_check_fn(&info, env, vg, addr, 1 << esz, N << msz,
 -                     mtedesc, retaddr);
 +    if (mtedesc) {
 +        sve_cont_ldst_mte_check(&info, env, vg, addr, 1 << esz, N << msz,
 +                                mtedesc, retaddr);
      }
      flags = info.page[0].flags | info.page[1].flags;
@@ -XXX,XX +XXX,XX @@ void sve_stN_r_mte(CPUARMState *env, uint64_t *vg, target_ulong addr,
          mtedesc = 0;
      }
 -    sve_stN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn,
 -              N == 1 ? sve_cont_ldst_mte_check1 : sve_cont_ldst_mte_checkN);
 +    sve_stN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn);
  }
  #define DO_STN_1(N, NAME, ESZ)                                          \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_st##N##NAME##_r)(CPUARMState *env, void *vg,            \
                                   target_ulong addr, uint32_t desc)      \
  {                                                                       \
      sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MO_8, N, 0,            \
 -              sve_st1##NAME##_host, sve_st1##NAME##_tlb, NULL);         \
 +              sve_st1##NAME##_host, sve_st1##NAME##_tlb);               \
  }                                                                       \
  void HELPER(sve_st##N##NAME##_r_mte)(CPUARMState *env, void *vg,        \
                                       target_ulong addr, uint32_t desc)  \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_st##N##NAME##_le_r)(CPUARMState *env, void *vg,         \
                                      target_ulong addr, uint32_t desc)   \
  {                                                                       \
      sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, N, 0,             \
 -              sve_st1##NAME##_le_host, sve_st1##NAME##_le_tlb, NULL);   \
 +              sve_st1##NAME##_le_host, sve_st1##NAME##_le_tlb);         \
  }                                                                       \
  void HELPER(sve_st##N##NAME##_be_r)(CPUARMState *env, void *vg,         \
                                      target_ulong addr, uint32_t desc)   \
  {                                                                       \
      sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, N, 0,             \
 -              sve_st1##NAME##_be_host, sve_st1##NAME##_be_tlb, NULL);   \
 +              sve_st1##NAME##_be_host, sve_st1##NAME##_be_tlb);         \
  }                                                                       \
  void HELPER(sve_st##N##NAME##_le_r_mte)(CPUARMState *env, void *vg,     \
                                          target_ulong addr, uint32_t desc) \
 --
 .20.1

-New patch
+[PULL 11/43] target/arm: Remove log2_esize parameter to gen_mte_checkN
+From: Richard Henderson <richard.henderson@linaro.org>
+The log2_esize parameter is not used except trivially.
+Drop the parameter and the deferral to gen_mte_check1.
+This fixes a bug in that the parameters as documented
+in the header file were the reverse from those in the
+implementation.  Which meant that translate-sve.c was
+passing the parameters in the wrong order.
+Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210416183106.1516563-10-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/translate-a64.h |  2 +-
+ target/arm/translate-a64.c | 15 +++++++--------
+ target/arm/translate-sve.c |  4 ++--
+files changed, 10 insertions(+), 11 deletions(-)
+diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-a64.h
++++ b/target/arm/translate-a64.h
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 clean_data_tbi(DisasContext *s, TCGv_i64 addr);
+ TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
+                         bool tag_checked, int log2_size);
+ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
+-                        bool tag_checked, int count, int log2_esize);
++                        bool tag_checked, int size);
+ /* We should have at some point before trying to access an FP register
+  * done the necessary access check, so assert that
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-a64.c
++++ b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
+  * For MTE, check multiple logical sequential accesses.
+  */
+ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
+-                        bool tag_checked, int log2_esize, int total_size)
++                        bool tag_checked, int size)
+ {
+-    if (tag_checked && s->mte_active[0] && total_size != (1 << log2_esize)) {
++    if (tag_checked && s->mte_active[0]) {
+         TCGv_i32 tcg_desc;
+         TCGv_i64 ret;
+         int desc = 0;
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
+         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
+         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
+         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
+-        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, total_size - 1);
++        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, size - 1);
+         tcg_desc = tcg_const_i32(desc);
+         ret = new_tmp_a64(s);
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
+         return ret;
+     }
+-    return gen_mte_check1(s, addr, is_write, tag_checked, log2_esize);
++    return clean_data_tbi(s, addr);
+ }
+ typedef struct DisasCompare64 {
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pair(DisasContext *s, uint32_t insn)
+     }
+     clean_addr = gen_mte_checkN(s, dirty_addr, !is_load,
+-                                (wback || rn != 31) && !set_tag,
+-                                size, 2 << size);
++                                (wback || rn != 31) && !set_tag, 2 << size);
+     if (is_vector) {
+         if (is_load) {
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
+      * promote consecutive little-endian elements below.
+      */
+     clean_addr = gen_mte_checkN(s, tcg_rn, is_store, is_postidx || rn != 31,
+-                                size, total);
++                                total);
+     /*
+      * Consecutive little-endian elements from a single register
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
+     tcg_rn = cpu_reg_sp(s, rn);
+     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
+-                                scale, total);
++                                total);
+     tcg_ebytes = tcg_const_i64(1 << scale);
+     for (xs = 0; xs < selem; xs++) {
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-sve.c
++++ b/target/arm/translate-sve.c
+@@ -XXX,XX +XXX,XX @@ static void do_ldr(DisasContext *s, uint32_t vofs, int len, int rn, int imm)
+     dirty_addr = tcg_temp_new_i64();
+     tcg_gen_addi_i64(dirty_addr, cpu_reg_sp(s, rn), imm);
+-    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len, MO_8);
++    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len);
+     tcg_temp_free_i64(dirty_addr);
+     /*
+@@ -XXX,XX +XXX,XX @@ static void do_str(DisasContext *s, uint32_t vofs, int len, int rn, int imm)
+     dirty_addr = tcg_temp_new_i64();
+     tcg_gen_addi_i64(dirty_addr, cpu_reg_sp(s, rn), imm);
+-    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len, MO_8);
++    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len);
+     tcg_temp_free_i64(dirty_addr);
+     /* Note that unpredicated load/store of vector/predicate registers
+--
+.20.1

-New patch
+[PULL 12/43] target/arm: Fix decode of align in VLDST_single
+From: Richard Henderson <richard.henderson@linaro.org>
+The encoding of size = 2 and size = 3 had the incorrect decode
+for align, overlapping the stride field.  This error was hidden
+by what should have been unnecessary masking in translate.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-2-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/neon-ls.decode       | 4 ++--
+ target/arm/translate-neon.c.inc | 4 ++--
+files changed, 4 insertions(+), 4 deletions(-)
+diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/neon-ls.decode
++++ b/target/arm/neon-ls.decode
+@@ -XXX,XX +XXX,XX @@ VLD_all_lanes  1111 0100 1 . 1 0 rn:4 .... 11 n:2 size:2 t:1 a:1 rm:4 \
+ VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 00 n:2 reg_idx:3 align:1 rm:4 \
+                vd=%vd_dp size=0 stride=1
+-VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 align:2 rm:4 \
++VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 . align:1 rm:4 \
+                vd=%vd_dp size=1 stride=%imm1_5_p1
+-VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 align:3 rm:4 \
++VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 . align:2 rm:4 \
+                vd=%vd_dp size=2 stride=%imm1_6_p1
+diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-neon.c.inc
++++ b/target/arm/translate-neon.c.inc
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
+     switch (nregs) {
+     case 1:
+         if (((a->align & (1 << a->size)) != 0) ||
+-            (a->size == 2 && ((a->align & 3) == 1 || (a->align & 3) == 2))) {
++            (a->size == 2 && (a->align == 1 || a->align == 2))) {
+             return false;
+         }
+         break;
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
+         }
+         break;
+     case 4:
+-        if ((a->size == 2) && ((a->align & 3) == 3)) {
++        if (a->size == 2 && a->align == 3) {
+             return false;
+         }
+         break;
+--
+.20.1

-New patch
+[PULL 13/43] target/arm: Rename TBFLAG_A32, SCTLR_B
+From: Richard Henderson <richard.henderson@linaro.org>
+We're about to rearrange the macro expansion surrounding tbflags,
+and this field name will be expanded using the bit definition of
+the same name, resulting in a token pasting error.
+So SCTLR_B -> SCTLR__B in the 3 uses, and document it.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-3-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/cpu.h       | 2 +-
+ target/arm/helper.c    | 2 +-
+ target/arm/translate.c | 2 +-
+files changed, 3 insertions(+), 3 deletions(-)
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.h
++++ b/target/arm/cpu.h
+@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A32, VECSTRIDE, 12, 2)     /* Not cached. */
+  */
+ FIELD(TBFLAG_A32, XSCALE_CPAR, 12, 2)
+ FIELD(TBFLAG_A32, VFPEN, 14, 1)         /* Partially cached, minus FPEXC. */
+-FIELD(TBFLAG_A32, SCTLR_B, 15, 1)
++FIELD(TBFLAG_A32, SCTLR__B, 15, 1)      /* Cannot overlap with SCTLR_B */
+ FIELD(TBFLAG_A32, HSTR_ACTIVE, 16, 1)
+ /*
+  * Indicates whether cp register reads and writes by guest code should access
+diff --git a/target/arm/helper.c b/target/arm/helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.c
++++ b/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
+     bool sctlr_b = arm_sctlr_b(env);
+     if (sctlr_b) {
+-        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR_B, 1);
++        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR__B, 1);
+     }
+     if (arm_cpu_data_is_big_endian_a32(env, sctlr_b)) {
+         flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+             FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
+         dc->debug_target_el =
+             FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
+-        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR_B);
++        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR__B);
+         dc->hstr_active = FIELD_EX32(tb_flags, TBFLAG_A32, HSTR_ACTIVE);
+         dc->ns = FIELD_EX32(tb_flags, TBFLAG_A32, NS);
+         dc->vfp_enabled = FIELD_EX32(tb_flags, TBFLAG_A32, VFPEN);
+--
+.20.1

-New patch
+[PULL 14/43] target/arm: Rename TBFLAG_ANY, PSTATE_SS
+From: Richard Henderson <richard.henderson@linaro.org>
+We're about to rearrange the macro expansion surrounding tbflags,
+and this field name will be expanded using the bit definition of
+the same name, resulting in a token pasting error.
+So PSTATE_SS -> PSTATE__SS in the uses, and document it.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-4-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/cpu.h           | 2 +-
+ target/arm/helper.c        | 4 ++--
+ target/arm/translate-a64.c | 2 +-
+ target/arm/translate.c     | 2 +-
+files changed, 5 insertions(+), 5 deletions(-)
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.h
++++ b/target/arm/cpu.h
+@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
+  */
+ FIELD(TBFLAG_ANY, AARCH64_STATE, 31, 1)
+ FIELD(TBFLAG_ANY, SS_ACTIVE, 30, 1)
+-FIELD(TBFLAG_ANY, PSTATE_SS, 29, 1)     /* Not cached. */
++FIELD(TBFLAG_ANY, PSTATE__SS, 29, 1)    /* Not cached. */
+ FIELD(TBFLAG_ANY, BE_DATA, 28, 1)
+ FIELD(TBFLAG_ANY, MMUIDX, 24, 4)
+ /* Target EL if we take a floating-point-disabled exception */
+diff --git a/target/arm/helper.c b/target/arm/helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.c
++++ b/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
+      *     0            x       Inactive (the TB flag for SS is always 0)
+      *     1            0       Active-pending
+      *     1            1       Active-not-pending
+-     * SS_ACTIVE is set in hflags; PSTATE_SS is computed every TB.
++     * SS_ACTIVE is set in hflags; PSTATE__SS is computed every TB.
+      */
+     if (FIELD_EX32(flags, TBFLAG_ANY, SS_ACTIVE) &&
+         (env->pstate & PSTATE_SS)) {
+-        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE_SS, 1);
++        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE__SS, 1);
+     }
+     *pflags = flags;
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-a64.c
++++ b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
+      *   end the TB
+      */
+     dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
+-    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE_SS);
++    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
+     dc->is_ldex = false;
+     dc->debug_target_el = FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+      *   end the TB
+      */
+     dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
+-    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE_SS);
++    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
+     dc->is_ldex = false;
+     dc->page_start = dc->base.pc_first & TARGET_PAGE_MASK;
+--
+.20.1

-[Qemu-devel] [PULL 05/25] tcg: Fix helper function vs host abi for float16
+[PULL 15/43] target/arm: Add wrapper macros for accessing tbflags
 From: Richard Henderson <richard.henderson@linaro.org>
-Depending on the host abi, float16, aka uint16_t, values are
+We're about to split tbflags into two parts.  These macros
-passed and returned either zero-extended in the host register
+will ensure that the correct part is used with the correct
-or with garbage at the top of the host register.
+set of bits.
-The tcg code generator has so far been assuming garbage, as that
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 matches the x86 abi, but this is incorrect for other host abis.
 Further, target/arm has so far been assuming zero-extended results,
 so that it may store the 16-bit value into a 32-bit slot with the
 high 16-bits already clear.
 Rectify both problems by mapping "f16" in the helper definition
 to uint32_t instead of (a typedef for) uint16_t.  This forces
 the host compiler to assume garbage in the upper 16 bits on input
 and to zero-extend the result on output.
 Cc: qemu-stable@nongnu.org
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Message-id: 20210419202257.161730-5-richard.henderson@linaro.org
 Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
 Message-id: 20180522175629.24932-1-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/exec/helper-head.h |  2 +-
+ target/arm/cpu.h           | 22 +++++++++-
- target/arm/helper-a64.c    | 35 +++++++++--------
+ target/arm/helper-a64.c    |  2 +-
- target/arm/helper.c        | 80 +++++++++++++++++++-------------------
+ target/arm/helper.c        | 85 +++++++++++++++++---------------------
-files changed, 59 insertions(+), 58 deletions(-)
+ target/arm/translate-a64.c | 36 ++++++++--------
  target/arm/translate.c     | 48 ++++++++++-----------
 files changed, 101 insertions(+), 92 deletions(-)
-diff --git a/include/exec/helper-head.h b/include/exec/helper-head.h
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/helper-head.h
+--- a/target/arm/cpu.h
-+++ b/include/exec/helper-head.h
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, TCMA, 16, 2)
- #define dh_ctype_int int
+ FIELD(TBFLAG_A64, MTE_ACTIVE, 18, 1)
- #define dh_ctype_i64 uint64_t
+ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
- #define dh_ctype_s64 int64_t
--#define dh_ctype_f16 float16
++/*
-+#define dh_ctype_f16 uint32_t
++ * Helpers for using the above.
- #define dh_ctype_f32 float32
++ */
- #define dh_ctype_f64 float64
++#define DP_TBFLAG_ANY(DST, WHICH, VAL) \
- #define dh_ctype_ptr void *
++    (DST = FIELD_DP32(DST, TBFLAG_ANY, WHICH, VAL))
 +#define DP_TBFLAG_A64(DST, WHICH, VAL) \
 +    (DST = FIELD_DP32(DST, TBFLAG_A64, WHICH, VAL))
 +#define DP_TBFLAG_A32(DST, WHICH, VAL) \
 +    (DST = FIELD_DP32(DST, TBFLAG_A32, WHICH, VAL))
 +#define DP_TBFLAG_M32(DST, WHICH, VAL) \
 +    (DST = FIELD_DP32(DST, TBFLAG_M32, WHICH, VAL))
 +#define DP_TBFLAG_AM32(DST, WHICH, VAL) \
 +    (DST = FIELD_DP32(DST, TBFLAG_AM32, WHICH, VAL))
 +
 +#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN, TBFLAG_ANY, WHICH)
 +#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A64, WHICH)
 +#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A32, WHICH)
 +#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_M32, WHICH)
 +#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN, TBFLAG_AM32, WHICH)
 +
  /**
   * cpu_mmu_index:
   * @env: The cpu environment
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
   */
  static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
  {
 -    return FIELD_EX32(env->hflags, TBFLAG_ANY, MMUIDX);
 +    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
  }
  static inline bool bswap_code(bool sctlr_b)
 diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-a64.c
 +++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t float_rel_to_flags(int res)
+@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env, uint64_t new_pc)
-     return flags;
+          * the hflags rebuild, since we can pull the composite TBII field
- }
+          * from there.
+          */
--uint64_t HELPER(vfp_cmph_a64)(float16 x, float16 y, void *fp_status)
+-        tbii = FIELD_EX32(env->hflags, TBFLAG_A64, TBII);
-+uint64_t HELPER(vfp_cmph_a64)(uint32_t x, uint32_t y, void *fp_status)
++        tbii = EX_TBFLAG_A64(env->hflags, TBII);
- {
+         if ((tbii >> extract64(new_pc, 55, 1)) & 1) {
-     return float_rel_to_flags(float16_compare_quiet(x, y, fp_status));
+             /* TBI is enabled. */
- }
+             int core_mmu_idx = cpu_mmu_index(env, false);
 -uint64_t HELPER(vfp_cmpeh_a64)(float16 x, float16 y, void *fp_status)
 +uint64_t HELPER(vfp_cmpeh_a64)(uint32_t x, uint32_t y, void *fp_status)
  {
      return float_rel_to_flags(float16_compare(x, y, fp_status));
  }
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
  #define float64_three make_float64(0x4008000000000000ULL)
  #define float64_one_point_five make_float64(0x3FF8000000000000ULL)
 -float16 HELPER(recpsf_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpsf_f64)(float64 a, float64 b, void *fpstp)
      return float64_muladd(a, b, float64_two, 0, fpst);
  }
 -float16 HELPER(rsqrtsf_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_addlp_u16)(uint64_t a)
  }
  /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
 -float16 HELPER(frecpx_f16)(float16 a, void *fpstp)
 +uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
  {
      float_status *fpst = fpstp;
      uint16_t val16, sbit;
@@ -XXX,XX +XXX,XX @@ void HELPER(casp_be_parallel)(CPUARMState *env, uint32_t rs, uint64_t addr,
  #define ADVSIMD_HELPER(name, suffix) HELPER(glue(glue(advsimd_, name), suffix))
  #define ADVSIMD_HALFOP(name) \
 -float16 ADVSIMD_HELPER(name, h)(float16 a, float16 b, void *fpstp) \
 +uint32_t ADVSIMD_HELPER(name, h)(uint32_t a, uint32_t b, void *fpstp) \
  { \
      float_status *fpst = fpstp; \
      return float16_ ## name(a, b, fpst);    \
@@ -XXX,XX +XXX,XX @@ ADVSIMD_HALFOP(mulx)
  ADVSIMD_TWOHALFOP(mulx)
  /* fused multiply-accumulate */
 -float16 HELPER(advsimd_muladdh)(float16 a, float16 b, float16 c, void *fpstp)
 +uint32_t HELPER(advsimd_muladdh)(uint32_t a, uint32_t b, uint32_t c,
 +                                 void *fpstp)
  {
      float_status *fpst = fpstp;
      return float16_muladd(a, b, c, 0, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_muladd2h)(uint32_t two_a, uint32_t two_b,
  #define ADVSIMD_CMPRES(test) (test) ? 0xffff : 0
 -uint32_t HELPER(advsimd_ceq_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(advsimd_ceq_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
      int compare = float16_compare_quiet(a, b, fpst);
      return ADVSIMD_CMPRES(compare == float_relation_equal);
  }
 -uint32_t HELPER(advsimd_cge_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(advsimd_cge_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
      int compare = float16_compare(a, b, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_cge_f16)(float16 a, float16 b, void *fpstp)
                            compare == float_relation_equal);
  }
 -uint32_t HELPER(advsimd_cgt_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(advsimd_cgt_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
      int compare = float16_compare(a, b, fpst);
      return ADVSIMD_CMPRES(compare == float_relation_greater);
  }
 -uint32_t HELPER(advsimd_acge_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
      float16 f0 = float16_abs(a);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acge_f16)(float16 a, float16 b, void *fpstp)
                            compare == float_relation_equal);
  }
 -uint32_t HELPER(advsimd_acgt_f16)(float16 a, float16 b, void *fpstp)
 +uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, void *fpstp)
  {
      float_status *fpst = fpstp;
      float16 f0 = float16_abs(a);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acgt_f16)(float16 a, float16 b, void *fpstp)
  }
  /* round to integral */
 -float16 HELPER(advsimd_rinth_exact)(float16 x, void *fp_status)
 +uint32_t HELPER(advsimd_rinth_exact)(uint32_t x, void *fp_status)
  {
      return float16_round_to_int(x, fp_status);
  }
 -float16 HELPER(advsimd_rinth)(float16 x, void *fp_status)
 +uint32_t HELPER(advsimd_rinth)(uint32_t x, void *fp_status)
  {
      int old_flags = get_float_exception_flags(fp_status), new_flags;
      float16 ret;
@@ -XXX,XX +XXX,XX @@ float16 HELPER(advsimd_rinth)(float16 x, void *fp_status)
   * setting the mode appropriately before calling the helper.
   */
 -uint32_t HELPER(advsimd_f16tosinth)(float16 a, void *fpstp)
 +uint32_t HELPER(advsimd_f16tosinth)(uint32_t a, void *fpstp)
  {
      float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_f16tosinth)(float16 a, void *fpstp)
      return float16_to_int16(a, fpst);
  }
 -uint32_t HELPER(advsimd_f16touinth)(float16 a, void *fpstp)
 +uint32_t HELPER(advsimd_f16touinth)(uint32_t a, void *fpstp)
  {
      float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_f16touinth)(float16 a, void *fpstp)
   * Square Root and Reciprocal square root
   */
 -float16 HELPER(sqrt_f16)(float16 a, void *fpstp)
 +uint32_t HELPER(sqrt_f16)(uint32_t a, void *fpstp)
  {
      float_status *s = fpstp;
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ DO_VFP_cmp(d, float64)
+@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+ static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
- /* Integer to float and float to integer conversions */
+                                       ARMMMUIdx mmu_idx, uint32_t flags)
+ {
--#define CONV_ITOF(name, fsz, sign) \
+-    flags = FIELD_DP32(flags, TBFLAG_ANY, FPEXC_EL, fp_el);
--    float##fsz HELPER(name)(uint32_t x, void *fpstp) \
+-    flags = FIELD_DP32(flags, TBFLAG_ANY, MMUIDX,
--{ \
+-                       arm_to_core_mmu_idx(mmu_idx));
--    float_status *fpst = fpstp; \
++    DP_TBFLAG_ANY(flags, FPEXC_EL, fp_el);
--    return sign##int32_to_##float##fsz((sign##int32_t)x, fpst); \
++    DP_TBFLAG_ANY(flags, MMUIDX, arm_to_core_mmu_idx(mmu_idx));
-+#define CONV_ITOF(name, ftype, fsz, sign)                           \
-+ftype HELPER(name)(uint32_t x, void *fpstp)                         \
+     if (arm_singlestep_active(env)) {
-+{                                                                   \
+-        flags = FIELD_DP32(flags, TBFLAG_ANY, SS_ACTIVE, 1);
-+    float_status *fpst = fpstp;                                     \
++        DP_TBFLAG_ANY(flags, SS_ACTIVE, 1);
-+    return sign##int32_to_##float##fsz((sign##int32_t)x, fpst);     \
+     }
      return flags;
  }
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
--#define CONV_FTOI(name, fsz, sign, round) \
+     bool sctlr_b = arm_sctlr_b(env);
--uint32_t HELPER(name)(float##fsz x, void *fpstp) \
--{ \
+     if (sctlr_b) {
--    float_status *fpst = fpstp; \
+-        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR__B, 1);
--    if (float##fsz##_is_any_nan(x)) { \
++        DP_TBFLAG_A32(flags, SCTLR__B, 1);
--        float_raise(float_flag_invalid, fpst); \
+     }
--        return 0; \
+     if (arm_cpu_data_is_big_endian_a32(env, sctlr_b)) {
--    } \
+-        flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
--    return float##fsz##_to_##sign##int32##round(x, fpst); \
++        DP_TBFLAG_ANY(flags, BE_DATA, 1);
-+#define CONV_FTOI(name, ftype, fsz, sign, round)                \
+     }
-+uint32_t HELPER(name)(ftype x, void *fpstp)                     \
+-    flags = FIELD_DP32(flags, TBFLAG_A32, NS, !access_secure_reg(env));
-+{                                                               \
++    DP_TBFLAG_A32(flags, NS, !access_secure_reg(env));
-+    float_status *fpst = fpstp;                                 \
-+    if (float##fsz##_is_any_nan(x)) {                           \
+     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
 +        float_raise(float_flag_invalid, fpst);                  \
 +        return 0;                                               \
 +    }                                                           \
 +    return float##fsz##_to_##sign##int32##round(x, fpst);       \
  }
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
--#define FLOAT_CONVS(name, p, fsz, sign) \
+     uint32_t flags = 0;
--CONV_ITOF(vfp_##name##to##p, fsz, sign) \
--CONV_FTOI(vfp_to##name##p, fsz, sign, ) \
+     if (arm_v7m_is_handler_mode(env)) {
--CONV_FTOI(vfp_to##name##z##p, fsz, sign, _round_to_zero)
+-        flags = FIELD_DP32(flags, TBFLAG_M32, HANDLER, 1);
-+#define FLOAT_CONVS(name, p, ftype, fsz, sign)            \
++        DP_TBFLAG_M32(flags, HANDLER, 1);
-+    CONV_ITOF(vfp_##name##to##p, ftype, fsz, sign)        \
+     }
-+    CONV_FTOI(vfp_to##name##p, ftype, fsz, sign, )        \
-+    CONV_FTOI(vfp_to##name##z##p, ftype, fsz, sign, _round_to_zero)
+     /*
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
--FLOAT_CONVS(si, h, 16, )
+     if (arm_feature(env, ARM_FEATURE_V8) &&
--FLOAT_CONVS(si, s, 32, )
+         !((mmu_idx & ARM_MMU_IDX_M_NEGPRI) &&
--FLOAT_CONVS(si, d, 64, )
+           (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
--FLOAT_CONVS(ui, h, 16, u)
+-        flags = FIELD_DP32(flags, TBFLAG_M32, STACKCHECK, 1);
--FLOAT_CONVS(ui, s, 32, u)
++        DP_TBFLAG_M32(flags, STACKCHECK, 1);
--FLOAT_CONVS(ui, d, 64, u)
+     }
-+FLOAT_CONVS(si, h, uint32_t, 16, )
-+FLOAT_CONVS(si, s, float32, 32, )
+     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
-+FLOAT_CONVS(si, d, float64, 64, )
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_aprofile(CPUARMState *env)
-+FLOAT_CONVS(ui, h, uint32_t, 16, u)
+ {
-+FLOAT_CONVS(ui, s, float32, 32, u)
+     int flags = 0;
-+FLOAT_CONVS(ui, d, float64, 64, u)
+-    flags = FIELD_DP32(flags, TBFLAG_ANY, DEBUG_TARGET_EL,
- #undef CONV_ITOF
+-                       arm_debug_target_el(env));
- #undef CONV_FTOI
++    DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
-@@ -XXX,XX +XXX,XX @@ static float16 do_postscale_fp16(float64 f, int shift, float_status *fpst)
+     return flags;
      return float64_to_float16(float64_scalbn(f, -shift, fpst), true, fpst);
  }
--float16 HELPER(vfp_sltoh)(uint32_t x, uint32_t shift, void *fpst)
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
-+uint32_t HELPER(vfp_sltoh)(uint32_t x, uint32_t shift, void *fpst)
+     uint32_t flags = rebuild_hflags_aprofile(env);
- {
-     return do_postscale_fp16(int32_to_float64(x, fpst), shift, fpst);
+     if (arm_el_is_aa64(env, 1)) {
- }
+-        flags = FIELD_DP32(flags, TBFLAG_A32, VFPEN, 1);
++        DP_TBFLAG_A32(flags, VFPEN, 1);
--float16 HELPER(vfp_ultoh)(uint32_t x, uint32_t shift, void *fpst)
+     }
-+uint32_t HELPER(vfp_ultoh)(uint32_t x, uint32_t shift, void *fpst)
- {
+     if (arm_current_el(env) < 2 && env->cp15.hstr_el2 &&
-     return do_postscale_fp16(uint32_to_float64(x, fpst), shift, fpst);
+         (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
- }
+-        flags = FIELD_DP32(flags, TBFLAG_A32, HSTR_ACTIVE, 1);
++        DP_TBFLAG_A32(flags, HSTR_ACTIVE, 1);
--float16 HELPER(vfp_sqtoh)(uint64_t x, uint32_t shift, void *fpst)
+     }
-+uint32_t HELPER(vfp_sqtoh)(uint64_t x, uint32_t shift, void *fpst)
- {
+     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
-     return do_postscale_fp16(int64_to_float64(x, fpst), shift, fpst);
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
- }
+     uint64_t sctlr;
+     int tbii, tbid;
--float16 HELPER(vfp_uqtoh)(uint64_t x, uint32_t shift, void *fpst)
-+uint32_t HELPER(vfp_uqtoh)(uint64_t x, uint32_t shift, void *fpst)
+-    flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
- {
++    DP_TBFLAG_ANY(flags, AARCH64_STATE, 1);
-     return do_postscale_fp16(uint64_to_float64(x, fpst), shift, fpst);
- }
+     /* Get control bits for tagged addresses.  */
-@@ -XXX,XX +XXX,XX @@ static float64 do_prescale_fp16(float16 f, int shift, float_status *fpst)
+     tbid = aa64_va_parameter_tbi(tcr, mmu_idx);
-     }
+     tbii = tbid & ~aa64_va_parameter_tbid(tcr, mmu_idx);
- }
+-    flags = FIELD_DP32(flags, TBFLAG_A64, TBII, tbii);
--uint32_t HELPER(vfp_toshh)(float16 x, uint32_t shift, void *fpst)
+-    flags = FIELD_DP32(flags, TBFLAG_A64, TBID, tbid);
-+uint32_t HELPER(vfp_toshh)(uint32_t x, uint32_t shift, void *fpst)
++    DP_TBFLAG_A64(flags, TBII, tbii);
- {
++    DP_TBFLAG_A64(flags, TBID, tbid);
-     return float64_to_int16(do_prescale_fp16(x, shift, fpst), fpst);
- }
+     if (cpu_isar_feature(aa64_sve, env_archcpu(env))) {
+         int sve_el = sve_exception_el(env, el);
--uint32_t HELPER(vfp_touhh)(float16 x, uint32_t shift, void *fpst)
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
-+uint32_t HELPER(vfp_touhh)(uint32_t x, uint32_t shift, void *fpst)
+         } else {
- {
+             zcr_len = sve_zcr_len_for_el(env, el);
-     return float64_to_uint16(do_prescale_fp16(x, shift, fpst), fpst);
+         }
- }
+-        flags = FIELD_DP32(flags, TBFLAG_A64, SVEEXC_EL, sve_el);
+-        flags = FIELD_DP32(flags, TBFLAG_A64, ZCR_LEN, zcr_len);
--uint32_t HELPER(vfp_toslh)(float16 x, uint32_t shift, void *fpst)
++        DP_TBFLAG_A64(flags, SVEEXC_EL, sve_el);
-+uint32_t HELPER(vfp_toslh)(uint32_t x, uint32_t shift, void *fpst)
++        DP_TBFLAG_A64(flags, ZCR_LEN, zcr_len);
- {
+     }
-     return float64_to_int32(do_prescale_fp16(x, shift, fpst), fpst);
- }
+     sctlr = regime_sctlr(env, stage1);
--uint32_t HELPER(vfp_toulh)(float16 x, uint32_t shift, void *fpst)
+     if (arm_cpu_data_is_big_endian_a64(el, sctlr)) {
-+uint32_t HELPER(vfp_toulh)(uint32_t x, uint32_t shift, void *fpst)
+-        flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
- {
++        DP_TBFLAG_ANY(flags, BE_DATA, 1);
-     return float64_to_uint32(do_prescale_fp16(x, shift, fpst), fpst);
+     }
- }
+     if (cpu_isar_feature(aa64_pauth, env_archcpu(env))) {
--uint64_t HELPER(vfp_tosqh)(float16 x, uint32_t shift, void *fpst)
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
-+uint64_t HELPER(vfp_tosqh)(uint32_t x, uint32_t shift, void *fpst)
+          * The decision of which action to take is left to a helper.
- {
+          */
-     return float64_to_int64(do_prescale_fp16(x, shift, fpst), fpst);
+         if (sctlr & (SCTLR_EnIA | SCTLR_EnIB | SCTLR_EnDA | SCTLR_EnDB)) {
- }
+-            flags = FIELD_DP32(flags, TBFLAG_A64, PAUTH_ACTIVE, 1);
++            DP_TBFLAG_A64(flags, PAUTH_ACTIVE, 1);
--uint64_t HELPER(vfp_touqh)(float16 x, uint32_t shift, void *fpst)
+         }
-+uint64_t HELPER(vfp_touqh)(uint32_t x, uint32_t shift, void *fpst)
+     }
- {
-     return float64_to_uint64(do_prescale_fp16(x, shift, fpst), fpst);
+     if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
- }
+         /* Note that SCTLR_EL[23].BT == SCTLR_BT1.  */
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(set_neon_rmode)(uint32_t rmode, CPUARMState *env)
+         if (sctlr & (el == 0 ? SCTLR_BT0 : SCTLR_BT1)) {
- }
+-            flags = FIELD_DP32(flags, TBFLAG_A64, BT, 1);
++            DP_TBFLAG_A64(flags, BT, 1);
- /* Half precision conversions.  */
+         }
--float32 HELPER(vfp_fcvt_f16_to_f32)(float16 a, void *fpstp, uint32_t ahp_mode)
+     }
-+float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
- {
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
-     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
+         case ARMMMUIdx_SE10_1:
-      * it would affect flushing input denormals.
+         case ARMMMUIdx_SE10_1_PAN:
-@@ -XXX,XX +XXX,XX @@ float32 HELPER(vfp_fcvt_f16_to_f32)(float16 a, void *fpstp, uint32_t ahp_mode)
+             /* TODO: ARMv8.3-NV */
-     return r;
+-            flags = FIELD_DP32(flags, TBFLAG_A64, UNPRIV, 1);
- }
++            DP_TBFLAG_A64(flags, UNPRIV, 1);
+             break;
--float16 HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
+         case ARMMMUIdx_E20_2:
-+uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
+         case ARMMMUIdx_E20_2_PAN:
- {
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
-     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
+              * gated by HCR_EL2.<E2H,TGE> == '11', and so is LDTR.
-      * it would affect flushing output denormals.
+              */
-@@ -XXX,XX +XXX,XX @@ float16 HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
+             if (env->cp15.hcr_el2 & HCR_TGE) {
-     return r;
+-                flags = FIELD_DP32(flags, TBFLAG_A64, UNPRIV, 1);
- }
++                DP_TBFLAG_A64(flags, UNPRIV, 1);
+             }
--float64 HELPER(vfp_fcvt_f16_to_f64)(float16 a, void *fpstp, uint32_t ahp_mode)
+             break;
-+float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, void *fpstp, uint32_t ahp_mode)
+         default:
- {
+@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
-     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
+          * 4) If no Allocation Tag Access, then all accesses are Unchecked.
-      * it would affect flushing input denormals.
+          */
-@@ -XXX,XX +XXX,XX @@ float64 HELPER(vfp_fcvt_f16_to_f64)(float16 a, void *fpstp, uint32_t ahp_mode)
+         if (allocation_tag_access_enabled(env, el, sctlr)) {
-     return r;
+-            flags = FIELD_DP32(flags, TBFLAG_A64, ATA, 1);
- }
++            DP_TBFLAG_A64(flags, ATA, 1);
+             if (tbid
--float16 HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
+                 && !(env->pstate & PSTATE_TCO)
-+uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
+                 && (sctlr & (el == 0 ? SCTLR_TCF0 : SCTLR_TCF))) {
- {
+-                flags = FIELD_DP32(flags, TBFLAG_A64, MTE_ACTIVE, 1);
-     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
++                DP_TBFLAG_A64(flags, MTE_ACTIVE, 1);
-      * it would affect flushing output denormals.
+             }
-@@ -XXX,XX +XXX,XX @@ static bool round_to_inf(float_status *fpst, bool sign_bit)
+         }
-     g_assert_not_reached();
+         /* And again for unprivileged accesses, if required.  */
- }
+-        if (FIELD_EX32(flags, TBFLAG_A64, UNPRIV)
++        if (EX_TBFLAG_A64(flags, UNPRIV)
--float16 HELPER(recpe_f16)(float16 input, void *fpstp)
+             && tbid
-+uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
+             && !(env->pstate & PSTATE_TCO)
- {
+             && (sctlr & SCTLR_TCF0)
-     float_status *fpst = fpstp;
+             && allocation_tag_access_enabled(env, 0, sctlr)) {
-     float16 f16 = float16_squash_input_denormal(input, fpst);
+-            flags = FIELD_DP32(flags, TBFLAG_A64, MTE0_ACTIVE, 1);
-@@ -XXX,XX +XXX,XX @@ static uint64_t recip_sqrt_estimate(int *exp , int exp_off, uint64_t frac)
++            DP_TBFLAG_A64(flags, MTE0_ACTIVE, 1);
-     return extract64(estimate, 0, 8) << 44;
+         }
- }
+         /* Cache TCMA as well as TBI. */
+-        flags = FIELD_DP32(flags, TBFLAG_A64, TCMA,
--float16 HELPER(rsqrte_f16)(float16 input, void *fpstp)
+-                           aa64_va_parameter_tcma(tcr, mmu_idx));
-+uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
++        DP_TBFLAG_A64(flags, TCMA, aa64_va_parameter_tcma(tcr, mmu_idx));
- {
+     }
-     float_status *s = fpstp;
-     float16 f16 = float16_squash_input_denormal(input, s);
+     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
      *cs_base = 0;
      assert_hflags_rebuild_correctly(env);
 -    if (FIELD_EX32(flags, TBFLAG_ANY, AARCH64_STATE)) {
 +    if (EX_TBFLAG_ANY(flags, AARCH64_STATE)) {
          *pc = env->pc;
          if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
 -            flags = FIELD_DP32(flags, TBFLAG_A64, BTYPE, env->btype);
 +            DP_TBFLAG_A64(flags, BTYPE, env->btype);
          }
      } else {
          *pc = env->regs[15];
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
              if (arm_feature(env, ARM_FEATURE_M_SECURITY) &&
                  FIELD_EX32(env->v7m.fpccr[M_REG_S], V7M_FPCCR, S)
                  != env->v7m.secure) {
 -                flags = FIELD_DP32(flags, TBFLAG_M32, FPCCR_S_WRONG, 1);
 +                DP_TBFLAG_M32(flags, FPCCR_S_WRONG, 1);
              }
              if ((env->v7m.fpccr[env->v7m.secure] & R_V7M_FPCCR_ASPEN_MASK) &&
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                   * active FP context; we must create a new FP context before
                   * executing any FP insn.
                   */
 -                flags = FIELD_DP32(flags, TBFLAG_M32, NEW_FP_CTXT_NEEDED, 1);
 +                DP_TBFLAG_M32(flags, NEW_FP_CTXT_NEEDED, 1);
              }
              bool is_secure = env->v7m.fpccr[M_REG_S] & R_V7M_FPCCR_S_MASK;
              if (env->v7m.fpccr[is_secure] & R_V7M_FPCCR_LSPACT_MASK) {
 -                flags = FIELD_DP32(flags, TBFLAG_M32, LSPACT, 1);
 +                DP_TBFLAG_M32(flags, LSPACT, 1);
              }
          } else {
              /*
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
               * Note that VECLEN+VECSTRIDE are RES0 for M-profile.
               */
              if (arm_feature(env, ARM_FEATURE_XSCALE)) {
 -                flags = FIELD_DP32(flags, TBFLAG_A32,
 -                                   XSCALE_CPAR, env->cp15.c15_cpar);
 +                DP_TBFLAG_A32(flags, XSCALE_CPAR, env->cp15.c15_cpar);
              } else {
 -                flags = FIELD_DP32(flags, TBFLAG_A32, VECLEN,
 -                                   env->vfp.vec_len);
 -                flags = FIELD_DP32(flags, TBFLAG_A32, VECSTRIDE,
 -                                   env->vfp.vec_stride);
 +                DP_TBFLAG_A32(flags, VECLEN, env->vfp.vec_len);
 +                DP_TBFLAG_A32(flags, VECSTRIDE, env->vfp.vec_stride);
              }
              if (env->vfp.xregs[ARM_VFP_FPEXC] & (1 << 30)) {
 -                flags = FIELD_DP32(flags, TBFLAG_A32, VFPEN, 1);
 +                DP_TBFLAG_A32(flags, VFPEN, 1);
              }
          }
 -        flags = FIELD_DP32(flags, TBFLAG_AM32, THUMB, env->thumb);
 -        flags = FIELD_DP32(flags, TBFLAG_AM32, CONDEXEC, env->condexec_bits);
 +        DP_TBFLAG_AM32(flags, THUMB, env->thumb);
 +        DP_TBFLAG_AM32(flags, CONDEXEC, env->condexec_bits);
      }
      /*
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
       *     1            1       Active-not-pending
       * SS_ACTIVE is set in hflags; PSTATE__SS is computed every TB.
       */
 -    if (FIELD_EX32(flags, TBFLAG_ANY, SS_ACTIVE) &&
 -        (env->pstate & PSTATE_SS)) {
 -        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE__SS, 1);
 +    if (EX_TBFLAG_ANY(flags, SS_ACTIVE) && (env->pstate & PSTATE_SS)) {
 +        DP_TBFLAG_ANY(flags, PSTATE__SS, 1);
      }
      *pflags = flags;
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
                                 !arm_el_is_aa64(env, 3);
      dc->thumb = 0;
      dc->sctlr_b = 0;
 -    dc->be_data = FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
 +    dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
      dc->condexec_mask = 0;
      dc->condexec_cond = 0;
 -    core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
 +    core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
      dc->mmu_idx = core_to_aa64_mmu_idx(core_mmu_idx);
 -    dc->tbii = FIELD_EX32(tb_flags, TBFLAG_A64, TBII);
 -    dc->tbid = FIELD_EX32(tb_flags, TBFLAG_A64, TBID);
 -    dc->tcma = FIELD_EX32(tb_flags, TBFLAG_A64, TCMA);
 +    dc->tbii = EX_TBFLAG_A64(tb_flags, TBII);
 +    dc->tbid = EX_TBFLAG_A64(tb_flags, TBID);
 +    dc->tcma = EX_TBFLAG_A64(tb_flags, TCMA);
      dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
  #if !defined(CONFIG_USER_ONLY)
      dc->user = (dc->current_el == 0);
  #endif
 -    dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
 -    dc->sve_excp_el = FIELD_EX32(tb_flags, TBFLAG_A64, SVEEXC_EL);
 -    dc->sve_len = (FIELD_EX32(tb_flags, TBFLAG_A64, ZCR_LEN) + 1) * 16;
 -    dc->pauth_active = FIELD_EX32(tb_flags, TBFLAG_A64, PAUTH_ACTIVE);
 -    dc->bt = FIELD_EX32(tb_flags, TBFLAG_A64, BT);
 -    dc->btype = FIELD_EX32(tb_flags, TBFLAG_A64, BTYPE);
 -    dc->unpriv = FIELD_EX32(tb_flags, TBFLAG_A64, UNPRIV);
 -    dc->ata = FIELD_EX32(tb_flags, TBFLAG_A64, ATA);
 -    dc->mte_active[0] = FIELD_EX32(tb_flags, TBFLAG_A64, MTE_ACTIVE);
 -    dc->mte_active[1] = FIELD_EX32(tb_flags, TBFLAG_A64, MTE0_ACTIVE);
 +    dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
 +    dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
 +    dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
 +    dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
 +    dc->bt = EX_TBFLAG_A64(tb_flags, BT);
 +    dc->btype = EX_TBFLAG_A64(tb_flags, BTYPE);
 +    dc->unpriv = EX_TBFLAG_A64(tb_flags, UNPRIV);
 +    dc->ata = EX_TBFLAG_A64(tb_flags, ATA);
 +    dc->mte_active[0] = EX_TBFLAG_A64(tb_flags, MTE_ACTIVE);
 +    dc->mte_active[1] = EX_TBFLAG_A64(tb_flags, MTE0_ACTIVE);
      dc->vec_len = 0;
      dc->vec_stride = 0;
      dc->cp_regs = arm_cpu->cp_regs;
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
       *   emit code to generate a software step exception
       *   end the TB
       */
 -    dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
 -    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
 +    dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
 +    dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
      dc->is_ldex = false;
 -    dc->debug_target_el = FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
 +    dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
      /* Bound the number of insns to execute to those left on the page.  */
      bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
       */
      dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
                                 !arm_el_is_aa64(env, 3);
 -    dc->thumb = FIELD_EX32(tb_flags, TBFLAG_AM32, THUMB);
 -    dc->be_data = FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
 -    condexec = FIELD_EX32(tb_flags, TBFLAG_AM32, CONDEXEC);
 +    dc->thumb = EX_TBFLAG_AM32(tb_flags, THUMB);
 +    dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
 +    condexec = EX_TBFLAG_AM32(tb_flags, CONDEXEC);
      dc->condexec_mask = (condexec & 0xf) << 1;
      dc->condexec_cond = condexec >> 4;
 -    core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
 +    core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
      dc->mmu_idx = core_to_arm_mmu_idx(env, core_mmu_idx);
      dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
  #if !defined(CONFIG_USER_ONLY)
      dc->user = (dc->current_el == 0);
  #endif
 -    dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
 +    dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
      if (arm_feature(env, ARM_FEATURE_M)) {
          dc->vfp_enabled = 1;
          dc->be_data = MO_TE;
 -        dc->v7m_handler_mode = FIELD_EX32(tb_flags, TBFLAG_M32, HANDLER);
 +        dc->v7m_handler_mode = EX_TBFLAG_M32(tb_flags, HANDLER);
          dc->v8m_secure = arm_feature(env, ARM_FEATURE_M_SECURITY) &&
              regime_is_secure(env, dc->mmu_idx);
 -        dc->v8m_stackcheck = FIELD_EX32(tb_flags, TBFLAG_M32, STACKCHECK);
 -        dc->v8m_fpccr_s_wrong =
 -            FIELD_EX32(tb_flags, TBFLAG_M32, FPCCR_S_WRONG);
 +        dc->v8m_stackcheck = EX_TBFLAG_M32(tb_flags, STACKCHECK);
 +        dc->v8m_fpccr_s_wrong = EX_TBFLAG_M32(tb_flags, FPCCR_S_WRONG);
          dc->v7m_new_fp_ctxt_needed =
 -            FIELD_EX32(tb_flags, TBFLAG_M32, NEW_FP_CTXT_NEEDED);
 -        dc->v7m_lspact = FIELD_EX32(tb_flags, TBFLAG_M32, LSPACT);
 +            EX_TBFLAG_M32(tb_flags, NEW_FP_CTXT_NEEDED);
 +        dc->v7m_lspact = EX_TBFLAG_M32(tb_flags, LSPACT);
      } else {
 -        dc->be_data =
 -            FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
 -        dc->debug_target_el =
 -            FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
 -        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR__B);
 -        dc->hstr_active = FIELD_EX32(tb_flags, TBFLAG_A32, HSTR_ACTIVE);
 -        dc->ns = FIELD_EX32(tb_flags, TBFLAG_A32, NS);
 -        dc->vfp_enabled = FIELD_EX32(tb_flags, TBFLAG_A32, VFPEN);
 +        dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
 +        dc->sctlr_b = EX_TBFLAG_A32(tb_flags, SCTLR__B);
 +        dc->hstr_active = EX_TBFLAG_A32(tb_flags, HSTR_ACTIVE);
 +        dc->ns = EX_TBFLAG_A32(tb_flags, NS);
 +        dc->vfp_enabled = EX_TBFLAG_A32(tb_flags, VFPEN);
          if (arm_feature(env, ARM_FEATURE_XSCALE)) {
 -            dc->c15_cpar = FIELD_EX32(tb_flags, TBFLAG_A32, XSCALE_CPAR);
 +            dc->c15_cpar = EX_TBFLAG_A32(tb_flags, XSCALE_CPAR);
          } else {
 -            dc->vec_len = FIELD_EX32(tb_flags, TBFLAG_A32, VECLEN);
 -            dc->vec_stride = FIELD_EX32(tb_flags, TBFLAG_A32, VECSTRIDE);
 +            dc->vec_len = EX_TBFLAG_A32(tb_flags, VECLEN);
 +            dc->vec_stride = EX_TBFLAG_A32(tb_flags, VECSTRIDE);
          }
      }
      dc->cp_regs = cpu->cp_regs;
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
       *   emit code to generate a software step exception
       *   end the TB
       */
 -    dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
 -    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
 +    dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
 +    dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
      dc->is_ldex = false;
      dc->page_start = dc->base.pc_first & TARGET_PAGE_MASK;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns)
      DisasContext dc = { };
      const TranslatorOps *ops = &arm_translator_ops;
 -    if (FIELD_EX32(tb->flags, TBFLAG_AM32, THUMB)) {
 +    if (EX_TBFLAG_AM32(tb->flags, THUMB)) {
          ops = &thumb_translator_ops;
      }
  #ifdef TARGET_AARCH64
 -    if (FIELD_EX32(tb->flags, TBFLAG_ANY, AARCH64_STATE)) {
 +    if (EX_TBFLAG_ANY(tb->flags, AARCH64_STATE)) {
          ops = &aarch64_translator_ops;
      }
  #endif
 --
-.17.1
+.20.1

-New patch
+[PULL 16/43] target/arm: Introduce CPUARMTBFlags
+From: Richard Henderson <richard.henderson@linaro.org>
 In preparation for splitting tb->flags across multiple
 fields, introduce a structure to hold the value(s).
 So far this only migrates the one uint32_t and fixes
 all of the places that require adjustment to match.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/cpu.h           | 26 ++++++++++++---------
  target/arm/translate.h     | 11 +++++++++
  target/arm/helper.c        | 48 +++++++++++++++++++++-----------------
  target/arm/translate-a64.c |  2 +-
  target/arm/translate.c     |  7 +++---
 files changed, 57 insertions(+), 37 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct ARMPACKey {
  } ARMPACKey;
  #endif
 +/* See the commentary above the TBFLAG field definitions.  */
 +typedef struct CPUARMTBFlags {
 +    uint32_t flags;
 +} CPUARMTBFlags;
  typedef struct CPUARMState {
      /* Regs for current mode.  */
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
      uint32_t aarch64; /* 1 if CPU is in aarch64 state; inverse of PSTATE.nRW */
      /* Cached TBFLAGS state.  See below for which bits are included.  */
 -    uint32_t hflags;
 +    CPUARMTBFlags hflags;
      /* Frequently accessed CPSR bits are stored separately for efficiency.
         This contains all the other bits.  Use cpsr_{read,write} to access
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
   * Helpers for using the above.
   */
  #define DP_TBFLAG_ANY(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_ANY, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_ANY, WHICH, VAL))
  #define DP_TBFLAG_A64(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_A64, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A64, WHICH, VAL))
  #define DP_TBFLAG_A32(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_A32, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A32, WHICH, VAL))
  #define DP_TBFLAG_M32(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_M32, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_M32, WHICH, VAL))
  #define DP_TBFLAG_AM32(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_AM32, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_AM32, WHICH, VAL))
 -#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN, TBFLAG_ANY, WHICH)
 -#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A64, WHICH)
 -#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A32, WHICH)
 -#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_M32, WHICH)
 -#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN, TBFLAG_AM32, WHICH)
 +#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_ANY, WHICH)
 +#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A64, WHICH)
 +#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A32, WHICH)
 +#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_M32, WHICH)
 +#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags, TBFLAG_AM32, WHICH)
  /**
   * cpu_mmu_index:
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
 +/**
 + * arm_tbflags_from_tb:
 + * @tb: the TranslationBlock
 + *
 + * Extract the flag values from @tb.
 + */
 +static inline CPUARMTBFlags arm_tbflags_from_tb(const TranslationBlock *tb)
 +{
 +    return (CPUARMTBFlags){ tb->flags };
 +}
 +
  /*
   * Enum for argument to fpstatus_ptr().
   */
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
  }
  #endif
 -static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
 -                                      ARMMMUIdx mmu_idx, uint32_t flags)
 +static CPUARMTBFlags rebuild_hflags_common(CPUARMState *env, int fp_el,
 +                                           ARMMMUIdx mmu_idx,
 +                                           CPUARMTBFlags flags)
  {
      DP_TBFLAG_ANY(flags, FPEXC_EL, fp_el);
      DP_TBFLAG_ANY(flags, MMUIDX, arm_to_core_mmu_idx(mmu_idx));
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
      return flags;
  }
 -static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
 -                                         ARMMMUIdx mmu_idx, uint32_t flags)
 +static CPUARMTBFlags rebuild_hflags_common_32(CPUARMState *env, int fp_el,
 +                                              ARMMMUIdx mmu_idx,
 +                                              CPUARMTBFlags flags)
  {
      bool sctlr_b = arm_sctlr_b(env);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
      return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
  }
 -static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
 -                                   ARMMMUIdx mmu_idx)
 +static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
 +                                        ARMMMUIdx mmu_idx)
  {
 -    uint32_t flags = 0;
 +    CPUARMTBFlags flags = {};
      if (arm_v7m_is_handler_mode(env)) {
          DP_TBFLAG_M32(flags, HANDLER, 1);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
      return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
  }
 -static uint32_t rebuild_hflags_aprofile(CPUARMState *env)
 +static CPUARMTBFlags rebuild_hflags_aprofile(CPUARMState *env)
  {
 -    int flags = 0;
 +    CPUARMTBFlags flags = {};
      DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
      return flags;
  }
 -static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
 -                                   ARMMMUIdx mmu_idx)
 +static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
 +                                        ARMMMUIdx mmu_idx)
  {
 -    uint32_t flags = rebuild_hflags_aprofile(env);
 +    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
      if (arm_el_is_aa64(env, 1)) {
          DP_TBFLAG_A32(flags, VFPEN, 1);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
      return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
  }
 -static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
 -                                   ARMMMUIdx mmu_idx)
 +static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
 +                                        ARMMMUIdx mmu_idx)
  {
 -    uint32_t flags = rebuild_hflags_aprofile(env);
 +    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
      ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
      uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
      uint64_t sctlr;
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
      return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
  }
 -static uint32_t rebuild_hflags_internal(CPUARMState *env)
 +static CPUARMTBFlags rebuild_hflags_internal(CPUARMState *env)
  {
      int el = arm_current_el(env);
      int fp_el = fp_exception_el(env, el);
@@ -XXX,XX +XXX,XX @@ void HELPER(rebuild_hflags_m32_newel)(CPUARMState *env)
      int el = arm_current_el(env);
      int fp_el = fp_exception_el(env, el);
      ARMMMUIdx mmu_idx = arm_mmu_idx_el(env, el);
 +
      env->hflags = rebuild_hflags_m32(env, fp_el, mmu_idx);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(rebuild_hflags_a64)(CPUARMState *env, int el)
  static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
  {
  #ifdef CONFIG_DEBUG_TCG
 -    uint32_t env_flags_current = env->hflags;
 -    uint32_t env_flags_rebuilt = rebuild_hflags_internal(env);
 +    CPUARMTBFlags c = env->hflags;
 +    CPUARMTBFlags r = rebuild_hflags_internal(env);
 -    if (unlikely(env_flags_current != env_flags_rebuilt)) {
 +    if (unlikely(c.flags != r.flags)) {
          fprintf(stderr, "TCG hflags mismatch (current:0x%08x rebuilt:0x%08x)\n",
 -                env_flags_current, env_flags_rebuilt);
 +                c.flags, r.flags);
          abort();
      }
  #endif
@@ -XXX,XX +XXX,XX @@ static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
  void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                            target_ulong *cs_base, uint32_t *pflags)
  {
 -    uint32_t flags = env->hflags;
 +    CPUARMTBFlags flags;
      *cs_base = 0;
      assert_hflags_rebuild_correctly(env);
 +    flags = env->hflags;
      if (EX_TBFLAG_ANY(flags, AARCH64_STATE)) {
          *pc = env->pc;
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
          DP_TBFLAG_ANY(flags, PSTATE__SS, 1);
      }
 -    *pflags = flags;
 +    *pflags = flags.flags;
  }
  #ifdef TARGET_AARCH64
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
      DisasContext *dc = container_of(dcbase, DisasContext, base);
      CPUARMState *env = cpu->env_ptr;
      ARMCPU *arm_cpu = env_archcpu(env);
 -    uint32_t tb_flags = dc->base.tb->flags;
 +    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
      int bound, core_mmu_idx;
      dc->isar = &arm_cpu->isar;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      DisasContext *dc = container_of(dcbase, DisasContext, base);
      CPUARMState *env = cs->env_ptr;
      ARMCPU *cpu = env_archcpu(env);
 -    uint32_t tb_flags = dc->base.tb->flags;
 +    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
      uint32_t condexec, core_mmu_idx;
      dc->isar = &cpu->isar;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns)
  {
      DisasContext dc = { };
      const TranslatorOps *ops = &arm_translator_ops;
 +    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(tb);
 -    if (EX_TBFLAG_AM32(tb->flags, THUMB)) {
 +    if (EX_TBFLAG_AM32(tb_flags, THUMB)) {
          ops = &thumb_translator_ops;
      }
  #ifdef TARGET_AARCH64
 -    if (EX_TBFLAG_ANY(tb->flags, AARCH64_STATE)) {
 +    if (EX_TBFLAG_ANY(tb_flags, AARCH64_STATE)) {
          ops = &aarch64_translator_ops;
      }
  #endif
 --
 .20.1

-[Qemu-devel] [PULL 09/25] Correct CPACR reset value for v7 cores
+[PULL 17/43] target/arm: Move mode specific TB flags to tb->cs_base
-In commit f0aff255700 we made cpacr_write() enforce that some CPACR
+From: Richard Henderson <richard.henderson@linaro.org>
 bits are RAZ/WI and some are RAO/WI for ARMv7 cores. Unfortunately
 we forgot to also update the register's reset value. The effect
 was that (a) a guest that read CPACR on reset would not see ones in
 the RAO bits, and (b) if you did a migration before the guest did
 a write to the CPACR then the migration would fail because the
 destination would enforce the RAO bits and then complain that they
 didn't match the zero value from the source.
-Implement reset for the CPACR using a custom reset function
+Now that we have all of the proper macros defined, expanding
-that just calls cpacr_write(), to avoid having to duplicate
+the CPUARMTBFlags structure and populating the two TB fields
-the logic for which bits are RAO.
+is relatively simple.
-This bug would affect migration for TCG CPUs which are ARMv7
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-with VFP but without one of Neon or VFPv3.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/cpu.h       | 49 ++++++++++++++++++++++++------------------
  target/arm/translate.h |  2 +-
  target/arm/helper.c    | 10 +++++----
 files changed, 35 insertions(+), 26 deletions(-)
-Reported-by: Cédric Le Goater <clg@kaod.org>
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+index XXXXXXX..XXXXXXX 100644
-Tested-by: Cédric Le Goater <clg@kaod.org>
+--- a/target/arm/cpu.h
-Message-id: 20180522173713.26282-1-peter.maydell@linaro.org
++++ b/target/arm/cpu.h
----
+@@ -XXX,XX +XXX,XX @@ typedef struct ARMPACKey {
- target/arm/helper.c | 10 +++++++++-
+ /* See the commentary above the TBFLAG field definitions.  */
-file changed, 9 insertions(+), 1 deletion(-)
+ typedef struct CPUARMTBFlags {
+     uint32_t flags;
 +    target_ulong flags2;
  } CPUARMTBFlags;
  typedef struct CPUARMState {
@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
  #include "exec/cpu-all.h"
  /*
 - * Bit usage in the TB flags field: bit 31 indicates whether we are
 - * in 32 or 64 bit mode. The meaning of the other bits depends on that.
 - * We put flags which are shared between 32 and 64 bit mode at the top
 - * of the word, and flags which apply to only one mode at the bottom.
 + * We have more than 32-bits worth of state per TB, so we split the data
 + * between tb->flags and tb->cs_base, which is otherwise unused for ARM.
 + * We collect these two parts in CPUARMTBFlags where they are named
 + * flags and flags2 respectively.
   *
 - *  31          20    18    14          9              0
 - * +--------------+-----+-----+----------+--------------+
 - * |              |     |   TBFLAG_A32   |              |
 - * |              |     +-----+----------+  TBFLAG_AM32 |
 - * |  TBFLAG_ANY  |           |TBFLAG_M32|              |
 - * |              +-----------+----------+--------------|
 - * |              |            TBFLAG_A64               |
 - * +--------------+-------------------------------------+
 - *  31          20                                     0
 + * The flags that are shared between all execution modes, TBFLAG_ANY,
 + * are stored in flags.  The flags that are specific to a given mode
 + * are stores in flags2.  Since cs_base is sized on the configured
 + * address size, flags2 always has 64-bits for A64, and a minimum of
 + * 32-bits for A32 and M32.
 + *
 + * The bits for 32-bit A-profile and M-profile partially overlap:
 + *
 + *  18             9              0
 + * +----------------+--------------+
 + * |   TBFLAG_A32   |              |
 + * +-----+----------+  TBFLAG_AM32 |
 + * |     |TBFLAG_M32|              |
 + * +-----+----------+--------------+
 + *     14          9              0
   *
   * Unless otherwise noted, these bits are cached in env->hflags.
   */
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
  #define DP_TBFLAG_ANY(DST, WHICH, VAL) \
      (DST.flags = FIELD_DP32(DST.flags, TBFLAG_ANY, WHICH, VAL))
  #define DP_TBFLAG_A64(DST, WHICH, VAL) \
 -    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A64, WHICH, VAL))
 +    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_A64, WHICH, VAL))
  #define DP_TBFLAG_A32(DST, WHICH, VAL) \
 -    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A32, WHICH, VAL))
 +    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_A32, WHICH, VAL))
  #define DP_TBFLAG_M32(DST, WHICH, VAL) \
 -    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_M32, WHICH, VAL))
 +    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_M32, WHICH, VAL))
  #define DP_TBFLAG_AM32(DST, WHICH, VAL) \
 -    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_AM32, WHICH, VAL))
 +    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_AM32, WHICH, VAL))
  #define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_ANY, WHICH)
 -#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A64, WHICH)
 -#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A32, WHICH)
 -#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_M32, WHICH)
 -#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags, TBFLAG_AM32, WHICH)
 +#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_A64, WHICH)
 +#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_A32, WHICH)
 +#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_M32, WHICH)
 +#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags2, TBFLAG_AM32, WHICH)
  /**
   * cpu_mmu_index:
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
   */
  static inline CPUARMTBFlags arm_tbflags_from_tb(const TranslationBlock *tb)
  {
 -    return (CPUARMTBFlags){ tb->flags };
 +    return (CPUARMTBFlags){ tb->flags, tb->cs_base };
  }
  /*
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+@@ -XXX,XX +XXX,XX @@ static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
-     env->cp15.cpacr_el1 = value;
+     CPUARMTBFlags c = env->hflags;
      CPUARMTBFlags r = rebuild_hflags_internal(env);
 -    if (unlikely(c.flags != r.flags)) {
 -        fprintf(stderr, "TCG hflags mismatch (current:0x%08x rebuilt:0x%08x)\n",
 -                c.flags, r.flags);
 +    if (unlikely(c.flags != r.flags || c.flags2 != r.flags2)) {
 +        fprintf(stderr, "TCG hflags mismatch "
 +                        "(current:(0x%08x,0x" TARGET_FMT_lx ")"
 +                        " rebuilt:(0x%08x,0x" TARGET_FMT_lx ")\n",
 +                c.flags, c.flags2, r.flags, r.flags2);
          abort();
      }
  #endif
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
  {
      CPUARMTBFlags flags;
 -    *cs_base = 0;
      assert_hflags_rebuild_correctly(env);
      flags = env->hflags;
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
      }
      *pflags = flags.flags;
 +    *cs_base = flags.flags2;
  }
-+static void cpacr_reset(CPUARMState *env, const ARMCPRegInfo *ri)
+ #ifdef TARGET_AARCH64
 +{
 +    /* Call cpacr_write() so that we reset with the correct RAO bits set
 +     * for our CPU features.
 +     */
 +    cpacr_write(env, ri, 0);
 +}
 +
  static CPAccessResult cpacr_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                     bool isread)
  {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
      { .name = "CPACR", .state = ARM_CP_STATE_BOTH, .opc0 = 3,
        .crn = 1, .crm = 0, .opc1 = 0, .opc2 = 2, .accessfn = cpacr_access,
        .access = PL1_RW, .fieldoffset = offsetof(CPUARMState, cp15.cpacr_el1),
 -      .resetvalue = 0, .writefn = cpacr_write },
 +      .resetfn = cpacr_reset, .writefn = cpacr_write },
      REGINFO_SENTINEL
  };
 --
-.17.1
+.20.1

-New patch
+[PULL 18/43] target/arm: Move TBFLAG_AM32 bits to the top
+From: Richard Henderson <richard.henderson@linaro.org>
+Now that these bits have been moved out of tb->flags,
+where TBFLAG_ANY was filling from the top, move AM32
+to fill from the top, and A32 and M32 to fill from the
+bottom.  This means fewer changes when adding new bits.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-9-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/cpu.h | 42 +++++++++++++++++++++---------------------
+file changed, 21 insertions(+), 21 deletions(-)
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.h
++++ b/target/arm/cpu.h
+@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
+  *
+  * The bits for 32-bit A-profile and M-profile partially overlap:
+  *
+- *  18             9              0
+- * +----------------+--------------+
+- * |   TBFLAG_A32   |              |
+- * +-----+----------+  TBFLAG_AM32 |
+- * |     |TBFLAG_M32|              |
+- * +-----+----------+--------------+
+- *     14          9              0
++ *  31         23         11 10             0
++ * +-------------+----------+----------------+
++ * |             |          |   TBFLAG_A32   |
++ * | TBFLAG_AM32 |          +-----+----------+
++ * |             |                |TBFLAG_M32|
++ * +-------------+----------------+----------+
++ *  31         23                5 4        0
+  *
+  * Unless otherwise noted, these bits are cached in env->hflags.
+  */
+@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 20, 2)
+ /*
+  * Bit usage when in AArch32 state, both A- and M-profile.
+  */
+-FIELD(TBFLAG_AM32, CONDEXEC, 0, 8)      /* Not cached. */
+-FIELD(TBFLAG_AM32, THUMB, 8, 1)         /* Not cached. */
++FIELD(TBFLAG_AM32, CONDEXEC, 24, 8)      /* Not cached. */
++FIELD(TBFLAG_AM32, THUMB, 23, 1)         /* Not cached. */
+ /*
+  * Bit usage when in AArch32 state, for A-profile only.
+  */
+-FIELD(TBFLAG_A32, VECLEN, 9, 3)         /* Not cached. */
+-FIELD(TBFLAG_A32, VECSTRIDE, 12, 2)     /* Not cached. */
++FIELD(TBFLAG_A32, VECLEN, 0, 3)         /* Not cached. */
++FIELD(TBFLAG_A32, VECSTRIDE, 3, 2)     /* Not cached. */
+ /*
+  * We store the bottom two bits of the CPAR as TB flags and handle
+  * checks on the other bits at runtime. This shares the same bits as
+  * VECSTRIDE, which is OK as no XScale CPU has VFP.
+  * Not cached, because VECLEN+VECSTRIDE are not cached.
+  */
+-FIELD(TBFLAG_A32, XSCALE_CPAR, 12, 2)
+-FIELD(TBFLAG_A32, VFPEN, 14, 1)         /* Partially cached, minus FPEXC. */
+-FIELD(TBFLAG_A32, SCTLR__B, 15, 1)      /* Cannot overlap with SCTLR_B */
+-FIELD(TBFLAG_A32, HSTR_ACTIVE, 16, 1)
++FIELD(TBFLAG_A32, XSCALE_CPAR, 5, 2)
++FIELD(TBFLAG_A32, VFPEN, 7, 1)         /* Partially cached, minus FPEXC. */
++FIELD(TBFLAG_A32, SCTLR__B, 8, 1)      /* Cannot overlap with SCTLR_B */
++FIELD(TBFLAG_A32, HSTR_ACTIVE, 9, 1)
+ /*
+  * Indicates whether cp register reads and writes by guest code should access
+  * the secure or nonsecure bank of banked registers; note that this is not
+  * the same thing as the current security state of the processor!
+  */
+-FIELD(TBFLAG_A32, NS, 17, 1)
++FIELD(TBFLAG_A32, NS, 10, 1)
+ /*
+  * Bit usage when in AArch32 state, for M-profile only.
+  */
+ /* Handler (ie not Thread) mode */
+-FIELD(TBFLAG_M32, HANDLER, 9, 1)
++FIELD(TBFLAG_M32, HANDLER, 0, 1)
+ /* Whether we should generate stack-limit checks */
+-FIELD(TBFLAG_M32, STACKCHECK, 10, 1)
++FIELD(TBFLAG_M32, STACKCHECK, 1, 1)
+ /* Set if FPCCR.LSPACT is set */
+-FIELD(TBFLAG_M32, LSPACT, 11, 1)                 /* Not cached. */
++FIELD(TBFLAG_M32, LSPACT, 2, 1)                 /* Not cached. */
+ /* Set if we must create a new FP context */
+-FIELD(TBFLAG_M32, NEW_FP_CTXT_NEEDED, 12, 1)     /* Not cached. */
++FIELD(TBFLAG_M32, NEW_FP_CTXT_NEEDED, 3, 1)     /* Not cached. */
+ /* Set if FPCCR.S does not match current security state */
+-FIELD(TBFLAG_M32, FPCCR_S_WRONG, 13, 1)          /* Not cached. */
++FIELD(TBFLAG_M32, FPCCR_S_WRONG, 4, 1)          /* Not cached. */
+ /*
+  * Bit usage when in AArch64 state
+--
+.20.1

-New patch
+[PULL 19/43] target/arm: Move TBFLAG_ANY bits to the bottom
+From: Richard Henderson <richard.henderson@linaro.org>
+Now that other bits have been moved out of tb->flags,
+there's no point in filling from the top.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-10-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/cpu.h | 14 +++++++-------
+file changed, 7 insertions(+), 7 deletions(-)
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.h
++++ b/target/arm/cpu.h
+@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
+  *
+  * Unless otherwise noted, these bits are cached in env->hflags.
+  */
+-FIELD(TBFLAG_ANY, AARCH64_STATE, 31, 1)
+-FIELD(TBFLAG_ANY, SS_ACTIVE, 30, 1)
+-FIELD(TBFLAG_ANY, PSTATE__SS, 29, 1)    /* Not cached. */
+-FIELD(TBFLAG_ANY, BE_DATA, 28, 1)
+-FIELD(TBFLAG_ANY, MMUIDX, 24, 4)
++FIELD(TBFLAG_ANY, AARCH64_STATE, 0, 1)
++FIELD(TBFLAG_ANY, SS_ACTIVE, 1, 1)
++FIELD(TBFLAG_ANY, PSTATE__SS, 2, 1)      /* Not cached. */
++FIELD(TBFLAG_ANY, BE_DATA, 3, 1)
++FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
+ /* Target EL if we take a floating-point-disabled exception */
+-FIELD(TBFLAG_ANY, FPEXC_EL, 22, 2)
++FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
+ /* For A-profile only, target EL for debug exceptions.  */
+-FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 20, 2)
++FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
+ /*
+  * Bit usage when in AArch32 state, both A- and M-profile.
+--
+.20.1

-[Qemu-devel] [PULL 19/25] Make flatview_translate() take a MemTxAttrs argument
+[PULL 20/43] target/arm: Add ALIGN_MEM to TBFLAG_ANY
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to flatview_translate(); all its
 callers now have attrs available.
+Use this to signal when memory access alignment is required.
+This value comes from the CCR register for M-profile, and
+from the SCTLR register for A-profile.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-11-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-11-peter.maydell@linaro.org
 ---
- include/exec/memory.h |  7 ++++---
+ target/arm/cpu.h           |  2 ++
- exec.c                | 17 +++++++++--------
+ target/arm/translate.h     |  2 ++
-files changed, 13 insertions(+), 11 deletions(-)
+ target/arm/helper.c        | 19 +++++++++++++++++--
  target/arm/translate-a64.c |  1 +
  target/arm/translate.c     |  7 +++----
 files changed, 25 insertions(+), 6 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/target/arm/cpu.h
-+++ b/include/exec/memory.h
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
+@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
-  */
+ FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
- MemoryRegion *flatview_translate(FlatView *fv,
+ /* For A-profile only, target EL for debug exceptions.  */
-                                  hwaddr addr, hwaddr *xlat,
+ FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
--                                 hwaddr *len, bool is_write);
++/* Memory operations require alignment: SCTLR_ELx.A or CCR.UNALIGN_TRP */
-+                                 hwaddr *len, bool is_write,
++FIELD(TBFLAG_ANY, ALIGN_MEM, 12, 1)
-+                                 MemTxAttrs attrs);
+ /*
- static inline MemoryRegion *address_space_translate(AddressSpace *as,
+  * Bit usage when in AArch32 state, both A- and M-profile.
-                                                     hwaddr addr, hwaddr *xlat,
+diff --git a/target/arm/translate.h b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ static inline MemoryRegion *address_space_translate(AddressSpace *as,
+index XXXXXXX..XXXXXXX 100644
-                                                     MemTxAttrs attrs)
+--- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      bool bt;
      /* True if any CP15 access is trapped by HSTR_EL2 */
      bool hstr_active;
 +    /* True if memory operations require alignment */
 +    bool align_mem;
      /*
       * >= 0, a copy of PSTATE.BTYPE, which will be 0 without v8.5-BTI.
       *  < 0, set by the current instruction.
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
                                          ARMMMUIdx mmu_idx)
  {
-     return flatview_translate(address_space_to_flatview(as),
+     CPUARMTBFlags flags = {};
--                              addr, xlat, len, is_write);
++    uint32_t ccr = env->v7m.ccr[env->v7m.secure];
-+                              addr, xlat, len, is_write, attrs);
++
- }
++    /* Without HaveMainExt, CCR.UNALIGN_TRP is RES1. */
++    if (ccr & R_V7M_CCR_UNALIGN_TRP_MASK) {
- /* address_space_access_valid: check for validity of accessing an address
++        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
-@@ -XXX,XX +XXX,XX @@ MemTxResult address_space_read(AddressSpace *as, hwaddr addr,
++    }
-             rcu_read_lock();
-             fv = address_space_to_flatview(as);
+     if (arm_v7m_is_handler_mode(env)) {
-             l = len;
+         DP_TBFLAG_M32(flags, HANDLER, 1);
--            mr = flatview_translate(fv, addr, &addr1, &l, false);
+@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
-+            mr = flatview_translate(fv, addr, &addr1, &l, false, attrs);
+      */
-             if (len == l && memory_access_is_direct(mr, false)) {
+     if (arm_feature(env, ARM_FEATURE_V8) &&
-                 ptr = qemu_map_ram_ptr(mr->ram_block, addr1);
+         !((mmu_idx & ARM_MMU_IDX_M_NEGPRI) &&
-                 memcpy(buf, ptr, len);
+-          (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
-diff --git a/exec.c b/exec.c
++          (ccr & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
          DP_TBFLAG_M32(flags, STACKCHECK, 1);
      }
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
                                          ARMMMUIdx mmu_idx)
  {
      CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
 +    int el = arm_current_el(env);
 +
 +    if (arm_sctlr(env, el) & SCTLR_A) {
 +        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
 +    }
      if (arm_el_is_aa64(env, 1)) {
          DP_TBFLAG_A32(flags, VFPEN, 1);
      }
 -    if (arm_current_el(env) < 2 && env->cp15.hstr_el2 &&
 +    if (el < 2 && env->cp15.hstr_el2 &&
          (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
          DP_TBFLAG_A32(flags, HSTR_ACTIVE, 1);
      }
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
      sctlr = regime_sctlr(env, stage1);
 +    if (sctlr & SCTLR_A) {
 +        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
 +    }
 +
      if (arm_cpu_data_is_big_endian_a64(el, sctlr)) {
          DP_TBFLAG_ANY(flags, BE_DATA, 1);
      }
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+--- a/target/arm/translate-a64.c
-+++ b/exec.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ iotlb_fail:
+@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
+     dc->user = (dc->current_el == 0);
- /* Called from RCU critical section */
+ #endif
- MemoryRegion *flatview_translate(FlatView *fv, hwaddr addr, hwaddr *xlat,
+     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
--                                 hwaddr *plen, bool is_write)
++    dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
-+                                 hwaddr *plen, bool is_write,
+     dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
-+                                 MemTxAttrs attrs)
+     dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
      dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
  {
-     MemoryRegion *mr;
+     TCGv addr;
-     MemoryRegionSection section;
-@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_write_continue(FlatView *fv, hwaddr addr,
+-    if (arm_dc_feature(s, ARM_FEATURE_M) &&
-         }
+-        !arm_dc_feature(s, ARM_FEATURE_M_MAIN)) {
++    if (s->align_mem) {
-         l = len;
+         opc |= MO_ALIGN;
 -        mr = flatview_translate(fv, addr, &addr1, &l, true);
 +        mr = flatview_translate(fv, addr, &addr1, &l, true, attrs);
      }
-     return result;
+@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
-@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_write(FlatView *fv, hwaddr addr, MemTxAttrs attrs,
+ {
-     MemTxResult result = MEMTX_OK;
+     TCGv addr;
-     l = len;
+-    if (arm_dc_feature(s, ARM_FEATURE_M) &&
--    mr = flatview_translate(fv, addr, &addr1, &l, true);
+-        !arm_dc_feature(s, ARM_FEATURE_M_MAIN)) {
-+    mr = flatview_translate(fv, addr, &addr1, &l, true, attrs);
++    if (s->align_mem) {
-     result = flatview_write_continue(fv, addr, attrs, buf, len,
+         opc |= MO_ALIGN;
                                       addr1, l, mr);
@@ -XXX,XX +XXX,XX @@ MemTxResult flatview_read_continue(FlatView *fv, hwaddr addr,
          }
          l = len;
 -        mr = flatview_translate(fv, addr, &addr1, &l, false);
 +        mr = flatview_translate(fv, addr, &addr1, &l, false, attrs);
      }
-     return result;
+@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
-@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_read(FlatView *fv, hwaddr addr,
+     dc->user = (dc->current_el == 0);
-     MemoryRegion *mr;
+ #endif
+     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
-     l = len;
++    dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
--    mr = flatview_translate(fv, addr, &addr1, &l, false);
-+    mr = flatview_translate(fv, addr, &addr1, &l, false, attrs);
+     if (arm_feature(env, ARM_FEATURE_M)) {
-     return flatview_read_continue(fv, addr, attrs, buf, len,
+         dc->vfp_enabled = 1;
                                    addr1, l, mr);
  }
@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
      while (len > 0) {
          l = len;
 -        mr = flatview_translate(fv, addr, &xlat, &l, is_write);
 +        mr = flatview_translate(fv, addr, &xlat, &l, is_write, attrs);
          if (!memory_access_is_direct(mr, is_write)) {
              l = memory_access_size(mr, l, addr);
              if (!memory_region_access_valid(mr, xlat, l, is_write, attrs)) {
@@ -XXX,XX +XXX,XX @@ flatview_extend_translation(FlatView *fv, hwaddr addr,
          len = target_len;
          this_mr = flatview_translate(fv, addr, &xlat,
 -                                                   &len, is_write);
 +                                     &len, is_write, attrs);
          if (this_mr != mr || xlat != base + done) {
              return done;
          }
@@ -XXX,XX +XXX,XX @@ void *address_space_map(AddressSpace *as,
      l = len;
      rcu_read_lock();
      fv = address_space_to_flatview(as);
 -    mr = flatview_translate(fv, addr, &xlat, &l, is_write);
 +    mr = flatview_translate(fv, addr, &xlat, &l, is_write, attrs);
      if (!memory_access_is_direct(mr, is_write)) {
          if (atomic_xchg(&bounce.in_use, true)) {
 --
-.17.1
+.20.1

-New patch
+[PULL 21/43] target/arm: Adjust gen_aa32_{ld, st}_i32 for align+endianness
+From: Richard Henderson <richard.henderson@linaro.org>
 Create a finalize_memop function that computes alignment and
 endianness and returns the final MemOp for the operation.
 Split out gen_aa32_{ld,st}_internal_i32 which bypasses any special
 handling of endianness or alignment.  Adjust gen_aa32_{ld,st}_i32
 so that s->be_data is not added by the callers.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-12-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/translate.h          |  24 ++++++++
  target/arm/translate.c          | 100 +++++++++++++++++---------------
  target/arm/translate-neon.c.inc |   9 +--
 files changed, 79 insertions(+), 54 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr fpstatus_ptr(ARMFPStatusFlavour flavour)
      return statusptr;
  }
 +/**
 + * finalize_memop:
 + * @s: DisasContext
 + * @opc: size+sign+align of the memory operation
 + *
 + * Build the complete MemOp for a memory operation, including alignment
 + * and endianness.
 + *
 + * If (op & MO_AMASK) then the operation already contains the required
 + * alignment, e.g. for AccType_ATOMIC.  Otherwise, this an optionally
 + * unaligned operation, e.g. for AccType_NORMAL.
 + *
 + * In the latter case, there are configuration bits that require alignment,
 + * and this is applied here.  Note that there is no way to indicate that
 + * no alignment should ever be enforced; this must be handled manually.
 + */
 +static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
 +{
 +    if (s->align_mem && !(opc & MO_AMASK)) {
 +        opc |= MO_ALIGN;
 +    }
 +    return opc | s->be_data;
 +}
 +
  #endif /* TARGET_ARM_TRANSLATE_H */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
  #define IS_USER_ONLY 0
  #endif
 -/* Abstractions of "generate code to do a guest load/store for
 +/*
 + * Abstractions of "generate code to do a guest load/store for
   * AArch32", where a vaddr is always 32 bits (and is zero
   * extended if we're a 64 bit core) and  data is also
   * 32 bits unless specifically doing a 64 bit access.
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
   * that the address argument is TCGv_i32 rather than TCGv.
   */
 -static inline TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
 +static TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
  {
      TCGv addr = tcg_temp_new();
      tcg_gen_extu_i32_tl(addr, a32);
@@ -XXX,XX +XXX,XX @@ static inline TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
      return addr;
  }
 +/*
 + * Internal routines are used for NEON cases where the endianness
 + * and/or alignment has already been taken into account and manipulated.
 + */
 +static void gen_aa32_ld_internal_i32(DisasContext *s, TCGv_i32 val,
 +                                     TCGv_i32 a32, int index, MemOp opc)
 +{
 +    TCGv addr = gen_aa32_addr(s, a32, opc);
 +    tcg_gen_qemu_ld_i32(val, addr, index, opc);
 +    tcg_temp_free(addr);
 +}
 +
 +static void gen_aa32_st_internal_i32(DisasContext *s, TCGv_i32 val,
 +                                     TCGv_i32 a32, int index, MemOp opc)
 +{
 +    TCGv addr = gen_aa32_addr(s, a32, opc);
 +    tcg_gen_qemu_st_i32(val, addr, index, opc);
 +    tcg_temp_free(addr);
 +}
 +
  static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                              int index, MemOp opc)
  {
 -    TCGv addr;
 -
 -    if (s->align_mem) {
 -        opc |= MO_ALIGN;
 -    }
 -
 -    addr = gen_aa32_addr(s, a32, opc);
 -    tcg_gen_qemu_ld_i32(val, addr, index, opc);
 -    tcg_temp_free(addr);
 +    gen_aa32_ld_internal_i32(s, val, a32, index, finalize_memop(s, opc));
  }
  static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                              int index, MemOp opc)
  {
 -    TCGv addr;
 +    gen_aa32_st_internal_i32(s, val, a32, index, finalize_memop(s, opc));
 +}
 -    if (s->align_mem) {
 -        opc |= MO_ALIGN;
 +#define DO_GEN_LD(SUFF, OPC)                                            \
 +    static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val, \
 +                                         TCGv_i32 a32, int index)       \
 +    {                                                                   \
 +        gen_aa32_ld_i32(s, val, a32, index, OPC);                       \
      }
 -    addr = gen_aa32_addr(s, a32, opc);
 -    tcg_gen_qemu_st_i32(val, addr, index, opc);
 -    tcg_temp_free(addr);
 -}
 -
 -#define DO_GEN_LD(SUFF, OPC)                                             \
 -static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val,      \
 -                                     TCGv_i32 a32, int index)            \
 -{                                                                        \
 -    gen_aa32_ld_i32(s, val, a32, index, OPC | s->be_data);               \
 -}
 -
 -#define DO_GEN_ST(SUFF, OPC)                                             \
 -static inline void gen_aa32_st##SUFF(DisasContext *s, TCGv_i32 val,      \
 -                                     TCGv_i32 a32, int index)            \
 -{                                                                        \
 -    gen_aa32_st_i32(s, val, a32, index, OPC | s->be_data);               \
 -}
 +#define DO_GEN_ST(SUFF, OPC)                                            \
 +    static inline void gen_aa32_st##SUFF(DisasContext *s, TCGv_i32 val, \
 +                                         TCGv_i32 a32, int index)       \
 +    {                                                                   \
 +        gen_aa32_st_i32(s, val, a32, index, OPC);                       \
 +    }
  static inline void gen_aa32_frob64(DisasContext *s, TCGv_i64 val)
  {
@@ -XXX,XX +XXX,XX @@ static bool op_load_rr(DisasContext *s, arg_ldst_rr *a,
      addr = op_addr_rr_pre(s, a);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop);
      disas_set_da_iss(s, mop, issinfo);
      /*
@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
      addr = op_addr_rr_pre(s, a);
      tmp = load_reg(s, a->rt);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop);
      disas_set_da_iss(s, mop, issinfo);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool trans_LDRD_rr(DisasContext *s, arg_ldst_rr *a)
      addr = op_addr_rr_pre(s, a);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
      store_reg(s, a->rt, tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
      store_reg(s, a->rt + 1, tmp);
      /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool trans_STRD_rr(DisasContext *s, arg_ldst_rr *a)
      addr = op_addr_rr_pre(s, a);
      tmp = load_reg(s, a->rt);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
      tcg_temp_free_i32(tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = load_reg(s, a->rt + 1);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
      tcg_temp_free_i32(tmp);
      op_addr_rr_post(s, a, addr, -4);
@@ -XXX,XX +XXX,XX @@ static bool op_load_ri(DisasContext *s, arg_ldst_ri *a,
      addr = op_addr_ri_pre(s, a);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop);
      disas_set_da_iss(s, mop, issinfo);
      /*
@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
      addr = op_addr_ri_pre(s, a);
      tmp = load_reg(s, a->rt);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop);
      disas_set_da_iss(s, mop, issinfo);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool op_ldrd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
      addr = op_addr_ri_pre(s, a);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
      store_reg(s, a->rt, tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
      store_reg(s, rt2, tmp);
      /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool op_strd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
      addr = op_addr_ri_pre(s, a);
      tmp = load_reg(s, a->rt);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
      tcg_temp_free_i32(tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = load_reg(s, rt2);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
      tcg_temp_free_i32(tmp);
      op_addr_ri_post(s, a, addr, -4);
@@ -XXX,XX +XXX,XX @@ static bool op_stl(DisasContext *s, arg_STL *a, MemOp mop)
      addr = load_reg(s, a->rn);
      tmp = load_reg(s, a->rt);
      tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
 -    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop | s->be_data);
 +    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop);
      disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel | ISSIsWrite);
      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool op_lda(DisasContext *s, arg_LDA *a, MemOp mop)
      addr = load_reg(s, a->rn);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop | s->be_data);
 +    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
      disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel);
      tcg_temp_free_i32(addr);
@@ -XXX,XX +XXX,XX @@ static bool op_tbranch(DisasContext *s, arg_tbranch *a, bool half)
      addr = load_reg(s, a->rn);
      tcg_gen_add_i32(addr, addr, tmp);
 -    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
 -                    half ? MO_UW | s->be_data : MO_UB);
 +    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), half ? MO_UW : MO_UB);
      tcg_temp_free_i32(addr);
      tcg_gen_add_i32(tmp, tmp, tmp);
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
      addr = tcg_temp_new_i32();
      load_reg_var(s, addr, a->rn);
      for (reg = 0; reg < nregs; reg++) {
 -        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
 -                        s->be_data | size);
 +        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), size);
          if ((vd & 1) && vec_size == 16) {
              /*
               * We cannot write 16 bytes at once because the
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
       */
      for (reg = 0; reg < nregs; reg++) {
          if (a->l) {
 -            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
 -                            s->be_data | a->size);
 +            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), a->size);
              neon_store_element(vd, a->reg_idx, a->size, tmp);
          } else { /* Store */
              neon_load_element(tmp, vd, a->reg_idx, a->size);
 -            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
 -                            s->be_data | a->size);
 +            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), a->size);
          }
          vd += a->stride;
          tcg_gen_addi_i32(addr, addr, 1 << a->size);
 --
 .20.1

-New patch
+[PULL 22/43] target/arm: Merge gen_aa32_frob64 into gen_aa32_ld_i64
+From: Richard Henderson <richard.henderson@linaro.org>
+This is the only caller.  Adjust some commentary to talk
+about SCTLR_B instead of the vanishing function.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-13-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/translate.c | 37 ++++++++++++++++---------------------
+file changed, 16 insertions(+), 21 deletions(-)
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
+         gen_aa32_st_i32(s, val, a32, index, OPC);                       \
+     }
+-static inline void gen_aa32_frob64(DisasContext *s, TCGv_i64 val)
+-{
+-    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
+-    if (!IS_USER_ONLY && s->sctlr_b) {
+-        tcg_gen_rotri_i64(val, val, 32);
+-    }
+-}
+-
+ static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+                             int index, MemOp opc)
+ {
+     TCGv addr = gen_aa32_addr(s, a32, opc);
+     tcg_gen_qemu_ld_i64(val, addr, index, opc);
+-    gen_aa32_frob64(s, val);
++
++    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
++    if (!IS_USER_ONLY && s->sctlr_b) {
++        tcg_gen_rotri_i64(val, val, 32);
++    }
++
+     tcg_temp_free(addr);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_load_exclusive(DisasContext *s, int rt, int rt2,
+         TCGv_i32 tmp2 = tcg_temp_new_i32();
+         TCGv_i64 t64 = tcg_temp_new_i64();
+-        /* For AArch32, architecturally the 32-bit word at the lowest
++        /*
++         * For AArch32, architecturally the 32-bit word at the lowest
+          * address is always Rt and the one at addr+4 is Rt2, even if
+          * the CPU is big-endian. That means we don't want to do a
+-         * gen_aa32_ld_i64(), which invokes gen_aa32_frob64() as if
+-         * for an architecturally 64-bit access, but instead do a
+-         * 64-bit access using MO_BE if appropriate and then split
+-         * the two halves.
+-         * This only makes a difference for BE32 user-mode, where
+-         * frob64() must not flip the two halves of the 64-bit data
+-         * but this code must treat BE32 user-mode like BE32 system.
++         * gen_aa32_ld_i64(), which checks SCTLR_B as if for an
++         * architecturally 64-bit access, but instead do a 64-bit access
++         * using MO_BE if appropriate and then split the two halves.
+          */
+         TCGv taddr = gen_aa32_addr(s, addr, opc);
+@@ -XXX,XX +XXX,XX @@ static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
+         TCGv_i64 n64 = tcg_temp_new_i64();
+         t2 = load_reg(s, rt2);
+-        /* For AArch32, architecturally the 32-bit word at the lowest
++
++        /*
++         * For AArch32, architecturally the 32-bit word at the lowest
+          * address is always Rt and the one at addr+4 is Rt2, even if
+          * the CPU is big-endian. Since we're going to treat this as a
+          * single 64-bit BE store, we need to put the two halves in the
+          * opposite order for BE to LE, so that they end up in the right
+-         * places.
+-         * We don't want gen_aa32_frob64() because that does the wrong
+-         * thing for BE32 usermode.
++         * places.  We don't want gen_aa32_st_i64, because that checks
++         * SCTLR_B as if for an architectural 64-bit access.
+          */
+         if (s->be_data == MO_BE) {
+             tcg_gen_concat_i32_i64(n64, t2, t1);
+--
+.20.1

-New patch
+[PULL 23/43] target/arm: Fix SCTLR_B test for TCGv_i64 load/store
+From: Richard Henderson <richard.henderson@linaro.org>
+Just because operating on a TCGv_i64 temporary does not
+mean that we're performing a 64-bit operation.  Restrict
+the frobbing to actual 64-bit operations.
+This bug is not currently visible because all current
+users of these two functions always pass MO_64.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-14-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/translate.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+     tcg_gen_qemu_ld_i64(val, addr, index, opc);
+     /* Not needed for user-mode BE32, where we use MO_BE instead.  */
+-    if (!IS_USER_ONLY && s->sctlr_b) {
++    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
+         tcg_gen_rotri_i64(val, val, 32);
+     }
+@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+     TCGv addr = gen_aa32_addr(s, a32, opc);
+     /* Not needed for user-mode BE32, where we use MO_BE instead.  */
+-    if (!IS_USER_ONLY && s->sctlr_b) {
++    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
+         TCGv_i64 tmp = tcg_temp_new_i64();
+         tcg_gen_rotri_i64(tmp, val, 32);
+         tcg_gen_qemu_st_i64(tmp, addr, index, opc);
+--
+.20.1

-[Qemu-devel] [PULL 06/25] arm: fix qemu crash on startup with -bios option
+[PULL 24/43] target/arm: Adjust gen_aa32_{ld, st}_i64 for align+endianness
-From: Igor Mammedov <imammedo@redhat.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-When QEMU is started with following CLI
+Adjust the interface to match what has been done to the
- -machine virt,gic-version=3,accel=kvm -cpu host -bios AAVMF_CODE.fd
+TCGv_i32 load/store functions.
 it crashes with abort at
  accel/kvm/kvm-all.c:2164:
  KVM_SET_DEVICE_ATTR failed: Group 6 attr 0x000000000000c665: Invalid argument
-Which is caused by implicit dependency of kvm_arm_gicv3_reset() on
+This is less obvious, because at present the only user of
-arm_gicv3_icc_reset() where the later is called by CPU reset
+these functions, trans_VLDST_multiple, also wants to manipulate
-reset callback.
+the endianness to speed up loading multiple bytes.  Thus we
 retain an "internal" interface which is identical to the
 current gen_aa32_{ld,st}_i64 interface.
-However commit:
+The "new" interface will gain users as we remove the legacy
-b77f6c arm/boot: split load_dtb() from arm_load_kernel()
+interfaces, gen_aa32_ld64 and gen_aa32_st64.
 broke CPU reset callback registration in case
-  arm_load_kernel()
-      ...
-      if (!info->kernel_filename || info->firmware_loaded)
-branch is taken, i.e. it's sufficient to provide a firmware
-or do not provide kernel on CLI to skip cpu reset callback
-registration, where before offending commit the callback
-has been registered unconditionally.
-Fix it by registering the callback right at the beginning of
-arm_load_kernel() unconditionally instead of doing it at the end.
-NOTE:
- we probably should eliminate that dependency anyways as well as
- separate arch CPU reset parts from arm_load_kernel() into CPU
- itself, but that refactoring that I probably would have to do
- anyways later for CPU hotplug to work.
-Reported-by: Auger Eric <eric.auger@redhat.com>
-Signed-off-by: Igor Mammedov <imammedo@redhat.com>
-Reviewed-by: Eric Auger <eric.auger@redhat.com>
-Tested-by: Eric Auger <eric.auger@redhat.com>
-Message-id: 1527070950-208350-1-git-send-email-imammedo@redhat.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-15-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/boot.c | 18 +++++++++---------
+ target/arm/translate.c          | 78 +++++++++++++++++++--------------
-file changed, 9 insertions(+), 9 deletions(-)
+ target/arm/translate-neon.c.inc |  6 ++-
 files changed, 49 insertions(+), 35 deletions(-)
-diff --git a/hw/arm/boot.c b/hw/arm/boot.c
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/boot.c
+--- a/target/arm/translate.c
-+++ b/hw/arm/boot.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, struct arm_boot_info *info)
+@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_internal_i32(DisasContext *s, TCGv_i32 val,
-     static const ARMInsnFixup *primary_loader;
+     tcg_temp_free(addr);
-     AddressSpace *as = arm_boot_address_space(cpu, info);
+ }
-+    /* CPU objects (unlike devices) are not automatically reset on system
++static void gen_aa32_ld_internal_i64(DisasContext *s, TCGv_i64 val,
-+     * reset, so we must always register a handler to do so. If we're
++                                     TCGv_i32 a32, int index, MemOp opc)
-+     * actually loading a kernel, the handler is also responsible for
++{
-+     * arranging that we start it correctly.
++    TCGv addr = gen_aa32_addr(s, a32, opc);
-+     */
++
-+    for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
++    tcg_gen_qemu_ld_i64(val, addr, index, opc);
-+        qemu_register_reset(do_cpu_reset, ARM_CPU(cs));
++
 +    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 +    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 +        tcg_gen_rotri_i64(val, val, 32);
 +    }
++    tcg_temp_free(addr);
++}
 +
-     /* The board code is not supposed to set secure_board_setup unless
++static void gen_aa32_st_internal_i64(DisasContext *s, TCGv_i64 val,
-      * running its code in secure mode is actually possible, and KVM
++                                     TCGv_i32 a32, int index, MemOp opc)
-      * doesn't support secure.
++{
-@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, struct arm_boot_info *info)
++    TCGv addr = gen_aa32_addr(s, a32, opc);
-         ARM_CPU(cs)->env.boot_info = info;
++
 +    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 +    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +        tcg_gen_rotri_i64(tmp, val, 32);
 +        tcg_gen_qemu_st_i64(tmp, addr, index, opc);
 +        tcg_temp_free_i64(tmp);
 +    } else {
 +        tcg_gen_qemu_st_i64(val, addr, index, opc);
 +    }
 +    tcg_temp_free(addr);
 +}
 +
  static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                              int index, MemOp opc)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
      gen_aa32_st_internal_i32(s, val, a32, index, finalize_memop(s, opc));
  }
 +static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
 +                            int index, MemOp opc)
 +{
 +    gen_aa32_ld_internal_i64(s, val, a32, index, finalize_memop(s, opc));
 +}
 +
 +static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
 +                            int index, MemOp opc)
 +{
 +    gen_aa32_st_internal_i64(s, val, a32, index, finalize_memop(s, opc));
 +}
 +
  #define DO_GEN_LD(SUFF, OPC)                                            \
      static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val, \
                                           TCGv_i32 a32, int index)       \
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
          gen_aa32_st_i32(s, val, a32, index, OPC);                       \
      }
--    /* CPU objects (unlike devices) are not automatically reset on system
+-static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
--     * reset, so we must always register a handler to do so. If we're
+-                            int index, MemOp opc)
--     * actually loading a kernel, the handler is also responsible for
+-{
--     * arranging that we start it correctly.
+-    TCGv addr = gen_aa32_addr(s, a32, opc);
--     */
+-    tcg_gen_qemu_ld_i64(val, addr, index, opc);
--    for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
+-
--        qemu_register_reset(do_cpu_reset, ARM_CPU(cs));
+-    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 -    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 -        tcg_gen_rotri_i64(val, val, 32);
 -    }
 -
-     if (!info->skip_dtb_autoload && have_dtb(info)) {
+-    tcg_temp_free(addr);
-         if (arm_load_dtb(info->dtb_start, info, info->dtb_limit, as) < 0) {
+-}
-             exit(1);
+-
  static inline void gen_aa32_ld64(DisasContext *s, TCGv_i64 val,
                                   TCGv_i32 a32, int index)
  {
 -    gen_aa32_ld_i64(s, val, a32, index, MO_Q | s->be_data);
 -}
 -
 -static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
 -                            int index, MemOp opc)
 -{
 -    TCGv addr = gen_aa32_addr(s, a32, opc);
 -
 -    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 -    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 -        TCGv_i64 tmp = tcg_temp_new_i64();
 -        tcg_gen_rotri_i64(tmp, val, 32);
 -        tcg_gen_qemu_st_i64(tmp, addr, index, opc);
 -        tcg_temp_free_i64(tmp);
 -    } else {
 -        tcg_gen_qemu_st_i64(val, addr, index, opc);
 -    }
 -    tcg_temp_free(addr);
 +    gen_aa32_ld_i64(s, val, a32, index, MO_Q);
  }
  static inline void gen_aa32_st64(DisasContext *s, TCGv_i64 val,
                                   TCGv_i32 a32, int index)
  {
 -    gen_aa32_st_i64(s, val, a32, index, MO_Q | s->be_data);
 +    gen_aa32_st_i64(s, val, a32, index, MO_Q);
  }
  DO_GEN_LD(8u, MO_UB)
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
                  int tt = a->vd + reg + spacing * xs;
                  if (a->l) {
 -                    gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx,
 +                                             endian | size);
                      neon_store_element64(tt, n, size, tmp64);
                  } else {
                      neon_load_element64(tmp64, tt, n, size);
 -                    gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx,
 +                                             endian | size);
                  }
                  tcg_gen_add_i32(addr, addr, tmp);
              }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 25/25] KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice
+[PULL 25/43] target/arm: Enforce word alignment for LDRD/STRD
-From: Shannon Zhao <zhaoshenglong@huawei.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-kvm_irqchip_create called by kvm_init will call kvm_init_irq_routing to
+Buglink: https://bugs.launchpad.net/qemu/+bug/1905356
-initialize global capability variables. If we call kvm_init_irq_routing in
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-GIC realize function, previous allocated memory will leak.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-16-richard.henderson@linaro.org
 Fix this by deleting the unnecessary call.
 Signed-off-by: Shannon Zhao <zhaoshenglong@huawei.com>
 Reviewed-by: Eric Auger <eric.auger@redhat.com>
 Message-id: 1527750994-14360-1-git-send-email-zhaoshenglong@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/intc/arm_gic_kvm.c   | 1 -
+ target/arm/translate.c | 16 ++++++++--------
- hw/intc/arm_gicv3_kvm.c | 1 -
+file changed, 8 insertions(+), 8 deletions(-)
 files changed, 2 deletions(-)
-diff --git a/hw/intc/arm_gic_kvm.c b/hw/intc/arm_gic_kvm.c
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gic_kvm.c
+--- a/target/arm/translate.c
-+++ b/hw/intc/arm_gic_kvm.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void kvm_arm_gic_realize(DeviceState *dev, Error **errp)
+@@ -XXX,XX +XXX,XX @@ static bool trans_LDRD_rr(DisasContext *s, arg_ldst_rr *a)
+     addr = op_addr_rr_pre(s, a);
-     if (kvm_has_gsi_routing()) {
-         /* set up irq routing */
+     tmp = tcg_temp_new_i32();
--        kvm_init_irq_routing(kvm_state);
+-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-         for (i = 0; i < s->num_irq - GIC_INTERNAL; ++i) {
++    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-             kvm_irqchip_add_irq_route(kvm_state, i, 0, i);
+     store_reg(s, a->rt, tmp);
-         }
-diff --git a/hw/intc/arm_gicv3_kvm.c b/hw/intc/arm_gicv3_kvm.c
+     tcg_gen_addi_i32(addr, addr, 4);
-index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_kvm.c
+     tmp = tcg_temp_new_i32();
-+++ b/hw/intc/arm_gicv3_kvm.c
+-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-@@ -XXX,XX +XXX,XX @@ static void kvm_arm_gicv3_realize(DeviceState *dev, Error **errp)
++    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
+     store_reg(s, a->rt + 1, tmp);
-     if (kvm_has_gsi_routing()) {
-         /* set up irq routing */
+     /* LDRD w/ base writeback is undefined if the registers overlap.  */
--        kvm_init_irq_routing(kvm_state);
+@@ -XXX,XX +XXX,XX @@ static bool trans_STRD_rr(DisasContext *s, arg_ldst_rr *a)
-         for (i = 0; i < s->num_irq - GIC_INTERNAL; ++i) {
+     addr = op_addr_rr_pre(s, a);
-             kvm_irqchip_add_irq_route(kvm_state, i, 0, i);
-         }
+     tmp = load_reg(s, a->rt);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
      tcg_temp_free_i32(tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = load_reg(s, a->rt + 1);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
      tcg_temp_free_i32(tmp);
      op_addr_rr_post(s, a, addr, -4);
@@ -XXX,XX +XXX,XX @@ static bool op_ldrd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
      addr = op_addr_ri_pre(s, a);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
      store_reg(s, a->rt, tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
 +    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
      store_reg(s, rt2, tmp);
      /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool op_strd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
      addr = op_addr_ri_pre(s, a);
      tmp = load_reg(s, a->rt);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
      tcg_temp_free_i32(tmp);
      tcg_gen_addi_i32(addr, addr, 4);
      tmp = load_reg(s, rt2);
 -    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
 +    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
      tcg_temp_free_i32(tmp);
      op_addr_ri_post(s, a, addr, -4);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 23/25] vmstate.h: Provide VMSTATE_BOOL_SUB_ARRAY
+[PULL 26/43] target/arm: Enforce alignment for LDA/LDAH/STL/STLH
-Provide a VMSTATE_BOOL_SUB_ARRAY to go with VMSTATE_UINT8_SUB_ARRAY
+From: Richard Henderson <richard.henderson@linaro.org>
 and friends.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-17-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Message-id: 20180521140402.23318-23-peter.maydell@linaro.org
 ---
- include/migration/vmstate.h | 3 +++
+ target/arm/translate.c | 4 ++--
-file changed, 3 insertions(+)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/include/migration/vmstate.h b/include/migration/vmstate.h
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/migration/vmstate.h
+--- a/target/arm/translate.c
-+++ b/include/migration/vmstate.h
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ extern const VMStateInfo vmstate_info_qtailq;
+@@ -XXX,XX +XXX,XX @@ static bool op_stl(DisasContext *s, arg_STL *a, MemOp mop)
- #define VMSTATE_BOOL_ARRAY(_f, _s, _n)                               \
+     addr = load_reg(s, a->rn);
-     VMSTATE_BOOL_ARRAY_V(_f, _s, _n, 0)
+     tmp = load_reg(s, a->rt);
+     tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
-+#define VMSTATE_BOOL_SUB_ARRAY(_f, _s, _start, _num)                \
+-    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop);
-+    VMSTATE_SUB_ARRAY(_f, _s, _start, _num, 0, vmstate_info_bool, bool)
++    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop | MO_ALIGN);
-+
+     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel | ISSIsWrite);
- #define VMSTATE_UINT16_ARRAY_V(_f, _s, _n, _v)                         \
-     VMSTATE_ARRAY(_f, _s, _n, _v, vmstate_info_uint16, uint16_t)
+     tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool op_lda(DisasContext *s, arg_LDA *a, MemOp mop)
      addr = load_reg(s, a->rn);
      tmp = tcg_temp_new_i32();
 -    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
 +    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop | MO_ALIGN);
      disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel);
      tcg_temp_free_i32(addr);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 21/25] Make flatview_do_translate() take a MemTxAttrs argument
+[PULL 27/43] target/arm: Enforce alignment for LDM/STM
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to flatview_do_translate().
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-18-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-13-peter.maydell@linaro.org
 ---
- exec.c | 9 ++++++---
+ target/arm/translate.c | 4 ++--
-file changed, 6 insertions(+), 3 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/exec.c b/exec.c
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+--- a/target/arm/translate.c
-+++ b/exec.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ unassigned:
+@@ -XXX,XX +XXX,XX @@ static bool op_stm(DisasContext *s, arg_ldst_block *a, int min_n)
-  * @is_write: whether the translation operation is for write
+         } else {
-  * @is_mmio: whether this can be MMIO, set true if it can
+             tmp = load_reg(s, i);
-  * @target_as: the address space targeted by the IOMMU
+         }
-+ * @attrs: memory transaction attributes
+-        gen_aa32_st32(s, tmp, addr, mem_idx);
-  *
++        gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-  * This function is called from RCU critical section
+         tcg_temp_free_i32(tmp);
-  */
-@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection flatview_do_translate(FlatView *fv,
+         /* No need to add after the last transfer.  */
-                                                  hwaddr *page_mask_out,
+@@ -XXX,XX +XXX,XX @@ static bool do_ldm(DisasContext *s, arg_ldst_block *a, int min_n)
-                                                  bool is_write,
+         }
-                                                  bool is_mmio,
--                                                 AddressSpace **target_as)
+         tmp = tcg_temp_new_i32();
-+                                                 AddressSpace **target_as,
+-        gen_aa32_ld32u(s, tmp, addr, mem_idx);
-+                                                 MemTxAttrs attrs)
++        gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
- {
+         if (user) {
-     MemoryRegionSection *section;
+             tmp2 = tcg_const_i32(i);
-     IOMMUMemoryRegion *iommu_mr;
+             gen_helper_set_user_reg(cpu_env, tmp2, tmp);
@@ -XXX,XX +XXX,XX @@ IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
       * but page mask.
       */
      section = flatview_do_translate(address_space_to_flatview(as), addr, &xlat,
 -                                    NULL, &page_mask, is_write, false, &as);
 +                                    NULL, &page_mask, is_write, false, &as,
 +                                    attrs);
      /* Illegal translation */
      if (section.mr == &io_mem_unassigned) {
@@ -XXX,XX +XXX,XX @@ MemoryRegion *flatview_translate(FlatView *fv, hwaddr addr, hwaddr *xlat,
      /* This can be MMIO, so setup MMIO bit. */
      section = flatview_do_translate(fv, addr, xlat, plen, NULL,
 -                                    is_write, true, &as);
 +                                    is_write, true, &as, attrs);
      mr = section.mr;
      if (xen_enabled() && memory_access_is_direct(mr, is_write)) {
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 20/25] Make address_space_get_iotlb_entry() take a MemTxAttrs argument
+[PULL 28/43] target/arm: Enforce alignment for RFE
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to address_space_get_iotlb_entry().
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-19-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-12-peter.maydell@linaro.org
 ---
- include/exec/memory.h | 2 +-
+ target/arm/translate.c | 4 ++--
- exec.c                | 2 +-
+file changed, 2 insertions(+), 2 deletions(-)
  hw/virtio/vhost.c     | 3 ++-
 files changed, 4 insertions(+), 3 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/target/arm/translate.c
-+++ b/include/exec/memory.h
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ void address_space_cache_destroy(MemoryRegionCache *cache);
+@@ -XXX,XX +XXX,XX @@ static bool trans_RFE(DisasContext *s, arg_RFE *a)
-  * entry. Should be called from an RCU critical section.
-  */
+     /* Load PC into tmp and CPSR into tmp2.  */
- IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
+     t1 = tcg_temp_new_i32();
--                                            bool is_write);
+-    gen_aa32_ld32u(s, t1, addr, get_mem_index(s));
-+                                            bool is_write, MemTxAttrs attrs);
++    gen_aa32_ld_i32(s, t1, addr, get_mem_index(s), MO_UL | MO_ALIGN);
+     tcg_gen_addi_i32(addr, addr, 4);
- /* address_space_translate: translate an address range into an address space
+     t2 = tcg_temp_new_i32();
-  * into a MemoryRegion and an address range into that section.  Should be
+-    gen_aa32_ld32u(s, t2, addr, get_mem_index(s));
-diff --git a/exec.c b/exec.c
++    gen_aa32_ld_i32(s, t2, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+     if (a->w) {
-+++ b/exec.c
+         /* Base writeback.  */
@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection flatview_do_translate(FlatView *fv,
  /* Called from RCU critical section */
  IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
 -                                            bool is_write)
 +                                            bool is_write, MemTxAttrs attrs)
  {
      MemoryRegionSection section;
      hwaddr xlat, page_mask;
 diff --git a/hw/virtio/vhost.c b/hw/virtio/vhost.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/virtio/vhost.c
 +++ b/hw/virtio/vhost.c
@@ -XXX,XX +XXX,XX @@ int vhost_device_iotlb_miss(struct vhost_dev *dev, uint64_t iova, int write)
      trace_vhost_iotlb_miss(dev, 1);
      iotlb = address_space_get_iotlb_entry(dev->vdev->dma_as,
 -                                          iova, write);
 +                                          iova, write,
 +                                          MEMTXATTRS_UNSPECIFIED);
      if (iotlb.target_as != NULL) {
          ret = vhost_memory_region_lookup(dev, iotlb.translated_addr,
                                           &uaddr, &len);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 15/25] Make flatview_extend_translation() take a MemTxAttrs argument
+[PULL 29/43] target/arm: Enforce alignment for SRS
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to flatview_extend_translation().
 Its callers either have an attrs value to hand, or don't care
 and can use MEMTXATTRS_UNSPECIFIED.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-20-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-7-peter.maydell@linaro.org
 ---
- exec.c | 15 ++++++++++-----
+ target/arm/translate.c | 4 ++--
-file changed, 10 insertions(+), 5 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/exec.c b/exec.c
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+--- a/target/arm/translate.c
-+++ b/exec.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ bool address_space_access_valid(AddressSpace *as, hwaddr addr,
+@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
+     }
- static hwaddr
+     tcg_gen_addi_i32(addr, addr, offset);
- flatview_extend_translation(FlatView *fv, hwaddr addr,
+     tmp = load_reg(s, 14);
--                                 hwaddr target_len,
+-    gen_aa32_st32(s, tmp, addr, get_mem_index(s));
--                                 MemoryRegion *mr, hwaddr base, hwaddr len,
++    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
--                                 bool is_write)
+     tcg_temp_free_i32(tmp);
-+                            hwaddr target_len,
+     tmp = load_cpu_field(spsr);
-+                            MemoryRegion *mr, hwaddr base, hwaddr len,
+     tcg_gen_addi_i32(addr, addr, 4);
-+                            bool is_write, MemTxAttrs attrs)
+-    gen_aa32_st32(s, tmp, addr, get_mem_index(s));
- {
++    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     hwaddr done = 0;
+     tcg_temp_free_i32(tmp);
-     hwaddr xlat;
+     if (writeback) {
-@@ -XXX,XX +XXX,XX @@ void *address_space_map(AddressSpace *as,
+         switch (amode) {
      memory_region_ref(mr);
      *plen = flatview_extend_translation(fv, addr, len, mr, xlat,
 -                                             l, is_write);
 +                                        l, is_write, attrs);
      ptr = qemu_ram_ptr_length(mr->ram_block, xlat, plen, true);
      rcu_read_unlock();
@@ -XXX,XX +XXX,XX @@ int64_t address_space_cache_init(MemoryRegionCache *cache,
      mr = cache->mrs.mr;
      memory_region_ref(mr);
      if (memory_access_is_direct(mr, is_write)) {
 +        /* We don't care about the memory attributes here as we're only
 +         * doing this if we found actual RAM, which behaves the same
 +         * regardless of attributes; so UNSPECIFIED is fine.
 +         */
          l = flatview_extend_translation(cache->fv, addr, len, mr,
 -                                        cache->xlat, l, is_write);
 +                                        cache->xlat, l, is_write,
 +                                        MEMTXATTRS_UNSPECIFIED);
          cache->ptr = qemu_ram_ptr_length(mr->ram_block, cache->xlat, &l, true);
      } else {
          cache->ptr = NULL;
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 12/25] Make address_space_translate{, _cached}() take a MemTxAttrs argument
+[PULL 30/43] target/arm: Enforce alignment for VLDM/VSTM
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to address_space_translate()
 and address_space_translate_cached(). Callers either have an
 attrs value to hand, or don't care and can use MEMTXATTRS_UNSPECIFIED.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-21-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-4-peter.maydell@linaro.org
 ---
- include/exec/memory.h     |  4 +++-
+ target/arm/translate-vfp.c.inc | 8 ++++----
- accel/tcg/translate-all.c |  2 +-
+file changed, 4 insertions(+), 4 deletions(-)
  exec.c                    | 14 +++++++++-----
  hw/vfio/common.c          |  3 ++-
  memory_ldst.inc.c         | 18 +++++++++---------
  target/riscv/helper.c     |  2 +-
 files changed, 25 insertions(+), 18 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/target/arm/translate-vfp.c.inc
-+++ b/include/exec/memory.h
++++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_sp(DisasContext *s, arg_VLDM_VSTM_sp *a)
-  * #MemoryRegion.
+     for (i = 0; i < n; i++) {
-  * @len: pointer to length
+         if (a->l) {
-  * @is_write: indicates the transfer direction
+             /* load */
-+ * @attrs: memory attributes
+-            gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-  */
++            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
- MemoryRegion *flatview_translate(FlatView *fv,
+             vfp_store_reg32(tmp, a->vd + i);
-                                  hwaddr addr, hwaddr *xlat,
+         } else {
-@@ -XXX,XX +XXX,XX @@ MemoryRegion *flatview_translate(FlatView *fv,
+             /* store */
+             vfp_load_reg32(tmp, a->vd + i);
- static inline MemoryRegion *address_space_translate(AddressSpace *as,
+-            gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-                                                     hwaddr addr, hwaddr *xlat,
++            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
--                                                    hwaddr *len, bool is_write)
+         }
-+                                                    hwaddr *len, bool is_write,
+         tcg_gen_addi_i32(addr, addr, offset);
-+                                                    MemTxAttrs attrs)
+     }
- {
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_dp(DisasContext *s, arg_VLDM_VSTM_dp *a)
-     return flatview_translate(address_space_to_flatview(as),
+     for (i = 0; i < n; i++) {
-                               addr, xlat, len, is_write);
+         if (a->l) {
-diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
+             /* load */
-index XXXXXXX..XXXXXXX 100644
+-            gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
---- a/accel/tcg/translate-all.c
++            gen_aa32_ld_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-+++ b/accel/tcg/translate-all.c
+             vfp_store_reg64(tmp, a->vd + i);
-@@ -XXX,XX +XXX,XX @@ void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr, MemTxAttrs attrs)
+         } else {
-     hwaddr l = 1;
+             /* store */
+             vfp_load_reg64(tmp, a->vd + i);
-     rcu_read_lock();
+-            gen_aa32_st64(s, tmp, addr, get_mem_index(s));
--    mr = address_space_translate(as, addr, &addr, &l, false);
++            gen_aa32_st_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-+    mr = address_space_translate(as, addr, &addr, &l, false, attrs);
+         }
-     if (!(memory_region_is_ram(mr)
+         tcg_gen_addi_i32(addr, addr, offset);
-           || memory_region_is_romd(mr))) {
+     }
          rcu_read_unlock();
 diff --git a/exec.c b/exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/exec.c
 +++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static inline void cpu_physical_memory_write_rom_internal(AddressSpace *as,
      rcu_read_lock();
      while (len > 0) {
          l = len;
 -        mr = address_space_translate(as, addr, &addr1, &l, true);
 +        mr = address_space_translate(as, addr, &addr1, &l, true,
 +                                     MEMTXATTRS_UNSPECIFIED);
          if (!(memory_region_is_ram(mr) ||
                memory_region_is_romd(mr))) {
@@ -XXX,XX +XXX,XX @@ void address_space_cache_destroy(MemoryRegionCache *cache)
   */
  static inline MemoryRegion *address_space_translate_cached(
      MemoryRegionCache *cache, hwaddr addr, hwaddr *xlat,
 -    hwaddr *plen, bool is_write)
 +    hwaddr *plen, bool is_write, MemTxAttrs attrs)
  {
      MemoryRegionSection section;
      MemoryRegion *mr;
@@ -XXX,XX +XXX,XX @@ address_space_read_cached_slow(MemoryRegionCache *cache, hwaddr addr,
      MemoryRegion *mr;
      l = len;
 -    mr = address_space_translate_cached(cache, addr, &addr1, &l, false);
 +    mr = address_space_translate_cached(cache, addr, &addr1, &l, false,
 +                                        MEMTXATTRS_UNSPECIFIED);
      flatview_read_continue(cache->fv,
                             addr, MEMTXATTRS_UNSPECIFIED, buf, len,
                             addr1, l, mr);
@@ -XXX,XX +XXX,XX @@ address_space_write_cached_slow(MemoryRegionCache *cache, hwaddr addr,
      MemoryRegion *mr;
      l = len;
 -    mr = address_space_translate_cached(cache, addr, &addr1, &l, true);
 +    mr = address_space_translate_cached(cache, addr, &addr1, &l, true,
 +                                        MEMTXATTRS_UNSPECIFIED);
      flatview_write_continue(cache->fv,
                              addr, MEMTXATTRS_UNSPECIFIED, buf, len,
                              addr1, l, mr);
@@ -XXX,XX +XXX,XX @@ bool cpu_physical_memory_is_io(hwaddr phys_addr)
      rcu_read_lock();
      mr = address_space_translate(&address_space_memory,
 -                                 phys_addr, &phys_addr, &l, false);
 +                                 phys_addr, &phys_addr, &l, false,
 +                                 MEMTXATTRS_UNSPECIFIED);
      res = !(memory_region_is_ram(mr) || memory_region_is_romd(mr));
      rcu_read_unlock();
 diff --git a/hw/vfio/common.c b/hw/vfio/common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/vfio/common.c
 +++ b/hw/vfio/common.c
@@ -XXX,XX +XXX,XX @@ static bool vfio_get_vaddr(IOMMUTLBEntry *iotlb, void **vaddr,
       */
      mr = address_space_translate(&address_space_memory,
                                   iotlb->translated_addr,
 -                                 &xlat, &len, writable);
 +                                 &xlat, &len, writable,
 +                                 MEMTXATTRS_UNSPECIFIED);
      if (!memory_region_is_ram(mr)) {
          error_report("iommu map to non memory area %"HWADDR_PRIx"",
                       xlat);
 diff --git a/memory_ldst.inc.c b/memory_ldst.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/memory_ldst.inc.c
 +++ b/memory_ldst.inc.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t glue(address_space_ldl_internal, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, false);
 +    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
      if (l < 4 || !IS_DIRECT(mr, false)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ static inline uint64_t glue(address_space_ldq_internal, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, false);
 +    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
      if (l < 8 || !IS_DIRECT(mr, false)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ uint32_t glue(address_space_ldub, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, false);
 +    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
      if (!IS_DIRECT(mr, false)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ static inline uint32_t glue(address_space_lduw_internal, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, false);
 +    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
      if (l < 2 || !IS_DIRECT(mr, false)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ void glue(address_space_stl_notdirty, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, true);
 +    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
      if (l < 4 || !IS_DIRECT(mr, true)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ static inline void glue(address_space_stl_internal, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, true);
 +    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
      if (l < 4 || !IS_DIRECT(mr, true)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ void glue(address_space_stb, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, true);
 +    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
      if (!IS_DIRECT(mr, true)) {
          release_lock |= prepare_mmio_access(mr);
          r = memory_region_dispatch_write(mr, addr1, val, 1, attrs);
@@ -XXX,XX +XXX,XX @@ static inline void glue(address_space_stw_internal, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, true);
 +    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
      if (l < 2 || !IS_DIRECT(mr, true)) {
          release_lock |= prepare_mmio_access(mr);
@@ -XXX,XX +XXX,XX @@ static void glue(address_space_stq_internal, SUFFIX)(ARG1_DECL,
      bool release_lock = false;
      RCU_READ_LOCK();
 -    mr = TRANSLATE(addr, &addr1, &l, true);
 +    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
      if (l < 8 || !IS_DIRECT(mr, true)) {
          release_lock |= prepare_mmio_access(mr);
 diff --git a/target/riscv/helper.c b/target/riscv/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/helper.c
 +++ b/target/riscv/helper.c
@@ -XXX,XX +XXX,XX @@ restart:
                  MemoryRegion *mr;
                  hwaddr l = sizeof(target_ulong), addr1;
                  mr = address_space_translate(cs->as, pte_addr,
 -                    &addr1, &l, false);
 +                    &addr1, &l, false, MEMTXATTRS_UNSPECIFIED);
                  if (memory_access_is_direct(mr, true)) {
                      target_ulong *pte_pa =
                          qemu_map_ram_ptr(mr->ram_block, addr1);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 03/25] hw/intc/arm_gicv3: Fix APxR<n> register dispatching
+[PULL 31/43] target/arm: Enforce alignment for VLDR/VSTR
-From: Jan Kiszka <jan.kiszka@siemens.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-There was a nasty flip in identifying which register group an access is
-targeting. The issue caused spuriously raised priorities of the guest
-when handing CPUs over in the Jailhouse hypervisor.
-Cc: qemu-stable@nongnu.org
-Signed-off-by: Jan Kiszka <jan.kiszka@siemens.com>
-Message-id: 28b927d3-da58-bce4-cc13-bfec7f9b1cb9@siemens.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-22-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/intc/arm_gicv3_cpuif.c | 12 ++++++------
+ target/arm/translate-vfp.c.inc | 12 ++++++------
 file changed, 6 insertions(+), 6 deletions(-)
-diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
+diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_cpuif.c
+--- a/target/arm/translate-vfp.c.inc
-+++ b/hw/intc/arm_gicv3_cpuif.c
++++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static uint64_t icv_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_hp(DisasContext *s, arg_VLDR_VSTR_sp *a)
- {
+     addr = add_reg_for_lit(s, a->rn, offset);
-     GICv3CPUState *cs = icc_cs_from_env(env);
+     tmp = tcg_temp_new_i32();
-     int regno = ri->opc2 & 3;
+     if (a->l) {
--    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+-        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
++        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UW | MO_ALIGN);
-     uint64_t value = cs->ich_apr[grp][regno];
+         vfp_store_reg32(tmp, a->vd);
+     } else {
-     trace_gicv3_icv_ap_read(ri->crm & 1, regno, gicv3_redist_affid(cs), value);
+         vfp_load_reg32(tmp, a->vd);
-@@ -XXX,XX +XXX,XX @@ static void icv_ap_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-        gen_aa32_st16(s, tmp, addr, get_mem_index(s));
- {
++        gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UW | MO_ALIGN);
-     GICv3CPUState *cs = icc_cs_from_env(env);
+     }
-     int regno = ri->opc2 & 3;
+     tcg_temp_free_i32(tmp);
--    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+     tcg_temp_free_i32(addr);
-+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_sp(DisasContext *s, arg_VLDR_VSTR_sp *a)
+     addr = add_reg_for_lit(s, a->rn, offset);
-     trace_gicv3_icv_ap_write(ri->crm & 1, regno, gicv3_redist_affid(cs), value);
+     tmp = tcg_temp_new_i32();
+     if (a->l) {
-@@ -XXX,XX +XXX,XX @@ static uint64_t icc_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
+-        gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-     uint64_t value;
++        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
+         vfp_store_reg32(tmp, a->vd);
-     int regno = ri->opc2 & 3;
+     } else {
--    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1;
+         vfp_load_reg32(tmp, a->vd);
-+    int grp = (ri->crm & 1) ? GICV3_G1 : GICV3_G0;
+-        gen_aa32_st32(s, tmp, addr, get_mem_index(s));
++        gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     if (icv_access(env, grp == GICV3_G0 ? HCR_FMO : HCR_IMO)) {
+     }
-         return icv_ap_read(env, ri);
+     tcg_temp_free_i32(tmp);
-@@ -XXX,XX +XXX,XX @@ static void icc_ap_write(CPUARMState *env, const ARMCPRegInfo *ri,
+     tcg_temp_free_i32(addr);
-     GICv3CPUState *cs = icc_cs_from_env(env);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_dp(DisasContext *s, arg_VLDR_VSTR_dp *a)
+     addr = add_reg_for_lit(s, a->rn, offset);
-     int regno = ri->opc2 & 3;
+     tmp = tcg_temp_new_i64();
--    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1;
+     if (a->l) {
-+    int grp = (ri->crm & 1) ? GICV3_G1 : GICV3_G0;
+-        gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
++        gen_aa32_ld_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-     if (icv_access(env, grp == GICV3_G0 ? HCR_FMO : HCR_IMO)) {
+         vfp_store_reg64(tmp, a->vd);
-         icv_ap_write(env, ri, value);
+     } else {
-@@ -XXX,XX +XXX,XX @@ static uint64_t ich_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
+         vfp_load_reg64(tmp, a->vd);
- {
+-        gen_aa32_st64(s, tmp, addr, get_mem_index(s));
-     GICv3CPUState *cs = icc_cs_from_env(env);
++        gen_aa32_st_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-     int regno = ri->opc2 & 3;
+     }
--    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+     tcg_temp_free_i64(tmp);
-+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
+     tcg_temp_free_i32(addr);
      uint64_t value;
      value = cs->ich_apr[grp][regno];
@@ -XXX,XX +XXX,XX @@ static void ich_ap_write(CPUARMState *env, const ARMCPRegInfo *ri,
  {
      GICv3CPUState *cs = icc_cs_from_env(env);
      int regno = ri->opc2 & 3;
 -    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
 +    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
      trace_gicv3_ich_ap_write(ri->crm & 1, regno, gicv3_redist_affid(cs), value);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 08/25] xlnx-zdma: Correct mem leaks and memset to zero on desc unaligned errors
+[PULL 32/43] target/arm: Enforce alignment for VLDn (all lanes)
-From: Francisco Iglesias <frasse.iglesias@gmail.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-Coverity found that the string return by 'object_get_canonical_path' was not
-being freed at two locations in the model (CID 1391294 and CID 1391293) and
-also that a memset was being called with a value greater than the max of a byte
-on the second argument (CID 1391286). This patch corrects this by adding the
-freeing of the strings and also changing to memset to zero instead on
-descriptor unaligned errors.
-Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
-Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20180528184859.3530-1-frasse.iglesias@gmail.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-23-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/dma/xlnx-zdma.c | 10 +++++++---
+ target/arm/translate.h          |  1 +
-file changed, 7 insertions(+), 3 deletions(-)
+ target/arm/translate.c          | 15 +++++++++++++
  target/arm/translate-neon.c.inc | 37 +++++++++++++++++++++++++--------
 files changed, 44 insertions(+), 9 deletions(-)
-diff --git a/hw/dma/xlnx-zdma.c b/hw/dma/xlnx-zdma.c
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/dma/xlnx-zdma.c
+--- a/target/arm/translate.h
-+++ b/hw/dma/xlnx-zdma.c
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ static bool zdma_load_descriptor(XlnxZDMA *s, uint64_t addr, void *buf)
+@@ -XXX,XX +XXX,XX @@ void arm_test_cc(DisasCompare *cmp, int cc);
-         qemu_log_mask(LOG_GUEST_ERROR,
+ void arm_free_cc(DisasCompare *cmp);
-                       "zdma: unaligned descriptor at %" PRIx64,
+ void arm_jump_cc(DisasCompare *cmp, TCGLabel *label);
-                       addr);
+ void arm_gen_test_cc(int cc, TCGLabel *label);
--        memset(buf, 0xdeadbeef, sizeof(XlnxZDMADescr));
++MemOp pow2_align(unsigned i);
-+        memset(buf, 0x0, sizeof(XlnxZDMADescr));
-         s->error = true;
+ /* Return state of Alternate Half-precision flag, caller frees result */
  static inline TCGv_i32 get_ahp_flag(void)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
  #define IS_USER_ONLY 0
  #endif
 +MemOp pow2_align(unsigned i)
 +{
 +    static const MemOp mop_align[] = {
 +        0, MO_ALIGN_2, MO_ALIGN_4, MO_ALIGN_8, MO_ALIGN_16,
 +        /*
 +         * FIXME: TARGET_PAGE_BITS_MIN affects TLB_FLAGS_MASK such
 +         * that 256-bit alignment (MO_ALIGN_32) cannot be supported:
 +         * see get_alignment_bits(). Enforce only 128-bit alignment for now.
 +         */
 +        MO_ALIGN_16
 +    };
 +    g_assert(i < ARRAY_SIZE(mop_align));
 +    return mop_align[i];
 +}
 +
  /*
   * Abstractions of "generate code to do a guest load/store for
   * AArch32", where a vaddr is always 32 bits (and is zero
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
      int size = a->size;
      int nregs = a->n + 1;
      TCGv_i32 addr, tmp;
 +    MemOp mop, align;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
          return false;
      }
-@@ -XXX,XX +XXX,XX @@ static uint64_t zdma_read(void *opaque, hwaddr addr, unsigned size)
-     RegisterInfo *r = &s->regs_info[addr / 4];
++    align = 0;
+     if (size == 3) {
-     if (!r->data) {
+         if (nregs != 4 || a->a == 0) {
-+        gchar *path = object_get_canonical_path(OBJECT(s));
+             return false;
-         qemu_log("%s: Decode error: read from %" HWADDR_PRIx "\n",
+         }
--                 object_get_canonical_path(OBJECT(s)),
+         /* For VLD4 size == 3 a == 1 means 32 bits at 16 byte alignment */
-+                 path,
+-        size = 2;
-                  addr);
+-    }
-+        g_free(path);
+-    if (nregs == 1 && a->a == 1 && size == 0) {
-         ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
+-        return false;
-         zdma_ch_imr_update_irq(s);
+-    }
-         return 0;
+-    if (nregs == 3 && a->a == 1) {
-@@ -XXX,XX +XXX,XX @@ static void zdma_write(void *opaque, hwaddr addr, uint64_t value,
+-        return false;
-     RegisterInfo *r = &s->regs_info[addr / 4];
++        size = MO_32;
++        align = MO_ALIGN_16;
-     if (!r->data) {
++    } else if (a->a) {
-+        gchar *path = object_get_canonical_path(OBJECT(s));
++        switch (nregs) {
-         qemu_log("%s: Decode error: write to %" HWADDR_PRIx "=%" PRIx64 "\n",
++        case 1:
--                 object_get_canonical_path(OBJECT(s)),
++            if (size == 0) {
-+                 path,
++                return false;
-                  addr, value);
++            }
-+        g_free(path);
++            align = MO_ALIGN;
-         ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
++            break;
-         zdma_ch_imr_update_irq(s);
++        case 2:
-         return;
++            align = pow2_align(size + 1);
 +            break;
 +        case 3:
 +            return false;
 +        case 4:
 +            align = pow2_align(size + 2);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
      }
      if (!vfp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
       */
      stride = a->t ? 2 : 1;
      vec_size = nregs == 1 ? stride * 8 : 8;
 -
 +    mop = size | align;
      tmp = tcg_temp_new_i32();
      addr = tcg_temp_new_i32();
      load_reg_var(s, addr, a->rn);
      for (reg = 0; reg < nregs; reg++) {
 -        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), size);
 +        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
          if ((vd & 1) && vec_size == 16) {
              /*
               * We cannot write 16 bytes at once because the
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
          }
          tcg_gen_addi_i32(addr, addr, 1 << size);
          vd += stride;
 +
 +        /* Subsequent memory operations inherit alignment */
 +        mop &= ~MO_AMASK;
      }
      tcg_temp_free_i32(tmp);
      tcg_temp_free_i32(addr);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 13/25] Make address_space_map() take a MemTxAttrs argument
+[PULL 33/43] target/arm: Enforce alignment for VLDn/VSTn (multiple)
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to address_space_map().
 Its callers either have an attrs value to hand, or don't care
 and can use MEMTXATTRS_UNSPECIFIED.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-24-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-5-peter.maydell@linaro.org
 ---
- include/exec/memory.h   | 3 ++-
+ target/arm/translate-neon.c.inc | 27 ++++++++++++++++++++++-----
- include/sysemu/dma.h    | 3 ++-
+file changed, 22 insertions(+), 5 deletions(-)
  exec.c                  | 6 ++++--
  target/ppc/mmu-hash64.c | 3 ++-
 files changed, 10 insertions(+), 5 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/target/arm/translate-neon.c.inc
-+++ b/include/exec/memory.h
++++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ bool address_space_access_valid(AddressSpace *as, hwaddr addr, int len, bool is_
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
   * @addr: address within that address space
   * @plen: pointer to length of buffer; updated on return
   * @is_write: indicates the transfer direction
 + * @attrs: memory attributes
   */
  void *address_space_map(AddressSpace *as, hwaddr addr,
 -                        hwaddr *plen, bool is_write);
 +                        hwaddr *plen, bool is_write, MemTxAttrs attrs);
  /* address_space_unmap: Unmaps a memory region previously mapped by address_space_map()
   *
 diff --git a/include/sysemu/dma.h b/include/sysemu/dma.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/sysemu/dma.h
 +++ b/include/sysemu/dma.h
@@ -XXX,XX +XXX,XX @@ static inline void *dma_memory_map(AddressSpace *as,
      hwaddr xlen = *len;
      void *p;
 -    p = address_space_map(as, addr, &xlen, dir == DMA_DIRECTION_FROM_DEVICE);
 +    p = address_space_map(as, addr, &xlen, dir == DMA_DIRECTION_FROM_DEVICE,
 +                          MEMTXATTRS_UNSPECIFIED);
      *len = xlen;
      return p;
  }
 diff --git a/exec.c b/exec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/exec.c
 +++ b/exec.c
@@ -XXX,XX +XXX,XX @@ flatview_extend_translation(FlatView *fv, hwaddr addr,
  void *address_space_map(AddressSpace *as,
                          hwaddr addr,
                          hwaddr *plen,
 -                        bool is_write)
 +                        bool is_write,
 +                        MemTxAttrs attrs)
  {
-     hwaddr len = *plen;
+     /* Neon load/store multiple structures */
-     hwaddr l, xlat;
+     int nregs, interleave, spacing, reg, n;
-@@ -XXX,XX +XXX,XX @@ void *cpu_physical_memory_map(hwaddr addr,
+-    MemOp endian = s->be_data;
-                               hwaddr *plen,
++    MemOp mop, align, endian;
-                               int is_write)
+     int mmu_idx = get_mem_index(s);
- {
+     int size = a->size;
--    return address_space_map(&address_space_memory, addr, plen, is_write);
+     TCGv_i64 tmp64;
-+    return address_space_map(&address_space_memory, addr, plen, is_write,
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
 +                             MEMTXATTRS_UNSPECIFIED);
  }
  void cpu_physical_memory_unmap(void *buffer, hwaddr len,
 diff --git a/target/ppc/mmu-hash64.c b/target/ppc/mmu-hash64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/mmu-hash64.c
 +++ b/target/ppc/mmu-hash64.c
@@ -XXX,XX +XXX,XX @@ const ppc_hash_pte64_t *ppc_hash64_map_hptes(PowerPCCPU *cpu,
          return NULL;
      }
--    hptes = address_space_map(CPU(cpu)->as, base + pte_offset, &plen, false);
+     /* For our purposes, bytes are always little-endian.  */
-+    hptes = address_space_map(CPU(cpu)->as, base + pte_offset, &plen, false,
++    endian = s->be_data;
-+                              MEMTXATTRS_UNSPECIFIED);
+     if (size == 0) {
-     if (plen < (n * HASH_PTE_SIZE_64)) {
+         endian = MO_LE;
-         hw_error("%s: Unable to map all requested HPTEs\n", __func__);
+     }
 +
 +    /* Enforce alignment requested by the instruction */
 +    if (a->align) {
 +        align = pow2_align(a->align + 2); /* 4 ** a->align */
 +    } else {
 +        align = s->align_mem ? MO_ALIGN : 0;
 +    }
 +
      /*
       * Consecutive little-endian elements from a single register
       * can be promoted to a larger little-endian operation.
       */
      if (interleave == 1 && endian == MO_LE) {
 +        /* Retain any natural alignment. */
 +        if (align == MO_ALIGN) {
 +            align = pow2_align(size);
 +        }
          size = 3;
      }
 +
      tmp64 = tcg_temp_new_i64();
      addr = tcg_temp_new_i32();
      tmp = tcg_const_i32(1 << size);
      load_reg_var(s, addr, a->rn);
 +
 +    mop = endian | size | align;
      for (reg = 0; reg < nregs; reg++) {
          for (n = 0; n < 8 >> size; n++) {
              int xs;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
                  int tt = a->vd + reg + spacing * xs;
                  if (a->l) {
 -                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx,
 -                                             endian | size);
 +                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx, mop);
                      neon_store_element64(tt, n, size, tmp64);
                  } else {
                      neon_load_element64(tmp64, tt, n, size);
 -                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx,
 -                                             endian | size);
 +                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx, mop);
                  }
                  tcg_gen_add_i32(addr, addr, tmp);
 +
 +                /* Subsequent memory operations inherit alignment */
 +                mop &= ~MO_AMASK;
              }
          }
      }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 07/25] arm: fix malloc type mismatch
+[PULL 34/43] target/arm: Enforce alignment for VLDn/VSTn (single)
-From: Paolo Bonzini <pbonzini@redhat.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-cpregs_keys is an uint32_t* so the allocation should use uint32_t.
-g_new is even better because it is type-safe.
-Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-25-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/gdbstub.c | 3 +--
+ target/arm/translate-neon.c.inc | 48 ++++++++++++++++++++++++++++-----
-file changed, 1 insertion(+), 2 deletions(-)
+file changed, 42 insertions(+), 6 deletions(-)
-diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
+diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/gdbstub.c
+--- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/gdbstub.c
++++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ int arm_gen_dynamic_xml(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
-     RegisterSysregXmlParam param = {cs, s};
+     int nregs = a->n + 1;
+     int vd = a->vd;
-     cpu->dyn_xml.num_cpregs = 0;
+     TCGv_i32 addr, tmp;
--    cpu->dyn_xml.cpregs_keys = g_malloc(sizeof(uint32_t *) *
++    MemOp mop;
--                                        g_hash_table_size(cpu->cp_regs));
-+    cpu->dyn_xml.cpregs_keys = g_new(uint32_t, g_hash_table_size(cpu->cp_regs));
+     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-     g_string_printf(s, "<?xml version=\"1.0\"?>");
+         return false;
-     g_string_append_printf(s, "<!DOCTYPE target SYSTEM \"gdb-target.dtd\">");
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
-     g_string_append_printf(s, "<feature name=\"org.qemu.gdb.arm.sys.regs\">");
+         return true;
      }
 +    /* Pick up SCTLR settings */
 +    mop = finalize_memop(s, a->size);
 +
 +    if (a->align) {
 +        MemOp align_op;
 +
 +        switch (nregs) {
 +        case 1:
 +            /* For VLD1, use natural alignment. */
 +            align_op = MO_ALIGN;
 +            break;
 +        case 2:
 +            /* For VLD2, use double alignment. */
 +            align_op = pow2_align(a->size + 1);
 +            break;
 +        case 4:
 +            if (a->size == MO_32) {
 +                /*
 +                 * For VLD4.32, align = 1 is double alignment, align = 2 is
 +                 * quad alignment; align = 3 is rejected above.
 +                 */
 +                align_op = pow2_align(a->size + a->align);
 +            } else {
 +                /* For VLD4.8 and VLD.16, we want quad alignment. */
 +                align_op = pow2_align(a->size + 2);
 +            }
 +            break;
 +        default:
 +            /* For VLD3, the alignment field is zero and rejected above. */
 +            g_assert_not_reached();
 +        }
 +
 +        mop = (mop & ~MO_AMASK) | align_op;
 +    }
 +
      tmp = tcg_temp_new_i32();
      addr = tcg_temp_new_i32();
      load_reg_var(s, addr, a->rn);
 -    /*
 -     * TODO: if we implemented alignment exceptions, we should check
 -     * addr against the alignment encoded in a->align here.
 -     */
 +
      for (reg = 0; reg < nregs; reg++) {
          if (a->l) {
 -            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), a->size);
 +            gen_aa32_ld_internal_i32(s, tmp, addr, get_mem_index(s), mop);
              neon_store_element(vd, a->reg_idx, a->size, tmp);
          } else { /* Store */
              neon_load_element(tmp, vd, a->reg_idx, a->size);
 -            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), a->size);
 +            gen_aa32_st_internal_i32(s, tmp, addr, get_mem_index(s), mop);
          }
          vd += a->stride;
          tcg_gen_addi_i32(addr, addr, 1 << a->size);
 +
 +        /* Subsequent memory operations inherit alignment */
 +        mop &= ~MO_AMASK;
      }
      tcg_temp_free_i32(addr);
      tcg_temp_free_i32(tmp);
 --
-.17.1
+.20.1

-New patch
+[PULL 35/43] target/arm: Use finalize_memop for aa64 gpr load/store
+From: Richard Henderson <richard.henderson@linaro.org>
 In the case of gpr load, merge the size and is_signed arguments;
 otherwise, simply convert size to memop.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-26-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/translate-a64.c | 78 ++++++++++++++++----------------------
 file changed, 33 insertions(+), 45 deletions(-)
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_adc_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
   * Store from GPR register to memory.
   */
  static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
 -                             TCGv_i64 tcg_addr, int size, int memidx,
 +                             TCGv_i64 tcg_addr, MemOp memop, int memidx,
                               bool iss_valid,
                               unsigned int iss_srt,
                               bool iss_sf, bool iss_ar)
  {
 -    g_assert(size <= 3);
 -    tcg_gen_qemu_st_i64(source, tcg_addr, memidx, s->be_data + size);
 +    memop = finalize_memop(s, memop);
 +    tcg_gen_qemu_st_i64(source, tcg_addr, memidx, memop);
      if (iss_valid) {
          uint32_t syn;
          syn = syn_data_abort_with_iss(0,
 -                                      size,
 +                                      (memop & MO_SIZE),
                                        false,
                                        iss_srt,
                                        iss_sf,
@@ -XXX,XX +XXX,XX @@ static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
  }
  static void do_gpr_st(DisasContext *s, TCGv_i64 source,
 -                      TCGv_i64 tcg_addr, int size,
 +                      TCGv_i64 tcg_addr, MemOp memop,
                        bool iss_valid,
                        unsigned int iss_srt,
                        bool iss_sf, bool iss_ar)
  {
 -    do_gpr_st_memidx(s, source, tcg_addr, size, get_mem_index(s),
 +    do_gpr_st_memidx(s, source, tcg_addr, memop, get_mem_index(s),
                       iss_valid, iss_srt, iss_sf, iss_ar);
  }
  /*
   * Load from memory to GPR register
   */
 -static void do_gpr_ld_memidx(DisasContext *s,
 -                             TCGv_i64 dest, TCGv_i64 tcg_addr,
 -                             int size, bool is_signed,
 -                             bool extend, int memidx,
 +static void do_gpr_ld_memidx(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 +                             MemOp memop, bool extend, int memidx,
                               bool iss_valid, unsigned int iss_srt,
                               bool iss_sf, bool iss_ar)
  {
 -    MemOp memop = s->be_data + size;
 -
 -    g_assert(size <= 3);
 -
 -    if (is_signed) {
 -        memop += MO_SIGN;
 -    }
 -
 +    memop = finalize_memop(s, memop);
      tcg_gen_qemu_ld_i64(dest, tcg_addr, memidx, memop);
 -    if (extend && is_signed) {
 -        g_assert(size < 3);
 +    if (extend && (memop & MO_SIGN)) {
 +        g_assert((memop & MO_SIZE) <= MO_32);
          tcg_gen_ext32u_i64(dest, dest);
      }
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld_memidx(DisasContext *s,
          uint32_t syn;
          syn = syn_data_abort_with_iss(0,
 -                                      size,
 -                                      is_signed,
 +                                      (memop & MO_SIZE),
 +                                      (memop & MO_SIGN) != 0,
                                        iss_srt,
                                        iss_sf,
                                        iss_ar,
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld_memidx(DisasContext *s,
      }
  }
 -static void do_gpr_ld(DisasContext *s,
 -                      TCGv_i64 dest, TCGv_i64 tcg_addr,
 -                      int size, bool is_signed, bool extend,
 +static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 +                      MemOp memop, bool extend,
                        bool iss_valid, unsigned int iss_srt,
                        bool iss_sf, bool iss_ar)
  {
 -    do_gpr_ld_memidx(s, dest, tcg_addr, size, is_signed, extend,
 -                     get_mem_index(s),
 +    do_gpr_ld_memidx(s, dest, tcg_addr, memop, extend, get_mem_index(s),
                       iss_valid, iss_srt, iss_sf, iss_ar);
  }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
          }
          clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
                                      false, rn != 31, size);
 -        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, false, true, rt,
 +        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, true, rt,
                    disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_ld_lit(DisasContext *s, uint32_t insn)
          /* Only unsigned 32bit loads target 32bit registers.  */
          bool iss_sf = opc != 0;
 -        do_gpr_ld(s, tcg_rt, clean_addr, size, is_signed, false,
 -                  true, rt, iss_sf, false);
 +        do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
 +                  false, true, rt, iss_sf, false);
      }
      tcg_temp_free_i64(clean_addr);
  }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pair(DisasContext *s, uint32_t insn)
              /* Do not modify tcg_rt before recognizing any exception
               * from the second load.
               */
 -            do_gpr_ld(s, tmp, clean_addr, size, is_signed, false,
 -                      false, 0, false, false);
 +            do_gpr_ld(s, tmp, clean_addr, size + is_signed * MO_SIGN,
 +                      false, false, 0, false, false);
              tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
 -            do_gpr_ld(s, tcg_rt2, clean_addr, size, is_signed, false,
 -                      false, 0, false, false);
 +            do_gpr_ld(s, tcg_rt2, clean_addr, size + is_signed * MO_SIGN,
 +                      false, false, 0, false, false);
              tcg_gen_mov_i64(tcg_rt, tmp);
              tcg_temp_free_i64(tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_imm9(DisasContext *s, uint32_t insn,
              do_gpr_st_memidx(s, tcg_rt, clean_addr, size, memidx,
                               iss_valid, rt, iss_sf, false);
          } else {
 -            do_gpr_ld_memidx(s, tcg_rt, clean_addr, size,
 -                             is_signed, is_extended, memidx,
 +            do_gpr_ld_memidx(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
 +                             is_extended, memidx,
                               iss_valid, rt, iss_sf, false);
          }
      }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_roffset(DisasContext *s, uint32_t insn,
              do_gpr_st(s, tcg_rt, clean_addr, size,
                        true, rt, iss_sf, false);
          } else {
 -            do_gpr_ld(s, tcg_rt, clean_addr, size,
 -                      is_signed, is_extended,
 -                      true, rt, iss_sf, false);
 +            do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
 +                      is_extended, true, rt, iss_sf, false);
          }
      }
  }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_unsigned_imm(DisasContext *s, uint32_t insn,
              do_gpr_st(s, tcg_rt, clean_addr, size,
                        true, rt, iss_sf, false);
          } else {
 -            do_gpr_ld(s, tcg_rt, clean_addr, size, is_signed, is_extended,
 -                      true, rt, iss_sf, false);
 +            do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
 +                      is_extended, true, rt, iss_sf, false);
          }
      }
  }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
           * full load-acquire (we only need "load-acquire processor consistent"),
           * but we choose to implement them as full LDAQ.
           */
 -        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, false,
 +        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false,
                    true, rt, disas_ldst_compute_iss_sf(size, false, 0), true);
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pac(DisasContext *s, uint32_t insn,
                                  is_wback || rn != 31, size);
      tcg_rt = cpu_reg(s, rt);
 -    do_gpr_ld(s, tcg_rt, clean_addr, size, /* is_signed */ false,
 +    do_gpr_ld(s, tcg_rt, clean_addr, size,
                /* extend */ false, /* iss_valid */ !is_wback,
                /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
           * Load-AcquirePC semantics; we implement as the slightly more
           * restrictive Load-Acquire.
           */
 -        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, is_signed, extend,
 -                  true, rt, iss_sf, true);
 +        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size + is_signed * MO_SIGN,
 +                  extend, true, rt, iss_sf, true);
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
      }
  }
 --
 .20.1

-[Qemu-devel] [PULL 01/25] target/arm: Honour FPCR.FZ in FRECPX
+[PULL 36/43] target/arm: Use finalize_memop for aa64 fpr load/store
-The FRECPX instructions should (like most other floating point operations)
+From: Richard Henderson <richard.henderson@linaro.org>
 honour the FPCR.FZ bit which specifies whether input denormals should
 be flushed to zero (or FZ16 for the half-precision version).
 We forgot to implement this, which doesn't affect the results (since
 the calculation doesn't actually care about the mantissa bits) but did
 mean we were failing to set the FPSR.IDC bit.
+For 128-bit load/store, use 16-byte alignment.  This
+requires that we perform the two operations in the
+correct order so that we generate the alignment fault
+before modifying memory.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-27-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521172712.19930-1-peter.maydell@linaro.org
 ---
- target/arm/helper-a64.c | 6 ++++++
+ target/arm/translate-a64.c | 42 +++++++++++++++++++++++---------------
-file changed, 6 insertions(+)
+file changed, 26 insertions(+), 16 deletions(-)
-diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.c
+--- a/target/arm/translate-a64.c
-+++ b/target/arm/helper-a64.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ float16 HELPER(frecpx_f16)(float16 a, void *fpstp)
+@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
-         return nan;
+ static void do_fp_st(DisasContext *s, int srcidx, TCGv_i64 tcg_addr, int size)
  {
      /* This writes the bottom N bits of a 128 bit wide vector to memory */
 -    TCGv_i64 tmp = tcg_temp_new_i64();
 -    tcg_gen_ld_i64(tmp, cpu_env, fp_reg_offset(s, srcidx, MO_64));
 +    TCGv_i64 tmplo = tcg_temp_new_i64();
 +    MemOp mop;
 +
 +    tcg_gen_ld_i64(tmplo, cpu_env, fp_reg_offset(s, srcidx, MO_64));
 +
      if (size < 4) {
 -        tcg_gen_qemu_st_i64(tmp, tcg_addr, get_mem_index(s),
 -                            s->be_data + size);
 +        mop = finalize_memop(s, size);
 +        tcg_gen_qemu_st_i64(tmplo, tcg_addr, get_mem_index(s), mop);
      } else {
          bool be = s->be_data == MO_BE;
          TCGv_i64 tcg_hiaddr = tcg_temp_new_i64();
 +        TCGv_i64 tmphi = tcg_temp_new_i64();
 +        tcg_gen_ld_i64(tmphi, cpu_env, fp_reg_hi_offset(s, srcidx));
 +
 +        mop = s->be_data | MO_Q;
 +        tcg_gen_qemu_st_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
 +                            mop | (s->align_mem ? MO_ALIGN_16 : 0));
          tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 -        tcg_gen_qemu_st_i64(tmp, be ? tcg_hiaddr : tcg_addr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 -        tcg_gen_ld_i64(tmp, cpu_env, fp_reg_hi_offset(s, srcidx));
 -        tcg_gen_qemu_st_i64(tmp, be ? tcg_addr : tcg_hiaddr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 +        tcg_gen_qemu_st_i64(be ? tmplo : tmphi, tcg_hiaddr,
 +                            get_mem_index(s), mop);
 +
          tcg_temp_free_i64(tcg_hiaddr);
 +        tcg_temp_free_i64(tmphi);
      }
-+    a = float16_squash_input_denormal(a, fpst);
+-    tcg_temp_free_i64(tmp);
-+
++    tcg_temp_free_i64(tmplo);
-     val16 = float16_val(a);
+ }
-     sbit = 0x8000 & val16;
-     exp = extract32(val16, 10, 5);
+ /*
-@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
+@@ -XXX,XX +XXX,XX @@ static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
-         return nan;
+     /* This always zero-extends and writes to a full 128 bit wide vector */
      TCGv_i64 tmplo = tcg_temp_new_i64();
      TCGv_i64 tmphi = NULL;
 +    MemOp mop;
      if (size < 4) {
 -        MemOp memop = s->be_data + size;
 -        tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), memop);
 +        mop = finalize_memop(s, size);
 +        tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), mop);
      } else {
          bool be = s->be_data == MO_BE;
          TCGv_i64 tcg_hiaddr;
@@ -XXX,XX +XXX,XX @@ static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
          tmphi = tcg_temp_new_i64();
          tcg_hiaddr = tcg_temp_new_i64();
 +        mop = s->be_data | MO_Q;
 +        tcg_gen_qemu_ld_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
 +                            mop | (s->align_mem ? MO_ALIGN_16 : 0));
          tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 -        tcg_gen_qemu_ld_i64(tmplo, be ? tcg_hiaddr : tcg_addr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 -        tcg_gen_qemu_ld_i64(tmphi, be ? tcg_addr : tcg_hiaddr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 +        tcg_gen_qemu_ld_i64(be ? tmplo : tmphi, tcg_hiaddr,
 +                            get_mem_index(s), mop);
          tcg_temp_free_i64(tcg_hiaddr);
      }
-+    a = float32_squash_input_denormal(a, fpst);
-+
-     val32 = float32_val(a);
-     sbit = 0x80000000ULL & val32;
-     exp = extract32(val32, 23, 8);
-@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
-         return nan;
-     }
-+    a = float64_squash_input_denormal(a, fpst);
-+
-     val64 = float64_val(a);
-     sbit = 0x8000000000000000ULL & val64;
-     exp = extract64(float64_val(a), 52, 11);
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 14/25] Make address_space_access_valid() take a MemTxAttrs argument
+[PULL 37/43] target/arm: Enforce alignment for aa64 load-acq/store-rel
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to address_space_access_valid().
 Its callers either have an attrs value to hand, or don't care
 and can use MEMTXATTRS_UNSPECIFIED.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-28-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-6-peter.maydell@linaro.org
 ---
- include/exec/memory.h      | 4 +++-
+ target/arm/translate-a64.c | 23 ++++++++++++++---------
- include/sysemu/dma.h       | 3 ++-
+file changed, 14 insertions(+), 9 deletions(-)
  exec.c                     | 3 ++-
  target/s390x/diag.c        | 6 ++++--
  target/s390x/excp_helper.c | 3 ++-
  target/s390x/mmu_helper.c  | 3 ++-
  target/s390x/sigp.c        | 3 ++-
 files changed, 17 insertions(+), 8 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/target/arm/translate-a64.c
-+++ b/include/exec/memory.h
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static inline MemoryRegion *address_space_translate(AddressSpace *as,
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
-  * @addr: address within that address space
+         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
-  * @len: length of the area to be checked
+         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
-  * @is_write: indicates the transfer direction
+                                     true, rn != 31, size);
-+ * @attrs: memory attributes
+-        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size, true, rt,
-  */
++        /* TODO: ARMv8.4-LSE SCTLR.nAA */
--bool address_space_access_valid(AddressSpace *as, hwaddr addr, int len, bool is_write);
++        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, true, rt,
-+bool address_space_access_valid(AddressSpace *as, hwaddr addr, int len,
+                   disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
-+                                bool is_write, MemTxAttrs attrs);
+         return;
- /* address_space_map: map a physical memory region into a host virtual address
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
-  *
+         }
-diff --git a/include/sysemu/dma.h b/include/sysemu/dma.h
+         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
-index XXXXXXX..XXXXXXX 100644
+                                     false, rn != 31, size);
---- a/include/sysemu/dma.h
+-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, true, rt,
-+++ b/include/sysemu/dma.h
+-                  disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
-@@ -XXX,XX +XXX,XX @@ static inline bool dma_memory_valid(AddressSpace *as,
++        /* TODO: ARMv8.4-LSE SCTLR.nAA */
-                                     DMADirection dir)
++        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, false, true,
- {
++                  rt, disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
-     return address_space_access_valid(as, addr, len,
+         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
--                                      dir == DMA_DIRECTION_FROM_DEVICE);
+         return;
-+                                      dir == DMA_DIRECTION_FROM_DEVICE,
-+                                      MEMTXATTRS_UNSPECIFIED);
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
- }
+     int size = extract32(insn, 30, 2);
+     TCGv_i64 clean_addr, dirty_addr;
- static inline int dma_memory_rw_relaxed(AddressSpace *as, dma_addr_t addr,
+     bool is_store = false;
-diff --git a/exec.c b/exec.c
+-    bool is_signed = false;
-index XXXXXXX..XXXXXXX 100644
+     bool extend = false;
---- a/exec.c
+     bool iss_sf;
-+++ b/exec.c
++    MemOp mop;
-@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
- }
+     if (!dc_isar_feature(aa64_rcpc_8_4, s)) {
+         unallocated_encoding(s);
- bool address_space_access_valid(AddressSpace *as, hwaddr addr,
+         return;
--                                int len, bool is_write)
+     }
-+                                int len, bool is_write,
-+                                MemTxAttrs attrs)
++    /* TODO: ARMv8.4-LSE SCTLR.nAA */
- {
++    mop = size | MO_ALIGN;
-     FlatView *fv;
++
-     bool result;
+     switch (opc) {
-diff --git a/target/s390x/diag.c b/target/s390x/diag.c
+     case 0: /* STLURB */
-index XXXXXXX..XXXXXXX 100644
+         is_store = true;
---- a/target/s390x/diag.c
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
-+++ b/target/s390x/diag.c
+             unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3, uintptr_t ra)
              return;
          }
-         if (!address_space_access_valid(&address_space_memory, addr,
+-        is_signed = true;
--                                        sizeof(IplParameterBlock), false)) {
++        mop |= MO_SIGN;
-+                                        sizeof(IplParameterBlock), false,
+         break;
-+                                        MEMTXATTRS_UNSPECIFIED)) {
+     case 3: /* LDAPURS* 32-bit variant */
-             s390_program_interrupt(env, PGM_ADDRESSING, ILEN_AUTO, ra);
+         if (size > 1) {
              unallocated_encoding(s);
              return;
          }
-@@ -XXX,XX +XXX,XX @@ out:
+-        is_signed = true;
-             return;
++        mop |= MO_SIGN;
-         }
+         extend = true; /* zero-extend 32->64 after signed load */
-         if (!address_space_access_valid(&address_space_memory, addr,
+         break;
--                                        sizeof(IplParameterBlock), true)) {
+     default:
-+                                        sizeof(IplParameterBlock), true,
+         g_assert_not_reached();
-+                                        MEMTXATTRS_UNSPECIFIED)) {
+     }
-             s390_program_interrupt(env, PGM_ADDRESSING, ILEN_AUTO, ra);
-             return;
+-    iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
-         }
++    iss_sf = disas_ldst_compute_iss_sf(size, (mop & MO_SIGN) != 0, opc);
-diff --git a/target/s390x/excp_helper.c b/target/s390x/excp_helper.c
-index XXXXXXX..XXXXXXX 100644
+     if (rn == 31) {
---- a/target/s390x/excp_helper.c
+         gen_check_sp_alignment(s);
-+++ b/target/s390x/excp_helper.c
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ int s390_cpu_handle_mmu_fault(CPUState *cs, vaddr orig_vaddr, int size,
+     if (is_store) {
+         /* Store-Release semantics */
-     /* check out of RAM access */
+         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
-     if (!address_space_access_valid(&address_space_memory, raddr,
+-        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size, true, rt, iss_sf, true);
--                                    TARGET_PAGE_SIZE, rw)) {
++        do_gpr_st(s, cpu_reg(s, rt), clean_addr, mop, true, rt, iss_sf, true);
-+                                    TARGET_PAGE_SIZE, rw,
+     } else {
-+                                    MEMTXATTRS_UNSPECIFIED)) {
+         /*
-         DPRINTF("%s: raddr %" PRIx64 " > ram_size %" PRIx64 "\n", __func__,
+          * Load-AcquirePC semantics; we implement as the slightly more
-                 (uint64_t)raddr, (uint64_t)ram_size);
+          * restrictive Load-Acquire.
-         trigger_pgm_exception(env, PGM_ADDRESSING, ILEN_AUTO);
+          */
-diff --git a/target/s390x/mmu_helper.c b/target/s390x/mmu_helper.c
+-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size + is_signed * MO_SIGN,
-index XXXXXXX..XXXXXXX 100644
++        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, mop,
---- a/target/s390x/mmu_helper.c
+                   extend, true, rt, iss_sf, true);
-+++ b/target/s390x/mmu_helper.c
+         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
@@ -XXX,XX +XXX,XX @@ static int translate_pages(S390CPU *cpu, vaddr addr, int nr_pages,
              return ret;
          }
          if (!address_space_access_valid(&address_space_memory, pages[i],
 -                                        TARGET_PAGE_SIZE, is_write)) {
 +                                        TARGET_PAGE_SIZE, is_write,
 +                                        MEMTXATTRS_UNSPECIFIED)) {
              trigger_access_exception(env, PGM_ADDRESSING, ILEN_AUTO, 0);
              return -EFAULT;
          }
 diff --git a/target/s390x/sigp.c b/target/s390x/sigp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/sigp.c
 +++ b/target/s390x/sigp.c
@@ -XXX,XX +XXX,XX @@ static void sigp_set_prefix(CPUState *cs, run_on_cpu_data arg)
      cpu_synchronize_state(cs);
      if (!address_space_access_valid(&address_space_memory, addr,
 -                                    sizeof(struct LowCore), false)) {
 +                                    sizeof(struct LowCore), false,
 +                                    MEMTXATTRS_UNSPECIFIED)) {
          set_sigp_status(si, SIGP_STAT_INVALID_PARAMETER);
          return;
      }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 18/25] Make flatview_access_valid() take a MemTxAttrs argument
+[PULL 38/43] target/arm: Use MemOp for size + endian in aa64 vector ld/st
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to flatview_access_valid().
 Its callers now all have an attrs value to hand, so we can
 correct our earlier temporary use of MEMTXATTRS_UNSPECIFIED.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-29-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20180521140402.23318-10-peter.maydell@linaro.org
 ---
- exec.c | 12 +++++-------
+ target/arm/translate-a64.c | 20 ++++++++++----------
-file changed, 5 insertions(+), 7 deletions(-)
+file changed, 10 insertions(+), 10 deletions(-)
-diff --git a/exec.c b/exec.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/exec.c
+--- a/target/arm/translate-a64.c
-+++ b/exec.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_read(FlatView *fv, hwaddr addr,
+@@ -XXX,XX +XXX,XX @@ static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
- static MemTxResult flatview_write(FlatView *fv, hwaddr addr, MemTxAttrs attrs,
-                                   const uint8_t *buf, int len);
+ /* Store from vector register to memory */
- static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
+ static void do_vec_st(DisasContext *s, int srcidx, int element,
--                                  bool is_write);
+-                      TCGv_i64 tcg_addr, int size, MemOp endian)
-+                                  bool is_write, MemTxAttrs attrs);
++                      TCGv_i64 tcg_addr, MemOp mop)
+ {
- static MemTxResult subpage_read(void *opaque, hwaddr addr, uint64_t *data,
+     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-                                 unsigned len, MemTxAttrs attrs)
-@@ -XXX,XX +XXX,XX @@ static bool subpage_accepts(void *opaque, hwaddr addr,
+-    read_vec_element(s, tcg_tmp, srcidx, element, size);
- #endif
+-    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
++    read_vec_element(s, tcg_tmp, srcidx, element, mop & MO_SIZE);
-     return flatview_access_valid(subpage->fv, addr + subpage->base,
++    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
--                                 len, is_write);
-+                                 len, is_write, attrs);
+     tcg_temp_free_i64(tcg_tmp);
  }
- static const MemoryRegionOps subpage_ops = {
+ /* Load from memory to vector register */
-@@ -XXX,XX +XXX,XX @@ static void cpu_notify_map_clients(void)
+ static void do_vec_ld(DisasContext *s, int destidx, int element,
 -                      TCGv_i64 tcg_addr, int size, MemOp endian)
 +                      TCGv_i64 tcg_addr, MemOp mop)
  {
      TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
 -    write_vec_element(s, tcg_tmp, destidx, element, size);
 +    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
 +    write_vec_element(s, tcg_tmp, destidx, element, mop & MO_SIZE);
      tcg_temp_free_i64(tcg_tmp);
  }
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
- static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
+             for (xs = 0; xs < selem; xs++) {
--                                  bool is_write)
+                 int tt = (rt + r + xs) % 32;
-+                                  bool is_write, MemTxAttrs attrs)
+                 if (is_store) {
- {
+-                    do_vec_st(s, tt, e, clean_addr, size, endian);
-     MemoryRegion *mr;
++                    do_vec_st(s, tt, e, clean_addr, size | endian);
-     hwaddr l, xlat;
+                 } else {
-@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
+-                    do_vec_ld(s, tt, e, clean_addr, size, endian);
-         mr = flatview_translate(fv, addr, &xlat, &l, is_write);
++                    do_vec_ld(s, tt, e, clean_addr, size | endian);
-         if (!memory_access_is_direct(mr, is_write)) {
+                 }
-             l = memory_access_size(mr, l, addr);
+                 tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
--            /* When our callers all have attrs we'll pass them through here */
+             }
--            if (!memory_region_access_valid(mr, xlat, l, is_write,
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
--                                            MEMTXATTRS_UNSPECIFIED)) {
+         } else {
-+            if (!memory_region_access_valid(mr, xlat, l, is_write, attrs)) {
+             /* Load/store one element per register */
-                 return false;
+             if (is_load) {
 -                do_vec_ld(s, rt, index, clean_addr, scale, s->be_data);
 +                do_vec_ld(s, rt, index, clean_addr, scale | s->be_data);
              } else {
 -                do_vec_st(s, rt, index, clean_addr, scale, s->be_data);
 +                do_vec_st(s, rt, index, clean_addr, scale | s->be_data);
              }
          }
-@@ -XXX,XX +XXX,XX @@ bool address_space_access_valid(AddressSpace *as, hwaddr addr,
+         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
      rcu_read_lock();
      fv = address_space_to_flatview(as);
 -    result = flatview_access_valid(fv, addr, len, is_write);
 +    result = flatview_access_valid(fv, addr, len, is_write, attrs);
      rcu_read_unlock();
      return result;
  }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 04/25] arm_gicv3_kvm: increase clroffset accordingly
+[PULL 39/43] target/arm: Enforce alignment for aa64 vector LDn/STn (multiple)
-From: Shannon Zhao <zhaoshenglong@huawei.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-It forgot to increase clroffset during the loop. So it only clear the
-first 4 bytes.
-Fixes: 367b9f527becdd20ddf116e17a3c0c2bbc486920
-Cc: qemu-stable@nongnu.org
-Signed-off-by: Shannon Zhao <zhaoshenglong@huawei.com>
-Reviewed-by: Eric Auger <eric.auger@redhat.com>
-Message-id: 1527047633-12368-1-git-send-email-zhaoshenglong@huawei.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-30-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/intc/arm_gicv3_kvm.c | 1 +
+ target/arm/translate-a64.c | 15 +++++++++++----
-file changed, 1 insertion(+)
+file changed, 11 insertions(+), 4 deletions(-)
-diff --git a/hw/intc/arm_gicv3_kvm.c b/hw/intc/arm_gicv3_kvm.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_kvm.c
+--- a/target/arm/translate-a64.c
-+++ b/hw/intc/arm_gicv3_kvm.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void kvm_dist_putbmp(GICv3State *s, uint32_t offset,
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
-         if (clroffset != 0) {
+     bool is_postidx = extract32(insn, 23, 1);
-             reg = 0;
+     bool is_q = extract32(insn, 30, 1);
-             kvm_gicd_access(s, clroffset, &reg, true);
+     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
-+            clroffset += 4;
+-    MemOp endian = s->be_data;
-         }
++    MemOp endian, align, mop;
-         reg = *gic_bmp_ptr32(bmp, irq);
-         kvm_gicd_access(s, offset, &reg, true);
+     int total;    /* total bytes */
      int elements; /* elements per vector */
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
      }
      /* For our purposes, bytes are always little-endian.  */
 +    endian = s->be_data;
      if (size == 0) {
          endian = MO_LE;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
       * Consecutive little-endian elements from a single register
       * can be promoted to a larger little-endian operation.
       */
 +    align = MO_ALIGN;
      if (selem == 1 && endian == MO_LE) {
 +        align = pow2_align(size);
          size = 3;
      }
 -    elements = (is_q ? 16 : 8) >> size;
 +    if (!s->align_mem) {
 +        align = 0;
 +    }
 +    mop = endian | size | align;
 +    elements = (is_q ? 16 : 8) >> size;
      tcg_ebytes = tcg_const_i64(1 << size);
      for (r = 0; r < rpt; r++) {
          int e;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
              for (xs = 0; xs < selem; xs++) {
                  int tt = (rt + r + xs) % 32;
                  if (is_store) {
 -                    do_vec_st(s, tt, e, clean_addr, size | endian);
 +                    do_vec_st(s, tt, e, clean_addr, mop);
                  } else {
 -                    do_vec_ld(s, tt, e, clean_addr, size | endian);
 +                    do_vec_ld(s, tt, e, clean_addr, mop);
                  }
                  tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
              }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 16/25] Make memory_region_access_valid() take a MemTxAttrs argument
+[PULL 40/43] target/arm: Enforce alignment for aa64 vector LDn/STn (single)
-As part of plumbing MemTxAttrs down to the IOMMU translate method,
+From: Richard Henderson <richard.henderson@linaro.org>
 add MemTxAttrs as an argument to memory_region_access_valid().
 Its callers either have an attrs value to hand, or don't care
 and can use MEMTXATTRS_UNSPECIFIED.
-The callsite in flatview_access_valid() is part of a recursive
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-loop flatview_access_valid() -> memory_region_access_valid() ->
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
- subpage_accepts() -> flatview_access_valid(); we make it pass
+Message-id: 20210419202257.161730-31-richard.henderson@linaro.org
-MEMTXATTRS_UNSPECIFIED for now, until the next several commits
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-have plumbed an attrs parameter through the rest of the loop
+---
-and we can add an attrs parameter to flatview_access_valid().
+ target/arm/translate-a64.c | 9 +++++----
 file changed, 5 insertions(+), 4 deletions(-)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20180521140402.23318-8-peter.maydell@linaro.org
 ---
  include/exec/memory-internal.h | 3 ++-
  exec.c                         | 4 +++-
  hw/s390x/s390-pci-inst.c       | 3 ++-
  memory.c                       | 7 ++++---
 files changed, 11 insertions(+), 6 deletions(-)
 diff --git a/include/exec/memory-internal.h b/include/exec/memory-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory-internal.h
+--- a/target/arm/translate-a64.c
-+++ b/include/exec/memory-internal.h
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ void flatview_unref(FlatView *view);
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
- extern const MemoryRegionOps unassigned_mem_ops;
+     int index = is_q << 3 | S << 2 | size;
+     int xs, total;
- bool memory_region_access_valid(MemoryRegion *mr, hwaddr addr,
+     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
--                                unsigned size, bool is_write);
++    MemOp mop;
-+                                unsigned size, bool is_write,
-+                                MemTxAttrs attrs);
+     if (extract32(insn, 31, 1)) {
+         unallocated_encoding(s);
- void flatview_add_to_dispatch(FlatView *fv, MemoryRegionSection *section);
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
- AddressSpaceDispatch *address_space_dispatch_new(FlatView *fv);
-diff --git a/exec.c b/exec.c
+     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
-index XXXXXXX..XXXXXXX 100644
+                                 total);
---- a/exec.c
++    mop = finalize_memop(s, scale);
-+++ b/exec.c
-@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
+     tcg_ebytes = tcg_const_i64(1 << scale);
-         mr = flatview_translate(fv, addr, &xlat, &l, is_write);
+     for (xs = 0; xs < selem; xs++) {
-         if (!memory_access_is_direct(mr, is_write)) {
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
-             l = memory_access_size(mr, l, addr);
+             /* Load and replicate to all elements */
--            if (!memory_region_access_valid(mr, xlat, l, is_write)) {
+             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-+            /* When our callers all have attrs we'll pass them through here */
-+            if (!memory_region_access_valid(mr, xlat, l, is_write,
+-            tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr,
-+                                            MEMTXATTRS_UNSPECIFIED)) {
+-                                get_mem_index(s), s->be_data + scale);
-                 return false;
++            tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr, get_mem_index(s), mop);
              tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
                                   (is_q + 1) * 8, vec_full_reg_size(s),
                                   tcg_tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
          } else {
              /* Load/store one element per register */
              if (is_load) {
 -                do_vec_ld(s, rt, index, clean_addr, scale | s->be_data);
 +                do_vec_ld(s, rt, index, clean_addr, mop);
              } else {
 -                do_vec_st(s, rt, index, clean_addr, scale | s->be_data);
 +                do_vec_st(s, rt, index, clean_addr, mop);
              }
          }
-diff --git a/hw/s390x/s390-pci-inst.c b/hw/s390x/s390-pci-inst.c
+         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/s390x/s390-pci-inst.c
 +++ b/hw/s390x/s390-pci-inst.c
@@ -XXX,XX +XXX,XX @@ int pcistb_service_call(S390CPU *cpu, uint8_t r1, uint8_t r3, uint64_t gaddr,
      mr = s390_get_subregion(mr, offset, len);
      offset -= mr->addr;
 -    if (!memory_region_access_valid(mr, offset, len, true)) {
 +    if (!memory_region_access_valid(mr, offset, len, true,
 +                                    MEMTXATTRS_UNSPECIFIED)) {
          s390_program_interrupt(env, PGM_OPERAND, 6, ra);
          return 0;
      }
 diff --git a/memory.c b/memory.c
 index XXXXXXX..XXXXXXX 100644
 --- a/memory.c
 +++ b/memory.c
@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps ram_device_mem_ops = {
  bool memory_region_access_valid(MemoryRegion *mr,
                                  hwaddr addr,
                                  unsigned size,
 -                                bool is_write)
 +                                bool is_write,
 +                                MemTxAttrs attrs)
  {
      int access_size_min, access_size_max;
      int access_size, i;
@@ -XXX,XX +XXX,XX @@ MemTxResult memory_region_dispatch_read(MemoryRegion *mr,
  {
      MemTxResult r;
 -    if (!memory_region_access_valid(mr, addr, size, false)) {
 +    if (!memory_region_access_valid(mr, addr, size, false, attrs)) {
          *pval = unassigned_mem_read(mr, addr, size);
          return MEMTX_DECODE_ERROR;
      }
@@ -XXX,XX +XXX,XX @@ MemTxResult memory_region_dispatch_write(MemoryRegion *mr,
                                           unsigned size,
                                           MemTxAttrs attrs)
  {
 -    if (!memory_region_access_valid(mr, addr, size, true)) {
 +    if (!memory_region_access_valid(mr, addr, size, true, attrs)) {
          unassigned_mem_write(mr, addr, data, size);
          return MEMTX_DECODE_ERROR;
      }
 --
-.17.1
+.20.1

-[Qemu-devel] [PULL 02/25] MAINTAINERS: Add entries for newer MPS2 boards and devices
+[PULL 41/43] target/arm: Enforce alignment for sve LD1R
-Add entries to MAINTAINERS to cover the newer MPS2 boards and
+From: Richard Henderson <richard.henderson@linaro.org>
 the new devices they use.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210419202257.161730-32-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20180518153157.14899-1-peter.maydell@linaro.org
 ---
- MAINTAINERS | 9 +++++++--
+ target/arm/translate-sve.c | 2 +-
-file changed, 7 insertions(+), 2 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/MAINTAINERS b/MAINTAINERS
+diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
---- a/MAINTAINERS
+--- a/target/arm/translate-sve.c
-+++ b/MAINTAINERS
++++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ F: hw/timer/cmsdk-apb-timer.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_LD1R_zpri(DisasContext *s, arg_rpri_load *a)
- F: include/hw/timer/cmsdk-apb-timer.h
+     clean_addr = gen_mte_check1(s, temp, false, true, msz);
- F: hw/char/cmsdk-apb-uart.c
- F: include/hw/char/cmsdk-apb-uart.h
+     tcg_gen_qemu_ld_i64(temp, clean_addr, get_mem_index(s),
-+F: hw/misc/tz-ppc.c
+-                        s->be_data | dtype_mop[a->dtype]);
-+F: include/hw/misc/tz-ppc.h
++                        finalize_memop(s, dtype_mop[a->dtype]));
- ARM cores
+     /* Broadcast to *all* elements.  */
- M: Peter Maydell <peter.maydell@linaro.org>
+     tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
@@ -XXX,XX +XXX,XX @@ M: Peter Maydell <peter.maydell@linaro.org>
  L: qemu-arm@nongnu.org
  S: Maintained
  F: hw/arm/mps2.c
 -F: hw/misc/mps2-scc.c
 -F: include/hw/misc/mps2-scc.h
 +F: hw/arm/mps2-tz.c
 +F: hw/misc/mps2-*.c
 +F: include/hw/misc/mps2-*.h
 +F: hw/arm/iotkit.c
 +F: include/hw/arm/iotkit.h
  Musicpal
  M: Jan Kiszka <jan.kiszka@web.de>
 --
-.17.1
+.20.1

-New patch
+[PULL 42/43] hw: add compat machines for 6.1
+From: Cornelia Huck <cohuck@redhat.com>
 Add 6.1 machine types for arm/i440fx/q35/s390x/spapr.
 Signed-off-by: Cornelia Huck <cohuck@redhat.com>
 Acked-by: Greg Kurz <groug@kaod.org>
 Message-id: 20210331111900.118274-1-cohuck@redhat.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/boards.h        |  3 +++
  include/hw/i386/pc.h       |  3 +++
  hw/arm/virt.c              |  7 ++++++-
  hw/core/machine.c          |  3 +++
  hw/i386/pc.c               |  3 +++
  hw/i386/pc_piix.c          | 14 +++++++++++++-
  hw/i386/pc_q35.c           | 13 ++++++++++++-
  hw/ppc/spapr.c             | 17 ++++++++++++++---
  hw/s390x/s390-virtio-ccw.c | 14 +++++++++++++-
 files changed, 70 insertions(+), 7 deletions(-)
 diff --git a/include/hw/boards.h b/include/hw/boards.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/boards.h
 +++ b/include/hw/boards.h
@@ -XXX,XX +XXX,XX @@ struct MachineState {
      } \
      type_init(machine_initfn##_register_types)
 +extern GlobalProperty hw_compat_6_0[];
 +extern const size_t hw_compat_6_0_len;
 +
  extern GlobalProperty hw_compat_5_2[];
  extern const size_t hw_compat_5_2_len;
 diff --git a/include/hw/i386/pc.h b/include/hw/i386/pc.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/i386/pc.h
 +++ b/include/hw/i386/pc.h
@@ -XXX,XX +XXX,XX @@ bool pc_system_ovmf_table_find(const char *entry, uint8_t **data,
  void pc_madt_cpu_entry(AcpiDeviceIf *adev, int uid,
                         const CPUArchIdList *apic_ids, GArray *entry);
 +extern GlobalProperty pc_compat_6_0[];
 +extern const size_t pc_compat_6_0_len;
 +
  extern GlobalProperty pc_compat_5_2[];
  extern const size_t pc_compat_5_2_len;
 diff --git a/hw/arm/virt.c b/hw/arm/virt.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/virt.c
 +++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_machine_init(void)
  }
  type_init(machvirt_machine_init);
 +static void virt_machine_6_1_options(MachineClass *mc)
 +{
 +}
 +DEFINE_VIRT_MACHINE_AS_LATEST(6, 1)
 +
  static void virt_machine_6_0_options(MachineClass *mc)
  {
  }
 -DEFINE_VIRT_MACHINE_AS_LATEST(6, 0)
 +DEFINE_VIRT_MACHINE(6, 0)
  static void virt_machine_5_2_options(MachineClass *mc)
  {
 diff --git a/hw/core/machine.c b/hw/core/machine.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/core/machine.c
 +++ b/hw/core/machine.c
@@ -XXX,XX +XXX,XX @@
  #include "hw/virtio/virtio.h"
  #include "hw/virtio/virtio-pci.h"
 +GlobalProperty hw_compat_6_0[] = {};
 +const size_t hw_compat_6_0_len = G_N_ELEMENTS(hw_compat_6_0);
 +
  GlobalProperty hw_compat_5_2[] = {
      { "ICH9-LPC", "smm-compat", "on"},
      { "PIIX4_PM", "smm-compat", "on"},
 diff --git a/hw/i386/pc.c b/hw/i386/pc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/pc.c
 +++ b/hw/i386/pc.c
@@ -XXX,XX +XXX,XX @@
  #include "trace.h"
  #include CONFIG_DEVICES
 +GlobalProperty pc_compat_6_0[] = {};
 +const size_t pc_compat_6_0_len = G_N_ELEMENTS(pc_compat_6_0);
 +
  GlobalProperty pc_compat_5_2[] = {
      { "ICH9-LPC", "x-smi-cpu-hotunplug", "off" },
  };
 diff --git a/hw/i386/pc_piix.c b/hw/i386/pc_piix.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/pc_piix.c
 +++ b/hw/i386/pc_piix.c
@@ -XXX,XX +XXX,XX @@ static void pc_i440fx_machine_options(MachineClass *m)
      machine_class_allow_dynamic_sysbus_dev(m, TYPE_VMBUS_BRIDGE);
  }
 -static void pc_i440fx_6_0_machine_options(MachineClass *m)
 +static void pc_i440fx_6_1_machine_options(MachineClass *m)
  {
      PCMachineClass *pcmc = PC_MACHINE_CLASS(m);
      pc_i440fx_machine_options(m);
@@ -XXX,XX +XXX,XX @@ static void pc_i440fx_6_0_machine_options(MachineClass *m)
      pcmc->default_cpu_version = 1;
  }
 +DEFINE_I440FX_MACHINE(v6_1, "pc-i440fx-6.1", NULL,
 +                      pc_i440fx_6_1_machine_options);
 +
 +static void pc_i440fx_6_0_machine_options(MachineClass *m)
 +{
 +    pc_i440fx_6_1_machine_options(m);
 +    m->alias = NULL;
 +    m->is_default = false;
 +    compat_props_add(m->compat_props, hw_compat_6_0, hw_compat_6_0_len);
 +    compat_props_add(m->compat_props, pc_compat_6_0, pc_compat_6_0_len);
 +}
 +
  DEFINE_I440FX_MACHINE(v6_0, "pc-i440fx-6.0", NULL,
                        pc_i440fx_6_0_machine_options);
 diff --git a/hw/i386/pc_q35.c b/hw/i386/pc_q35.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/pc_q35.c
 +++ b/hw/i386/pc_q35.c
@@ -XXX,XX +XXX,XX @@ static void pc_q35_machine_options(MachineClass *m)
      m->max_cpus = 288;
  }
 -static void pc_q35_6_0_machine_options(MachineClass *m)
 +static void pc_q35_6_1_machine_options(MachineClass *m)
  {
      PCMachineClass *pcmc = PC_MACHINE_CLASS(m);
      pc_q35_machine_options(m);
@@ -XXX,XX +XXX,XX @@ static void pc_q35_6_0_machine_options(MachineClass *m)
      pcmc->default_cpu_version = 1;
  }
 +DEFINE_Q35_MACHINE(v6_1, "pc-q35-6.1", NULL,
 +                   pc_q35_6_1_machine_options);
 +
 +static void pc_q35_6_0_machine_options(MachineClass *m)
 +{
 +    pc_q35_6_1_machine_options(m);
 +    m->alias = NULL;
 +    compat_props_add(m->compat_props, hw_compat_6_0, hw_compat_6_0_len);
 +    compat_props_add(m->compat_props, pc_compat_6_0, pc_compat_6_0_len);
 +}
 +
  DEFINE_Q35_MACHINE(v6_0, "pc-q35-6.0", NULL,
                     pc_q35_6_0_machine_options);
 diff --git a/hw/ppc/spapr.c b/hw/ppc/spapr.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/ppc/spapr.c
 +++ b/hw/ppc/spapr.c
@@ -XXX,XX +XXX,XX @@ static void spapr_machine_latest_class_options(MachineClass *mc)
      type_init(spapr_machine_register_##suffix)
  /*
 - * pseries-6.0
 + * pseries-6.1
   */
 -static void spapr_machine_6_0_class_options(MachineClass *mc)
 +static void spapr_machine_6_1_class_options(MachineClass *mc)
  {
      /* Defaults for the latest behaviour inherited from the base class */
  }
 -DEFINE_SPAPR_MACHINE(6_0, "6.0", true);
 +DEFINE_SPAPR_MACHINE(6_1, "6.1", true);
 +
 +/*
 + * pseries-6.0
 + */
 +static void spapr_machine_6_0_class_options(MachineClass *mc)
 +{
 +    spapr_machine_6_1_class_options(mc);
 +    compat_props_add(mc->compat_props, hw_compat_6_0, hw_compat_6_0_len);
 +}
 +
 +DEFINE_SPAPR_MACHINE(6_0, "6.0", false);
  /*
   * pseries-5.2
 diff --git a/hw/s390x/s390-virtio-ccw.c b/hw/s390x/s390-virtio-ccw.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/s390x/s390-virtio-ccw.c
 +++ b/hw/s390x/s390-virtio-ccw.c
@@ -XXX,XX +XXX,XX @@ bool css_migration_enabled(void)
      }                                                                         \
      type_init(ccw_machine_register_##suffix)
 +static void ccw_machine_6_1_instance_options(MachineState *machine)
 +{
 +}
 +
 +static void ccw_machine_6_1_class_options(MachineClass *mc)
 +{
 +}
 +DEFINE_CCW_MACHINE(6_1, "6.1", true);
 +
  static void ccw_machine_6_0_instance_options(MachineState *machine)
  {
 +    ccw_machine_6_1_instance_options(machine);
  }
  static void ccw_machine_6_0_class_options(MachineClass *mc)
  {
 +    ccw_machine_6_1_class_options(mc);
 +    compat_props_add(mc->compat_props, hw_compat_6_0, hw_compat_6_0_len);
  }
 -DEFINE_CCW_MACHINE(6_0, "6.0", true);
 +DEFINE_CCW_MACHINE(6_0, "6.0", false);
  static void ccw_machine_5_2_instance_options(MachineState *machine)
  {
 --
 .20.1

-[Qemu-devel] [PULL 10/25] memory.h: Improve IOMMU related documentation
+[PULL 43/43] hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
-Add more detail to the documentation for memory_region_init_iommu()
+Currently the gpex PCI controller implements no special behaviour for
-and other IOMMU-related functions and data structures.
+guest accesses to areas of the PIO and MMIO where it has not mapped
 any PCI devices, which means that for Arm you end up with a CPU
 exception due to a data abort.
+Most host OSes expect "like an x86 PC" behaviour, where bad accesses
+like this return -1 for reads and ignore writes.  In the interests of
+not being surprising, make host CPU accesses to these windows behave
+as -1/discard where there's no mapped PCI device.
+The old behaviour generally didn't cause any problems, because
+almost always the guest OS will map the PCI devices and then only
+access where it has mapped them. One corner case where you will see
+this kind of access is if Linux attempts to probe legacy ISA
+devices via a PIO window access. So far the only case where we've
+seen this has been via the syzkaller fuzzer.
+Reported-by: Dmitry Vyukov <dvyukov@google.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Acked-by: Michael S. Tsirkin <mst@redhat.com>
-Reviewed-by: Eric Auger <eric.auger@redhat.com>
+Message-id: 20210325163315.27724-1-peter.maydell@linaro.org
-Message-id: 20180521140402.23318-2-peter.maydell@linaro.org
+Fixes: https://bugs.launchpad.net/qemu/+bug/1918917
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/exec/memory.h | 105 ++++++++++++++++++++++++++++++++++++++----
+ include/hw/pci-host/gpex.h |  4 +++
-file changed, 95 insertions(+), 10 deletions(-)
+ hw/core/machine.c          |  4 ++-
  hw/pci-host/gpex.c         | 56 ++++++++++++++++++++++++++++++++++++--
 files changed, 60 insertions(+), 4 deletions(-)
-diff --git a/include/exec/memory.h b/include/exec/memory.h
+diff --git a/include/hw/pci-host/gpex.h b/include/hw/pci-host/gpex.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/memory.h
+--- a/include/hw/pci-host/gpex.h
-+++ b/include/exec/memory.h
++++ b/include/hw/pci-host/gpex.h
-@@ -XXX,XX +XXX,XX @@ enum IOMMUMemoryRegionAttr {
+@@ -XXX,XX +XXX,XX @@ struct GPEXHost {
-     IOMMU_ATTR_SPAPR_TCE_FD
      MemoryRegion io_ioport;
      MemoryRegion io_mmio;
 +    MemoryRegion io_ioport_window;
 +    MemoryRegion io_mmio_window;
      qemu_irq irq[GPEX_NUM_IRQS];
      int irq_num[GPEX_NUM_IRQS];
 +
 +    bool allow_unmapped_accesses;
  };
-+/**
+ struct GPEXConfig {
-+ * IOMMUMemoryRegionClass:
+diff --git a/hw/core/machine.c b/hw/core/machine.c
-+ *
+index XXXXXXX..XXXXXXX 100644
-+ * All IOMMU implementations need to subclass TYPE_IOMMU_MEMORY_REGION
+--- a/hw/core/machine.c
-+ * and provide an implementation of at least the @translate method here
++++ b/hw/core/machine.c
-+ * to handle requests to the memory region. Other methods are optional.
+@@ -XXX,XX +XXX,XX @@
-+ *
+ #include "hw/virtio/virtio.h"
-+ * The IOMMU implementation must use the IOMMU notifier infrastructure
+ #include "hw/virtio/virtio-pci.h"
-+ * to report whenever mappings are changed, by calling
-+ * memory_region_notify_iommu() (or, if necessary, by calling
+-GlobalProperty hw_compat_6_0[] = {};
-+ * memory_region_notify_one() for each registered notifier).
++GlobalProperty hw_compat_6_0[] = {
-+ */
++    { "gpex-pcihost", "allow-unmapped-accesses", "false" },
- typedef struct IOMMUMemoryRegionClass {
++};
-     /* private */
+ const size_t hw_compat_6_0_len = G_N_ELEMENTS(hw_compat_6_0);
-     struct DeviceClass parent_class;
+ GlobalProperty hw_compat_5_2[] = {
-     /*
+diff --git a/hw/pci-host/gpex.c b/hw/pci-host/gpex.c
--     * Return a TLB entry that contains a given address. Flag should
+index XXXXXXX..XXXXXXX 100644
--     * be the access permission of this translation operation. We can
+--- a/hw/pci-host/gpex.c
--     * set flag to IOMMU_NONE to mean that we don't need any
++++ b/hw/pci-host/gpex.c
--     * read/write permission checks, like, when for region replay.
+@@ -XXX,XX +XXX,XX @@ static void gpex_host_realize(DeviceState *dev, Error **errp)
-+     * Return a TLB entry that contains a given address.
+     int i;
      pcie_host_mmcfg_init(pex, PCIE_MMCFG_SIZE_MAX);
 +    sysbus_init_mmio(sbd, &pex->mmio);
 +
 +    /*
 +     * Note that the MemoryRegions io_mmio and io_ioport that we pass
 +     * to pci_register_root_bus() are not the same as the
 +     * MemoryRegions io_mmio_window and io_ioport_window that we
 +     * expose as SysBus MRs. The difference is in the behaviour of
 +     * accesses to addresses where no PCI device has been mapped.
 +     *
-+     * The IOMMUAccessFlags indicated via @flag are optional and may
++     * io_mmio and io_ioport are the underlying PCI view of the PCI
-+     * be specified as IOMMU_NONE to indicate that the caller needs
++     * address space, and when a PCI device does a bus master access
-+     * the full translation information for both reads and writes. If
++     * to a bad address this is reported back to it as a transaction
-+     * the access flags are specified then the IOMMU implementation
++     * failure.
 +     * may use this as an optimization, to stop doing a page table
 +     * walk as soon as it knows that the requested permissions are not
 +     * allowed. If IOMMU_NONE is passed then the IOMMU must do the
 +     * full page table walk and report the permissions in the returned
 +     * IOMMUTLBEntry. (Note that this implies that an IOMMU may not
 +     * return different mappings for reads and writes.)
 +     *
-+     * The returned information remains valid while the caller is
++     * io_mmio_window and io_ioport_window implement "unmapped
-+     * holding the big QEMU lock or is inside an RCU critical section;
++     * addresses read as -1 and ignore writes"; this is traditional
-+     * if the caller wishes to cache the mapping beyond that it must
++     * x86 PC behaviour, which is not mandated by the PCI spec proper
-+     * register an IOMMU notifier so it can invalidate its cached
++     * but expected by much PCI-using guest software, including Linux.
 +     * information when the IOMMU mapping changes.
 +     *
-+     * @iommu: the IOMMUMemoryRegion
++     * In the interests of not being unnecessarily surprising, we
-+     * @hwaddr: address to be translated within the memory region
++     * implement it in the gpex PCI host controller, by providing the
-+     * @flag: requested access permissions
++     * _window MRs, which are containers with io ops that implement
-      */
++     * the 'background' behaviour and which hold the real PCI MRs as
-     IOMMUTLBEntry (*translate)(IOMMUMemoryRegion *iommu, hwaddr addr,
++     * subregions.
                                 IOMMUAccessFlags flag);
 -    /* Returns minimum supported page size */
 +    /* Returns minimum supported page size in bytes.
 +     * If this method is not provided then the minimum is assumed to
 +     * be TARGET_PAGE_SIZE.
 +     *
 +     * @iommu: the IOMMUMemoryRegion
 +     */
-     uint64_t (*get_min_page_size)(IOMMUMemoryRegion *iommu);
+     memory_region_init(&s->io_mmio, OBJECT(s), "gpex_mmio", UINT64_MAX);
--    /* Called when IOMMU Notifier flag changed */
+     memory_region_init(&s->io_ioport, OBJECT(s), "gpex_ioport", 64 * 1024);
-+    /* Called when IOMMU Notifier flag changes (ie when the set of
-+     * events which IOMMU users are requesting notification for changes).
+-    sysbus_init_mmio(sbd, &pex->mmio);
-+     * Optional method -- need not be provided if the IOMMU does not
+-    sysbus_init_mmio(sbd, &s->io_mmio);
-+     * need to know exactly which events must be notified.
+-    sysbus_init_mmio(sbd, &s->io_ioport);
-+     *
++    if (s->allow_unmapped_accesses) {
-+     * @iommu: the IOMMUMemoryRegion
++        memory_region_init_io(&s->io_mmio_window, OBJECT(s),
-+     * @old_flags: events which previously needed to be notified
++                              &unassigned_io_ops, OBJECT(s),
-+     * @new_flags: events which now need to be notified
++                              "gpex_mmio_window", UINT64_MAX);
 +        memory_region_init_io(&s->io_ioport_window, OBJECT(s),
 +                              &unassigned_io_ops, OBJECT(s),
 +                              "gpex_ioport_window", 64 * 1024);
 +
 +        memory_region_add_subregion(&s->io_mmio_window, 0, &s->io_mmio);
 +        memory_region_add_subregion(&s->io_ioport_window, 0, &s->io_ioport);
 +        sysbus_init_mmio(sbd, &s->io_mmio_window);
 +        sysbus_init_mmio(sbd, &s->io_ioport_window);
 +    } else {
 +        sysbus_init_mmio(sbd, &s->io_mmio);
 +        sysbus_init_mmio(sbd, &s->io_ioport);
 +    }
 +
      for (i = 0; i < GPEX_NUM_IRQS; i++) {
          sysbus_init_irq(sbd, &s->irq[i]);
          s->irq_num[i] = -1;
@@ -XXX,XX +XXX,XX @@ static const char *gpex_host_root_bus_path(PCIHostState *host_bridge,
      return "0000:00";
  }
 +static Property gpex_host_properties[] = {
 +    /*
 +     * Permit CPU accesses to unmapped areas of the PIO and MMIO windows
 +     * (discarding writes and returning -1 for reads) rather than aborting.
 +     */
-     void (*notify_flag_changed)(IOMMUMemoryRegion *iommu,
++    DEFINE_PROP_BOOL("allow-unmapped-accesses", GPEXHost,
-                                 IOMMUNotifierFlag old_flags,
++                     allow_unmapped_accesses, true),
-                                 IOMMUNotifierFlag new_flags);
++    DEFINE_PROP_END_OF_LIST(),
--    /* Set this up to provide customized IOMMU replay function */
++};
-+    /* Called to handle memory_region_iommu_replay().
++
-+     *
+ static void gpex_host_class_init(ObjectClass *klass, void *data)
-+     * The default implementation of memory_region_iommu_replay() is to
+ {
-+     * call the IOMMU translate method for every page in the address space
+     DeviceClass *dc = DEVICE_CLASS(klass);
-+     * with flag == IOMMU_NONE and then call the notifier if translate
+@@ -XXX,XX +XXX,XX @@ static void gpex_host_class_init(ObjectClass *klass, void *data)
-+     * returns a valid mapping. If this method is implemented then it
+     dc->realize = gpex_host_realize;
-+     * overrides the default behaviour, and must provide the full semantics
+     set_bit(DEVICE_CATEGORY_BRIDGE, dc->categories);
-+     * of memory_region_iommu_replay(), by calling @notifier for every
+     dc->fw_name = "pci";
-+     * translation present in the IOMMU.
++    device_class_set_props(dc, gpex_host_properties);
-+     *
+ }
-+     * Optional method -- an IOMMU only needs to provide this method
-+     * if the default is inefficient or produces undesirable side effects.
+ static void gpex_host_initfn(Object *obj)
 +     *
 +     * Note: this is not related to record-and-replay functionality.
 +     */
      void (*replay)(IOMMUMemoryRegion *iommu, IOMMUNotifier *notifier);
 -    /* Get IOMMU misc attributes */
 -    int (*get_attr)(IOMMUMemoryRegion *iommu, enum IOMMUMemoryRegionAttr,
 +    /* Get IOMMU misc attributes. This is an optional method that
 +     * can be used to allow users of the IOMMU to get implementation-specific
 +     * information. The IOMMU implements this method to handle calls
 +     * by IOMMU users to memory_region_iommu_get_attr() by filling in
 +     * the arbitrary data pointer for any IOMMUMemoryRegionAttr values that
 +     * the IOMMU supports. If the method is unimplemented then
 +     * memory_region_iommu_get_attr() will always return -EINVAL.
 +     *
 +     * @iommu: the IOMMUMemoryRegion
 +     * @attr: attribute being queried
 +     * @data: memory to fill in with the attribute data
 +     *
 +     * Returns 0 on success, or a negative errno; in particular
 +     * returns -EINVAL for unrecognized or unimplemented attribute types.
 +     */
 +    int (*get_attr)(IOMMUMemoryRegion *iommu, enum IOMMUMemoryRegionAttr attr,
                      void *data);
  } IOMMUMemoryRegionClass;
@@ -XXX,XX +XXX,XX @@ static inline void memory_region_init_reservation(MemoryRegion *mr,
   * An IOMMU region translates addresses and forwards accesses to a target
   * memory region.
   *
 + * The IOMMU implementation must define a subclass of TYPE_IOMMU_MEMORY_REGION.
 + * @_iommu_mr should be a pointer to enough memory for an instance of
 + * that subclass, @instance_size is the size of that subclass, and
 + * @mrtypename is its name. This function will initialize @_iommu_mr as an
 + * instance of the subclass, and its methods will then be called to handle
 + * accesses to the memory region. See the documentation of
 + * #IOMMUMemoryRegionClass for further details.
 + *
   * @_iommu_mr: the #IOMMUMemoryRegion to be initialized
   * @instance_size: the IOMMUMemoryRegion subclass instance size
   * @mrtypename: the type name of the #IOMMUMemoryRegion
@@ -XXX,XX +XXX,XX @@ void memory_region_register_iommu_notifier(MemoryRegion *mr,
   * a notifier with the minimum page granularity returned by
   * mr->iommu_ops->get_page_size().
   *
 + * Note: this is not related to record-and-replay functionality.
 + *
   * @iommu_mr: the memory region to observe
   * @n: the notifier to which to replay iommu mappings
   */
@@ -XXX,XX +XXX,XX @@ void memory_region_iommu_replay(IOMMUMemoryRegion *iommu_mr, IOMMUNotifier *n);
   * memory_region_iommu_replay_all: replay existing IOMMU translations
   * to all the notifiers registered.
   *
 + * Note: this is not related to record-and-replay functionality.
 + *
   * @iommu_mr: the memory region to observe
   */
  void memory_region_iommu_replay_all(IOMMUMemoryRegion *iommu_mr);
@@ -XXX,XX +XXX,XX @@ void memory_region_unregister_iommu_notifier(MemoryRegion *mr,
   * memory_region_iommu_get_attr: return an IOMMU attr if get_attr() is
   * defined on the IOMMU.
   *
 - * Returns 0 if succeded, error code otherwise.
 + * Returns 0 on success, or a negative errno otherwise. In particular,
 + * -EINVAL indicates that the IOMMU does not support the requested
 + * attribute.
   *
   * @iommu_mr: the memory region
   * @attr: the requested attribute
 --
-.17.1
+.20.1

target-arm queue. This has the "plumb txattrs through various
bits of exec.c" patches, and a collection of bug fixes from
various people.

thanks
-- PMM

The following changes since commit a3ac12fba028df90f7b3dbec924995c126c41022:

Merge remote-tracking branch 'remotes/ehabkost/tags/numa-next-pull-request' into staging (2018-05-31 11:12:36 +0100)

are available in the Git repository at:

git://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20180531

for you to fetch changes up to 49d1dca0520ea71bc21867fab6647f474fcf857b:

KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice (2018-05-31 14:52:53 +0100)

----------------------------------------------------------------
target-arm queue:
 * target/arm: Honour FPCR.FZ in FRECPX
 * MAINTAINERS: Add entries for newer MPS2 boards and devices
 * hw/intc/arm_gicv3: Fix APxR<n> register dispatching
 * arm_gicv3_kvm: fix bug in writing zero bits back to the in-kernel
   GIC state
 * tcg: Fix helper function vs host abi for float16
 * arm: fix qemu crash on startup with -bios option
 * arm: fix malloc type mismatch
 * xlnx-zdma: Correct mem leaks and memset to zero on desc unaligned errors
 * Correct CPACR reset value for v7 cores
 * memory.h: Improve IOMMU related documentation
 * exec: Plumb transaction attributes through various functions in
   preparation for allowing IOMMUs to see them
 * vmstate.h: Provide VMSTATE_BOOL_SUB_ARRAY
 * ARM: ACPI: Fix use-after-free due to memory realloc
 * KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice

----------------------------------------------------------------
Francisco Iglesias (1):
      xlnx-zdma: Correct mem leaks and memset to zero on desc unaligned errors

Igor Mammedov (1):
      arm: fix qemu crash on startup with -bios option

Jan Kiszka (1):
      hw/intc/arm_gicv3: Fix APxR<n> register dispatching

Paolo Bonzini (1):
      arm: fix malloc type mismatch

Peter Maydell (17):
      target/arm: Honour FPCR.FZ in FRECPX
      MAINTAINERS: Add entries for newer MPS2 boards and devices
      Correct CPACR reset value for v7 cores
      memory.h: Improve IOMMU related documentation
      Make tb_invalidate_phys_addr() take a MemTxAttrs argument
      Make address_space_translate{, _cached}() take a MemTxAttrs argument
      Make address_space_map() take a MemTxAttrs argument
      Make address_space_access_valid() take a MemTxAttrs argument
      Make flatview_extend_translation() take a MemTxAttrs argument
      Make memory_region_access_valid() take a MemTxAttrs argument
      Make MemoryRegion valid.accepts callback take a MemTxAttrs argument
      Make flatview_access_valid() take a MemTxAttrs argument
      Make flatview_translate() take a MemTxAttrs argument
      Make address_space_get_iotlb_entry() take a MemTxAttrs argument
      Make flatview_do_translate() take a MemTxAttrs argument
      Make address_space_translate_iommu take a MemTxAttrs argument
      vmstate.h: Provide VMSTATE_BOOL_SUB_ARRAY

Richard Henderson (1):
      tcg: Fix helper function vs host abi for float16

Shannon Zhao (3):
      arm_gicv3_kvm: increase clroffset accordingly
      ARM: ACPI: Fix use-after-free due to memory realloc
      KVM: GIC: Fix memory leak due to calling kvm_init_irq_routing twice

The FRECPX instructions should (like most other floating point operations)
honour the FPCR.FZ bit which specifies whether input denormals should
be flushed to zero (or FZ16 for the half-precision version).
We forgot to implement this, which doesn't affect the results (since
the calculation doesn't actually care about the mantissa bits) but did
mean we were failing to set the FPSR.IDC bit.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20180521172712.19930-1-peter.maydell@linaro.org
---
 target/arm/helper-a64.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ float16 HELPER(frecpx_f16)(float16 a, void *fpstp)
         return nan;
     }
 
+    a = float16_squash_input_denormal(a, fpst);
+
     val16 = float16_val(a);
     sbit = 0x8000 & val16;
     exp = extract32(val16, 10, 5);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
         return nan;
     }
 
+    a = float32_squash_input_denormal(a, fpst);
+
     val32 = float32_val(a);
     sbit = 0x80000000ULL & val32;
     exp = extract32(val32, 23, 8);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
         return nan;
     }
 
+    a = float64_squash_input_denormal(a, fpst);
+
     val64 = float64_val(a);
     sbit = 0x8000000000000000ULL & val64;
     exp = extract64(float64_val(a), 52, 11);
-- 
2.17.1

Add entries to MAINTAINERS to cover the newer MPS2 boards and
the new devices they use.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20180518153157.14899-1-peter.maydell@linaro.org
---
 MAINTAINERS | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/MAINTAINERS b/MAINTAINERS
index XXXXXXX..XXXXXXX 100644
--- a/MAINTAINERS
+++ b/MAINTAINERS
@@ -XXX,XX +XXX,XX @@ F: hw/timer/cmsdk-apb-timer.c
 F: include/hw/timer/cmsdk-apb-timer.h
 F: hw/char/cmsdk-apb-uart.c
 F: include/hw/char/cmsdk-apb-uart.h
+F: hw/misc/tz-ppc.c
+F: include/hw/misc/tz-ppc.h
 
 ARM cores
 M: Peter Maydell <peter.maydell@linaro.org>
@@ -XXX,XX +XXX,XX @@ M: Peter Maydell <peter.maydell@linaro.org>
 L: qemu-arm@nongnu.org
 S: Maintained
 F: hw/arm/mps2.c
-F: hw/misc/mps2-scc.c
-F: include/hw/misc/mps2-scc.h
+F: hw/arm/mps2-tz.c
+F: hw/misc/mps2-*.c
+F: include/hw/misc/mps2-*.h
+F: hw/arm/iotkit.c
+F: include/hw/arm/iotkit.h
 
 Musicpal
 M: Jan Kiszka <jan.kiszka@web.de>
-- 
2.17.1

From: Jan Kiszka <jan.kiszka@siemens.com>

There was a nasty flip in identifying which register group an access is
targeting. The issue caused spuriously raised priorities of the guest
when handing CPUs over in the Jailhouse hypervisor.

Cc: qemu-stable@nongnu.org
Signed-off-by: Jan Kiszka <jan.kiszka@siemens.com>
Message-id: 28b927d3-da58-bce4-cc13-bfec7f9b1cb9@siemens.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/intc/arm_gicv3_cpuif.c | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_cpuif.c
+++ b/hw/intc/arm_gicv3_cpuif.c
@@ -XXX,XX +XXX,XX @@ static uint64_t icv_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
     GICv3CPUState *cs = icc_cs_from_env(env);
     int regno = ri->opc2 & 3;
-    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
     uint64_t value = cs->ich_apr[grp][regno];
 
     trace_gicv3_icv_ap_read(ri->crm & 1, regno, gicv3_redist_affid(cs), value);
@@ -XXX,XX +XXX,XX @@ static void icv_ap_write(CPUARMState *env, const ARMCPRegInfo *ri,
 {
     GICv3CPUState *cs = icc_cs_from_env(env);
     int regno = ri->opc2 & 3;
-    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
 
     trace_gicv3_icv_ap_write(ri->crm & 1, regno, gicv3_redist_affid(cs), value);
 
@@ -XXX,XX +XXX,XX @@ static uint64_t icc_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
     uint64_t value;
 
     int regno = ri->opc2 & 3;
-    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1;
+    int grp = (ri->crm & 1) ? GICV3_G1 : GICV3_G0;
 
     if (icv_access(env, grp == GICV3_G0 ? HCR_FMO : HCR_IMO)) {
         return icv_ap_read(env, ri);
@@ -XXX,XX +XXX,XX @@ static void icc_ap_write(CPUARMState *env, const ARMCPRegInfo *ri,
     GICv3CPUState *cs = icc_cs_from_env(env);
 
     int regno = ri->opc2 & 3;
-    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1;
+    int grp = (ri->crm & 1) ? GICV3_G1 : GICV3_G0;
 
     if (icv_access(env, grp == GICV3_G0 ? HCR_FMO : HCR_IMO)) {
         icv_ap_write(env, ri, value);
@@ -XXX,XX +XXX,XX @@ static uint64_t ich_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
     GICv3CPUState *cs = icc_cs_from_env(env);
     int regno = ri->opc2 & 3;
-    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
     uint64_t value;
 
     value = cs->ich_apr[grp][regno];
@@ -XXX,XX +XXX,XX @@ static void ich_ap_write(CPUARMState *env, const ARMCPRegInfo *ri,
 {
     GICv3CPUState *cs = icc_cs_from_env(env);
     int regno = ri->opc2 & 3;
-    int grp = ri->crm & 1 ? GICV3_G0 : GICV3_G1NS;
+    int grp = (ri->crm & 1) ? GICV3_G1NS : GICV3_G0;
 
     trace_gicv3_ich_ap_write(ri->crm & 1, regno, gicv3_redist_affid(cs), value);
 
-- 
2.17.1

From: Shannon Zhao <zhaoshenglong@huawei.com>

It forgot to increase clroffset during the loop. So it only clear the
first 4 bytes.

Fixes: 367b9f527becdd20ddf116e17a3c0c2bbc486920
Cc: qemu-stable@nongnu.org
Signed-off-by: Shannon Zhao <zhaoshenglong@huawei.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Message-id: 1527047633-12368-1-git-send-email-zhaoshenglong@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/intc/arm_gicv3_kvm.c | 1 +
 1 file changed, 1 insertion(+)

diff --git a/hw/intc/arm_gicv3_kvm.c b/hw/intc/arm_gicv3_kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_kvm.c
+++ b/hw/intc/arm_gicv3_kvm.c
@@ -XXX,XX +XXX,XX @@ static void kvm_dist_putbmp(GICv3State *s, uint32_t offset,
         if (clroffset != 0) {
             reg = 0;
             kvm_gicd_access(s, clroffset, &reg, true);
+            clroffset += 4;
         }
         reg = *gic_bmp_ptr32(bmp, irq);
         kvm_gicd_access(s, offset, &reg, true);
-- 
2.17.1

From: Richard Henderson <richard.henderson@linaro.org>

Depending on the host abi, float16, aka uint16_t, values are
passed and returned either zero-extended in the host register
or with garbage at the top of the host register.

The tcg code generator has so far been assuming garbage, as that
matches the x86 abi, but this is incorrect for other host abis.
Further, target/arm has so far been assuming zero-extended results,
so that it may store the 16-bit value into a 32-bit slot with the
high 16-bits already clear.

Rectify both problems by mapping "f16" in the helper definition
to uint32_t instead of (a typedef for) uint16_t.  This forces
the host compiler to assume garbage in the upper 16 bits on input
and to zero-extend the result on output.

Cc: qemu-stable@nongnu.org
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Message-id: 20180522175629.24932-1-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/exec/helper-head.h |  2 +-
 target/arm/helper-a64.c    | 35 +++++++++--------
 target/arm/helper.c        | 80 +++++++++++++++++++-------------------
 3 files changed, 59 insertions(+), 58 deletions(-)

diff --git a/include/exec/helper-head.h b/include/exec/helper-head.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/helper-head.h
+++ b/include/exec/helper-head.h
@@ -XXX,XX +XXX,XX @@
 #define dh_ctype_int int
 #define dh_ctype_i64 uint64_t
 #define dh_ctype_s64 int64_t
-#define dh_ctype_f16 float16
+#define dh_ctype_f16 uint32_t
 #define dh_ctype_f32 float32
 #define dh_ctype_f64 float64
 #define dh_ctype_ptr void *
diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t float_rel_to_flags(int res)
     return flags;
 }
 
-uint64_t HELPER(vfp_cmph_a64)(float16 x, float16 y, void *fp_status)
+uint64_t HELPER(vfp_cmph_a64)(uint32_t x, uint32_t y, void *fp_status)
 {
     return float_rel_to_flags(float16_compare_quiet(x, y, fp_status));
 }
 
-uint64_t HELPER(vfp_cmpeh_a64)(float16 x, float16 y, void *fp_status)
+uint64_t HELPER(vfp_cmpeh_a64)(uint32_t x, uint32_t y, void *fp_status)
 {
     return float_rel_to_flags(float16_compare(x, y, fp_status));
 }
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
 #define float64_three make_float64(0x4008000000000000ULL)
 #define float64_one_point_five make_float64(0x3FF8000000000000ULL)
 
-float16 HELPER(recpsf_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
 
@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpsf_f64)(float64 a, float64 b, void *fpstp)
     return float64_muladd(a, b, float64_two, 0, fpst);
 }
 
-float16 HELPER(rsqrtsf_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
 
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_addlp_u16)(uint64_t a)
 }
 
 /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
-float16 HELPER(frecpx_f16)(float16 a, void *fpstp)
+uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
 {
     float_status *fpst = fpstp;
     uint16_t val16, sbit;
@@ -XXX,XX +XXX,XX @@ void HELPER(casp_be_parallel)(CPUARMState *env, uint32_t rs, uint64_t addr,
 #define ADVSIMD_HELPER(name, suffix) HELPER(glue(glue(advsimd_, name), suffix))
 
 #define ADVSIMD_HALFOP(name) \
-float16 ADVSIMD_HELPER(name, h)(float16 a, float16 b, void *fpstp) \
+uint32_t ADVSIMD_HELPER(name, h)(uint32_t a, uint32_t b, void *fpstp) \
 { \
     float_status *fpst = fpstp; \
     return float16_ ## name(a, b, fpst);    \
@@ -XXX,XX +XXX,XX @@ ADVSIMD_HALFOP(mulx)
 ADVSIMD_TWOHALFOP(mulx)
 
 /* fused multiply-accumulate */
-float16 HELPER(advsimd_muladdh)(float16 a, float16 b, float16 c, void *fpstp)
+uint32_t HELPER(advsimd_muladdh)(uint32_t a, uint32_t b, uint32_t c,
+                                 void *fpstp)
 {
     float_status *fpst = fpstp;
     return float16_muladd(a, b, c, 0, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_muladd2h)(uint32_t two_a, uint32_t two_b,
 
 #define ADVSIMD_CMPRES(test) (test) ? 0xffff : 0
 
-uint32_t HELPER(advsimd_ceq_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(advsimd_ceq_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
     int compare = float16_compare_quiet(a, b, fpst);
     return ADVSIMD_CMPRES(compare == float_relation_equal);
 }
 
-uint32_t HELPER(advsimd_cge_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(advsimd_cge_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
     int compare = float16_compare(a, b, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_cge_f16)(float16 a, float16 b, void *fpstp)
                           compare == float_relation_equal);
 }
 
-uint32_t HELPER(advsimd_cgt_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(advsimd_cgt_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
     int compare = float16_compare(a, b, fpst);
     return ADVSIMD_CMPRES(compare == float_relation_greater);
 }
 
-uint32_t HELPER(advsimd_acge_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
     float16 f0 = float16_abs(a);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acge_f16)(float16 a, float16 b, void *fpstp)
                           compare == float_relation_equal);
 }
 
-uint32_t HELPER(advsimd_acgt_f16)(float16 a, float16 b, void *fpstp)
+uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, void *fpstp)
 {
     float_status *fpst = fpstp;
     float16 f0 = float16_abs(a);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acgt_f16)(float16 a, float16 b, void *fpstp)
 }
 
 /* round to integral */
-float16 HELPER(advsimd_rinth_exact)(float16 x, void *fp_status)
+uint32_t HELPER(advsimd_rinth_exact)(uint32_t x, void *fp_status)
 {
     return float16_round_to_int(x, fp_status);
 }
 
-float16 HELPER(advsimd_rinth)(float16 x, void *fp_status)
+uint32_t HELPER(advsimd_rinth)(uint32_t x, void *fp_status)
 {
     int old_flags = get_float_exception_flags(fp_status), new_flags;
     float16 ret;
@@ -XXX,XX +XXX,XX @@ float16 HELPER(advsimd_rinth)(float16 x, void *fp_status)
  * setting the mode appropriately before calling the helper.
  */
 
-uint32_t HELPER(advsimd_f16tosinth)(float16 a, void *fpstp)
+uint32_t HELPER(advsimd_f16tosinth)(uint32_t a, void *fpstp)
 {
     float_status *fpst = fpstp;
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_f16tosinth)(float16 a, void *fpstp)
     return float16_to_int16(a, fpst);
 }
 
-uint32_t HELPER(advsimd_f16touinth)(float16 a, void *fpstp)
+uint32_t HELPER(advsimd_f16touinth)(uint32_t a, void *fpstp)
 {
     float_status *fpst = fpstp;
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_f16touinth)(float16 a, void *fpstp)
  * Square Root and Reciprocal square root
  */
 
-float16 HELPER(sqrt_f16)(float16 a, void *fpstp)
+uint32_t HELPER(sqrt_f16)(uint32_t a, void *fpstp)
 {
     float_status *s = fpstp;
 
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ DO_VFP_cmp(d, float64)
 
 /* Integer to float and float to integer conversions */
 
-#define CONV_ITOF(name, fsz, sign) \
-    float##fsz HELPER(name)(uint32_t x, void *fpstp) \
-{ \
-    float_status *fpst = fpstp; \
-    return sign##int32_to_##float##fsz((sign##int32_t)x, fpst); \
+#define CONV_ITOF(name, ftype, fsz, sign)                           \
+ftype HELPER(name)(uint32_t x, void *fpstp)                         \
+{                                                                   \
+    float_status *fpst = fpstp;                                     \
+    return sign##int32_to_##float##fsz((sign##int32_t)x, fpst);     \
 }
 
-#define CONV_FTOI(name, fsz, sign, round) \
-uint32_t HELPER(name)(float##fsz x, void *fpstp) \
-{ \
-    float_status *fpst = fpstp; \
-    if (float##fsz##_is_any_nan(x)) { \
-        float_raise(float_flag_invalid, fpst); \
-        return 0; \
-    } \
-    return float##fsz##_to_##sign##int32##round(x, fpst); \
+#define CONV_FTOI(name, ftype, fsz, sign, round)                \
+uint32_t HELPER(name)(ftype x, void *fpstp)                     \
+{                                                               \
+    float_status *fpst = fpstp;                                 \
+    if (float##fsz##_is_any_nan(x)) {                           \
+        float_raise(float_flag_invalid, fpst);                  \
+        return 0;                                               \
+    }                                                           \
+    return float##fsz##_to_##sign##int32##round(x, fpst);       \
 }
 
-#define FLOAT_CONVS(name, p, fsz, sign) \
-CONV_ITOF(vfp_##name##to##p, fsz, sign) \
-CONV_FTOI(vfp_to##name##p, fsz, sign, ) \
-CONV_FTOI(vfp_to##name##z##p, fsz, sign, _round_to_zero)
+#define FLOAT_CONVS(name, p, ftype, fsz, sign)            \
+    CONV_ITOF(vfp_##name##to##p, ftype, fsz, sign)        \
+    CONV_FTOI(vfp_to##name##p, ftype, fsz, sign, )        \
+    CONV_FTOI(vfp_to##name##z##p, ftype, fsz, sign, _round_to_zero)
 
-FLOAT_CONVS(si, h, 16, )
-FLOAT_CONVS(si, s, 32, )
-FLOAT_CONVS(si, d, 64, )
-FLOAT_CONVS(ui, h, 16, u)
-FLOAT_CONVS(ui, s, 32, u)
-FLOAT_CONVS(ui, d, 64, u)
+FLOAT_CONVS(si, h, uint32_t, 16, )
+FLOAT_CONVS(si, s, float32, 32, )
+FLOAT_CONVS(si, d, float64, 64, )
+FLOAT_CONVS(ui, h, uint32_t, 16, u)
+FLOAT_CONVS(ui, s, float32, 32, u)
+FLOAT_CONVS(ui, d, float64, 64, u)
 
 #undef CONV_ITOF
 #undef CONV_FTOI
@@ -XXX,XX +XXX,XX @@ static float16 do_postscale_fp16(float64 f, int shift, float_status *fpst)
     return float64_to_float16(float64_scalbn(f, -shift, fpst), true, fpst);
 }
 
-float16 HELPER(vfp_sltoh)(uint32_t x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_sltoh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return do_postscale_fp16(int32_to_float64(x, fpst), shift, fpst);
 }
 
-float16 HELPER(vfp_ultoh)(uint32_t x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_ultoh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return do_postscale_fp16(uint32_to_float64(x, fpst), shift, fpst);
 }
 
-float16 HELPER(vfp_sqtoh)(uint64_t x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_sqtoh)(uint64_t x, uint32_t shift, void *fpst)
 {
     return do_postscale_fp16(int64_to_float64(x, fpst), shift, fpst);
 }
 
-float16 HELPER(vfp_uqtoh)(uint64_t x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_uqtoh)(uint64_t x, uint32_t shift, void *fpst)
 {
     return do_postscale_fp16(uint64_to_float64(x, fpst), shift, fpst);
 }
@@ -XXX,XX +XXX,XX @@ static float64 do_prescale_fp16(float16 f, int shift, float_status *fpst)
     }
 }
 
-uint32_t HELPER(vfp_toshh)(float16 x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_toshh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return float64_to_int16(do_prescale_fp16(x, shift, fpst), fpst);
 }
 
-uint32_t HELPER(vfp_touhh)(float16 x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_touhh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return float64_to_uint16(do_prescale_fp16(x, shift, fpst), fpst);
 }
 
-uint32_t HELPER(vfp_toslh)(float16 x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_toslh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return float64_to_int32(do_prescale_fp16(x, shift, fpst), fpst);
 }
 
-uint32_t HELPER(vfp_toulh)(float16 x, uint32_t shift, void *fpst)
+uint32_t HELPER(vfp_toulh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return float64_to_uint32(do_prescale_fp16(x, shift, fpst), fpst);
 }
 
-uint64_t HELPER(vfp_tosqh)(float16 x, uint32_t shift, void *fpst)
+uint64_t HELPER(vfp_tosqh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return float64_to_int64(do_prescale_fp16(x, shift, fpst), fpst);
 }
 
-uint64_t HELPER(vfp_touqh)(float16 x, uint32_t shift, void *fpst)
+uint64_t HELPER(vfp_touqh)(uint32_t x, uint32_t shift, void *fpst)
 {
     return float64_to_uint64(do_prescale_fp16(x, shift, fpst), fpst);
 }
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(set_neon_rmode)(uint32_t rmode, CPUARMState *env)
 }
 
 /* Half precision conversions.  */
-float32 HELPER(vfp_fcvt_f16_to_f32)(float16 a, void *fpstp, uint32_t ahp_mode)
+float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing input denormals.
@@ -XXX,XX +XXX,XX @@ float32 HELPER(vfp_fcvt_f16_to_f32)(float16 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-float16 HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
+uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing output denormals.
@@ -XXX,XX +XXX,XX @@ float16 HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-float64 HELPER(vfp_fcvt_f16_to_f64)(float16 a, void *fpstp, uint32_t ahp_mode)
+float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, void *fpstp, uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing input denormals.
@@ -XXX,XX +XXX,XX @@ float64 HELPER(vfp_fcvt_f16_to_f64)(float16 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-float16 HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
+uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing output denormals.
@@ -XXX,XX +XXX,XX @@ static bool round_to_inf(float_status *fpst, bool sign_bit)
     g_assert_not_reached();
 }
 
-float16 HELPER(recpe_f16)(float16 input, void *fpstp)
+uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
 {
     float_status *fpst = fpstp;
     float16 f16 = float16_squash_input_denormal(input, fpst);
@@ -XXX,XX +XXX,XX @@ static uint64_t recip_sqrt_estimate(int *exp , int exp_off, uint64_t frac)
     return extract64(estimate, 0, 8) << 44;
 }
 
-float16 HELPER(rsqrte_f16)(float16 input, void *fpstp)
+uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
 {
     float_status *s = fpstp;
     float16 f16 = float16_squash_input_denormal(input, s);
-- 
2.17.1

From: Igor Mammedov <imammedo@redhat.com>

When QEMU is started with following CLI
 -machine virt,gic-version=3,accel=kvm -cpu host -bios AAVMF_CODE.fd
it crashes with abort at
 accel/kvm/kvm-all.c:2164:
 KVM_SET_DEVICE_ATTR failed: Group 6 attr 0x000000000000c665: Invalid argument

Which is caused by implicit dependency of kvm_arm_gicv3_reset() on
arm_gicv3_icc_reset() where the later is called by CPU reset
reset callback.

However commit:
 3b77f6c arm/boot: split load_dtb() from arm_load_kernel()
broke CPU reset callback registration in case

arm_load_kernel()
      ...
      if (!info->kernel_filename || info->firmware_loaded)

branch is taken, i.e. it's sufficient to provide a firmware
or do not provide kernel on CLI to skip cpu reset callback
registration, where before offending commit the callback
has been registered unconditionally.

Fix it by registering the callback right at the beginning of
arm_load_kernel() unconditionally instead of doing it at the end.

NOTE:
 we probably should eliminate that dependency anyways as well as
 separate arch CPU reset parts from arm_load_kernel() into CPU
 itself, but that refactoring that I probably would have to do
 anyways later for CPU hotplug to work.

Reported-by: Auger Eric <eric.auger@redhat.com>
Signed-off-by: Igor Mammedov <imammedo@redhat.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Tested-by: Eric Auger <eric.auger@redhat.com>
Message-id: 1527070950-208350-1-git-send-email-imammedo@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/boot.c | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, struct arm_boot_info *info)
     static const ARMInsnFixup *primary_loader;
     AddressSpace *as = arm_boot_address_space(cpu, info);
 
+    /* CPU objects (unlike devices) are not automatically reset on system
+     * reset, so we must always register a handler to do so. If we're
+     * actually loading a kernel, the handler is also responsible for
+     * arranging that we start it correctly.
+     */
+    for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
+        qemu_register_reset(do_cpu_reset, ARM_CPU(cs));
+    }
+
     /* The board code is not supposed to set secure_board_setup unless
      * running its code in secure mode is actually possible, and KVM
      * doesn't support secure.
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, struct arm_boot_info *info)
         ARM_CPU(cs)->env.boot_info = info;
     }
 
-    /* CPU objects (unlike devices) are not automatically reset on system
-     * reset, so we must always register a handler to do so. If we're
-     * actually loading a kernel, the handler is also responsible for
-     * arranging that we start it correctly.
-     */
-    for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
-        qemu_register_reset(do_cpu_reset, ARM_CPU(cs));
-    }
-
     if (!info->skip_dtb_autoload && have_dtb(info)) {
         if (arm_load_dtb(info->dtb_start, info, info->dtb_limit, as) < 0) {
             exit(1);
-- 
2.17.1

From: Paolo Bonzini <pbonzini@redhat.com>

cpregs_keys is an uint32_t* so the allocation should use uint32_t.
g_new is even better because it is type-safe.

Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/gdbstub.c | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/gdbstub.c
+++ b/target/arm/gdbstub.c
@@ -XXX,XX +XXX,XX @@ int arm_gen_dynamic_xml(CPUState *cs)
     RegisterSysregXmlParam param = {cs, s};
 
     cpu->dyn_xml.num_cpregs = 0;
-    cpu->dyn_xml.cpregs_keys = g_malloc(sizeof(uint32_t *) *
-                                        g_hash_table_size(cpu->cp_regs));
+    cpu->dyn_xml.cpregs_keys = g_new(uint32_t, g_hash_table_size(cpu->cp_regs));
     g_string_printf(s, "<?xml version=\"1.0\"?>");
     g_string_append_printf(s, "<!DOCTYPE target SYSTEM \"gdb-target.dtd\">");
     g_string_append_printf(s, "<feature name=\"org.qemu.gdb.arm.sys.regs\">");
-- 
2.17.1

From: Francisco Iglesias <frasse.iglesias@gmail.com>

Coverity found that the string return by 'object_get_canonical_path' was not
being freed at two locations in the model (CID 1391294 and CID 1391293) and
also that a memset was being called with a value greater than the max of a byte
on the second argument (CID 1391286). This patch corrects this by adding the
freeing of the strings and also changing to memset to zero instead on
descriptor unaligned errors.

Signed-off-by: Francisco Iglesias <frasse.iglesias@gmail.com>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20180528184859.3530-1-frasse.iglesias@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/dma/xlnx-zdma.c | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/hw/dma/xlnx-zdma.c b/hw/dma/xlnx-zdma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xlnx-zdma.c
+++ b/hw/dma/xlnx-zdma.c
@@ -XXX,XX +XXX,XX @@ static bool zdma_load_descriptor(XlnxZDMA *s, uint64_t addr, void *buf)
         qemu_log_mask(LOG_GUEST_ERROR,
                       "zdma: unaligned descriptor at %" PRIx64,
                       addr);
-        memset(buf, 0xdeadbeef, sizeof(XlnxZDMADescr));
+        memset(buf, 0x0, sizeof(XlnxZDMADescr));
         s->error = true;
         return false;
     }
@@ -XXX,XX +XXX,XX @@ static uint64_t zdma_read(void *opaque, hwaddr addr, unsigned size)
     RegisterInfo *r = &s->regs_info[addr / 4];
 
     if (!r->data) {
+        gchar *path = object_get_canonical_path(OBJECT(s));
         qemu_log("%s: Decode error: read from %" HWADDR_PRIx "\n",
-                 object_get_canonical_path(OBJECT(s)),
+                 path,
                  addr);
+        g_free(path);
         ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
         zdma_ch_imr_update_irq(s);
         return 0;
@@ -XXX,XX +XXX,XX @@ static void zdma_write(void *opaque, hwaddr addr, uint64_t value,
     RegisterInfo *r = &s->regs_info[addr / 4];
 
     if (!r->data) {
+        gchar *path = object_get_canonical_path(OBJECT(s));
         qemu_log("%s: Decode error: write to %" HWADDR_PRIx "=%" PRIx64 "\n",
-                 object_get_canonical_path(OBJECT(s)),
+                 path,
                  addr, value);
+        g_free(path);
         ARRAY_FIELD_DP32(s->regs, ZDMA_CH_ISR, INV_APB, true);
         zdma_ch_imr_update_irq(s);
         return;
-- 
2.17.1

In commit f0aff255700 we made cpacr_write() enforce that some CPACR
bits are RAZ/WI and some are RAO/WI for ARMv7 cores. Unfortunately
we forgot to also update the register's reset value. The effect
was that (a) a guest that read CPACR on reset would not see ones in
the RAO bits, and (b) if you did a migration before the guest did
a write to the CPACR then the migration would fail because the
destination would enforce the RAO bits and then complain that they
didn't match the zero value from the source.

Implement reset for the CPACR using a custom reset function
that just calls cpacr_write(), to avoid having to duplicate
the logic for which bits are RAO.

This bug would affect migration for TCG CPUs which are ARMv7
with VFP but without one of Neon or VFPv3.

Reported-by: Cédric Le Goater <clg@kaod.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Cédric Le Goater <clg@kaod.org>
Message-id: 20180522173713.26282-1-peter.maydell@linaro.org
---
 target/arm/helper.c | 10 +++++++++-
 1 file changed, 9 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
     env->cp15.cpacr_el1 = value;
 }
 
+static void cpacr_reset(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    /* Call cpacr_write() so that we reset with the correct RAO bits set
+     * for our CPU features.
+     */
+    cpacr_write(env, ri, 0);
+}
+
 static CPAccessResult cpacr_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                    bool isread)
 {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
     { .name = "CPACR", .state = ARM_CP_STATE_BOTH, .opc0 = 3,
       .crn = 1, .crm = 0, .opc1 = 0, .opc2 = 2, .accessfn = cpacr_access,
       .access = PL1_RW, .fieldoffset = offsetof(CPUARMState, cp15.cpacr_el1),
-      .resetvalue = 0, .writefn = cpacr_write },
+      .resetfn = cpacr_reset, .writefn = cpacr_write },
     REGINFO_SENTINEL
 };
 
-- 
2.17.1

Add more detail to the documentation for memory_region_init_iommu()
and other IOMMU-related functions and data structures.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Message-id: 20180521140402.23318-2-peter.maydell@linaro.org
---
 include/exec/memory.h | 105 ++++++++++++++++++++++++++++++++++++++----
 1 file changed, 95 insertions(+), 10 deletions(-)

diff --git a/include/exec/memory.h b/include/exec/memory.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory.h
+++ b/include/exec/memory.h
@@ -XXX,XX +XXX,XX @@ enum IOMMUMemoryRegionAttr {
     IOMMU_ATTR_SPAPR_TCE_FD
 };
 
+/**
+ * IOMMUMemoryRegionClass:
+ *
+ * All IOMMU implementations need to subclass TYPE_IOMMU_MEMORY_REGION
+ * and provide an implementation of at least the @translate method here
+ * to handle requests to the memory region. Other methods are optional.
+ *
+ * The IOMMU implementation must use the IOMMU notifier infrastructure
+ * to report whenever mappings are changed, by calling
+ * memory_region_notify_iommu() (or, if necessary, by calling
+ * memory_region_notify_one() for each registered notifier).
+ */
 typedef struct IOMMUMemoryRegionClass {
     /* private */
     struct DeviceClass parent_class;
 
     /*
-     * Return a TLB entry that contains a given address. Flag should
-     * be the access permission of this translation operation. We can
-     * set flag to IOMMU_NONE to mean that we don't need any
-     * read/write permission checks, like, when for region replay.
+     * Return a TLB entry that contains a given address.
+     *
+     * The IOMMUAccessFlags indicated via @flag are optional and may
+     * be specified as IOMMU_NONE to indicate that the caller needs
+     * the full translation information for both reads and writes. If
+     * the access flags are specified then the IOMMU implementation
+     * may use this as an optimization, to stop doing a page table
+     * walk as soon as it knows that the requested permissions are not
+     * allowed. If IOMMU_NONE is passed then the IOMMU must do the
+     * full page table walk and report the permissions in the returned
+     * IOMMUTLBEntry. (Note that this implies that an IOMMU may not
+     * return different mappings for reads and writes.)
+     *
+     * The returned information remains valid while the caller is
+     * holding the big QEMU lock or is inside an RCU critical section;
+     * if the caller wishes to cache the mapping beyond that it must
+     * register an IOMMU notifier so it can invalidate its cached
+     * information when the IOMMU mapping changes.
+     *
+     * @iommu: the IOMMUMemoryRegion
+     * @hwaddr: address to be translated within the memory region
+     * @flag: requested access permissions
      */
     IOMMUTLBEntry (*translate)(IOMMUMemoryRegion *iommu, hwaddr addr,
                                IOMMUAccessFlags flag);
-    /* Returns minimum supported page size */
+    /* Returns minimum supported page size in bytes.
+     * If this method is not provided then the minimum is assumed to
+     * be TARGET_PAGE_SIZE.
+     *
+     * @iommu: the IOMMUMemoryRegion
+     */
     uint64_t (*get_min_page_size)(IOMMUMemoryRegion *iommu);
-    /* Called when IOMMU Notifier flag changed */
+    /* Called when IOMMU Notifier flag changes (ie when the set of
+     * events which IOMMU users are requesting notification for changes).
+     * Optional method -- need not be provided if the IOMMU does not
+     * need to know exactly which events must be notified.
+     *
+     * @iommu: the IOMMUMemoryRegion
+     * @old_flags: events which previously needed to be notified
+     * @new_flags: events which now need to be notified
+     */
     void (*notify_flag_changed)(IOMMUMemoryRegion *iommu,
                                 IOMMUNotifierFlag old_flags,
                                 IOMMUNotifierFlag new_flags);
-    /* Set this up to provide customized IOMMU replay function */
+    /* Called to handle memory_region_iommu_replay().
+     *
+     * The default implementation of memory_region_iommu_replay() is to
+     * call the IOMMU translate method for every page in the address space
+     * with flag == IOMMU_NONE and then call the notifier if translate
+     * returns a valid mapping. If this method is implemented then it
+     * overrides the default behaviour, and must provide the full semantics
+     * of memory_region_iommu_replay(), by calling @notifier for every
+     * translation present in the IOMMU.
+     *
+     * Optional method -- an IOMMU only needs to provide this method
+     * if the default is inefficient or produces undesirable side effects.
+     *
+     * Note: this is not related to record-and-replay functionality.
+     */
     void (*replay)(IOMMUMemoryRegion *iommu, IOMMUNotifier *notifier);
 
-    /* Get IOMMU misc attributes */
-    int (*get_attr)(IOMMUMemoryRegion *iommu, enum IOMMUMemoryRegionAttr,
+    /* Get IOMMU misc attributes. This is an optional method that
+     * can be used to allow users of the IOMMU to get implementation-specific
+     * information. The IOMMU implements this method to handle calls
+     * by IOMMU users to memory_region_iommu_get_attr() by filling in
+     * the arbitrary data pointer for any IOMMUMemoryRegionAttr values that
+     * the IOMMU supports. If the method is unimplemented then
+     * memory_region_iommu_get_attr() will always return -EINVAL.
+     *
+     * @iommu: the IOMMUMemoryRegion
+     * @attr: attribute being queried
+     * @data: memory to fill in with the attribute data
+     *
+     * Returns 0 on success, or a negative errno; in particular
+     * returns -EINVAL for unrecognized or unimplemented attribute types.
+     */
+    int (*get_attr)(IOMMUMemoryRegion *iommu, enum IOMMUMemoryRegionAttr attr,
                     void *data);
 } IOMMUMemoryRegionClass;
 
@@ -XXX,XX +XXX,XX @@ static inline void memory_region_init_reservation(MemoryRegion *mr,
  * An IOMMU region translates addresses and forwards accesses to a target
  * memory region.
  *
+ * The IOMMU implementation must define a subclass of TYPE_IOMMU_MEMORY_REGION.
+ * @_iommu_mr should be a pointer to enough memory for an instance of
+ * that subclass, @instance_size is the size of that subclass, and
+ * @mrtypename is its name. This function will initialize @_iommu_mr as an
+ * instance of the subclass, and its methods will then be called to handle
+ * accesses to the memory region. See the documentation of
+ * #IOMMUMemoryRegionClass for further details.
+ *
  * @_iommu_mr: the #IOMMUMemoryRegion to be initialized
  * @instance_size: the IOMMUMemoryRegion subclass instance size
  * @mrtypename: the type name of the #IOMMUMemoryRegion
@@ -XXX,XX +XXX,XX @@ void memory_region_register_iommu_notifier(MemoryRegion *mr,
  * a notifier with the minimum page granularity returned by
  * mr->iommu_ops->get_page_size().
  *
+ * Note: this is not related to record-and-replay functionality.
+ *
  * @iommu_mr: the memory region to observe
  * @n: the notifier to which to replay iommu mappings
  */
@@ -XXX,XX +XXX,XX @@ void memory_region_iommu_replay(IOMMUMemoryRegion *iommu_mr, IOMMUNotifier *n);
  * memory_region_iommu_replay_all: replay existing IOMMU translations
  * to all the notifiers registered.
  *
+ * Note: this is not related to record-and-replay functionality.
+ *
  * @iommu_mr: the memory region to observe
  */
 void memory_region_iommu_replay_all(IOMMUMemoryRegion *iommu_mr);
@@ -XXX,XX +XXX,XX @@ void memory_region_unregister_iommu_notifier(MemoryRegion *mr,
  * memory_region_iommu_get_attr: return an IOMMU attr if get_attr() is
  * defined on the IOMMU.
  *
- * Returns 0 if succeded, error code otherwise.
+ * Returns 0 on success, or a negative errno otherwise. In particular,
+ * -EINVAL indicates that the IOMMU does not support the requested
+ * attribute.
  *
  * @iommu_mr: the memory region
  * @attr: the requested attribute
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to tb_invalidate_phys_addr().
Its callers either have an attrs value to hand, or don't care
and can use MEMTXATTRS_UNSPECIFIED.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Message-id: 20180521140402.23318-3-peter.maydell@linaro.org
---
 include/exec/exec-all.h   | 5 +++--
 accel/tcg/translate-all.c | 2 +-
 exec.c                    | 2 +-
 target/xtensa/op_helper.c | 3 ++-
 4 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/include/exec/exec-all.h b/include/exec/exec-all.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/exec-all.h
+++ b/include/exec/exec-all.h
@@ -XXX,XX +XXX,XX @@ void tlb_set_page_with_attrs(CPUState *cpu, target_ulong vaddr,
 void tlb_set_page(CPUState *cpu, target_ulong vaddr,
                   hwaddr paddr, int prot,
                   int mmu_idx, target_ulong size);
-void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr);
+void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr, MemTxAttrs attrs);
 void probe_write(CPUArchState *env, target_ulong addr, int size, int mmu_idx,
                  uintptr_t retaddr);
 #else
@@ -XXX,XX +XXX,XX @@ static inline void tlb_flush_by_mmuidx_all_cpus_synced(CPUState *cpu,
                                                        uint16_t idxmap)
 {
 }
-static inline void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr)
+static inline void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr,
+                                           MemTxAttrs attrs)
 {
 }
 #endif
diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/translate-all.c
+++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static TranslationBlock *tb_find_pc(uintptr_t tc_ptr)
 }
 
 #if !defined(CONFIG_USER_ONLY)
-void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr)
+void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr, MemTxAttrs attrs)
 {
     ram_addr_t ram_addr;
     MemoryRegion *mr;
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static void breakpoint_invalidate(CPUState *cpu, target_ulong pc)
     if (phys != -1) {
         /* Locks grabbed by tb_invalidate_phys_addr */
         tb_invalidate_phys_addr(cpu->cpu_ases[asidx].as,
-                                phys | (pc & ~TARGET_PAGE_MASK));
+                                phys | (pc & ~TARGET_PAGE_MASK), attrs);
     }
 }
 #endif
diff --git a/target/xtensa/op_helper.c b/target/xtensa/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/op_helper.c
+++ b/target/xtensa/op_helper.c
@@ -XXX,XX +XXX,XX @@ static void tb_invalidate_virtual_addr(CPUXtensaState *env, uint32_t vaddr)
     int ret = xtensa_get_physical_addr(env, false, vaddr, 2, 0,
             &paddr, &page_size, &access);
     if (ret == 0) {
-        tb_invalidate_phys_addr(&address_space_memory, paddr);
+        tb_invalidate_phys_addr(&address_space_memory, paddr,
+                                MEMTXATTRS_UNSPECIFIED);
     }
 }
 
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to address_space_translate()
and address_space_translate_cached(). Callers either have an
attrs value to hand, or don't care and can use MEMTXATTRS_UNSPECIFIED.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20180521140402.23318-4-peter.maydell@linaro.org
---
 include/exec/memory.h     |  4 +++-
 accel/tcg/translate-all.c |  2 +-
 exec.c                    | 14 +++++++++-----
 hw/vfio/common.c          |  3 ++-
 memory_ldst.inc.c         | 18 +++++++++---------
 target/riscv/helper.c     |  2 +-
 6 files changed, 25 insertions(+), 18 deletions(-)

diff --git a/include/exec/memory.h b/include/exec/memory.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory.h
+++ b/include/exec/memory.h
@@ -XXX,XX +XXX,XX @@ IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
  * #MemoryRegion.
  * @len: pointer to length
  * @is_write: indicates the transfer direction
+ * @attrs: memory attributes
  */
 MemoryRegion *flatview_translate(FlatView *fv,
                                  hwaddr addr, hwaddr *xlat,
@@ -XXX,XX +XXX,XX @@ MemoryRegion *flatview_translate(FlatView *fv,
 
 static inline MemoryRegion *address_space_translate(AddressSpace *as,
                                                     hwaddr addr, hwaddr *xlat,
-                                                    hwaddr *len, bool is_write)
+                                                    hwaddr *len, bool is_write,
+                                                    MemTxAttrs attrs)
 {
     return flatview_translate(address_space_to_flatview(as),
                               addr, xlat, len, is_write);
diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/translate-all.c
+++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ void tb_invalidate_phys_addr(AddressSpace *as, hwaddr addr, MemTxAttrs attrs)
     hwaddr l = 1;
 
     rcu_read_lock();
-    mr = address_space_translate(as, addr, &addr, &l, false);
+    mr = address_space_translate(as, addr, &addr, &l, false, attrs);
     if (!(memory_region_is_ram(mr)
           || memory_region_is_romd(mr))) {
         rcu_read_unlock();
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static inline void cpu_physical_memory_write_rom_internal(AddressSpace *as,
     rcu_read_lock();
     while (len > 0) {
         l = len;
-        mr = address_space_translate(as, addr, &addr1, &l, true);
+        mr = address_space_translate(as, addr, &addr1, &l, true,
+                                     MEMTXATTRS_UNSPECIFIED);
 
         if (!(memory_region_is_ram(mr) ||
               memory_region_is_romd(mr))) {
@@ -XXX,XX +XXX,XX @@ void address_space_cache_destroy(MemoryRegionCache *cache)
  */
 static inline MemoryRegion *address_space_translate_cached(
     MemoryRegionCache *cache, hwaddr addr, hwaddr *xlat,
-    hwaddr *plen, bool is_write)
+    hwaddr *plen, bool is_write, MemTxAttrs attrs)
 {
     MemoryRegionSection section;
     MemoryRegion *mr;
@@ -XXX,XX +XXX,XX @@ address_space_read_cached_slow(MemoryRegionCache *cache, hwaddr addr,
     MemoryRegion *mr;
 
     l = len;
-    mr = address_space_translate_cached(cache, addr, &addr1, &l, false);
+    mr = address_space_translate_cached(cache, addr, &addr1, &l, false,
+                                        MEMTXATTRS_UNSPECIFIED);
     flatview_read_continue(cache->fv,
                            addr, MEMTXATTRS_UNSPECIFIED, buf, len,
                            addr1, l, mr);
@@ -XXX,XX +XXX,XX @@ address_space_write_cached_slow(MemoryRegionCache *cache, hwaddr addr,
     MemoryRegion *mr;
 
     l = len;
-    mr = address_space_translate_cached(cache, addr, &addr1, &l, true);
+    mr = address_space_translate_cached(cache, addr, &addr1, &l, true,
+                                        MEMTXATTRS_UNSPECIFIED);
     flatview_write_continue(cache->fv,
                             addr, MEMTXATTRS_UNSPECIFIED, buf, len,
                             addr1, l, mr);
@@ -XXX,XX +XXX,XX @@ bool cpu_physical_memory_is_io(hwaddr phys_addr)
 
     rcu_read_lock();
     mr = address_space_translate(&address_space_memory,
-                                 phys_addr, &phys_addr, &l, false);
+                                 phys_addr, &phys_addr, &l, false,
+                                 MEMTXATTRS_UNSPECIFIED);
 
     res = !(memory_region_is_ram(mr) || memory_region_is_romd(mr));
     rcu_read_unlock();
diff --git a/hw/vfio/common.c b/hw/vfio/common.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/vfio/common.c
+++ b/hw/vfio/common.c
@@ -XXX,XX +XXX,XX @@ static bool vfio_get_vaddr(IOMMUTLBEntry *iotlb, void **vaddr,
      */
     mr = address_space_translate(&address_space_memory,
                                  iotlb->translated_addr,
-                                 &xlat, &len, writable);
+                                 &xlat, &len, writable,
+                                 MEMTXATTRS_UNSPECIFIED);
     if (!memory_region_is_ram(mr)) {
         error_report("iommu map to non memory area %"HWADDR_PRIx"",
                      xlat);
diff --git a/memory_ldst.inc.c b/memory_ldst.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/memory_ldst.inc.c
+++ b/memory_ldst.inc.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t glue(address_space_ldl_internal, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, false);
+    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
     if (l < 4 || !IS_DIRECT(mr, false)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ static inline uint64_t glue(address_space_ldq_internal, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, false);
+    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
     if (l < 8 || !IS_DIRECT(mr, false)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ uint32_t glue(address_space_ldub, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, false);
+    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
     if (!IS_DIRECT(mr, false)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ static inline uint32_t glue(address_space_lduw_internal, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, false);
+    mr = TRANSLATE(addr, &addr1, &l, false, attrs);
     if (l < 2 || !IS_DIRECT(mr, false)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ void glue(address_space_stl_notdirty, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, true);
+    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
     if (l < 4 || !IS_DIRECT(mr, true)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ static inline void glue(address_space_stl_internal, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, true);
+    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
     if (l < 4 || !IS_DIRECT(mr, true)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ void glue(address_space_stb, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, true);
+    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
     if (!IS_DIRECT(mr, true)) {
         release_lock |= prepare_mmio_access(mr);
         r = memory_region_dispatch_write(mr, addr1, val, 1, attrs);
@@ -XXX,XX +XXX,XX @@ static inline void glue(address_space_stw_internal, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, true);
+    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
     if (l < 2 || !IS_DIRECT(mr, true)) {
         release_lock |= prepare_mmio_access(mr);
 
@@ -XXX,XX +XXX,XX @@ static void glue(address_space_stq_internal, SUFFIX)(ARG1_DECL,
     bool release_lock = false;
 
     RCU_READ_LOCK();
-    mr = TRANSLATE(addr, &addr1, &l, true);
+    mr = TRANSLATE(addr, &addr1, &l, true, attrs);
     if (l < 8 || !IS_DIRECT(mr, true)) {
         release_lock |= prepare_mmio_access(mr);
 
diff --git a/target/riscv/helper.c b/target/riscv/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/helper.c
+++ b/target/riscv/helper.c
@@ -XXX,XX +XXX,XX @@ restart:
                 MemoryRegion *mr;
                 hwaddr l = sizeof(target_ulong), addr1;
                 mr = address_space_translate(cs->as, pte_addr,
-                    &addr1, &l, false);
+                    &addr1, &l, false, MEMTXATTRS_UNSPECIFIED);
                 if (memory_access_is_direct(mr, true)) {
                     target_ulong *pte_pa =
                         qemu_map_ram_ptr(mr->ram_block, addr1);
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to address_space_map().
Its callers either have an attrs value to hand, or don't care
and can use MEMTXATTRS_UNSPECIFIED.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20180521140402.23318-5-peter.maydell@linaro.org
---
 include/exec/memory.h   | 3 ++-
 include/sysemu/dma.h    | 3 ++-
 exec.c                  | 6 ++++--
 target/ppc/mmu-hash64.c | 3 ++-
 4 files changed, 10 insertions(+), 5 deletions(-)

diff --git a/include/exec/memory.h b/include/exec/memory.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory.h
+++ b/include/exec/memory.h
@@ -XXX,XX +XXX,XX @@ bool address_space_access_valid(AddressSpace *as, hwaddr addr, int len, bool is_
  * @addr: address within that address space
  * @plen: pointer to length of buffer; updated on return
  * @is_write: indicates the transfer direction
+ * @attrs: memory attributes
  */
 void *address_space_map(AddressSpace *as, hwaddr addr,
-                        hwaddr *plen, bool is_write);
+                        hwaddr *plen, bool is_write, MemTxAttrs attrs);
 
 /* address_space_unmap: Unmaps a memory region previously mapped by address_space_map()
  *
diff --git a/include/sysemu/dma.h b/include/sysemu/dma.h
index XXXXXXX..XXXXXXX 100644
--- a/include/sysemu/dma.h
+++ b/include/sysemu/dma.h
@@ -XXX,XX +XXX,XX @@ static inline void *dma_memory_map(AddressSpace *as,
     hwaddr xlen = *len;
     void *p;
 
-    p = address_space_map(as, addr, &xlen, dir == DMA_DIRECTION_FROM_DEVICE);
+    p = address_space_map(as, addr, &xlen, dir == DMA_DIRECTION_FROM_DEVICE,
+                          MEMTXATTRS_UNSPECIFIED);
     *len = xlen;
     return p;
 }
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ flatview_extend_translation(FlatView *fv, hwaddr addr,
 void *address_space_map(AddressSpace *as,
                         hwaddr addr,
                         hwaddr *plen,
-                        bool is_write)
+                        bool is_write,
+                        MemTxAttrs attrs)
 {
     hwaddr len = *plen;
     hwaddr l, xlat;
@@ -XXX,XX +XXX,XX @@ void *cpu_physical_memory_map(hwaddr addr,
                               hwaddr *plen,
                               int is_write)
 {
-    return address_space_map(&address_space_memory, addr, plen, is_write);
+    return address_space_map(&address_space_memory, addr, plen, is_write,
+                             MEMTXATTRS_UNSPECIFIED);
 }
 
 void cpu_physical_memory_unmap(void *buffer, hwaddr len,
diff --git a/target/ppc/mmu-hash64.c b/target/ppc/mmu-hash64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/mmu-hash64.c
+++ b/target/ppc/mmu-hash64.c
@@ -XXX,XX +XXX,XX @@ const ppc_hash_pte64_t *ppc_hash64_map_hptes(PowerPCCPU *cpu,
         return NULL;
     }
 
-    hptes = address_space_map(CPU(cpu)->as, base + pte_offset, &plen, false);
+    hptes = address_space_map(CPU(cpu)->as, base + pte_offset, &plen, false,
+                              MEMTXATTRS_UNSPECIFIED);
     if (plen < (n * HASH_PTE_SIZE_64)) {
         hw_error("%s: Unable to map all requested HPTEs\n", __func__);
     }
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to address_space_access_valid().
Its callers either have an attrs value to hand, or don't care
and can use MEMTXATTRS_UNSPECIFIED.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20180521140402.23318-6-peter.maydell@linaro.org
---
 include/exec/memory.h      | 4 +++-
 include/sysemu/dma.h       | 3 ++-
 exec.c                     | 3 ++-
 target/s390x/diag.c        | 6 ++++--
 target/s390x/excp_helper.c | 3 ++-
 target/s390x/mmu_helper.c  | 3 ++-
 target/s390x/sigp.c        | 3 ++-
 7 files changed, 17 insertions(+), 8 deletions(-)

diff --git a/include/exec/memory.h b/include/exec/memory.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory.h
+++ b/include/exec/memory.h
@@ -XXX,XX +XXX,XX @@ static inline MemoryRegion *address_space_translate(AddressSpace *as,
  * @addr: address within that address space
  * @len: length of the area to be checked
  * @is_write: indicates the transfer direction
+ * @attrs: memory attributes
  */
-bool address_space_access_valid(AddressSpace *as, hwaddr addr, int len, bool is_write);
+bool address_space_access_valid(AddressSpace *as, hwaddr addr, int len,
+                                bool is_write, MemTxAttrs attrs);
 
 /* address_space_map: map a physical memory region into a host virtual address
  *
diff --git a/include/sysemu/dma.h b/include/sysemu/dma.h
index XXXXXXX..XXXXXXX 100644
--- a/include/sysemu/dma.h
+++ b/include/sysemu/dma.h
@@ -XXX,XX +XXX,XX @@ static inline bool dma_memory_valid(AddressSpace *as,
                                     DMADirection dir)
 {
     return address_space_access_valid(as, addr, len,
-                                      dir == DMA_DIRECTION_FROM_DEVICE);
+                                      dir == DMA_DIRECTION_FROM_DEVICE,
+                                      MEMTXATTRS_UNSPECIFIED);
 }
 
 static inline int dma_memory_rw_relaxed(AddressSpace *as, dma_addr_t addr,
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
 }
 
 bool address_space_access_valid(AddressSpace *as, hwaddr addr,
-                                int len, bool is_write)
+                                int len, bool is_write,
+                                MemTxAttrs attrs)
 {
     FlatView *fv;
     bool result;
diff --git a/target/s390x/diag.c b/target/s390x/diag.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/diag.c
+++ b/target/s390x/diag.c
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3, uintptr_t ra)
             return;
         }
         if (!address_space_access_valid(&address_space_memory, addr,
-                                        sizeof(IplParameterBlock), false)) {
+                                        sizeof(IplParameterBlock), false,
+                                        MEMTXATTRS_UNSPECIFIED)) {
             s390_program_interrupt(env, PGM_ADDRESSING, ILEN_AUTO, ra);
             return;
         }
@@ -XXX,XX +XXX,XX @@ out:
             return;
         }
         if (!address_space_access_valid(&address_space_memory, addr,
-                                        sizeof(IplParameterBlock), true)) {
+                                        sizeof(IplParameterBlock), true,
+                                        MEMTXATTRS_UNSPECIFIED)) {
             s390_program_interrupt(env, PGM_ADDRESSING, ILEN_AUTO, ra);
             return;
         }
diff --git a/target/s390x/excp_helper.c b/target/s390x/excp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/excp_helper.c
+++ b/target/s390x/excp_helper.c
@@ -XXX,XX +XXX,XX @@ int s390_cpu_handle_mmu_fault(CPUState *cs, vaddr orig_vaddr, int size,
 
     /* check out of RAM access */
     if (!address_space_access_valid(&address_space_memory, raddr,
-                                    TARGET_PAGE_SIZE, rw)) {
+                                    TARGET_PAGE_SIZE, rw,
+                                    MEMTXATTRS_UNSPECIFIED)) {
         DPRINTF("%s: raddr %" PRIx64 " > ram_size %" PRIx64 "\n", __func__,
                 (uint64_t)raddr, (uint64_t)ram_size);
         trigger_pgm_exception(env, PGM_ADDRESSING, ILEN_AUTO);
diff --git a/target/s390x/mmu_helper.c b/target/s390x/mmu_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/mmu_helper.c
+++ b/target/s390x/mmu_helper.c
@@ -XXX,XX +XXX,XX @@ static int translate_pages(S390CPU *cpu, vaddr addr, int nr_pages,
             return ret;
         }
         if (!address_space_access_valid(&address_space_memory, pages[i],
-                                        TARGET_PAGE_SIZE, is_write)) {
+                                        TARGET_PAGE_SIZE, is_write,
+                                        MEMTXATTRS_UNSPECIFIED)) {
             trigger_access_exception(env, PGM_ADDRESSING, ILEN_AUTO, 0);
             return -EFAULT;
         }
diff --git a/target/s390x/sigp.c b/target/s390x/sigp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/sigp.c
+++ b/target/s390x/sigp.c
@@ -XXX,XX +XXX,XX @@ static void sigp_set_prefix(CPUState *cs, run_on_cpu_data arg)
     cpu_synchronize_state(cs);
 
     if (!address_space_access_valid(&address_space_memory, addr,
-                                    sizeof(struct LowCore), false)) {
+                                    sizeof(struct LowCore), false,
+                                    MEMTXATTRS_UNSPECIFIED)) {
         set_sigp_status(si, SIGP_STAT_INVALID_PARAMETER);
         return;
     }
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to flatview_extend_translation().
Its callers either have an attrs value to hand, or don't care
and can use MEMTXATTRS_UNSPECIFIED.

diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ bool address_space_access_valid(AddressSpace *as, hwaddr addr,
 
 static hwaddr
 flatview_extend_translation(FlatView *fv, hwaddr addr,
-                                 hwaddr target_len,
-                                 MemoryRegion *mr, hwaddr base, hwaddr len,
-                                 bool is_write)
+                            hwaddr target_len,
+                            MemoryRegion *mr, hwaddr base, hwaddr len,
+                            bool is_write, MemTxAttrs attrs)
 {
     hwaddr done = 0;
     hwaddr xlat;
@@ -XXX,XX +XXX,XX @@ void *address_space_map(AddressSpace *as,
 
     memory_region_ref(mr);
     *plen = flatview_extend_translation(fv, addr, len, mr, xlat,
-                                             l, is_write);
+                                        l, is_write, attrs);
     ptr = qemu_ram_ptr_length(mr->ram_block, xlat, plen, true);
     rcu_read_unlock();
 
@@ -XXX,XX +XXX,XX @@ int64_t address_space_cache_init(MemoryRegionCache *cache,
     mr = cache->mrs.mr;
     memory_region_ref(mr);
     if (memory_access_is_direct(mr, is_write)) {
+        /* We don't care about the memory attributes here as we're only
+         * doing this if we found actual RAM, which behaves the same
+         * regardless of attributes; so UNSPECIFIED is fine.
+         */
         l = flatview_extend_translation(cache->fv, addr, len, mr,
-                                        cache->xlat, l, is_write);
+                                        cache->xlat, l, is_write,
+                                        MEMTXATTRS_UNSPECIFIED);
         cache->ptr = qemu_ram_ptr_length(mr->ram_block, cache->xlat, &l, true);
     } else {
         cache->ptr = NULL;
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to memory_region_access_valid().
Its callers either have an attrs value to hand, or don't care
and can use MEMTXATTRS_UNSPECIFIED.

The callsite in flatview_access_valid() is part of a recursive
loop flatview_access_valid() -> memory_region_access_valid() ->
 subpage_accepts() -> flatview_access_valid(); we make it pass
MEMTXATTRS_UNSPECIFIED for now, until the next several commits
have plumbed an attrs parameter through the rest of the loop
and we can add an attrs parameter to flatview_access_valid().

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20180521140402.23318-8-peter.maydell@linaro.org
---
 include/exec/memory-internal.h | 3 ++-
 exec.c                         | 4 +++-
 hw/s390x/s390-pci-inst.c       | 3 ++-
 memory.c                       | 7 ++++---
 4 files changed, 11 insertions(+), 6 deletions(-)

diff --git a/include/exec/memory-internal.h b/include/exec/memory-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory-internal.h
+++ b/include/exec/memory-internal.h
@@ -XXX,XX +XXX,XX @@ void flatview_unref(FlatView *view);
 extern const MemoryRegionOps unassigned_mem_ops;
 
 bool memory_region_access_valid(MemoryRegion *mr, hwaddr addr,
-                                unsigned size, bool is_write);
+                                unsigned size, bool is_write,
+                                MemTxAttrs attrs);
 
 void flatview_add_to_dispatch(FlatView *fv, MemoryRegionSection *section);
 AddressSpaceDispatch *address_space_dispatch_new(FlatView *fv);
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
         mr = flatview_translate(fv, addr, &xlat, &l, is_write);
         if (!memory_access_is_direct(mr, is_write)) {
             l = memory_access_size(mr, l, addr);
-            if (!memory_region_access_valid(mr, xlat, l, is_write)) {
+            /* When our callers all have attrs we'll pass them through here */
+            if (!memory_region_access_valid(mr, xlat, l, is_write,
+                                            MEMTXATTRS_UNSPECIFIED)) {
                 return false;
             }
         }
diff --git a/hw/s390x/s390-pci-inst.c b/hw/s390x/s390-pci-inst.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/s390x/s390-pci-inst.c
+++ b/hw/s390x/s390-pci-inst.c
@@ -XXX,XX +XXX,XX @@ int pcistb_service_call(S390CPU *cpu, uint8_t r1, uint8_t r3, uint64_t gaddr,
     mr = s390_get_subregion(mr, offset, len);
     offset -= mr->addr;
 
-    if (!memory_region_access_valid(mr, offset, len, true)) {
+    if (!memory_region_access_valid(mr, offset, len, true,
+                                    MEMTXATTRS_UNSPECIFIED)) {
         s390_program_interrupt(env, PGM_OPERAND, 6, ra);
         return 0;
     }
diff --git a/memory.c b/memory.c
index XXXXXXX..XXXXXXX 100644
--- a/memory.c
+++ b/memory.c
@@ -XXX,XX +XXX,XX @@ static const MemoryRegionOps ram_device_mem_ops = {
 bool memory_region_access_valid(MemoryRegion *mr,
                                 hwaddr addr,
                                 unsigned size,
-                                bool is_write)
+                                bool is_write,
+                                MemTxAttrs attrs)
 {
     int access_size_min, access_size_max;
     int access_size, i;
@@ -XXX,XX +XXX,XX @@ MemTxResult memory_region_dispatch_read(MemoryRegion *mr,
 {
     MemTxResult r;
 
-    if (!memory_region_access_valid(mr, addr, size, false)) {
+    if (!memory_region_access_valid(mr, addr, size, false, attrs)) {
         *pval = unassigned_mem_read(mr, addr, size);
         return MEMTX_DECODE_ERROR;
     }
@@ -XXX,XX +XXX,XX @@ MemTxResult memory_region_dispatch_write(MemoryRegion *mr,
                                          unsigned size,
                                          MemTxAttrs attrs)
 {
-    if (!memory_region_access_valid(mr, addr, size, true)) {
+    if (!memory_region_access_valid(mr, addr, size, true, attrs)) {
         unassigned_mem_write(mr, addr, data, size);
         return MEMTX_DECODE_ERROR;
     }
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to the MemoryRegion valid.accepts
callback. We'll need this for subpage_accepts().

We could take the approach we used with the read and write
callbacks and add new a new _with_attrs version, but since there
are so few implementations of the accepts hook we just change
them all.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20180521140402.23318-9-peter.maydell@linaro.org
---
 include/exec/memory.h |  3 ++-
 exec.c                |  9 ++++++---
 hw/hppa/dino.c        |  3 ++-
 hw/nvram/fw_cfg.c     | 12 ++++++++----
 hw/scsi/esp.c         |  3 ++-
 hw/xen/xen_pt_msi.c   |  3 ++-
 memory.c              |  5 +++--
 7 files changed, 25 insertions(+), 13 deletions(-)

diff --git a/include/exec/memory.h b/include/exec/memory.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory.h
+++ b/include/exec/memory.h
@@ -XXX,XX +XXX,XX @@ struct MemoryRegionOps {
          * as a machine check exception).
          */
         bool (*accepts)(void *opaque, hwaddr addr,
-                        unsigned size, bool is_write);
+                        unsigned size, bool is_write,
+                        MemTxAttrs attrs);
     } valid;
     /* Internal implementation constraints: */
     struct {
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static void notdirty_mem_write(void *opaque, hwaddr ram_addr,
 }
 
 static bool notdirty_mem_accepts(void *opaque, hwaddr addr,
-                                 unsigned size, bool is_write)
+                                 unsigned size, bool is_write,
+                                 MemTxAttrs attrs)
 {
     return is_write;
 }
@@ -XXX,XX +XXX,XX @@ static MemTxResult subpage_write(void *opaque, hwaddr addr,
 }
 
 static bool subpage_accepts(void *opaque, hwaddr addr,
-                            unsigned len, bool is_write)
+                            unsigned len, bool is_write,
+                            MemTxAttrs attrs)
 {
     subpage_t *subpage = opaque;
 #if defined(DEBUG_SUBPAGE)
@@ -XXX,XX +XXX,XX @@ static void readonly_mem_write(void *opaque, hwaddr addr,
 }
 
 static bool readonly_mem_accepts(void *opaque, hwaddr addr,
-                                 unsigned size, bool is_write)
+                                 unsigned size, bool is_write,
+                                 MemTxAttrs attrs)
 {
     return is_write;
 }
diff --git a/hw/hppa/dino.c b/hw/hppa/dino.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/hppa/dino.c
+++ b/hw/hppa/dino.c
@@ -XXX,XX +XXX,XX @@ static void gsc_to_pci_forwarding(DinoState *s)
 }
 
 static bool dino_chip_mem_valid(void *opaque, hwaddr addr,
-                                unsigned size, bool is_write)
+                                unsigned size, bool is_write,
+                                MemTxAttrs attrs)
 {
     switch (addr) {
     case DINO_IAR0:
diff --git a/hw/nvram/fw_cfg.c b/hw/nvram/fw_cfg.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/nvram/fw_cfg.c
+++ b/hw/nvram/fw_cfg.c
@@ -XXX,XX +XXX,XX @@ static void fw_cfg_dma_mem_write(void *opaque, hwaddr addr,
 }
 
 static bool fw_cfg_dma_mem_valid(void *opaque, hwaddr addr,
-                                  unsigned size, bool is_write)
+                                 unsigned size, bool is_write,
+                                 MemTxAttrs attrs)
 {
     return !is_write || ((size == 4 && (addr == 0 || addr == 4)) ||
                          (size == 8 && addr == 0));
 }
 
 static bool fw_cfg_data_mem_valid(void *opaque, hwaddr addr,
-                                  unsigned size, bool is_write)
+                                  unsigned size, bool is_write,
+                                  MemTxAttrs attrs)
 {
     return addr == 0;
 }
@@ -XXX,XX +XXX,XX @@ static void fw_cfg_ctl_mem_write(void *opaque, hwaddr addr,
 }
 
 static bool fw_cfg_ctl_mem_valid(void *opaque, hwaddr addr,
-                                 unsigned size, bool is_write)
+                                 unsigned size, bool is_write,
+                                 MemTxAttrs attrs)
 {
     return is_write && size == 2;
 }
@@ -XXX,XX +XXX,XX @@ static void fw_cfg_comb_write(void *opaque, hwaddr addr,
 }
 
 static bool fw_cfg_comb_valid(void *opaque, hwaddr addr,
-                                  unsigned size, bool is_write)
+                              unsigned size, bool is_write,
+                              MemTxAttrs attrs)
 {
     return (size == 1) || (is_write && size == 2);
 }
diff --git a/hw/scsi/esp.c b/hw/scsi/esp.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/scsi/esp.c
+++ b/hw/scsi/esp.c
@@ -XXX,XX +XXX,XX @@ void esp_reg_write(ESPState *s, uint32_t saddr, uint64_t val)
 }
 
 static bool esp_mem_accepts(void *opaque, hwaddr addr,
-                            unsigned size, bool is_write)
+                            unsigned size, bool is_write,
+                            MemTxAttrs attrs)
 {
     return (size == 1) || (is_write && size == 4);
 }
diff --git a/hw/xen/xen_pt_msi.c b/hw/xen/xen_pt_msi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/xen/xen_pt_msi.c
+++ b/hw/xen/xen_pt_msi.c
@@ -XXX,XX +XXX,XX @@ static uint64_t pci_msix_read(void *opaque, hwaddr addr,
 }
 
 static bool pci_msix_accepts(void *opaque, hwaddr addr,
-                             unsigned size, bool is_write)
+                             unsigned size, bool is_write,
+                             MemTxAttrs attrs)
 {
     return !(addr & (size - 1));
 }
diff --git a/memory.c b/memory.c
index XXXXXXX..XXXXXXX 100644
--- a/memory.c
+++ b/memory.c
@@ -XXX,XX +XXX,XX @@ static void unassigned_mem_write(void *opaque, hwaddr addr,
 }
 
 static bool unassigned_mem_accepts(void *opaque, hwaddr addr,
-                                   unsigned size, bool is_write)
+                                   unsigned size, bool is_write,
+                                   MemTxAttrs attrs)
 {
     return false;
 }
@@ -XXX,XX +XXX,XX @@ bool memory_region_access_valid(MemoryRegion *mr,
     access_size = MAX(MIN(size, access_size_max), access_size_min);
     for (i = 0; i < size; i += access_size) {
         if (!mr->ops->valid.accepts(mr->opaque, addr + i, access_size,
-                                    is_write)) {
+                                    is_write, attrs)) {
             return false;
         }
     }
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to flatview_access_valid().
Its callers now all have an attrs value to hand, so we can
correct our earlier temporary use of MEMTXATTRS_UNSPECIFIED.

diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult flatview_read(FlatView *fv, hwaddr addr,
 static MemTxResult flatview_write(FlatView *fv, hwaddr addr, MemTxAttrs attrs,
                                   const uint8_t *buf, int len);
 static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
-                                  bool is_write);
+                                  bool is_write, MemTxAttrs attrs);
 
 static MemTxResult subpage_read(void *opaque, hwaddr addr, uint64_t *data,
                                 unsigned len, MemTxAttrs attrs)
@@ -XXX,XX +XXX,XX @@ static bool subpage_accepts(void *opaque, hwaddr addr,
 #endif
 
     return flatview_access_valid(subpage->fv, addr + subpage->base,
-                                 len, is_write);
+                                 len, is_write, attrs);
 }
 
 static const MemoryRegionOps subpage_ops = {
@@ -XXX,XX +XXX,XX @@ static void cpu_notify_map_clients(void)
 }
 
 static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
-                                  bool is_write)
+                                  bool is_write, MemTxAttrs attrs)
 {
     MemoryRegion *mr;
     hwaddr l, xlat;
@@ -XXX,XX +XXX,XX @@ static bool flatview_access_valid(FlatView *fv, hwaddr addr, int len,
         mr = flatview_translate(fv, addr, &xlat, &l, is_write);
         if (!memory_access_is_direct(mr, is_write)) {
             l = memory_access_size(mr, l, addr);
-            /* When our callers all have attrs we'll pass them through here */
-            if (!memory_region_access_valid(mr, xlat, l, is_write,
-                                            MEMTXATTRS_UNSPECIFIED)) {
+            if (!memory_region_access_valid(mr, xlat, l, is_write, attrs)) {
                 return false;
             }
         }
@@ -XXX,XX +XXX,XX @@ bool address_space_access_valid(AddressSpace *as, hwaddr addr,
 
     rcu_read_lock();
     fv = address_space_to_flatview(as);
-    result = flatview_access_valid(fv, addr, len, is_write);
+    result = flatview_access_valid(fv, addr, len, is_write, attrs);
     rcu_read_unlock();
     return result;
 }
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to flatview_translate(); all its
callers now have attrs available.

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to address_space_get_iotlb_entry().

diff --git a/include/exec/memory.h b/include/exec/memory.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/memory.h
+++ b/include/exec/memory.h
@@ -XXX,XX +XXX,XX @@ void address_space_cache_destroy(MemoryRegionCache *cache);
  * entry. Should be called from an RCU critical section.
  */
 IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
-                                            bool is_write);
+                                            bool is_write, MemTxAttrs attrs);
 
 /* address_space_translate: translate an address range into an address space
  * into a MemoryRegion and an address range into that section.  Should be
diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection flatview_do_translate(FlatView *fv,
 
 /* Called from RCU critical section */
 IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
-                                            bool is_write)
+                                            bool is_write, MemTxAttrs attrs)
 {
     MemoryRegionSection section;
     hwaddr xlat, page_mask;
diff --git a/hw/virtio/vhost.c b/hw/virtio/vhost.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/virtio/vhost.c
+++ b/hw/virtio/vhost.c
@@ -XXX,XX +XXX,XX @@ int vhost_device_iotlb_miss(struct vhost_dev *dev, uint64_t iova, int write)
     trace_vhost_iotlb_miss(dev, 1);
 
     iotlb = address_space_get_iotlb_entry(dev->vdev->dma_as,
-                                          iova, write);
+                                          iova, write,
+                                          MEMTXATTRS_UNSPECIFIED);
     if (iotlb.target_as != NULL) {
         ret = vhost_memory_region_lookup(dev, iotlb.translated_addr,
                                          &uaddr, &len);
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to flatview_do_translate().

diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ unassigned:
  * @is_write: whether the translation operation is for write
  * @is_mmio: whether this can be MMIO, set true if it can
  * @target_as: the address space targeted by the IOMMU
+ * @attrs: memory transaction attributes
  *
  * This function is called from RCU critical section
  */
@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection flatview_do_translate(FlatView *fv,
                                                  hwaddr *page_mask_out,
                                                  bool is_write,
                                                  bool is_mmio,
-                                                 AddressSpace **target_as)
+                                                 AddressSpace **target_as,
+                                                 MemTxAttrs attrs)
 {
     MemoryRegionSection *section;
     IOMMUMemoryRegion *iommu_mr;
@@ -XXX,XX +XXX,XX @@ IOMMUTLBEntry address_space_get_iotlb_entry(AddressSpace *as, hwaddr addr,
      * but page mask.
      */
     section = flatview_do_translate(address_space_to_flatview(as), addr, &xlat,
-                                    NULL, &page_mask, is_write, false, &as);
+                                    NULL, &page_mask, is_write, false, &as,
+                                    attrs);
 
     /* Illegal translation */
     if (section.mr == &io_mem_unassigned) {
@@ -XXX,XX +XXX,XX @@ MemoryRegion *flatview_translate(FlatView *fv, hwaddr addr, hwaddr *xlat,
 
     /* This can be MMIO, so setup MMIO bit. */
     section = flatview_do_translate(fv, addr, xlat, plen, NULL,
-                                    is_write, true, &as);
+                                    is_write, true, &as, attrs);
     mr = section.mr;
 
     if (xen_enabled() && memory_access_is_direct(mr, is_write)) {
-- 
2.17.1

As part of plumbing MemTxAttrs down to the IOMMU translate method,
add MemTxAttrs as an argument to address_space_translate_iommu().

diff --git a/exec.c b/exec.c
index XXXXXXX..XXXXXXX 100644
--- a/exec.c
+++ b/exec.c
@@ -XXX,XX +XXX,XX @@ address_space_translate_internal(AddressSpaceDispatch *d, hwaddr addr, hwaddr *x
  * @is_write: whether the translation operation is for write
  * @is_mmio: whether this can be MMIO, set true if it can
  * @target_as: the address space targeted by the IOMMU
+ * @attrs: transaction attributes
  *
  * This function is called from RCU critical section.  It is the common
  * part of flatview_do_translate and address_space_translate_cached.
@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection address_space_translate_iommu(IOMMUMemoryRegion *iomm
                                                          hwaddr *page_mask_out,
                                                          bool is_write,
                                                          bool is_mmio,
-                                                         AddressSpace **target_as)
+                                                         AddressSpace **target_as,
+                                                         MemTxAttrs attrs)
 {
     MemoryRegionSection *section;
     hwaddr page_mask = (hwaddr)-1;
@@ -XXX,XX +XXX,XX @@ static MemoryRegionSection flatview_do_translate(FlatView *fv,
         return address_space_translate_iommu(iommu_mr, xlat,
                                              plen_out, page_mask_out,
                                              is_write, is_mmio,
-                                             target_as);
+                                             target_as, attrs);
     }
     if (page_mask_out) {
         /* Not behind an IOMMU, use default page size. */
@@ -XXX,XX +XXX,XX @@ static inline MemoryRegion *address_space_translate_cached(
 
     section = address_space_translate_iommu(iommu_mr, xlat, plen,
                                             NULL, is_write, true,
-                                            &target_as);
+                                            &target_as, attrs);
     return section.mr;
 }
 
-- 
2.17.1

From: Shannon Zhao <zhaoshenglong@huawei.com>

acpi_data_push uses g_array_set_size to resize the memory size. If there
is no enough contiguous memory, the address will be changed. So previous
pointer could not be used any more. It must update the pointer and use
the new one.

Also, previous codes wrongly use le32 conversion of iort->node_offset
for subsequent computations that will result incorrect value if host is
not litlle endian. So use the non-converted one instead.

Signed-off-by: Shannon Zhao <zhaoshenglong@huawei.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Message-id: 1527663951-14552-1-git-send-email-zhaoshenglong@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/virt-acpi-build.c | 20 +++++++++++++++-----
 1 file changed, 15 insertions(+), 5 deletions(-)

diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt-acpi-build.c
+++ b/hw/arm/virt-acpi-build.c
@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
     AcpiIortItsGroup *its;
     AcpiIortTable *iort;
     AcpiIortSmmu3 *smmu;
-    size_t node_size, iort_length, smmu_offset = 0;
+    size_t node_size, iort_node_offset, iort_length, smmu_offset = 0;
     AcpiIortRC *rc;
 
     iort = acpi_data_push(table_data, sizeof(*iort));
@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
 
     iort_length = sizeof(*iort);
     iort->node_count = cpu_to_le32(nb_nodes);
-    iort->node_offset = cpu_to_le32(sizeof(*iort));
+    /*
+     * Use a copy in case table_data->data moves during acpi_data_push
+     * operations.
+     */
+    iort_node_offset = sizeof(*iort);
+    iort->node_offset = cpu_to_le32(iort_node_offset);
 
     /* ITS group node */
     node_size =  sizeof(*its) + sizeof(uint32_t);
@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
         int irq =  vms->irqmap[VIRT_SMMU];
 
         /* SMMUv3 node */
-        smmu_offset = iort->node_offset + node_size;
+        smmu_offset = iort_node_offset + node_size;
         node_size = sizeof(*smmu) + sizeof(*idmap);
         iort_length += node_size;
         smmu = acpi_data_push(table_data, node_size);
@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
         idmap->id_count = cpu_to_le32(0xFFFF);
         idmap->output_base = 0;
         /* output IORT node is the ITS group node (the first node) */
-        idmap->output_reference = cpu_to_le32(iort->node_offset);
+        idmap->output_reference = cpu_to_le32(iort_node_offset);
     }
 
     /* Root Complex Node */
@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
         idmap->output_reference = cpu_to_le32(smmu_offset);
     } else {
         /* output IORT node is the ITS group node (the first node) */
-        idmap->output_reference = cpu_to_le32(iort->node_offset);
+        idmap->output_reference = cpu_to_le32(iort_node_offset);
     }
 
+    /*
+     * Update the pointer address in case table_data->data moves during above
+     * acpi_data_push operations.
+     */
+    iort = (AcpiIortTable *)(table_data->data + iort_start);
     iort->length = cpu_to_le32(iort_length);
 
     build_header(linker, table_data, (void *)(table_data->data + iort_start),
-- 
2.17.1

From: Shannon Zhao <zhaoshenglong@huawei.com>

kvm_irqchip_create called by kvm_init will call kvm_init_irq_routing to
initialize global capability variables. If we call kvm_init_irq_routing in
GIC realize function, previous allocated memory will leak.

Fix this by deleting the unnecessary call.

Signed-off-by: Shannon Zhao <zhaoshenglong@huawei.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Message-id: 1527750994-14360-1-git-send-email-zhaoshenglong@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/intc/arm_gic_kvm.c   | 1 -
 hw/intc/arm_gicv3_kvm.c | 1 -
 2 files changed, 2 deletions(-)

diff --git a/hw/intc/arm_gic_kvm.c b/hw/intc/arm_gic_kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gic_kvm.c
+++ b/hw/intc/arm_gic_kvm.c
@@ -XXX,XX +XXX,XX @@ static void kvm_arm_gic_realize(DeviceState *dev, Error **errp)
 
     if (kvm_has_gsi_routing()) {
         /* set up irq routing */
-        kvm_init_irq_routing(kvm_state);
         for (i = 0; i < s->num_irq - GIC_INTERNAL; ++i) {
             kvm_irqchip_add_irq_route(kvm_state, i, 0, i);
         }
diff --git a/hw/intc/arm_gicv3_kvm.c b/hw/intc/arm_gicv3_kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_kvm.c
+++ b/hw/intc/arm_gicv3_kvm.c
@@ -XXX,XX +XXX,XX @@ static void kvm_arm_gicv3_realize(DeviceState *dev, Error **errp)
 
     if (kvm_has_gsi_routing()) {
         /* set up irq routing */
-        kvm_init_irq_routing(kvm_state);
         for (i = 0; i < s->num_irq - GIC_INTERNAL; ++i) {
             kvm_irqchip_add_irq_route(kvm_state, i, 0, i);
         }
-- 
2.17.1

First arm pullreq for 6.1 cycle. The big stuff here is RTH's alignment series.

thanks
-- PMM

The following changes since commit ccdf06c1db192152ac70a1dd974c624f566cb7d4:

Open 6.1 development tree (2021-04-30 11:15:40 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210430

for you to fetch changes up to a6091108aa44e9017af4ca13c43f55a629e3744c:

hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows (2021-04-30 11:16:52 +0100)

----------------------------------------------------------------
target-arm queue:
 * hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
 * hw: add compat machines for 6.1
 * Fault misaligned accesses where the architecture requires it
 * Fix some corner cases of MTE faults (notably with misaligned accesses)
 * Make Thumb store insns UNDEF for Rn==1111
 * hw/arm/smmuv3: Support 16K translation granule

----------------------------------------------------------------
Cornelia Huck (1):
      hw: add compat machines for 6.1

Kunkun Jiang (1):
      hw/arm/smmuv3: Support 16K translation granule

Peter Maydell (2):
      target/arm: Make Thumb store insns UNDEF for Rn==1111
      hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows

Richard Henderson (39):
      target/arm: Fix mte_checkN
      target/arm: Split out mte_probe_int
      target/arm: Fix unaligned checks for mte_check1, mte_probe1
      test/tcg/aarch64: Add mte-5
      target/arm: Replace MTEDESC ESIZE+TSIZE with SIZEM1
      target/arm: Merge mte_check1, mte_checkN
      target/arm: Rename mte_probe1 to mte_probe
      target/arm: Simplify sve mte checking
      target/arm: Remove log2_esize parameter to gen_mte_checkN
      target/arm: Fix decode of align in VLDST_single
      target/arm: Rename TBFLAG_A32, SCTLR_B
      target/arm: Rename TBFLAG_ANY, PSTATE_SS
      target/arm: Add wrapper macros for accessing tbflags
      target/arm: Introduce CPUARMTBFlags
      target/arm: Move mode specific TB flags to tb->cs_base
      target/arm: Move TBFLAG_AM32 bits to the top
      target/arm: Move TBFLAG_ANY bits to the bottom
      target/arm: Add ALIGN_MEM to TBFLAG_ANY
      target/arm: Adjust gen_aa32_{ld, st}_i32 for align+endianness
      target/arm: Merge gen_aa32_frob64 into gen_aa32_ld_i64
      target/arm: Fix SCTLR_B test for TCGv_i64 load/store
      target/arm: Adjust gen_aa32_{ld, st}_i64 for align+endianness
      target/arm: Enforce word alignment for LDRD/STRD
      target/arm: Enforce alignment for LDA/LDAH/STL/STLH
      target/arm: Enforce alignment for LDM/STM
      target/arm: Enforce alignment for RFE
      target/arm: Enforce alignment for SRS
      target/arm: Enforce alignment for VLDM/VSTM
      target/arm: Enforce alignment for VLDR/VSTR
      target/arm: Enforce alignment for VLDn (all lanes)
      target/arm: Enforce alignment for VLDn/VSTn (multiple)
      target/arm: Enforce alignment for VLDn/VSTn (single)
      target/arm: Use finalize_memop for aa64 gpr load/store
      target/arm: Use finalize_memop for aa64 fpr load/store
      target/arm: Enforce alignment for aa64 load-acq/store-rel
      target/arm: Use MemOp for size + endian in aa64 vector ld/st
      target/arm: Enforce alignment for aa64 vector LDn/STn (multiple)
      target/arm: Enforce alignment for aa64 vector LDn/STn (single)
      target/arm: Enforce alignment for sve LD1R

From: Kunkun Jiang <jiangkunkun@huawei.com>

The driver can query some bits in SMMUv3 IDR5 to learn which
translation granules are supported. Arm recommends that SMMUv3
implementations support at least 4K and 64K granules. But in
the vSMMUv3, there seems to be no reason not to support 16K
translation granule. In addition, if 16K is not supported,
vSVA will failed to be enabled in the future for 16K guest
kernel. So it'd better to support it.

Signed-off-by: Kunkun Jiang <jiangkunkun@huawei.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Tested-by: Eric Auger <eric.auger@redhat.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmuv3.c | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmuv3.c
+++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static void smmuv3_init_regs(SMMUv3State *s)
     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, RIL, 1);
     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, HAD, 1);
 
-   /* 4K and 64K granule support */
+    /* 4K, 16K and 64K granule support */
     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN4K, 1);
+    s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN16K, 1);
     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN64K, 1);
     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, OAS, SMMU_IDR5_OAS); /* 44 bits */
 
@@ -XXX,XX +XXX,XX @@ static int decode_cd(SMMUTransCfg *cfg, CD *cd, SMMUEventInfo *event)
 
         tg = CD_TG(cd, i);
         tt->granule_sz = tg2granule(tg, i);
-        if ((tt->granule_sz != 12 && tt->granule_sz != 16) || CD_ENDI(cd)) {
+        if ((tt->granule_sz != 12 && tt->granule_sz != 14 &&
+             tt->granule_sz != 16) || CD_ENDI(cd)) {
             goto bad_cd;
         }
 
-- 
2.20.1

The Arm ARM specifies that for Thumb encodings of the various plain
store insns, if the Rn field is 1111 then we must UNDEF.  This is
different from the Arm encodings, where this case is either
UNPREDICTABLE or has well-defined behaviour.  The exclusive stores,
store-release and STRD do not have this UNDEF case for any encoding.

Enforce the UNDEF for this case in the Thumb plain store insns.

Fixes: https://bugs.launchpad.net/qemu/+bug/1922887
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210408162402.5822-1-peter.maydell@linaro.org
---
 target/arm/translate.c | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
     TCGv_i32 addr, tmp;
 
+    /*
+     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
+     * is either UNPREDICTABLE or has defined behaviour
+     */
+    if (s->thumb && a->rn == 15) {
+        return false;
+    }
+
     addr = op_addr_rr_pre(s, a);
 
     tmp = load_reg(s, a->rt);
@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
     TCGv_i32 addr, tmp;
 
+    /*
+     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
+     * is either UNPREDICTABLE or has defined behaviour
+     */
+    if (s->thumb && a->rn == 15) {
+        return false;
+    }
+
     addr = op_addr_ri_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We were incorrectly assuming that only the first byte of an MTE access
is checked against the tags.  But per the ARM, unaligned accesses are
pre-decomposed into single-byte accesses.  So by the time we reach the
actual MTE check in the ARM pseudocode, all accesses are aligned.

Therefore, the first failure is always either the first byte of the
access, or the first byte of the granule.

In addition, some of the arithmetic is off for last-first -> count.
This does not become directly visible until a later patch that passes
single bytes into this function, so ptr == ptr_last.

Buglink: https://bugs.launchpad.net/bugs/1921948
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-2-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: tweaked a comment]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/mte_helper.c | 40 ++++++++++++++++++----------------------
 1 file changed, 18 insertions(+), 22 deletions(-)

diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
                     uint64_t ptr, uintptr_t ra)
 {
     int mmu_idx, ptr_tag, bit55;
-    uint64_t ptr_last, ptr_end, prev_page, next_page;
-    uint64_t tag_first, tag_end;
-    uint64_t tag_byte_first, tag_byte_end;
-    uint32_t esize, total, tag_count, tag_size, n, c;
+    uint64_t ptr_last, prev_page, next_page;
+    uint64_t tag_first, tag_last;
+    uint64_t tag_byte_first, tag_byte_last;
+    uint32_t total, tag_count, tag_size, n, c;
     uint8_t *mem1, *mem2;
     MMUAccessType type;
 
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
 
     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
-    esize = FIELD_EX32(desc, MTEDESC, ESIZE);
     total = FIELD_EX32(desc, MTEDESC, TSIZE);
 
-    /* Find the addr of the end of the access, and of the last element. */
-    ptr_end = ptr + total;
-    ptr_last = ptr_end - esize;
+    /* Find the addr of the end of the access */
+    ptr_last = ptr + total - 1;
 
     /* Round the bounds to the tag granule, and compute the number of tags. */
     tag_first = QEMU_ALIGN_DOWN(ptr, TAG_GRANULE);
-    tag_end = QEMU_ALIGN_UP(ptr_last, TAG_GRANULE);
-    tag_count = (tag_end - tag_first) / TAG_GRANULE;
+    tag_last = QEMU_ALIGN_DOWN(ptr_last, TAG_GRANULE);
+    tag_count = ((tag_last - tag_first) / TAG_GRANULE) + 1;
 
     /* Round the bounds to twice the tag granule, and compute the bytes. */
     tag_byte_first = QEMU_ALIGN_DOWN(ptr, 2 * TAG_GRANULE);
-    tag_byte_end = QEMU_ALIGN_UP(ptr_last, 2 * TAG_GRANULE);
+    tag_byte_last = QEMU_ALIGN_DOWN(ptr_last, 2 * TAG_GRANULE);
 
     /* Locate the page boundaries. */
     prev_page = ptr & TARGET_PAGE_MASK;
     next_page = prev_page + TARGET_PAGE_SIZE;
 
-    if (likely(tag_end - prev_page <= TARGET_PAGE_SIZE)) {
+    if (likely(tag_last - prev_page <= TARGET_PAGE_SIZE)) {
         /* Memory access stays on one page. */
-        tag_size = (tag_byte_end - tag_byte_first) / (2 * TAG_GRANULE);
+        tag_size = ((tag_byte_last - tag_byte_first) / (2 * TAG_GRANULE)) + 1;
         mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
                                   MMU_DATA_LOAD, tag_size, ra);
         if (!mem1) {
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
         mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, next_page - ptr,
                                   MMU_DATA_LOAD, tag_size, ra);
 
-        tag_size = (tag_byte_end - next_page) / (2 * TAG_GRANULE);
+        tag_size = ((tag_byte_last - next_page) / (2 * TAG_GRANULE)) + 1;
         mem2 = allocation_tag_mem(env, mmu_idx, next_page, type,
-                                  ptr_end - next_page,
+                                  ptr_last - next_page + 1,
                                   MMU_DATA_LOAD, tag_size, ra);
 
         /*
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
     }
 
     /*
-     * If we failed, we know which granule.  Compute the element that
-     * is first in that granule, and signal failure on that element.
+     * If we failed, we know which granule.  For the first granule, the
+     * failure address is @ptr, the first byte accessed.  Otherwise the
+     * failure address is the first byte of the nth granule.
      */
     if (unlikely(n < tag_count)) {
-        uint64_t fail_ofs;
-
-        fail_ofs = tag_first + n * TAG_GRANULE - ptr;
-        fail_ofs = ROUND_UP(fail_ofs, esize);
-        mte_check_fail(env, desc, ptr + fail_ofs, ra);
+        uint64_t fault = (n == 0 ? ptr : tag_first + n * TAG_GRANULE);
+        mte_check_fail(env, desc, fault, ra);
     }
 
  done:
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Split out a helper function from mte_checkN to perform
all of the checking and address manpulation.  So far,
just use this in mte_checkN itself.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-3-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/mte_helper.c | 52 +++++++++++++++++++++++++++++++----------
 1 file changed, 40 insertions(+), 12 deletions(-)

diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static int checkN(uint8_t *mem, int odd, int cmp, int count)
     return n;
 }
 
-uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-                    uint64_t ptr, uintptr_t ra)
+/**
+ * mte_probe_int() - helper for mte_probe and mte_check
+ * @env: CPU environment
+ * @desc: MTEDESC descriptor
+ * @ptr: virtual address of the base of the access
+ * @fault: return virtual address of the first check failure
+ *
+ * Internal routine for both mte_probe and mte_check.
+ * Return zero on failure, filling in *fault.
+ * Return negative on trivial success for tbi disabled.
+ * Return positive on success with tbi enabled.
+ */
+static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
+                         uintptr_t ra, uint32_t total, uint64_t *fault)
 {
     int mmu_idx, ptr_tag, bit55;
     uint64_t ptr_last, prev_page, next_page;
     uint64_t tag_first, tag_last;
     uint64_t tag_byte_first, tag_byte_last;
-    uint32_t total, tag_count, tag_size, n, c;
+    uint32_t tag_count, tag_size, n, c;
     uint8_t *mem1, *mem2;
     MMUAccessType type;
 
     bit55 = extract64(ptr, 55, 1);
+    *fault = ptr;
 
     /* If TBI is disabled, the access is unchecked, and ptr is not dirty. */
     if (unlikely(!tbi_check(desc, bit55))) {
-        return ptr;
+        return -1;
     }
 
     ptr_tag = allocation_tag_from_addr(ptr);
 
     if (tcma_check(desc, bit55, ptr_tag)) {
-        goto done;
+        return 1;
     }
 
     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
-    total = FIELD_EX32(desc, MTEDESC, TSIZE);
 
     /* Find the addr of the end of the access */
     ptr_last = ptr + total - 1;
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
         mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
                                   MMU_DATA_LOAD, tag_size, ra);
         if (!mem1) {
-            goto done;
+            return 1;
         }
         /* Perform all of the comparisons. */
         n = checkN(mem1, ptr & TAG_GRANULE, ptr_tag, tag_count);
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
         }
         if (n == c) {
             if (!mem2) {
-                goto done;
+                return 1;
             }
             n += checkN(mem2, 0, ptr_tag, tag_count - c);
         }
     }
 
+    if (likely(n == tag_count)) {
+        return 1;
+    }
+
     /*
      * If we failed, we know which granule.  For the first granule, the
      * failure address is @ptr, the first byte accessed.  Otherwise the
      * failure address is the first byte of the nth granule.
      */
-    if (unlikely(n < tag_count)) {
-        uint64_t fault = (n == 0 ? ptr : tag_first + n * TAG_GRANULE);
-        mte_check_fail(env, desc, fault, ra);
+    if (n > 0) {
+        *fault = tag_first + n * TAG_GRANULE;
     }
+    return 0;
+}
 
- done:
+uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
+                    uint64_t ptr, uintptr_t ra)
+{
+    uint64_t fault;
+    uint32_t total = FIELD_EX32(desc, MTEDESC, TSIZE);
+    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
+
+    if (unlikely(ret == 0)) {
+        mte_check_fail(env, desc, fault, ra);
+    } else if (ret < 0) {
+        return ptr;
+    }
     return useronly_clean_ptr(ptr);
 }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We cannot tell a priori whether or not a given scalar access is aligned,
therefore we must at least check.  Use mte_probe_int, which is already
set up for checking multiple granules.

Buglink: https://bugs.launchpad.net/bugs/1921948
Tested-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/mte_helper.c | 109 +++++++++++++---------------------------
 1 file changed, 35 insertions(+), 74 deletions(-)

diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
     }
 }
 
-/*
- * Perform an MTE checked access for a single logical or atomic access.
- */
-static bool mte_probe1_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
-                           uintptr_t ra, int bit55)
-{
-    int mem_tag, mmu_idx, ptr_tag, size;
-    MMUAccessType type;
-    uint8_t *mem;
-
-    ptr_tag = allocation_tag_from_addr(ptr);
-
-    if (tcma_check(desc, bit55, ptr_tag)) {
-        return true;
-    }
-
-    mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
-    type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
-    size = FIELD_EX32(desc, MTEDESC, ESIZE);
-
-    mem = allocation_tag_mem(env, mmu_idx, ptr, type, size,
-                             MMU_DATA_LOAD, 1, ra);
-    if (!mem) {
-        return true;
-    }
-
-    mem_tag = load_tag1(ptr, mem);
-    return ptr_tag == mem_tag;
-}
-
-/*
- * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
- * Returns false if the access is Checked and the check failed.  This
- * is only intended to probe the tag -- the validity of the page must
- * be checked beforehand.
- */
-bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
-{
-    int bit55 = extract64(ptr, 55, 1);
-
-    /* If TBI is disabled, the access is unchecked. */
-    if (unlikely(!tbi_check(desc, bit55))) {
-        return true;
-    }
-
-    return mte_probe1_int(env, desc, ptr, 0, bit55);
-}
-
-uint64_t mte_check1(CPUARMState *env, uint32_t desc,
-                    uint64_t ptr, uintptr_t ra)
-{
-    int bit55 = extract64(ptr, 55, 1);
-
-    /* If TBI is disabled, the access is unchecked, and ptr is not dirty. */
-    if (unlikely(!tbi_check(desc, bit55))) {
-        return ptr;
-    }
-
-    if (unlikely(!mte_probe1_int(env, desc, ptr, ra, bit55))) {
-        mte_check_fail(env, desc, ptr, ra);
-    }
-
-    return useronly_clean_ptr(ptr);
-}
-
-uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
-{
-    return mte_check1(env, desc, ptr, GETPC());
-}
-
-/*
- * Perform an MTE checked access for multiple logical accesses.
- */
-
 /**
  * checkN:
  * @tag: tag memory to test
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_checkN)(CPUARMState *env, uint32_t desc, uint64_t ptr)
     return mte_checkN(env, desc, ptr, GETPC());
 }
 
+uint64_t mte_check1(CPUARMState *env, uint32_t desc,
+                    uint64_t ptr, uintptr_t ra)
+{
+    uint64_t fault;
+    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
+    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
+
+    if (unlikely(ret == 0)) {
+        mte_check_fail(env, desc, fault, ra);
+    } else if (ret < 0) {
+        return ptr;
+    }
+    return useronly_clean_ptr(ptr);
+}
+
+uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
+{
+    return mte_check1(env, desc, ptr, GETPC());
+}
+
+/*
+ * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
+ * Returns false if the access is Checked and the check failed.  This
+ * is only intended to probe the tag -- the validity of the page must
+ * be checked beforehand.
+ */
+bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
+{
+    uint64_t fault;
+    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
+    int ret = mte_probe_int(env, desc, ptr, 0, total, &fault);
+
+    return ret != 0;
+}
+
 /*
  * Perform an MTE checked access for DC_ZVA.
  */
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Buglink: https://bugs.launchpad.net/bugs/1921948
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/tcg/aarch64/mte-5.c         | 44 +++++++++++++++++++++++++++++++
 tests/tcg/aarch64/Makefile.target |  2 +-
 2 files changed, 45 insertions(+), 1 deletion(-)
 create mode 100644 tests/tcg/aarch64/mte-5.c

diff --git a/tests/tcg/aarch64/mte-5.c b/tests/tcg/aarch64/mte-5.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/tcg/aarch64/mte-5.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Memory tagging, faulting unaligned access.
+ *
+ * Copyright (c) 2021 Linaro Ltd
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#include "mte.h"
+
+void pass(int sig, siginfo_t *info, void *uc)
+{
+    assert(info->si_code == SEGV_MTESERR);
+    exit(0);
+}
+
+int main(int ac, char **av)
+{
+    struct sigaction sa;
+    void *p0, *p1, *p2;
+    long excl = 1;
+
+    enable_mte(PR_MTE_TCF_SYNC);
+    p0 = alloc_mte_mem(sizeof(*p0));
+
+    /* Create two differently tagged pointers.  */
+    asm("irg %0,%1,%2" : "=r"(p1) : "r"(p0), "r"(excl));
+    asm("gmi %0,%1,%0" : "+r"(excl) : "r" (p1));
+    assert(excl != 1);
+    asm("irg %0,%1,%2" : "=r"(p2) : "r"(p0), "r"(excl));
+    assert(p1 != p2);
+
+    memset(&sa, 0, sizeof(sa));
+    sa.sa_sigaction = pass;
+    sa.sa_flags = SA_SIGINFO;
+    sigaction(SIGSEGV, &sa, NULL);
+
+    /* Store store two different tags in sequential granules. */
+    asm("stg %0, [%0]" : : "r"(p1));
+    asm("stg %0, [%0]" : : "r"(p2 + 16));
+
+    /* Perform an unaligned load crossing the granules. */
+    asm volatile("ldr %0, [%1]" : "=r"(p0) : "r"(p1 + 12));
+    abort();
+}
diff --git a/tests/tcg/aarch64/Makefile.target b/tests/tcg/aarch64/Makefile.target
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/aarch64/Makefile.target
+++ b/tests/tcg/aarch64/Makefile.target
@@ -XXX,XX +XXX,XX @@ AARCH64_TESTS += bti-2
 
 # MTE Tests
 ifneq ($(DOCKER_IMAGE)$(CROSS_CC_HAS_ARMV8_MTE),)
-AARCH64_TESTS += mte-1 mte-2 mte-3 mte-4 mte-6
+AARCH64_TESTS += mte-1 mte-2 mte-3 mte-4 mte-5 mte-6
 mte-%: CFLAGS += -march=armv8.5-a+memtag
 endif
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

After recent changes, mte_checkN does not use ESIZE,
and mte_check1 never used TSIZE.  We can combine the
two into a single field: SIZEM1.

Choose to pass size - 1 because size == 0 is never used,
our immediate need in mte_probe_int is for the address
of the last byte (ptr + size - 1), and since almost all
operations are powers of 2, this makes the immediate
constant one bit smaller.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h     |  4 ++--
 target/arm/mte_helper.c    | 18 ++++++++----------
 target/arm/translate-a64.c |  5 ++---
 target/arm/translate-sve.c |  5 ++---
 4 files changed, 14 insertions(+), 18 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@
 #define TARGET_ARM_INTERNALS_H
 
 #include "hw/registerfields.h"
+#include "tcg/tcg-gvec-desc.h"
 #include "syndrome.h"
 
 /* register banks for CPU modes */
@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, MIDX,  0, 4)
 FIELD(MTEDESC, TBI,   4, 2)
 FIELD(MTEDESC, TCMA,  6, 2)
 FIELD(MTEDESC, WRITE, 8, 1)
-FIELD(MTEDESC, ESIZE, 9, 5)
-FIELD(MTEDESC, TSIZE, 14, 10)  /* mte_checkN only */
+FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
 
 bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
 uint64_t mte_check1(CPUARMState *env, uint32_t desc,
diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static int checkN(uint8_t *mem, int odd, int cmp, int count)
  * Return positive on success with tbi enabled.
  */
 static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
-                         uintptr_t ra, uint32_t total, uint64_t *fault)
+                         uintptr_t ra, uint64_t *fault)
 {
     int mmu_idx, ptr_tag, bit55;
     uint64_t ptr_last, prev_page, next_page;
     uint64_t tag_first, tag_last;
     uint64_t tag_byte_first, tag_byte_last;
-    uint32_t tag_count, tag_size, n, c;
+    uint32_t sizem1, tag_count, tag_size, n, c;
     uint8_t *mem1, *mem2;
     MMUAccessType type;
 
@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
 
     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
+    sizem1 = FIELD_EX32(desc, MTEDESC, SIZEM1);
 
     /* Find the addr of the end of the access */
-    ptr_last = ptr + total - 1;
+    ptr_last = ptr + sizem1;
 
     /* Round the bounds to the tag granule, and compute the number of tags. */
     tag_first = QEMU_ALIGN_DOWN(ptr, TAG_GRANULE);
@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
     if (likely(tag_last - prev_page <= TARGET_PAGE_SIZE)) {
         /* Memory access stays on one page. */
         tag_size = ((tag_byte_last - tag_byte_first) / (2 * TAG_GRANULE)) + 1;
-        mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
+        mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, sizem1 + 1,
                                   MMU_DATA_LOAD, tag_size, ra);
         if (!mem1) {
             return 1;
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
                     uint64_t ptr, uintptr_t ra)
 {
     uint64_t fault;
-    uint32_t total = FIELD_EX32(desc, MTEDESC, TSIZE);
-    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
+    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
 
     if (unlikely(ret == 0)) {
         mte_check_fail(env, desc, fault, ra);
@@ -XXX,XX +XXX,XX @@ uint64_t mte_check1(CPUARMState *env, uint32_t desc,
                     uint64_t ptr, uintptr_t ra)
 {
     uint64_t fault;
-    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
-    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
+    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
 
     if (unlikely(ret == 0)) {
         mte_check_fail(env, desc, fault, ra);
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
 {
     uint64_t fault;
-    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
-    int ret = mte_probe_int(env, desc, ptr, 0, total, &fault);
+    int ret = mte_probe_int(env, desc, ptr, 0, &fault);
 
     return ret != 0;
 }
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << log2_size);
+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << log2_size) - 1);
         tcg_desc = tcg_const_i32(desc);
 
         ret = new_tmp_a64(s);
@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << log2_esize);
-        desc = FIELD_DP32(desc, MTEDESC, TSIZE, total_size);
+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, total_size - 1);
         tcg_desc = tcg_const_i32(desc);
 
         ret = new_tmp_a64(s);
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << msz);
-        desc = FIELD_DP32(desc, MTEDESC, TSIZE, mte_n << msz);
+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (mte_n << msz) - 1);
         desc <<= SVE_MTEDESC_SHIFT;
     } else {
         addr = clean_data_tbi(s, addr);
@@ -XXX,XX +XXX,XX @@ static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm,
         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
-        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << msz);
+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << msz) - 1);
         desc <<= SVE_MTEDESC_SHIFT;
     }
     desc = simd_desc(vsz, vsz, desc | scale);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The mte_check1 and mte_checkN functions are now identical.
Drop mte_check1 and rename mte_checkN to mte_check.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-a64.h    |  3 +--
 target/arm/internals.h     |  5 +----
 target/arm/mte_helper.c    | 26 +++-----------------------
 target/arm/sve_helper.c    | 14 +++++++-------
 target/arm/translate-a64.c |  4 ++--
 5 files changed, 14 insertions(+), 38 deletions(-)

diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.h
+++ b/target/arm/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(autdb, TCG_CALL_NO_WG, i64, env, i64, i64)
 DEF_HELPER_FLAGS_2(xpaci, TCG_CALL_NO_RWG_SE, i64, env, i64)
 DEF_HELPER_FLAGS_2(xpacd, TCG_CALL_NO_RWG_SE, i64, env, i64)
 
-DEF_HELPER_FLAGS_3(mte_check1, TCG_CALL_NO_WG, i64, env, i32, i64)
-DEF_HELPER_FLAGS_3(mte_checkN, TCG_CALL_NO_WG, i64, env, i32, i64)
+DEF_HELPER_FLAGS_3(mte_check, TCG_CALL_NO_WG, i64, env, i32, i64)
 DEF_HELPER_FLAGS_3(mte_check_zva, TCG_CALL_NO_WG, i64, env, i32, i64)
 DEF_HELPER_FLAGS_3(irg, TCG_CALL_NO_RWG, i64, env, i64, i64)
 DEF_HELPER_FLAGS_4(addsubg, TCG_CALL_NO_RWG_SE, i64, env, i64, s32, i32)
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, WRITE, 8, 1)
 FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
 
 bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
-uint64_t mte_check1(CPUARMState *env, uint32_t desc,
-                    uint64_t ptr, uintptr_t ra);
-uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-                    uint64_t ptr, uintptr_t ra);
+uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra);
 
 static inline int allocation_tag_from_addr(uint64_t ptr)
 {
diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
     return 0;
 }
 
-uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-                    uint64_t ptr, uintptr_t ra)
+uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra)
 {
     uint64_t fault;
     int ret = mte_probe_int(env, desc, ptr, ra, &fault);
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
     return useronly_clean_ptr(ptr);
 }
 
-uint64_t HELPER(mte_checkN)(CPUARMState *env, uint32_t desc, uint64_t ptr)
+uint64_t HELPER(mte_check)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 {
-    return mte_checkN(env, desc, ptr, GETPC());
-}
-
-uint64_t mte_check1(CPUARMState *env, uint32_t desc,
-                    uint64_t ptr, uintptr_t ra)
-{
-    uint64_t fault;
-    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
-
-    if (unlikely(ret == 0)) {
-        mte_check_fail(env, desc, fault, ra);
-    } else if (ret < 0) {
-        return ptr;
-    }
-    return useronly_clean_ptr(ptr);
-}
-
-uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
-{
-    return mte_check1(env, desc, ptr, GETPC());
+    return mte_check(env, desc, ptr, GETPC());
 }
 
 /*
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_mte_check1(SVEContLdSt *info, CPUARMState *env,
                                      uintptr_t ra)
 {
     sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
-                                mtedesc, ra, mte_check1);
+                                mtedesc, ra, mte_check);
 }
 
 static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
                                      uintptr_t ra)
 {
     sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
-                                mtedesc, ra, mte_checkN);
+                                mtedesc, ra, mte_check);
 }
 
 
@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
     if (fault == FAULT_FIRST) {
         /* Trapping mte check for the first-fault element.  */
         if (mtedesc) {
-            mte_check1(env, mtedesc, addr + mem_off, retaddr);
+            mte_check(env, mtedesc, addr + mem_off, retaddr);
         }
 
         /*
@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                                              info.attrs, BP_MEM_READ, retaddr);
                     }
                     if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
-                        mte_check1(env, mtedesc, addr, retaddr);
+                        mte_check(env, mtedesc, addr, retaddr);
                     }
                     host_fn(&scratch, reg_off, info.host);
                 } else {
@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                                              BP_MEM_READ, retaddr);
                     }
                     if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
-                        mte_check1(env, mtedesc, addr, retaddr);
+                        mte_check(env, mtedesc, addr, retaddr);
                     }
                     tlb_fn(env, &scratch, reg_off, addr, retaddr);
                 }
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
      */
     addr = base + (off_fn(vm, reg_off) << scale);
     if (mtedesc) {
-        mte_check1(env, mtedesc, addr, retaddr);
+        mte_check(env, mtedesc, addr, retaddr);
     }
     tlb_fn(env, vd, reg_off, addr, retaddr);
 
@@ -XXX,XX +XXX,XX @@ void sve_st1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                 }
 
                 if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
-                    mte_check1(env, mtedesc, addr, retaddr);
+                    mte_check(env, mtedesc, addr, retaddr);
                 }
             }
             i += 1;
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
         tcg_desc = tcg_const_i32(desc);
 
         ret = new_tmp_a64(s);
-        gen_helper_mte_check1(ret, cpu_env, tcg_desc, addr);
+        gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
         tcg_temp_free_i32(tcg_desc);
 
         return ret;
@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
         tcg_desc = tcg_const_i32(desc);
 
         ret = new_tmp_a64(s);
-        gen_helper_mte_checkN(ret, cpu_env, tcg_desc, addr);
+        gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
         tcg_temp_free_i32(tcg_desc);
 
         return ret;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

For consistency with the mte_check1 + mte_checkN merge
to mte_check, rename the probe function as well.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h  | 2 +-
 target/arm/mte_helper.c | 6 +++---
 target/arm/sve_helper.c | 6 +++---
 3 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, TCMA,  6, 2)
 FIELD(MTEDESC, WRITE, 8, 1)
 FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
 
-bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
+bool mte_probe(CPUARMState *env, uint32_t desc, uint64_t ptr);
 uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra);
 
 static inline int allocation_tag_from_addr(uint64_t ptr)
diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/mte_helper.c
+++ b/target/arm/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
      * exception for inaccessible pages, and resolves the virtual address
      * into the softmmu tlb.
      *
-     * When RA == 0, this is for mte_probe1.  The page is expected to be
+     * When RA == 0, this is for mte_probe.  The page is expected to be
      * valid.  Indicate to probe_access_flags no-fault, then assert that
      * we received a valid page.
      */
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_check)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 }
 
 /*
- * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
+ * No-fault version of mte_check, to be used by SVE for MemSingleNF.
  * Returns false if the access is Checked and the check failed.  This
  * is only intended to probe the tag -- the validity of the page must
  * be checked beforehand.
  */
-bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
+bool mte_probe(CPUARMState *env, uint32_t desc, uint64_t ptr)
 {
     uint64_t fault;
     int ret = mte_probe_int(env, desc, ptr, 0, &fault);
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
                 /* Watchpoint hit, see below. */
                 goto do_fault;
             }
-            if (mtedesc && !mte_probe1(env, mtedesc, addr + mem_off)) {
+            if (mtedesc && !mte_probe(env, mtedesc, addr + mem_off)) {
                 goto do_fault;
             }
             /*
@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
                      & BP_MEM_READ)) {
                     goto do_fault;
                 }
-                if (mtedesc && !mte_probe1(env, mtedesc, addr + mem_off)) {
+                if (mtedesc && !mte_probe(env, mtedesc, addr + mem_off)) {
                     goto do_fault;
                 }
                 host_fn(vd, reg_off, host + mem_off);
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                 }
                 if (mtedesc &&
                     arm_tlb_mte_tagged(&info.attrs) &&
-                    !mte_probe1(env, mtedesc, addr)) {
+                    !mte_probe(env, mtedesc, addr)) {
                     goto fault;
                 }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Now that mte_check1 and mte_checkN have been merged, we can
merge sve_cont_ldst_mte_check1 and sve_cont_ldst_mte_checkN.

Which means that we can eliminate the function pointer into
sve_ldN_r and sve_stN_r, calling sve_cont_ldst_mte_check directly.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 84 +++++++++++++----------------------------
 1 file changed, 26 insertions(+), 58 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_watchpoints(SVEContLdSt *info, CPUARMState *env,
 #endif
 }
 
-typedef uint64_t mte_check_fn(CPUARMState *, uint32_t, uint64_t, uintptr_t);
-
-static inline QEMU_ALWAYS_INLINE
-void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
-                                 uint64_t *vg, target_ulong addr, int esize,
-                                 int msize, uint32_t mtedesc, uintptr_t ra,
-                                 mte_check_fn *check)
+static void sve_cont_ldst_mte_check(SVEContLdSt *info, CPUARMState *env,
+                                    uint64_t *vg, target_ulong addr, int esize,
+                                    int msize, uint32_t mtedesc, uintptr_t ra)
 {
     intptr_t mem_off, reg_off, reg_last;
 
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
             uint64_t pg = vg[reg_off >> 6];
             do {
                 if ((pg >> (reg_off & 63)) & 1) {
-                    check(env, mtedesc, addr, ra);
+                    mte_check(env, mtedesc, addr, ra);
                 }
                 reg_off += esize;
                 mem_off += msize;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
             uint64_t pg = vg[reg_off >> 6];
             do {
                 if ((pg >> (reg_off & 63)) & 1) {
-                    check(env, mtedesc, addr, ra);
+                    mte_check(env, mtedesc, addr, ra);
                 }
                 reg_off += esize;
                 mem_off += msize;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
     }
 }
 
-typedef void sve_cont_ldst_mte_check_fn(SVEContLdSt *info, CPUARMState *env,
-                                        uint64_t *vg, target_ulong addr,
-                                        int esize, int msize, uint32_t mtedesc,
-                                        uintptr_t ra);
-
-static void sve_cont_ldst_mte_check1(SVEContLdSt *info, CPUARMState *env,
-                                     uint64_t *vg, target_ulong addr,
-                                     int esize, int msize, uint32_t mtedesc,
-                                     uintptr_t ra)
-{
-    sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
-                                mtedesc, ra, mte_check);
-}
-
-static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
-                                     uint64_t *vg, target_ulong addr,
-                                     int esize, int msize, uint32_t mtedesc,
-                                     uintptr_t ra)
-{
-    sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
-                                mtedesc, ra, mte_check);
-}
-
-
 /*
  * Common helper for all contiguous 1,2,3,4-register predicated stores.
  */
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r(CPUARMState *env, uint64_t *vg, const target_ulong addr,
                uint32_t desc, const uintptr_t retaddr,
                const int esz, const int msz, const int N, uint32_t mtedesc,
                sve_ldst1_host_fn *host_fn,
-               sve_ldst1_tlb_fn *tlb_fn,
-               sve_cont_ldst_mte_check_fn *mte_check_fn)
+               sve_ldst1_tlb_fn *tlb_fn)
 {
     const unsigned rd = simd_data(desc);
     const intptr_t reg_max = simd_oprsz(desc);
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r(CPUARMState *env, uint64_t *vg, const target_ulong addr,
      * Handle mte checks for all active elements.
      * Since TBI must be set for MTE, !mtedesc => !mte_active.
      */
-    if (mte_check_fn && mtedesc) {
-        mte_check_fn(&info, env, vg, addr, 1 << esz, N << msz,
-                     mtedesc, retaddr);
+    if (mtedesc) {
+        sve_cont_ldst_mte_check(&info, env, vg, addr, 1 << esz, N << msz,
+                                mtedesc, retaddr);
     }
 
     flags = info.page[0].flags | info.page[1].flags;
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r_mte(CPUARMState *env, uint64_t *vg, target_ulong addr,
         mtedesc = 0;
     }
 
-    sve_ldN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn,
-              N == 1 ? sve_cont_ldst_mte_check1 : sve_cont_ldst_mte_checkN);
+    sve_ldN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn);
 }
 
 #define DO_LD1_1(NAME, ESZ)                                             \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,                 \
                             target_ulong addr, uint32_t desc)           \
 {                                                                       \
     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MO_8, 1, 0,            \
-              sve_##NAME##_host, sve_##NAME##_tlb, NULL);               \
+              sve_##NAME##_host, sve_##NAME##_tlb);                     \
 }                                                                       \
 void HELPER(sve_##NAME##_r_mte)(CPUARMState *env, void *vg,             \
                                 target_ulong addr, uint32_t desc)       \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_le_r)(CPUARMState *env, void *vg,              \
                                target_ulong addr, uint32_t desc)        \
 {                                                                       \
     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1, 0,             \
-              sve_##NAME##_le_host, sve_##NAME##_le_tlb, NULL);         \
+              sve_##NAME##_le_host, sve_##NAME##_le_tlb);               \
 }                                                                       \
 void HELPER(sve_##NAME##_be_r)(CPUARMState *env, void *vg,              \
                                target_ulong addr, uint32_t desc)        \
 {                                                                       \
     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1, 0,             \
-              sve_##NAME##_be_host, sve_##NAME##_be_tlb, NULL);         \
+              sve_##NAME##_be_host, sve_##NAME##_be_tlb);               \
 }                                                                       \
 void HELPER(sve_##NAME##_le_r_mte)(CPUARMState *env, void *vg,          \
-                                 target_ulong addr, uint32_t desc)      \
+                                   target_ulong addr, uint32_t desc)    \
 {                                                                       \
     sve_ldN_r_mte(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1,            \
                   sve_##NAME##_le_host, sve_##NAME##_le_tlb);           \
 }                                                                       \
 void HELPER(sve_##NAME##_be_r_mte)(CPUARMState *env, void *vg,          \
-                                 target_ulong addr, uint32_t desc)      \
+                                   target_ulong addr, uint32_t desc)    \
 {                                                                       \
     sve_ldN_r_mte(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1,            \
                   sve_##NAME##_be_host, sve_##NAME##_be_tlb);           \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ld##N##bb_r)(CPUARMState *env, void *vg,                \
                              target_ulong addr, uint32_t desc)          \
 {                                                                       \
     sve_ldN_r(env, vg, addr, desc, GETPC(), MO_8, MO_8, N, 0,           \
-              sve_ld1bb_host, sve_ld1bb_tlb, NULL);                     \
+              sve_ld1bb_host, sve_ld1bb_tlb);                           \
 }                                                                       \
 void HELPER(sve_ld##N##bb_r_mte)(CPUARMState *env, void *vg,            \
                                  target_ulong addr, uint32_t desc)      \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ld##N##SUFF##_le_r)(CPUARMState *env, void *vg,         \
                                     target_ulong addr, uint32_t desc)   \
 {                                                                       \
     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, ESZ, N, 0,             \
-              sve_ld1##SUFF##_le_host, sve_ld1##SUFF##_le_tlb, NULL);   \
+              sve_ld1##SUFF##_le_host, sve_ld1##SUFF##_le_tlb);         \
 }                                                                       \
 void HELPER(sve_ld##N##SUFF##_be_r)(CPUARMState *env, void *vg,         \
                                     target_ulong addr, uint32_t desc)   \
 {                                                                       \
     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, ESZ, N, 0,             \
-              sve_ld1##SUFF##_be_host, sve_ld1##SUFF##_be_tlb, NULL);   \
+              sve_ld1##SUFF##_be_host, sve_ld1##SUFF##_be_tlb);         \
 }                                                                       \
 void HELPER(sve_ld##N##SUFF##_le_r_mte)(CPUARMState *env, void *vg,     \
                                         target_ulong addr, uint32_t desc) \
@@ -XXX,XX +XXX,XX @@ void sve_stN_r(CPUARMState *env, uint64_t *vg, target_ulong addr,
                uint32_t desc, const uintptr_t retaddr,
                const int esz, const int msz, const int N, uint32_t mtedesc,
                sve_ldst1_host_fn *host_fn,
-               sve_ldst1_tlb_fn *tlb_fn,
-               sve_cont_ldst_mte_check_fn *mte_check_fn)
+               sve_ldst1_tlb_fn *tlb_fn)
 {
     const unsigned rd = simd_data(desc);
     const intptr_t reg_max = simd_oprsz(desc);
@@ -XXX,XX +XXX,XX @@ void sve_stN_r(CPUARMState *env, uint64_t *vg, target_ulong addr,
      * Handle mte checks for all active elements.
      * Since TBI must be set for MTE, !mtedesc => !mte_active.
      */
-    if (mte_check_fn && mtedesc) {
-        mte_check_fn(&info, env, vg, addr, 1 << esz, N << msz,
-                     mtedesc, retaddr);
+    if (mtedesc) {
+        sve_cont_ldst_mte_check(&info, env, vg, addr, 1 << esz, N << msz,
+                                mtedesc, retaddr);
     }
 
     flags = info.page[0].flags | info.page[1].flags;
@@ -XXX,XX +XXX,XX @@ void sve_stN_r_mte(CPUARMState *env, uint64_t *vg, target_ulong addr,
         mtedesc = 0;
     }
 
-    sve_stN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn,
-              N == 1 ? sve_cont_ldst_mte_check1 : sve_cont_ldst_mte_checkN);
+    sve_stN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn);
 }
 
 #define DO_STN_1(N, NAME, ESZ)                                          \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_st##N##NAME##_r)(CPUARMState *env, void *vg,            \
                                  target_ulong addr, uint32_t desc)      \
 {                                                                       \
     sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MO_8, N, 0,            \
-              sve_st1##NAME##_host, sve_st1##NAME##_tlb, NULL);         \
+              sve_st1##NAME##_host, sve_st1##NAME##_tlb);               \
 }                                                                       \
 void HELPER(sve_st##N##NAME##_r_mte)(CPUARMState *env, void *vg,        \
                                      target_ulong addr, uint32_t desc)  \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_st##N##NAME##_le_r)(CPUARMState *env, void *vg,         \
                                     target_ulong addr, uint32_t desc)   \
 {                                                                       \
     sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, N, 0,             \
-              sve_st1##NAME##_le_host, sve_st1##NAME##_le_tlb, NULL);   \
+              sve_st1##NAME##_le_host, sve_st1##NAME##_le_tlb);         \
 }                                                                       \
 void HELPER(sve_st##N##NAME##_be_r)(CPUARMState *env, void *vg,         \
                                     target_ulong addr, uint32_t desc)   \
 {                                                                       \
     sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, N, 0,             \
-              sve_st1##NAME##_be_host, sve_st1##NAME##_be_tlb, NULL);   \
+              sve_st1##NAME##_be_host, sve_st1##NAME##_be_tlb);         \
 }                                                                       \
 void HELPER(sve_st##N##NAME##_le_r_mte)(CPUARMState *env, void *vg,     \
                                         target_ulong addr, uint32_t desc) \
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The log2_esize parameter is not used except trivially.
Drop the parameter and the deferral to gen_mte_check1.

This fixes a bug in that the parameters as documented
in the header file were the reverse from those in the
implementation.  Which meant that translate-sve.c was
passing the parameters in the wrong order.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210416183106.1516563-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.h |  2 +-
 target/arm/translate-a64.c | 15 +++++++--------
 target/arm/translate-sve.c |  4 ++--
 3 files changed, 10 insertions(+), 11 deletions(-)

diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.h
+++ b/target/arm/translate-a64.h
@@ -XXX,XX +XXX,XX @@ TCGv_i64 clean_data_tbi(DisasContext *s, TCGv_i64 addr);
 TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
                         bool tag_checked, int log2_size);
 TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-                        bool tag_checked, int count, int log2_esize);
+                        bool tag_checked, int size);
 
 /* We should have at some point before trying to access an FP register
  * done the necessary access check, so assert that
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
  * For MTE, check multiple logical sequential accesses.
  */
 TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-                        bool tag_checked, int log2_esize, int total_size)
+                        bool tag_checked, int size)
 {
-    if (tag_checked && s->mte_active[0] && total_size != (1 << log2_esize)) {
+    if (tag_checked && s->mte_active[0]) {
         TCGv_i32 tcg_desc;
         TCGv_i64 ret;
         int desc = 0;
@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
-        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, total_size - 1);
+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, size - 1);
         tcg_desc = tcg_const_i32(desc);
 
         ret = new_tmp_a64(s);
@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
 
         return ret;
     }
-    return gen_mte_check1(s, addr, is_write, tag_checked, log2_esize);
+    return clean_data_tbi(s, addr);
 }
 
 typedef struct DisasCompare64 {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pair(DisasContext *s, uint32_t insn)
     }
 
     clean_addr = gen_mte_checkN(s, dirty_addr, !is_load,
-                                (wback || rn != 31) && !set_tag,
-                                size, 2 << size);
+                                (wback || rn != 31) && !set_tag, 2 << size);
 
     if (is_vector) {
         if (is_load) {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
      * promote consecutive little-endian elements below.
      */
     clean_addr = gen_mte_checkN(s, tcg_rn, is_store, is_postidx || rn != 31,
-                                size, total);
+                                total);
 
     /*
      * Consecutive little-endian elements from a single register
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
     tcg_rn = cpu_reg_sp(s, rn);
 
     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
-                                scale, total);
+                                total);
 
     tcg_ebytes = tcg_const_i64(1 << scale);
     for (xs = 0; xs < selem; xs++) {
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_ldr(DisasContext *s, uint32_t vofs, int len, int rn, int imm)
 
     dirty_addr = tcg_temp_new_i64();
     tcg_gen_addi_i64(dirty_addr, cpu_reg_sp(s, rn), imm);
-    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len, MO_8);
+    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len);
     tcg_temp_free_i64(dirty_addr);
 
     /*
@@ -XXX,XX +XXX,XX @@ static void do_str(DisasContext *s, uint32_t vofs, int len, int rn, int imm)
 
     dirty_addr = tcg_temp_new_i64();
     tcg_gen_addi_i64(dirty_addr, cpu_reg_sp(s, rn), imm);
-    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len, MO_8);
+    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len);
     tcg_temp_free_i64(dirty_addr);
 
     /* Note that unpredicated load/store of vector/predicate registers
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The encoding of size = 2 and size = 3 had the incorrect decode
for align, overlapping the stride field.  This error was hidden
by what should have been unnecessary masking in translate.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/neon-ls.decode       | 4 ++--
 target/arm/translate-neon.c.inc | 4 ++--
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-ls.decode
+++ b/target/arm/neon-ls.decode
@@ -XXX,XX +XXX,XX @@ VLD_all_lanes  1111 0100 1 . 1 0 rn:4 .... 11 n:2 size:2 t:1 a:1 rm:4 \
 
 VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 00 n:2 reg_idx:3 align:1 rm:4 \
                vd=%vd_dp size=0 stride=1
-VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 align:2 rm:4 \
+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 . align:1 rm:4 \
                vd=%vd_dp size=1 stride=%imm1_5_p1
-VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 align:3 rm:4 \
+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 . align:2 rm:4 \
                vd=%vd_dp size=2 stride=%imm1_6_p1
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
     switch (nregs) {
     case 1:
         if (((a->align & (1 << a->size)) != 0) ||
-            (a->size == 2 && ((a->align & 3) == 1 || (a->align & 3) == 2))) {
+            (a->size == 2 && (a->align == 1 || a->align == 2))) {
             return false;
         }
         break;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
         }
         break;
     case 4:
-        if ((a->size == 2) && ((a->align & 3) == 3)) {
+        if (a->size == 2 && a->align == 3) {
             return false;
         }
         break;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We're about to rearrange the macro expansion surrounding tbflags,
and this field name will be expanded using the bit definition of
the same name, resulting in a token pasting error.

So SCTLR_B -> SCTLR__B in the 3 uses, and document it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h       | 2 +-
 target/arm/helper.c    | 2 +-
 target/arm/translate.c | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A32, VECSTRIDE, 12, 2)     /* Not cached. */
  */
 FIELD(TBFLAG_A32, XSCALE_CPAR, 12, 2)
 FIELD(TBFLAG_A32, VFPEN, 14, 1)         /* Partially cached, minus FPEXC. */
-FIELD(TBFLAG_A32, SCTLR_B, 15, 1)
+FIELD(TBFLAG_A32, SCTLR__B, 15, 1)      /* Cannot overlap with SCTLR_B */
 FIELD(TBFLAG_A32, HSTR_ACTIVE, 16, 1)
 /*
  * Indicates whether cp register reads and writes by guest code should access
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
     bool sctlr_b = arm_sctlr_b(env);
 
     if (sctlr_b) {
-        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR_B, 1);
+        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR__B, 1);
     }
     if (arm_cpu_data_is_big_endian_a32(env, sctlr_b)) {
         flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
             FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
         dc->debug_target_el =
             FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
-        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR_B);
+        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR__B);
         dc->hstr_active = FIELD_EX32(tb_flags, TBFLAG_A32, HSTR_ACTIVE);
         dc->ns = FIELD_EX32(tb_flags, TBFLAG_A32, NS);
         dc->vfp_enabled = FIELD_EX32(tb_flags, TBFLAG_A32, VFPEN);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We're about to rearrange the macro expansion surrounding tbflags,
and this field name will be expanded using the bit definition of
the same name, resulting in a token pasting error.

So PSTATE_SS -> PSTATE__SS in the uses, and document it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           | 2 +-
 target/arm/helper.c        | 4 ++--
 target/arm/translate-a64.c | 2 +-
 target/arm/translate.c     | 2 +-
 4 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
  */
 FIELD(TBFLAG_ANY, AARCH64_STATE, 31, 1)
 FIELD(TBFLAG_ANY, SS_ACTIVE, 30, 1)
-FIELD(TBFLAG_ANY, PSTATE_SS, 29, 1)     /* Not cached. */
+FIELD(TBFLAG_ANY, PSTATE__SS, 29, 1)    /* Not cached. */
 FIELD(TBFLAG_ANY, BE_DATA, 28, 1)
 FIELD(TBFLAG_ANY, MMUIDX, 24, 4)
 /* Target EL if we take a floating-point-disabled exception */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
      *     0            x       Inactive (the TB flag for SS is always 0)
      *     1            0       Active-pending
      *     1            1       Active-not-pending
-     * SS_ACTIVE is set in hflags; PSTATE_SS is computed every TB.
+     * SS_ACTIVE is set in hflags; PSTATE__SS is computed every TB.
      */
     if (FIELD_EX32(flags, TBFLAG_ANY, SS_ACTIVE) &&
         (env->pstate & PSTATE_SS)) {
-        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE_SS, 1);
+        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE__SS, 1);
     }
 
     *pflags = flags;
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
      *   end the TB
      */
     dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
-    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE_SS);
+    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
     dc->is_ldex = false;
     dc->debug_target_el = FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
 
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      *   end the TB
      */
     dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
-    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE_SS);
+    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
     dc->is_ldex = false;
 
     dc->page_start = dc->base.pc_first & TARGET_PAGE_MASK;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We're about to split tbflags into two parts.  These macros
will ensure that the correct part is used with the correct
set of bits.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           | 22 +++++++++-
 target/arm/helper-a64.c    |  2 +-
 target/arm/helper.c        | 85 +++++++++++++++++---------------------
 target/arm/translate-a64.c | 36 ++++++++--------
 target/arm/translate.c     | 48 ++++++++++-----------
 5 files changed, 101 insertions(+), 92 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, TCMA, 16, 2)
 FIELD(TBFLAG_A64, MTE_ACTIVE, 18, 1)
 FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
 
+/*
+ * Helpers for using the above.
+ */
+#define DP_TBFLAG_ANY(DST, WHICH, VAL) \
+    (DST = FIELD_DP32(DST, TBFLAG_ANY, WHICH, VAL))
+#define DP_TBFLAG_A64(DST, WHICH, VAL) \
+    (DST = FIELD_DP32(DST, TBFLAG_A64, WHICH, VAL))
+#define DP_TBFLAG_A32(DST, WHICH, VAL) \
+    (DST = FIELD_DP32(DST, TBFLAG_A32, WHICH, VAL))
+#define DP_TBFLAG_M32(DST, WHICH, VAL) \
+    (DST = FIELD_DP32(DST, TBFLAG_M32, WHICH, VAL))
+#define DP_TBFLAG_AM32(DST, WHICH, VAL) \
+    (DST = FIELD_DP32(DST, TBFLAG_AM32, WHICH, VAL))
+
+#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN, TBFLAG_ANY, WHICH)
+#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A64, WHICH)
+#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A32, WHICH)
+#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_M32, WHICH)
+#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN, TBFLAG_AM32, WHICH)
+
 /**
  * cpu_mmu_index:
  * @env: The cpu environment
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
  */
 static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
 {
-    return FIELD_EX32(env->hflags, TBFLAG_ANY, MMUIDX);
+    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
 }
 
 static inline bool bswap_code(bool sctlr_b)
diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env, uint64_t new_pc)
          * the hflags rebuild, since we can pull the composite TBII field
          * from there.
          */
-        tbii = FIELD_EX32(env->hflags, TBFLAG_A64, TBII);
+        tbii = EX_TBFLAG_A64(env->hflags, TBII);
         if ((tbii >> extract64(new_pc, 55, 1)) & 1) {
             /* TBI is enabled. */
             int core_mmu_idx = cpu_mmu_index(env, false);
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
 static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
                                       ARMMMUIdx mmu_idx, uint32_t flags)
 {
-    flags = FIELD_DP32(flags, TBFLAG_ANY, FPEXC_EL, fp_el);
-    flags = FIELD_DP32(flags, TBFLAG_ANY, MMUIDX,
-                       arm_to_core_mmu_idx(mmu_idx));
+    DP_TBFLAG_ANY(flags, FPEXC_EL, fp_el);
+    DP_TBFLAG_ANY(flags, MMUIDX, arm_to_core_mmu_idx(mmu_idx));
 
     if (arm_singlestep_active(env)) {
-        flags = FIELD_DP32(flags, TBFLAG_ANY, SS_ACTIVE, 1);
+        DP_TBFLAG_ANY(flags, SS_ACTIVE, 1);
     }
     return flags;
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
     bool sctlr_b = arm_sctlr_b(env);
 
     if (sctlr_b) {
-        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR__B, 1);
+        DP_TBFLAG_A32(flags, SCTLR__B, 1);
     }
     if (arm_cpu_data_is_big_endian_a32(env, sctlr_b)) {
-        flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
+        DP_TBFLAG_ANY(flags, BE_DATA, 1);
     }
-    flags = FIELD_DP32(flags, TBFLAG_A32, NS, !access_secure_reg(env));
+    DP_TBFLAG_A32(flags, NS, !access_secure_reg(env));
 
     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
 }
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
     uint32_t flags = 0;
 
     if (arm_v7m_is_handler_mode(env)) {
-        flags = FIELD_DP32(flags, TBFLAG_M32, HANDLER, 1);
+        DP_TBFLAG_M32(flags, HANDLER, 1);
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
     if (arm_feature(env, ARM_FEATURE_V8) &&
         !((mmu_idx & ARM_MMU_IDX_M_NEGPRI) &&
           (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
-        flags = FIELD_DP32(flags, TBFLAG_M32, STACKCHECK, 1);
+        DP_TBFLAG_M32(flags, STACKCHECK, 1);
     }
 
     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_aprofile(CPUARMState *env)
 {
     int flags = 0;
 
-    flags = FIELD_DP32(flags, TBFLAG_ANY, DEBUG_TARGET_EL,
-                       arm_debug_target_el(env));
+    DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
     return flags;
 }
 
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
     uint32_t flags = rebuild_hflags_aprofile(env);
 
     if (arm_el_is_aa64(env, 1)) {
-        flags = FIELD_DP32(flags, TBFLAG_A32, VFPEN, 1);
+        DP_TBFLAG_A32(flags, VFPEN, 1);
     }
 
     if (arm_current_el(env) < 2 && env->cp15.hstr_el2 &&
         (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
-        flags = FIELD_DP32(flags, TBFLAG_A32, HSTR_ACTIVE, 1);
+        DP_TBFLAG_A32(flags, HSTR_ACTIVE, 1);
     }
 
     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
     uint64_t sctlr;
     int tbii, tbid;
 
-    flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
+    DP_TBFLAG_ANY(flags, AARCH64_STATE, 1);
 
     /* Get control bits for tagged addresses.  */
     tbid = aa64_va_parameter_tbi(tcr, mmu_idx);
     tbii = tbid & ~aa64_va_parameter_tbid(tcr, mmu_idx);
 
-    flags = FIELD_DP32(flags, TBFLAG_A64, TBII, tbii);
-    flags = FIELD_DP32(flags, TBFLAG_A64, TBID, tbid);
+    DP_TBFLAG_A64(flags, TBII, tbii);
+    DP_TBFLAG_A64(flags, TBID, tbid);
 
     if (cpu_isar_feature(aa64_sve, env_archcpu(env))) {
         int sve_el = sve_exception_el(env, el);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
         } else {
             zcr_len = sve_zcr_len_for_el(env, el);
         }
-        flags = FIELD_DP32(flags, TBFLAG_A64, SVEEXC_EL, sve_el);
-        flags = FIELD_DP32(flags, TBFLAG_A64, ZCR_LEN, zcr_len);
+        DP_TBFLAG_A64(flags, SVEEXC_EL, sve_el);
+        DP_TBFLAG_A64(flags, ZCR_LEN, zcr_len);
     }
 
     sctlr = regime_sctlr(env, stage1);
 
     if (arm_cpu_data_is_big_endian_a64(el, sctlr)) {
-        flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
+        DP_TBFLAG_ANY(flags, BE_DATA, 1);
     }
 
     if (cpu_isar_feature(aa64_pauth, env_archcpu(env))) {
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
          * The decision of which action to take is left to a helper.
          */
         if (sctlr & (SCTLR_EnIA | SCTLR_EnIB | SCTLR_EnDA | SCTLR_EnDB)) {
-            flags = FIELD_DP32(flags, TBFLAG_A64, PAUTH_ACTIVE, 1);
+            DP_TBFLAG_A64(flags, PAUTH_ACTIVE, 1);
         }
     }
 
     if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
         /* Note that SCTLR_EL[23].BT == SCTLR_BT1.  */
         if (sctlr & (el == 0 ? SCTLR_BT0 : SCTLR_BT1)) {
-            flags = FIELD_DP32(flags, TBFLAG_A64, BT, 1);
+            DP_TBFLAG_A64(flags, BT, 1);
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
         case ARMMMUIdx_SE10_1:
         case ARMMMUIdx_SE10_1_PAN:
             /* TODO: ARMv8.3-NV */
-            flags = FIELD_DP32(flags, TBFLAG_A64, UNPRIV, 1);
+            DP_TBFLAG_A64(flags, UNPRIV, 1);
             break;
         case ARMMMUIdx_E20_2:
         case ARMMMUIdx_E20_2_PAN:
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
              * gated by HCR_EL2.<E2H,TGE> == '11', and so is LDTR.
              */
             if (env->cp15.hcr_el2 & HCR_TGE) {
-                flags = FIELD_DP32(flags, TBFLAG_A64, UNPRIV, 1);
+                DP_TBFLAG_A64(flags, UNPRIV, 1);
             }
             break;
         default:
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
          * 4) If no Allocation Tag Access, then all accesses are Unchecked.
          */
         if (allocation_tag_access_enabled(env, el, sctlr)) {
-            flags = FIELD_DP32(flags, TBFLAG_A64, ATA, 1);
+            DP_TBFLAG_A64(flags, ATA, 1);
             if (tbid
                 && !(env->pstate & PSTATE_TCO)
                 && (sctlr & (el == 0 ? SCTLR_TCF0 : SCTLR_TCF))) {
-                flags = FIELD_DP32(flags, TBFLAG_A64, MTE_ACTIVE, 1);
+                DP_TBFLAG_A64(flags, MTE_ACTIVE, 1);
             }
         }
         /* And again for unprivileged accesses, if required.  */
-        if (FIELD_EX32(flags, TBFLAG_A64, UNPRIV)
+        if (EX_TBFLAG_A64(flags, UNPRIV)
             && tbid
             && !(env->pstate & PSTATE_TCO)
             && (sctlr & SCTLR_TCF0)
             && allocation_tag_access_enabled(env, 0, sctlr)) {
-            flags = FIELD_DP32(flags, TBFLAG_A64, MTE0_ACTIVE, 1);
+            DP_TBFLAG_A64(flags, MTE0_ACTIVE, 1);
         }
         /* Cache TCMA as well as TBI. */
-        flags = FIELD_DP32(flags, TBFLAG_A64, TCMA,
-                           aa64_va_parameter_tcma(tcr, mmu_idx));
+        DP_TBFLAG_A64(flags, TCMA, aa64_va_parameter_tcma(tcr, mmu_idx));
     }
 
     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
     *cs_base = 0;
     assert_hflags_rebuild_correctly(env);
 
-    if (FIELD_EX32(flags, TBFLAG_ANY, AARCH64_STATE)) {
+    if (EX_TBFLAG_ANY(flags, AARCH64_STATE)) {
         *pc = env->pc;
         if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
-            flags = FIELD_DP32(flags, TBFLAG_A64, BTYPE, env->btype);
+            DP_TBFLAG_A64(flags, BTYPE, env->btype);
         }
     } else {
         *pc = env->regs[15];
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
             if (arm_feature(env, ARM_FEATURE_M_SECURITY) &&
                 FIELD_EX32(env->v7m.fpccr[M_REG_S], V7M_FPCCR, S)
                 != env->v7m.secure) {
-                flags = FIELD_DP32(flags, TBFLAG_M32, FPCCR_S_WRONG, 1);
+                DP_TBFLAG_M32(flags, FPCCR_S_WRONG, 1);
             }
 
             if ((env->v7m.fpccr[env->v7m.secure] & R_V7M_FPCCR_ASPEN_MASK) &&
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                  * active FP context; we must create a new FP context before
                  * executing any FP insn.
                  */
-                flags = FIELD_DP32(flags, TBFLAG_M32, NEW_FP_CTXT_NEEDED, 1);
+                DP_TBFLAG_M32(flags, NEW_FP_CTXT_NEEDED, 1);
             }
 
             bool is_secure = env->v7m.fpccr[M_REG_S] & R_V7M_FPCCR_S_MASK;
             if (env->v7m.fpccr[is_secure] & R_V7M_FPCCR_LSPACT_MASK) {
-                flags = FIELD_DP32(flags, TBFLAG_M32, LSPACT, 1);
+                DP_TBFLAG_M32(flags, LSPACT, 1);
             }
         } else {
             /*
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
              * Note that VECLEN+VECSTRIDE are RES0 for M-profile.
              */
             if (arm_feature(env, ARM_FEATURE_XSCALE)) {
-                flags = FIELD_DP32(flags, TBFLAG_A32,
-                                   XSCALE_CPAR, env->cp15.c15_cpar);
+                DP_TBFLAG_A32(flags, XSCALE_CPAR, env->cp15.c15_cpar);
             } else {
-                flags = FIELD_DP32(flags, TBFLAG_A32, VECLEN,
-                                   env->vfp.vec_len);
-                flags = FIELD_DP32(flags, TBFLAG_A32, VECSTRIDE,
-                                   env->vfp.vec_stride);
+                DP_TBFLAG_A32(flags, VECLEN, env->vfp.vec_len);
+                DP_TBFLAG_A32(flags, VECSTRIDE, env->vfp.vec_stride);
             }
             if (env->vfp.xregs[ARM_VFP_FPEXC] & (1 << 30)) {
-                flags = FIELD_DP32(flags, TBFLAG_A32, VFPEN, 1);
+                DP_TBFLAG_A32(flags, VFPEN, 1);
             }
         }
 
-        flags = FIELD_DP32(flags, TBFLAG_AM32, THUMB, env->thumb);
-        flags = FIELD_DP32(flags, TBFLAG_AM32, CONDEXEC, env->condexec_bits);
+        DP_TBFLAG_AM32(flags, THUMB, env->thumb);
+        DP_TBFLAG_AM32(flags, CONDEXEC, env->condexec_bits);
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
      *     1            1       Active-not-pending
      * SS_ACTIVE is set in hflags; PSTATE__SS is computed every TB.
      */
-    if (FIELD_EX32(flags, TBFLAG_ANY, SS_ACTIVE) &&
-        (env->pstate & PSTATE_SS)) {
-        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE__SS, 1);
+    if (EX_TBFLAG_ANY(flags, SS_ACTIVE) && (env->pstate & PSTATE_SS)) {
+        DP_TBFLAG_ANY(flags, PSTATE__SS, 1);
     }
 
     *pflags = flags;
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
                                !arm_el_is_aa64(env, 3);
     dc->thumb = 0;
     dc->sctlr_b = 0;
-    dc->be_data = FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
+    dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
     dc->condexec_mask = 0;
     dc->condexec_cond = 0;
-    core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
+    core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
     dc->mmu_idx = core_to_aa64_mmu_idx(core_mmu_idx);
-    dc->tbii = FIELD_EX32(tb_flags, TBFLAG_A64, TBII);
-    dc->tbid = FIELD_EX32(tb_flags, TBFLAG_A64, TBID);
-    dc->tcma = FIELD_EX32(tb_flags, TBFLAG_A64, TCMA);
+    dc->tbii = EX_TBFLAG_A64(tb_flags, TBII);
+    dc->tbid = EX_TBFLAG_A64(tb_flags, TBID);
+    dc->tcma = EX_TBFLAG_A64(tb_flags, TCMA);
     dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
 #if !defined(CONFIG_USER_ONLY)
     dc->user = (dc->current_el == 0);
 #endif
-    dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
-    dc->sve_excp_el = FIELD_EX32(tb_flags, TBFLAG_A64, SVEEXC_EL);
-    dc->sve_len = (FIELD_EX32(tb_flags, TBFLAG_A64, ZCR_LEN) + 1) * 16;
-    dc->pauth_active = FIELD_EX32(tb_flags, TBFLAG_A64, PAUTH_ACTIVE);
-    dc->bt = FIELD_EX32(tb_flags, TBFLAG_A64, BT);
-    dc->btype = FIELD_EX32(tb_flags, TBFLAG_A64, BTYPE);
-    dc->unpriv = FIELD_EX32(tb_flags, TBFLAG_A64, UNPRIV);
-    dc->ata = FIELD_EX32(tb_flags, TBFLAG_A64, ATA);
-    dc->mte_active[0] = FIELD_EX32(tb_flags, TBFLAG_A64, MTE_ACTIVE);
-    dc->mte_active[1] = FIELD_EX32(tb_flags, TBFLAG_A64, MTE0_ACTIVE);
+    dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
+    dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
+    dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
+    dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
+    dc->bt = EX_TBFLAG_A64(tb_flags, BT);
+    dc->btype = EX_TBFLAG_A64(tb_flags, BTYPE);
+    dc->unpriv = EX_TBFLAG_A64(tb_flags, UNPRIV);
+    dc->ata = EX_TBFLAG_A64(tb_flags, ATA);
+    dc->mte_active[0] = EX_TBFLAG_A64(tb_flags, MTE_ACTIVE);
+    dc->mte_active[1] = EX_TBFLAG_A64(tb_flags, MTE0_ACTIVE);
     dc->vec_len = 0;
     dc->vec_stride = 0;
     dc->cp_regs = arm_cpu->cp_regs;
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
      *   emit code to generate a software step exception
      *   end the TB
      */
-    dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
-    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
+    dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
+    dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
     dc->is_ldex = false;
-    dc->debug_target_el = FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
+    dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
 
     /* Bound the number of insns to execute to those left on the page.  */
     bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      */
     dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
                                !arm_el_is_aa64(env, 3);
-    dc->thumb = FIELD_EX32(tb_flags, TBFLAG_AM32, THUMB);
-    dc->be_data = FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
-    condexec = FIELD_EX32(tb_flags, TBFLAG_AM32, CONDEXEC);
+    dc->thumb = EX_TBFLAG_AM32(tb_flags, THUMB);
+    dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
+    condexec = EX_TBFLAG_AM32(tb_flags, CONDEXEC);
     dc->condexec_mask = (condexec & 0xf) << 1;
     dc->condexec_cond = condexec >> 4;
 
-    core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
+    core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
     dc->mmu_idx = core_to_arm_mmu_idx(env, core_mmu_idx);
     dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
 #if !defined(CONFIG_USER_ONLY)
     dc->user = (dc->current_el == 0);
 #endif
-    dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
+    dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
 
     if (arm_feature(env, ARM_FEATURE_M)) {
         dc->vfp_enabled = 1;
         dc->be_data = MO_TE;
-        dc->v7m_handler_mode = FIELD_EX32(tb_flags, TBFLAG_M32, HANDLER);
+        dc->v7m_handler_mode = EX_TBFLAG_M32(tb_flags, HANDLER);
         dc->v8m_secure = arm_feature(env, ARM_FEATURE_M_SECURITY) &&
             regime_is_secure(env, dc->mmu_idx);
-        dc->v8m_stackcheck = FIELD_EX32(tb_flags, TBFLAG_M32, STACKCHECK);
-        dc->v8m_fpccr_s_wrong =
-            FIELD_EX32(tb_flags, TBFLAG_M32, FPCCR_S_WRONG);
+        dc->v8m_stackcheck = EX_TBFLAG_M32(tb_flags, STACKCHECK);
+        dc->v8m_fpccr_s_wrong = EX_TBFLAG_M32(tb_flags, FPCCR_S_WRONG);
         dc->v7m_new_fp_ctxt_needed =
-            FIELD_EX32(tb_flags, TBFLAG_M32, NEW_FP_CTXT_NEEDED);
-        dc->v7m_lspact = FIELD_EX32(tb_flags, TBFLAG_M32, LSPACT);
+            EX_TBFLAG_M32(tb_flags, NEW_FP_CTXT_NEEDED);
+        dc->v7m_lspact = EX_TBFLAG_M32(tb_flags, LSPACT);
     } else {
-        dc->be_data =
-            FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
-        dc->debug_target_el =
-            FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
-        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR__B);
-        dc->hstr_active = FIELD_EX32(tb_flags, TBFLAG_A32, HSTR_ACTIVE);
-        dc->ns = FIELD_EX32(tb_flags, TBFLAG_A32, NS);
-        dc->vfp_enabled = FIELD_EX32(tb_flags, TBFLAG_A32, VFPEN);
+        dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
+        dc->sctlr_b = EX_TBFLAG_A32(tb_flags, SCTLR__B);
+        dc->hstr_active = EX_TBFLAG_A32(tb_flags, HSTR_ACTIVE);
+        dc->ns = EX_TBFLAG_A32(tb_flags, NS);
+        dc->vfp_enabled = EX_TBFLAG_A32(tb_flags, VFPEN);
         if (arm_feature(env, ARM_FEATURE_XSCALE)) {
-            dc->c15_cpar = FIELD_EX32(tb_flags, TBFLAG_A32, XSCALE_CPAR);
+            dc->c15_cpar = EX_TBFLAG_A32(tb_flags, XSCALE_CPAR);
         } else {
-            dc->vec_len = FIELD_EX32(tb_flags, TBFLAG_A32, VECLEN);
-            dc->vec_stride = FIELD_EX32(tb_flags, TBFLAG_A32, VECSTRIDE);
+            dc->vec_len = EX_TBFLAG_A32(tb_flags, VECLEN);
+            dc->vec_stride = EX_TBFLAG_A32(tb_flags, VECSTRIDE);
         }
     }
     dc->cp_regs = cpu->cp_regs;
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      *   emit code to generate a software step exception
      *   end the TB
      */
-    dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
-    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
+    dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
+    dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
     dc->is_ldex = false;
 
     dc->page_start = dc->base.pc_first & TARGET_PAGE_MASK;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns)
     DisasContext dc = { };
     const TranslatorOps *ops = &arm_translator_ops;
 
-    if (FIELD_EX32(tb->flags, TBFLAG_AM32, THUMB)) {
+    if (EX_TBFLAG_AM32(tb->flags, THUMB)) {
         ops = &thumb_translator_ops;
     }
 #ifdef TARGET_AARCH64
-    if (FIELD_EX32(tb->flags, TBFLAG_ANY, AARCH64_STATE)) {
+    if (EX_TBFLAG_ANY(tb->flags, AARCH64_STATE)) {
         ops = &aarch64_translator_ops;
     }
 #endif
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

In preparation for splitting tb->flags across multiple
fields, introduce a structure to hold the value(s).
So far this only migrates the one uint32_t and fixes
all of the places that require adjustment to match.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           | 26 ++++++++++++---------
 target/arm/translate.h     | 11 +++++++++
 target/arm/helper.c        | 48 +++++++++++++++++++++-----------------
 target/arm/translate-a64.c |  2 +-
 target/arm/translate.c     |  7 +++---
 5 files changed, 57 insertions(+), 37 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct ARMPACKey {
 } ARMPACKey;
 #endif
 
+/* See the commentary above the TBFLAG field definitions.  */
+typedef struct CPUARMTBFlags {
+    uint32_t flags;
+} CPUARMTBFlags;
 
 typedef struct CPUARMState {
     /* Regs for current mode.  */
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
     uint32_t aarch64; /* 1 if CPU is in aarch64 state; inverse of PSTATE.nRW */
 
     /* Cached TBFLAGS state.  See below for which bits are included.  */
-    uint32_t hflags;
+    CPUARMTBFlags hflags;
 
     /* Frequently accessed CPSR bits are stored separately for efficiency.
        This contains all the other bits.  Use cpsr_{read,write} to access
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
  * Helpers for using the above.
  */
 #define DP_TBFLAG_ANY(DST, WHICH, VAL) \
-    (DST = FIELD_DP32(DST, TBFLAG_ANY, WHICH, VAL))
+    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_ANY, WHICH, VAL))
 #define DP_TBFLAG_A64(DST, WHICH, VAL) \
-    (DST = FIELD_DP32(DST, TBFLAG_A64, WHICH, VAL))
+    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A64, WHICH, VAL))
 #define DP_TBFLAG_A32(DST, WHICH, VAL) \
-    (DST = FIELD_DP32(DST, TBFLAG_A32, WHICH, VAL))
+    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A32, WHICH, VAL))
 #define DP_TBFLAG_M32(DST, WHICH, VAL) \
-    (DST = FIELD_DP32(DST, TBFLAG_M32, WHICH, VAL))
+    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_M32, WHICH, VAL))
 #define DP_TBFLAG_AM32(DST, WHICH, VAL) \
-    (DST = FIELD_DP32(DST, TBFLAG_AM32, WHICH, VAL))
+    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_AM32, WHICH, VAL))
 
-#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN, TBFLAG_ANY, WHICH)
-#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A64, WHICH)
-#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A32, WHICH)
-#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_M32, WHICH)
-#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN, TBFLAG_AM32, WHICH)
+#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_ANY, WHICH)
+#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A64, WHICH)
+#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A32, WHICH)
+#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_M32, WHICH)
+#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags, TBFLAG_AM32, WHICH)
 
 /**
  * cpu_mmu_index:
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
 typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
 typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
 
+/**
+ * arm_tbflags_from_tb:
+ * @tb: the TranslationBlock
+ *
+ * Extract the flag values from @tb.
+ */
+static inline CPUARMTBFlags arm_tbflags_from_tb(const TranslationBlock *tb)
+{
+    return (CPUARMTBFlags){ tb->flags };
+}
+
 /*
  * Enum for argument to fpstatus_ptr().
  */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
 }
 #endif
 
-static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
-                                      ARMMMUIdx mmu_idx, uint32_t flags)
+static CPUARMTBFlags rebuild_hflags_common(CPUARMState *env, int fp_el,
+                                           ARMMMUIdx mmu_idx,
+                                           CPUARMTBFlags flags)
 {
     DP_TBFLAG_ANY(flags, FPEXC_EL, fp_el);
     DP_TBFLAG_ANY(flags, MMUIDX, arm_to_core_mmu_idx(mmu_idx));
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
     return flags;
 }
 
-static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
-                                         ARMMMUIdx mmu_idx, uint32_t flags)
+static CPUARMTBFlags rebuild_hflags_common_32(CPUARMState *env, int fp_el,
+                                              ARMMMUIdx mmu_idx,
+                                              CPUARMTBFlags flags)
 {
     bool sctlr_b = arm_sctlr_b(env);
 
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
 }
 
-static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
-                                   ARMMMUIdx mmu_idx)
+static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
+                                        ARMMMUIdx mmu_idx)
 {
-    uint32_t flags = 0;
+    CPUARMTBFlags flags = {};
 
     if (arm_v7m_is_handler_mode(env)) {
         DP_TBFLAG_M32(flags, HANDLER, 1);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
 }
 
-static uint32_t rebuild_hflags_aprofile(CPUARMState *env)
+static CPUARMTBFlags rebuild_hflags_aprofile(CPUARMState *env)
 {
-    int flags = 0;
+    CPUARMTBFlags flags = {};
 
     DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
     return flags;
 }
 
-static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
-                                   ARMMMUIdx mmu_idx)
+static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
+                                        ARMMMUIdx mmu_idx)
 {
-    uint32_t flags = rebuild_hflags_aprofile(env);
+    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
 
     if (arm_el_is_aa64(env, 1)) {
         DP_TBFLAG_A32(flags, VFPEN, 1);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
 }
 
-static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
-                                   ARMMMUIdx mmu_idx)
+static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
+                                        ARMMMUIdx mmu_idx)
 {
-    uint32_t flags = rebuild_hflags_aprofile(env);
+    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
     ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
     uint64_t sctlr;
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
 }
 
-static uint32_t rebuild_hflags_internal(CPUARMState *env)
+static CPUARMTBFlags rebuild_hflags_internal(CPUARMState *env)
 {
     int el = arm_current_el(env);
     int fp_el = fp_exception_el(env, el);
@@ -XXX,XX +XXX,XX @@ void HELPER(rebuild_hflags_m32_newel)(CPUARMState *env)
     int el = arm_current_el(env);
     int fp_el = fp_exception_el(env, el);
     ARMMMUIdx mmu_idx = arm_mmu_idx_el(env, el);
+
     env->hflags = rebuild_hflags_m32(env, fp_el, mmu_idx);
 }
 
@@ -XXX,XX +XXX,XX @@ void HELPER(rebuild_hflags_a64)(CPUARMState *env, int el)
 static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
 {
 #ifdef CONFIG_DEBUG_TCG
-    uint32_t env_flags_current = env->hflags;
-    uint32_t env_flags_rebuilt = rebuild_hflags_internal(env);
+    CPUARMTBFlags c = env->hflags;
+    CPUARMTBFlags r = rebuild_hflags_internal(env);
 
-    if (unlikely(env_flags_current != env_flags_rebuilt)) {
+    if (unlikely(c.flags != r.flags)) {
         fprintf(stderr, "TCG hflags mismatch (current:0x%08x rebuilt:0x%08x)\n",
-                env_flags_current, env_flags_rebuilt);
+                c.flags, r.flags);
         abort();
     }
 #endif
@@ -XXX,XX +XXX,XX @@ static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
 void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                           target_ulong *cs_base, uint32_t *pflags)
 {
-    uint32_t flags = env->hflags;
+    CPUARMTBFlags flags;
 
     *cs_base = 0;
     assert_hflags_rebuild_correctly(env);
+    flags = env->hflags;
 
     if (EX_TBFLAG_ANY(flags, AARCH64_STATE)) {
         *pc = env->pc;
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
         DP_TBFLAG_ANY(flags, PSTATE__SS, 1);
     }
 
-    *pflags = flags;
+    *pflags = flags.flags;
 }
 
 #ifdef TARGET_AARCH64
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUARMState *env = cpu->env_ptr;
     ARMCPU *arm_cpu = env_archcpu(env);
-    uint32_t tb_flags = dc->base.tb->flags;
+    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
     int bound, core_mmu_idx;
 
     dc->isar = &arm_cpu->isar;
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     DisasContext *dc = container_of(dcbase, DisasContext, base);
     CPUARMState *env = cs->env_ptr;
     ARMCPU *cpu = env_archcpu(env);
-    uint32_t tb_flags = dc->base.tb->flags;
+    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
     uint32_t condexec, core_mmu_idx;
 
     dc->isar = &cpu->isar;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns)
 {
     DisasContext dc = { };
     const TranslatorOps *ops = &arm_translator_ops;
+    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(tb);
 
-    if (EX_TBFLAG_AM32(tb->flags, THUMB)) {
+    if (EX_TBFLAG_AM32(tb_flags, THUMB)) {
         ops = &thumb_translator_ops;
     }
 #ifdef TARGET_AARCH64
-    if (EX_TBFLAG_ANY(tb->flags, AARCH64_STATE)) {
+    if (EX_TBFLAG_ANY(tb_flags, AARCH64_STATE)) {
         ops = &aarch64_translator_ops;
     }
 #endif
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Now that we have all of the proper macros defined, expanding
the CPUARMTBFlags structure and populating the two TB fields
is relatively simple.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h       | 49 ++++++++++++++++++++++++------------------
 target/arm/translate.h |  2 +-
 target/arm/helper.c    | 10 +++++----
 3 files changed, 35 insertions(+), 26 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Now that these bits have been moved out of tb->flags,
where TBFLAG_ANY was filling from the top, move AM32
to fill from the top, and A32 and M32 to fill from the
bottom.  This means fewer changes when adding new bits.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h | 42 +++++++++++++++++++++---------------------
 1 file changed, 21 insertions(+), 21 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
  *
  * The bits for 32-bit A-profile and M-profile partially overlap:
  *
- *  18             9              0
- * +----------------+--------------+
- * |   TBFLAG_A32   |              |
- * +-----+----------+  TBFLAG_AM32 |
- * |     |TBFLAG_M32|              |
- * +-----+----------+--------------+
- *     14          9              0
+ *  31         23         11 10             0
+ * +-------------+----------+----------------+
+ * |             |          |   TBFLAG_A32   |
+ * | TBFLAG_AM32 |          +-----+----------+
+ * |             |                |TBFLAG_M32|
+ * +-------------+----------------+----------+
+ *  31         23                5 4        0
  *
  * Unless otherwise noted, these bits are cached in env->hflags.
  */
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 20, 2)
 /*
  * Bit usage when in AArch32 state, both A- and M-profile.
  */
-FIELD(TBFLAG_AM32, CONDEXEC, 0, 8)      /* Not cached. */
-FIELD(TBFLAG_AM32, THUMB, 8, 1)         /* Not cached. */
+FIELD(TBFLAG_AM32, CONDEXEC, 24, 8)      /* Not cached. */
+FIELD(TBFLAG_AM32, THUMB, 23, 1)         /* Not cached. */
 
 /*
  * Bit usage when in AArch32 state, for A-profile only.
  */
-FIELD(TBFLAG_A32, VECLEN, 9, 3)         /* Not cached. */
-FIELD(TBFLAG_A32, VECSTRIDE, 12, 2)     /* Not cached. */
+FIELD(TBFLAG_A32, VECLEN, 0, 3)         /* Not cached. */
+FIELD(TBFLAG_A32, VECSTRIDE, 3, 2)     /* Not cached. */
 /*
  * We store the bottom two bits of the CPAR as TB flags and handle
  * checks on the other bits at runtime. This shares the same bits as
  * VECSTRIDE, which is OK as no XScale CPU has VFP.
  * Not cached, because VECLEN+VECSTRIDE are not cached.
  */
-FIELD(TBFLAG_A32, XSCALE_CPAR, 12, 2)
-FIELD(TBFLAG_A32, VFPEN, 14, 1)         /* Partially cached, minus FPEXC. */
-FIELD(TBFLAG_A32, SCTLR__B, 15, 1)      /* Cannot overlap with SCTLR_B */
-FIELD(TBFLAG_A32, HSTR_ACTIVE, 16, 1)
+FIELD(TBFLAG_A32, XSCALE_CPAR, 5, 2)
+FIELD(TBFLAG_A32, VFPEN, 7, 1)         /* Partially cached, minus FPEXC. */
+FIELD(TBFLAG_A32, SCTLR__B, 8, 1)      /* Cannot overlap with SCTLR_B */
+FIELD(TBFLAG_A32, HSTR_ACTIVE, 9, 1)
 /*
  * Indicates whether cp register reads and writes by guest code should access
  * the secure or nonsecure bank of banked registers; note that this is not
  * the same thing as the current security state of the processor!
  */
-FIELD(TBFLAG_A32, NS, 17, 1)
+FIELD(TBFLAG_A32, NS, 10, 1)
 
 /*
  * Bit usage when in AArch32 state, for M-profile only.
  */
 /* Handler (ie not Thread) mode */
-FIELD(TBFLAG_M32, HANDLER, 9, 1)
+FIELD(TBFLAG_M32, HANDLER, 0, 1)
 /* Whether we should generate stack-limit checks */
-FIELD(TBFLAG_M32, STACKCHECK, 10, 1)
+FIELD(TBFLAG_M32, STACKCHECK, 1, 1)
 /* Set if FPCCR.LSPACT is set */
-FIELD(TBFLAG_M32, LSPACT, 11, 1)                 /* Not cached. */
+FIELD(TBFLAG_M32, LSPACT, 2, 1)                 /* Not cached. */
 /* Set if we must create a new FP context */
-FIELD(TBFLAG_M32, NEW_FP_CTXT_NEEDED, 12, 1)     /* Not cached. */
+FIELD(TBFLAG_M32, NEW_FP_CTXT_NEEDED, 3, 1)     /* Not cached. */
 /* Set if FPCCR.S does not match current security state */
-FIELD(TBFLAG_M32, FPCCR_S_WRONG, 13, 1)          /* Not cached. */
+FIELD(TBFLAG_M32, FPCCR_S_WRONG, 4, 1)          /* Not cached. */
 
 /*
  * Bit usage when in AArch64 state
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Now that other bits have been moved out of tb->flags,
there's no point in filling from the top.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
  *
  * Unless otherwise noted, these bits are cached in env->hflags.
  */
-FIELD(TBFLAG_ANY, AARCH64_STATE, 31, 1)
-FIELD(TBFLAG_ANY, SS_ACTIVE, 30, 1)
-FIELD(TBFLAG_ANY, PSTATE__SS, 29, 1)    /* Not cached. */
-FIELD(TBFLAG_ANY, BE_DATA, 28, 1)
-FIELD(TBFLAG_ANY, MMUIDX, 24, 4)
+FIELD(TBFLAG_ANY, AARCH64_STATE, 0, 1)
+FIELD(TBFLAG_ANY, SS_ACTIVE, 1, 1)
+FIELD(TBFLAG_ANY, PSTATE__SS, 2, 1)      /* Not cached. */
+FIELD(TBFLAG_ANY, BE_DATA, 3, 1)
+FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
 /* Target EL if we take a floating-point-disabled exception */
-FIELD(TBFLAG_ANY, FPEXC_EL, 22, 2)
+FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
 /* For A-profile only, target EL for debug exceptions.  */
-FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 20, 2)
+FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
 
 /*
  * Bit usage when in AArch32 state, both A- and M-profile.
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Use this to signal when memory access alignment is required.
This value comes from the CCR register for M-profile, and
from the SCTLR register for A-profile.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           |  2 ++
 target/arm/translate.h     |  2 ++
 target/arm/helper.c        | 19 +++++++++++++++++--
 target/arm/translate-a64.c |  1 +
 target/arm/translate.c     |  7 +++----
 5 files changed, 25 insertions(+), 6 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
 FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
 /* For A-profile only, target EL for debug exceptions.  */
 FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
+/* Memory operations require alignment: SCTLR_ELx.A or CCR.UNALIGN_TRP */
+FIELD(TBFLAG_ANY, ALIGN_MEM, 12, 1)
 
 /*
  * Bit usage when in AArch32 state, both A- and M-profile.
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     bool bt;
     /* True if any CP15 access is trapped by HSTR_EL2 */
     bool hstr_active;
+    /* True if memory operations require alignment */
+    bool align_mem;
     /*
      * >= 0, a copy of PSTATE.BTYPE, which will be 0 without v8.5-BTI.
      *  < 0, set by the current instruction.
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
                                         ARMMMUIdx mmu_idx)
 {
     CPUARMTBFlags flags = {};
+    uint32_t ccr = env->v7m.ccr[env->v7m.secure];
+
+    /* Without HaveMainExt, CCR.UNALIGN_TRP is RES1. */
+    if (ccr & R_V7M_CCR_UNALIGN_TRP_MASK) {
+        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
+    }
 
     if (arm_v7m_is_handler_mode(env)) {
         DP_TBFLAG_M32(flags, HANDLER, 1);
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
      */
     if (arm_feature(env, ARM_FEATURE_V8) &&
         !((mmu_idx & ARM_MMU_IDX_M_NEGPRI) &&
-          (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
+          (ccr & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
         DP_TBFLAG_M32(flags, STACKCHECK, 1);
     }
 
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
                                         ARMMMUIdx mmu_idx)
 {
     CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
+    int el = arm_current_el(env);
+
+    if (arm_sctlr(env, el) & SCTLR_A) {
+        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
+    }
 
     if (arm_el_is_aa64(env, 1)) {
         DP_TBFLAG_A32(flags, VFPEN, 1);
     }
 
-    if (arm_current_el(env) < 2 && env->cp15.hstr_el2 &&
+    if (el < 2 && env->cp15.hstr_el2 &&
         (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
         DP_TBFLAG_A32(flags, HSTR_ACTIVE, 1);
     }
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
 
     sctlr = regime_sctlr(env, stage1);
 
+    if (sctlr & SCTLR_A) {
+        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
+    }
+
     if (arm_cpu_data_is_big_endian_a64(el, sctlr)) {
         DP_TBFLAG_ANY(flags, BE_DATA, 1);
     }
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     dc->user = (dc->current_el == 0);
 #endif
     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
+    dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
     dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
     dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
     dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
 {
     TCGv addr;
 
-    if (arm_dc_feature(s, ARM_FEATURE_M) &&
-        !arm_dc_feature(s, ARM_FEATURE_M_MAIN)) {
+    if (s->align_mem) {
         opc |= MO_ALIGN;
     }
 
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
 {
     TCGv addr;
 
-    if (arm_dc_feature(s, ARM_FEATURE_M) &&
-        !arm_dc_feature(s, ARM_FEATURE_M_MAIN)) {
+    if (s->align_mem) {
         opc |= MO_ALIGN;
     }
 
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->user = (dc->current_el == 0);
 #endif
     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
+    dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
 
     if (arm_feature(env, ARM_FEATURE_M)) {
         dc->vfp_enabled = 1;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Create a finalize_memop function that computes alignment and
endianness and returns the final MemOp for the operation.

Split out gen_aa32_{ld,st}_internal_i32 which bypasses any special
handling of endianness or alignment.  Adjust gen_aa32_{ld,st}_i32
so that s->be_data is not added by the callers.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h          |  24 ++++++++
 target/arm/translate.c          | 100 +++++++++++++++++---------------
 target/arm/translate-neon.c.inc |   9 +--
 3 files changed, 79 insertions(+), 54 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr fpstatus_ptr(ARMFPStatusFlavour flavour)
     return statusptr;
 }
 
+/**
+ * finalize_memop:
+ * @s: DisasContext
+ * @opc: size+sign+align of the memory operation
+ *
+ * Build the complete MemOp for a memory operation, including alignment
+ * and endianness.
+ *
+ * If (op & MO_AMASK) then the operation already contains the required
+ * alignment, e.g. for AccType_ATOMIC.  Otherwise, this an optionally
+ * unaligned operation, e.g. for AccType_NORMAL.
+ *
+ * In the latter case, there are configuration bits that require alignment,
+ * and this is applied here.  Note that there is no way to indicate that
+ * no alignment should ever be enforced; this must be handled manually.
+ */
+static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
+{
+    if (s->align_mem && !(opc & MO_AMASK)) {
+        opc |= MO_ALIGN;
+    }
+    return opc | s->be_data;
+}
+
 #endif /* TARGET_ARM_TRANSLATE_H */
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
 #define IS_USER_ONLY 0
 #endif
 
-/* Abstractions of "generate code to do a guest load/store for
+/*
+ * Abstractions of "generate code to do a guest load/store for
  * AArch32", where a vaddr is always 32 bits (and is zero
  * extended if we're a 64 bit core) and  data is also
  * 32 bits unless specifically doing a 64 bit access.
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
  * that the address argument is TCGv_i32 rather than TCGv.
  */
 
-static inline TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
+static TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
 {
     TCGv addr = tcg_temp_new();
     tcg_gen_extu_i32_tl(addr, a32);
@@ -XXX,XX +XXX,XX @@ static inline TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
     return addr;
 }
 
+/*
+ * Internal routines are used for NEON cases where the endianness
+ * and/or alignment has already been taken into account and manipulated.
+ */
+static void gen_aa32_ld_internal_i32(DisasContext *s, TCGv_i32 val,
+                                     TCGv_i32 a32, int index, MemOp opc)
+{
+    TCGv addr = gen_aa32_addr(s, a32, opc);
+    tcg_gen_qemu_ld_i32(val, addr, index, opc);
+    tcg_temp_free(addr);
+}
+
+static void gen_aa32_st_internal_i32(DisasContext *s, TCGv_i32 val,
+                                     TCGv_i32 a32, int index, MemOp opc)
+{
+    TCGv addr = gen_aa32_addr(s, a32, opc);
+    tcg_gen_qemu_st_i32(val, addr, index, opc);
+    tcg_temp_free(addr);
+}
+
 static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                             int index, MemOp opc)
 {
-    TCGv addr;
-
-    if (s->align_mem) {
-        opc |= MO_ALIGN;
-    }
-
-    addr = gen_aa32_addr(s, a32, opc);
-    tcg_gen_qemu_ld_i32(val, addr, index, opc);
-    tcg_temp_free(addr);
+    gen_aa32_ld_internal_i32(s, val, a32, index, finalize_memop(s, opc));
 }
 
 static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                             int index, MemOp opc)
 {
-    TCGv addr;
+    gen_aa32_st_internal_i32(s, val, a32, index, finalize_memop(s, opc));
+}
 
-    if (s->align_mem) {
-        opc |= MO_ALIGN;
+#define DO_GEN_LD(SUFF, OPC)                                            \
+    static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val, \
+                                         TCGv_i32 a32, int index)       \
+    {                                                                   \
+        gen_aa32_ld_i32(s, val, a32, index, OPC);                       \
     }
 
-    addr = gen_aa32_addr(s, a32, opc);
-    tcg_gen_qemu_st_i32(val, addr, index, opc);
-    tcg_temp_free(addr);
-}
-
-#define DO_GEN_LD(SUFF, OPC)                                             \
-static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val,      \
-                                     TCGv_i32 a32, int index)            \
-{                                                                        \
-    gen_aa32_ld_i32(s, val, a32, index, OPC | s->be_data);               \
-}
-
-#define DO_GEN_ST(SUFF, OPC)                                             \
-static inline void gen_aa32_st##SUFF(DisasContext *s, TCGv_i32 val,      \
-                                     TCGv_i32 a32, int index)            \
-{                                                                        \
-    gen_aa32_st_i32(s, val, a32, index, OPC | s->be_data);               \
-}
+#define DO_GEN_ST(SUFF, OPC)                                            \
+    static inline void gen_aa32_st##SUFF(DisasContext *s, TCGv_i32 val, \
+                                         TCGv_i32 a32, int index)       \
+    {                                                                   \
+        gen_aa32_st_i32(s, val, a32, index, OPC);                       \
+    }
 
 static inline void gen_aa32_frob64(DisasContext *s, TCGv_i64 val)
 {
@@ -XXX,XX +XXX,XX @@ static bool op_load_rr(DisasContext *s, arg_ldst_rr *a,
     addr = op_addr_rr_pre(s, a);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop);
     disas_set_da_iss(s, mop, issinfo);
 
     /*
@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
     addr = op_addr_rr_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop);
     disas_set_da_iss(s, mop, issinfo);
     tcg_temp_free_i32(tmp);
 
@@ -XXX,XX +XXX,XX @@ static bool trans_LDRD_rr(DisasContext *s, arg_ldst_rr *a)
     addr = op_addr_rr_pre(s, a);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
     store_reg(s, a->rt, tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
     store_reg(s, a->rt + 1, tmp);
 
     /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool trans_STRD_rr(DisasContext *s, arg_ldst_rr *a)
     addr = op_addr_rr_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
     tcg_temp_free_i32(tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = load_reg(s, a->rt + 1);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
     tcg_temp_free_i32(tmp);
 
     op_addr_rr_post(s, a, addr, -4);
@@ -XXX,XX +XXX,XX @@ static bool op_load_ri(DisasContext *s, arg_ldst_ri *a,
     addr = op_addr_ri_pre(s, a);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop);
     disas_set_da_iss(s, mop, issinfo);
 
     /*
@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
     addr = op_addr_ri_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop);
     disas_set_da_iss(s, mop, issinfo);
     tcg_temp_free_i32(tmp);
 
@@ -XXX,XX +XXX,XX @@ static bool op_ldrd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
     addr = op_addr_ri_pre(s, a);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
     store_reg(s, a->rt, tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
     store_reg(s, rt2, tmp);
 
     /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool op_strd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
     addr = op_addr_ri_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
     tcg_temp_free_i32(tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = load_reg(s, rt2);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
     tcg_temp_free_i32(tmp);
 
     op_addr_ri_post(s, a, addr, -4);
@@ -XXX,XX +XXX,XX @@ static bool op_stl(DisasContext *s, arg_STL *a, MemOp mop)
     addr = load_reg(s, a->rn);
     tmp = load_reg(s, a->rt);
     tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
-    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop | s->be_data);
+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop);
     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel | ISSIsWrite);
 
     tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool op_lda(DisasContext *s, arg_LDA *a, MemOp mop)
 
     addr = load_reg(s, a->rn);
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop | s->be_data);
+    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel);
     tcg_temp_free_i32(addr);
 
@@ -XXX,XX +XXX,XX @@ static bool op_tbranch(DisasContext *s, arg_tbranch *a, bool half)
     addr = load_reg(s, a->rn);
     tcg_gen_add_i32(addr, addr, tmp);
 
-    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
-                    half ? MO_UW | s->be_data : MO_UB);
+    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), half ? MO_UW : MO_UB);
     tcg_temp_free_i32(addr);
 
     tcg_gen_add_i32(tmp, tmp, tmp);
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
     addr = tcg_temp_new_i32();
     load_reg_var(s, addr, a->rn);
     for (reg = 0; reg < nregs; reg++) {
-        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
-                        s->be_data | size);
+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), size);
         if ((vd & 1) && vec_size == 16) {
             /*
              * We cannot write 16 bytes at once because the
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
      */
     for (reg = 0; reg < nregs; reg++) {
         if (a->l) {
-            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
-                            s->be_data | a->size);
+            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), a->size);
             neon_store_element(vd, a->reg_idx, a->size, tmp);
         } else { /* Store */
             neon_load_element(tmp, vd, a->reg_idx, a->size);
-            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
-                            s->be_data | a->size);
+            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), a->size);
         }
         vd += a->stride;
         tcg_gen_addi_i32(addr, addr, 1 << a->size);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is the only caller.  Adjust some commentary to talk
about SCTLR_B instead of the vanishing function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 37 ++++++++++++++++---------------------
 1 file changed, 16 insertions(+), 21 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
         gen_aa32_st_i32(s, val, a32, index, OPC);                       \
     }
 
-static inline void gen_aa32_frob64(DisasContext *s, TCGv_i64 val)
-{
-    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
-    if (!IS_USER_ONLY && s->sctlr_b) {
-        tcg_gen_rotri_i64(val, val, 32);
-    }
-}
-
 static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
                             int index, MemOp opc)
 {
     TCGv addr = gen_aa32_addr(s, a32, opc);
     tcg_gen_qemu_ld_i64(val, addr, index, opc);
-    gen_aa32_frob64(s, val);
+
+    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
+    if (!IS_USER_ONLY && s->sctlr_b) {
+        tcg_gen_rotri_i64(val, val, 32);
+    }
+
     tcg_temp_free(addr);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_load_exclusive(DisasContext *s, int rt, int rt2,
         TCGv_i32 tmp2 = tcg_temp_new_i32();
         TCGv_i64 t64 = tcg_temp_new_i64();
 
-        /* For AArch32, architecturally the 32-bit word at the lowest
+        /*
+         * For AArch32, architecturally the 32-bit word at the lowest
          * address is always Rt and the one at addr+4 is Rt2, even if
          * the CPU is big-endian. That means we don't want to do a
-         * gen_aa32_ld_i64(), which invokes gen_aa32_frob64() as if
-         * for an architecturally 64-bit access, but instead do a
-         * 64-bit access using MO_BE if appropriate and then split
-         * the two halves.
-         * This only makes a difference for BE32 user-mode, where
-         * frob64() must not flip the two halves of the 64-bit data
-         * but this code must treat BE32 user-mode like BE32 system.
+         * gen_aa32_ld_i64(), which checks SCTLR_B as if for an
+         * architecturally 64-bit access, but instead do a 64-bit access
+         * using MO_BE if appropriate and then split the two halves.
          */
         TCGv taddr = gen_aa32_addr(s, addr, opc);
 
@@ -XXX,XX +XXX,XX @@ static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
         TCGv_i64 n64 = tcg_temp_new_i64();
 
         t2 = load_reg(s, rt2);
-        /* For AArch32, architecturally the 32-bit word at the lowest
+
+        /*
+         * For AArch32, architecturally the 32-bit word at the lowest
          * address is always Rt and the one at addr+4 is Rt2, even if
          * the CPU is big-endian. Since we're going to treat this as a
          * single 64-bit BE store, we need to put the two halves in the
          * opposite order for BE to LE, so that they end up in the right
-         * places.
-         * We don't want gen_aa32_frob64() because that does the wrong
-         * thing for BE32 usermode.
+         * places.  We don't want gen_aa32_st_i64, because that checks
+         * SCTLR_B as if for an architectural 64-bit access.
          */
         if (s->be_data == MO_BE) {
             tcg_gen_concat_i32_i64(n64, t2, t1);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Just because operating on a TCGv_i64 temporary does not
mean that we're performing a 64-bit operation.  Restrict
the frobbing to actual 64-bit operations.

This bug is not currently visible because all current
users of these two functions always pass MO_64.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
     tcg_gen_qemu_ld_i64(val, addr, index, opc);
 
     /* Not needed for user-mode BE32, where we use MO_BE instead.  */
-    if (!IS_USER_ONLY && s->sctlr_b) {
+    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
         tcg_gen_rotri_i64(val, val, 32);
     }
 
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
     TCGv addr = gen_aa32_addr(s, a32, opc);
 
     /* Not needed for user-mode BE32, where we use MO_BE instead.  */
-    if (!IS_USER_ONLY && s->sctlr_b) {
+    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
         TCGv_i64 tmp = tcg_temp_new_i64();
         tcg_gen_rotri_i64(tmp, val, 32);
         tcg_gen_qemu_st_i64(tmp, addr, index, opc);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Adjust the interface to match what has been done to the
TCGv_i32 load/store functions.

This is less obvious, because at present the only user of
these functions, trans_VLDST_multiple, also wants to manipulate
the endianness to speed up loading multiple bytes.  Thus we
retain an "internal" interface which is identical to the
current gen_aa32_{ld,st}_i64 interface.

The "new" interface will gain users as we remove the legacy
interfaces, gen_aa32_ld64 and gen_aa32_st64.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c          | 78 +++++++++++++++++++--------------
 target/arm/translate-neon.c.inc |  6 ++-
 2 files changed, 49 insertions(+), 35 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_internal_i32(DisasContext *s, TCGv_i32 val,
     tcg_temp_free(addr);
 }
 
+static void gen_aa32_ld_internal_i64(DisasContext *s, TCGv_i64 val,
+                                     TCGv_i32 a32, int index, MemOp opc)
+{
+    TCGv addr = gen_aa32_addr(s, a32, opc);
+
+    tcg_gen_qemu_ld_i64(val, addr, index, opc);
+
+    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
+    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
+        tcg_gen_rotri_i64(val, val, 32);
+    }
+    tcg_temp_free(addr);
+}
+
+static void gen_aa32_st_internal_i64(DisasContext *s, TCGv_i64 val,
+                                     TCGv_i32 a32, int index, MemOp opc)
+{
+    TCGv addr = gen_aa32_addr(s, a32, opc);
+
+    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
+    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        tcg_gen_rotri_i64(tmp, val, 32);
+        tcg_gen_qemu_st_i64(tmp, addr, index, opc);
+        tcg_temp_free_i64(tmp);
+    } else {
+        tcg_gen_qemu_st_i64(val, addr, index, opc);
+    }
+    tcg_temp_free(addr);
+}
+
 static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                             int index, MemOp opc)
 {
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
     gen_aa32_st_internal_i32(s, val, a32, index, finalize_memop(s, opc));
 }
 
+static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+                            int index, MemOp opc)
+{
+    gen_aa32_ld_internal_i64(s, val, a32, index, finalize_memop(s, opc));
+}
+
+static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+                            int index, MemOp opc)
+{
+    gen_aa32_st_internal_i64(s, val, a32, index, finalize_memop(s, opc));
+}
+
 #define DO_GEN_LD(SUFF, OPC)                                            \
     static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val, \
                                          TCGv_i32 a32, int index)       \
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
         gen_aa32_st_i32(s, val, a32, index, OPC);                       \
     }
 
-static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
-                            int index, MemOp opc)
-{
-    TCGv addr = gen_aa32_addr(s, a32, opc);
-    tcg_gen_qemu_ld_i64(val, addr, index, opc);
-
-    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
-    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
-        tcg_gen_rotri_i64(val, val, 32);
-    }
-
-    tcg_temp_free(addr);
-}
-
 static inline void gen_aa32_ld64(DisasContext *s, TCGv_i64 val,
                                  TCGv_i32 a32, int index)
 {
-    gen_aa32_ld_i64(s, val, a32, index, MO_Q | s->be_data);
-}
-
-static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
-                            int index, MemOp opc)
-{
-    TCGv addr = gen_aa32_addr(s, a32, opc);
-
-    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
-    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
-        TCGv_i64 tmp = tcg_temp_new_i64();
-        tcg_gen_rotri_i64(tmp, val, 32);
-        tcg_gen_qemu_st_i64(tmp, addr, index, opc);
-        tcg_temp_free_i64(tmp);
-    } else {
-        tcg_gen_qemu_st_i64(val, addr, index, opc);
-    }
-    tcg_temp_free(addr);
+    gen_aa32_ld_i64(s, val, a32, index, MO_Q);
 }
 
 static inline void gen_aa32_st64(DisasContext *s, TCGv_i64 val,
                                  TCGv_i32 a32, int index)
 {
-    gen_aa32_st_i64(s, val, a32, index, MO_Q | s->be_data);
+    gen_aa32_st_i64(s, val, a32, index, MO_Q);
 }
 
 DO_GEN_LD(8u, MO_UB)
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
                 int tt = a->vd + reg + spacing * xs;
 
                 if (a->l) {
-                    gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
+                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx,
+                                             endian | size);
                     neon_store_element64(tt, n, size, tmp64);
                 } else {
                     neon_load_element64(tmp64, tt, n, size);
-                    gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
+                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx,
+                                             endian | size);
                 }
                 tcg_gen_add_i32(addr, addr, tmp);
             }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Buglink: https://bugs.launchpad.net/qemu/+bug/1905356
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_LDRD_rr(DisasContext *s, arg_ldst_rr *a)
     addr = op_addr_rr_pre(s, a);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     store_reg(s, a->rt, tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     store_reg(s, a->rt + 1, tmp);
 
     /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool trans_STRD_rr(DisasContext *s, arg_ldst_rr *a)
     addr = op_addr_rr_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     tcg_temp_free_i32(tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = load_reg(s, a->rt + 1);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     tcg_temp_free_i32(tmp);
 
     op_addr_rr_post(s, a, addr, -4);
@@ -XXX,XX +XXX,XX @@ static bool op_ldrd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
     addr = op_addr_ri_pre(s, a);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     store_reg(s, a->rt, tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     store_reg(s, rt2, tmp);
 
     /* LDRD w/ base writeback is undefined if the registers overlap.  */
@@ -XXX,XX +XXX,XX @@ static bool op_strd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
     addr = op_addr_ri_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     tcg_temp_free_i32(tmp);
 
     tcg_gen_addi_i32(addr, addr, 4);
 
     tmp = load_reg(s, rt2);
-    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
     tcg_temp_free_i32(tmp);
 
     op_addr_ri_post(s, a, addr, -4);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool op_stl(DisasContext *s, arg_STL *a, MemOp mop)
     addr = load_reg(s, a->rn);
     tmp = load_reg(s, a->rt);
     tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
-    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop);
+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop | MO_ALIGN);
     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel | ISSIsWrite);
 
     tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static bool op_lda(DisasContext *s, arg_LDA *a, MemOp mop)
 
     addr = load_reg(s, a->rn);
     tmp = tcg_temp_new_i32();
-    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
+    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop | MO_ALIGN);
     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel);
     tcg_temp_free_i32(addr);
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool op_stm(DisasContext *s, arg_ldst_block *a, int min_n)
         } else {
             tmp = load_reg(s, i);
         }
-        gen_aa32_st32(s, tmp, addr, mem_idx);
+        gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
         tcg_temp_free_i32(tmp);
 
         /* No need to add after the last transfer.  */
@@ -XXX,XX +XXX,XX @@ static bool do_ldm(DisasContext *s, arg_ldst_block *a, int min_n)
         }
 
         tmp = tcg_temp_new_i32();
-        gen_aa32_ld32u(s, tmp, addr, mem_idx);
+        gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
         if (user) {
             tmp2 = tcg_const_i32(i);
             gen_helper_set_user_reg(cpu_env, tmp2, tmp);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_RFE(DisasContext *s, arg_RFE *a)
 
     /* Load PC into tmp and CPSR into tmp2.  */
     t1 = tcg_temp_new_i32();
-    gen_aa32_ld32u(s, t1, addr, get_mem_index(s));
+    gen_aa32_ld_i32(s, t1, addr, get_mem_index(s), MO_UL | MO_ALIGN);
     tcg_gen_addi_i32(addr, addr, 4);
     t2 = tcg_temp_new_i32();
-    gen_aa32_ld32u(s, t2, addr, get_mem_index(s));
+    gen_aa32_ld_i32(s, t2, addr, get_mem_index(s), MO_UL | MO_ALIGN);
 
     if (a->w) {
         /* Base writeback.  */
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
     }
     tcg_gen_addi_i32(addr, addr, offset);
     tmp = load_reg(s, 14);
-    gen_aa32_st32(s, tmp, addr, get_mem_index(s));
+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
     tcg_temp_free_i32(tmp);
     tmp = load_cpu_field(spsr);
     tcg_gen_addi_i32(addr, addr, 4);
-    gen_aa32_st32(s, tmp, addr, get_mem_index(s));
+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
     tcg_temp_free_i32(tmp);
     if (writeback) {
         switch (amode) {
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-vfp.c.inc | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_sp(DisasContext *s, arg_VLDM_VSTM_sp *a)
     for (i = 0; i < n; i++) {
         if (a->l) {
             /* load */
-            gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
+            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
             vfp_store_reg32(tmp, a->vd + i);
         } else {
             /* store */
             vfp_load_reg32(tmp, a->vd + i);
-            gen_aa32_st32(s, tmp, addr, get_mem_index(s));
+            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
         }
         tcg_gen_addi_i32(addr, addr, offset);
     }
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_dp(DisasContext *s, arg_VLDM_VSTM_dp *a)
     for (i = 0; i < n; i++) {
         if (a->l) {
             /* load */
-            gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
+            gen_aa32_ld_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
             vfp_store_reg64(tmp, a->vd + i);
         } else {
             /* store */
             vfp_load_reg64(tmp, a->vd + i);
-            gen_aa32_st64(s, tmp, addr, get_mem_index(s));
+            gen_aa32_st_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
         }
         tcg_gen_addi_i32(addr, addr, offset);
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-vfp.c.inc | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c.inc
+++ b/target/arm/translate-vfp.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_hp(DisasContext *s, arg_VLDR_VSTR_sp *a)
     addr = add_reg_for_lit(s, a->rn, offset);
     tmp = tcg_temp_new_i32();
     if (a->l) {
-        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UW | MO_ALIGN);
         vfp_store_reg32(tmp, a->vd);
     } else {
         vfp_load_reg32(tmp, a->vd);
-        gen_aa32_st16(s, tmp, addr, get_mem_index(s));
+        gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UW | MO_ALIGN);
     }
     tcg_temp_free_i32(tmp);
     tcg_temp_free_i32(addr);
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_sp(DisasContext *s, arg_VLDR_VSTR_sp *a)
     addr = add_reg_for_lit(s, a->rn, offset);
     tmp = tcg_temp_new_i32();
     if (a->l) {
-        gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
         vfp_store_reg32(tmp, a->vd);
     } else {
         vfp_load_reg32(tmp, a->vd);
-        gen_aa32_st32(s, tmp, addr, get_mem_index(s));
+        gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
     }
     tcg_temp_free_i32(tmp);
     tcg_temp_free_i32(addr);
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_dp(DisasContext *s, arg_VLDR_VSTR_dp *a)
     addr = add_reg_for_lit(s, a->rn, offset);
     tmp = tcg_temp_new_i64();
     if (a->l) {
-        gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
+        gen_aa32_ld_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
         vfp_store_reg64(tmp, a->vd);
     } else {
         vfp_load_reg64(tmp, a->vd);
-        gen_aa32_st64(s, tmp, addr, get_mem_index(s));
+        gen_aa32_st_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
     }
     tcg_temp_free_i64(tmp);
     tcg_temp_free_i32(addr);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h          |  1 +
 target/arm/translate.c          | 15 +++++++++++++
 target/arm/translate-neon.c.inc | 37 +++++++++++++++++++++++++--------
 3 files changed, 44 insertions(+), 9 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void arm_test_cc(DisasCompare *cmp, int cc);
 void arm_free_cc(DisasCompare *cmp);
 void arm_jump_cc(DisasCompare *cmp, TCGLabel *label);
 void arm_gen_test_cc(int cc, TCGLabel *label);
+MemOp pow2_align(unsigned i);
 
 /* Return state of Alternate Half-precision flag, caller frees result */
 static inline TCGv_i32 get_ahp_flag(void)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
 #define IS_USER_ONLY 0
 #endif
 
+MemOp pow2_align(unsigned i)
+{
+    static const MemOp mop_align[] = {
+        0, MO_ALIGN_2, MO_ALIGN_4, MO_ALIGN_8, MO_ALIGN_16,
+        /*
+         * FIXME: TARGET_PAGE_BITS_MIN affects TLB_FLAGS_MASK such
+         * that 256-bit alignment (MO_ALIGN_32) cannot be supported:
+         * see get_alignment_bits(). Enforce only 128-bit alignment for now.
+         */
+        MO_ALIGN_16
+    };
+    g_assert(i < ARRAY_SIZE(mop_align));
+    return mop_align[i];
+}
+
 /*
  * Abstractions of "generate code to do a guest load/store for
  * AArch32", where a vaddr is always 32 bits (and is zero
diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
     int size = a->size;
     int nregs = a->n + 1;
     TCGv_i32 addr, tmp;
+    MemOp mop, align;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
         return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
         return false;
     }
 
+    align = 0;
     if (size == 3) {
         if (nregs != 4 || a->a == 0) {
             return false;
         }
         /* For VLD4 size == 3 a == 1 means 32 bits at 16 byte alignment */
-        size = 2;
-    }
-    if (nregs == 1 && a->a == 1 && size == 0) {
-        return false;
-    }
-    if (nregs == 3 && a->a == 1) {
-        return false;
+        size = MO_32;
+        align = MO_ALIGN_16;
+    } else if (a->a) {
+        switch (nregs) {
+        case 1:
+            if (size == 0) {
+                return false;
+            }
+            align = MO_ALIGN;
+            break;
+        case 2:
+            align = pow2_align(size + 1);
+            break;
+        case 3:
+            return false;
+        case 4:
+            align = pow2_align(size + 2);
+            break;
+        default:
+            g_assert_not_reached();
+        }
     }
 
     if (!vfp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
      */
     stride = a->t ? 2 : 1;
     vec_size = nregs == 1 ? stride * 8 : 8;
-
+    mop = size | align;
     tmp = tcg_temp_new_i32();
     addr = tcg_temp_new_i32();
     load_reg_var(s, addr, a->rn);
     for (reg = 0; reg < nregs; reg++) {
-        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), size);
+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
         if ((vd & 1) && vec_size == 16) {
             /*
              * We cannot write 16 bytes at once because the
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
         }
         tcg_gen_addi_i32(addr, addr, 1 << size);
         vd += stride;
+
+        /* Subsequent memory operations inherit alignment */
+        mop &= ~MO_AMASK;
     }
     tcg_temp_free_i32(tmp);
     tcg_temp_free_i32(addr);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-neon.c.inc | 27 ++++++++++++++++++++++-----
 1 file changed, 22 insertions(+), 5 deletions(-)

diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
 {
     /* Neon load/store multiple structures */
     int nregs, interleave, spacing, reg, n;
-    MemOp endian = s->be_data;
+    MemOp mop, align, endian;
     int mmu_idx = get_mem_index(s);
     int size = a->size;
     TCGv_i64 tmp64;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
     }
 
     /* For our purposes, bytes are always little-endian.  */
+    endian = s->be_data;
     if (size == 0) {
         endian = MO_LE;
     }
+
+    /* Enforce alignment requested by the instruction */
+    if (a->align) {
+        align = pow2_align(a->align + 2); /* 4 ** a->align */
+    } else {
+        align = s->align_mem ? MO_ALIGN : 0;
+    }
+
     /*
      * Consecutive little-endian elements from a single register
      * can be promoted to a larger little-endian operation.
      */
     if (interleave == 1 && endian == MO_LE) {
+        /* Retain any natural alignment. */
+        if (align == MO_ALIGN) {
+            align = pow2_align(size);
+        }
         size = 3;
     }
+
     tmp64 = tcg_temp_new_i64();
     addr = tcg_temp_new_i32();
     tmp = tcg_const_i32(1 << size);
     load_reg_var(s, addr, a->rn);
+
+    mop = endian | size | align;
     for (reg = 0; reg < nregs; reg++) {
         for (n = 0; n < 8 >> size; n++) {
             int xs;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
                 int tt = a->vd + reg + spacing * xs;
 
                 if (a->l) {
-                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx,
-                                             endian | size);
+                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx, mop);
                     neon_store_element64(tt, n, size, tmp64);
                 } else {
                     neon_load_element64(tmp64, tt, n, size);
-                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx,
-                                             endian | size);
+                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx, mop);
                 }
                 tcg_gen_add_i32(addr, addr, tmp);
+
+                /* Subsequent memory operations inherit alignment */
+                mop &= ~MO_AMASK;
             }
         }
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-neon.c.inc | 48 ++++++++++++++++++++++++++++-----
 1 file changed, 42 insertions(+), 6 deletions(-)

diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.c.inc
+++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
     int nregs = a->n + 1;
     int vd = a->vd;
     TCGv_i32 addr, tmp;
+    MemOp mop;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
         return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
         return true;
     }
 
+    /* Pick up SCTLR settings */
+    mop = finalize_memop(s, a->size);
+
+    if (a->align) {
+        MemOp align_op;
+
+        switch (nregs) {
+        case 1:
+            /* For VLD1, use natural alignment. */
+            align_op = MO_ALIGN;
+            break;
+        case 2:
+            /* For VLD2, use double alignment. */
+            align_op = pow2_align(a->size + 1);
+            break;
+        case 4:
+            if (a->size == MO_32) {
+                /*
+                 * For VLD4.32, align = 1 is double alignment, align = 2 is
+                 * quad alignment; align = 3 is rejected above.
+                 */
+                align_op = pow2_align(a->size + a->align);
+            } else {
+                /* For VLD4.8 and VLD.16, we want quad alignment. */
+                align_op = pow2_align(a->size + 2);
+            }
+            break;
+        default:
+            /* For VLD3, the alignment field is zero and rejected above. */
+            g_assert_not_reached();
+        }
+
+        mop = (mop & ~MO_AMASK) | align_op;
+    }
+
     tmp = tcg_temp_new_i32();
     addr = tcg_temp_new_i32();
     load_reg_var(s, addr, a->rn);
-    /*
-     * TODO: if we implemented alignment exceptions, we should check
-     * addr against the alignment encoded in a->align here.
-     */
+
     for (reg = 0; reg < nregs; reg++) {
         if (a->l) {
-            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), a->size);
+            gen_aa32_ld_internal_i32(s, tmp, addr, get_mem_index(s), mop);
             neon_store_element(vd, a->reg_idx, a->size, tmp);
         } else { /* Store */
             neon_load_element(tmp, vd, a->reg_idx, a->size);
-            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), a->size);
+            gen_aa32_st_internal_i32(s, tmp, addr, get_mem_index(s), mop);
         }
         vd += a->stride;
         tcg_gen_addi_i32(addr, addr, 1 << a->size);
+
+        /* Subsequent memory operations inherit alignment */
+        mop &= ~MO_AMASK;
     }
     tcg_temp_free_i32(addr);
     tcg_temp_free_i32(tmp);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

In the case of gpr load, merge the size and is_signed arguments;
otherwise, simply convert size to memop.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 78 ++++++++++++++++----------------------
 1 file changed, 33 insertions(+), 45 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_adc_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
  * Store from GPR register to memory.
  */
 static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
-                             TCGv_i64 tcg_addr, int size, int memidx,
+                             TCGv_i64 tcg_addr, MemOp memop, int memidx,
                              bool iss_valid,
                              unsigned int iss_srt,
                              bool iss_sf, bool iss_ar)
 {
-    g_assert(size <= 3);
-    tcg_gen_qemu_st_i64(source, tcg_addr, memidx, s->be_data + size);
+    memop = finalize_memop(s, memop);
+    tcg_gen_qemu_st_i64(source, tcg_addr, memidx, memop);
 
     if (iss_valid) {
         uint32_t syn;
 
         syn = syn_data_abort_with_iss(0,
-                                      size,
+                                      (memop & MO_SIZE),
                                       false,
                                       iss_srt,
                                       iss_sf,
@@ -XXX,XX +XXX,XX @@ static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
 }
 
 static void do_gpr_st(DisasContext *s, TCGv_i64 source,
-                      TCGv_i64 tcg_addr, int size,
+                      TCGv_i64 tcg_addr, MemOp memop,
                       bool iss_valid,
                       unsigned int iss_srt,
                       bool iss_sf, bool iss_ar)
 {
-    do_gpr_st_memidx(s, source, tcg_addr, size, get_mem_index(s),
+    do_gpr_st_memidx(s, source, tcg_addr, memop, get_mem_index(s),
                      iss_valid, iss_srt, iss_sf, iss_ar);
 }
 
 /*
  * Load from memory to GPR register
  */
-static void do_gpr_ld_memidx(DisasContext *s,
-                             TCGv_i64 dest, TCGv_i64 tcg_addr,
-                             int size, bool is_signed,
-                             bool extend, int memidx,
+static void do_gpr_ld_memidx(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
+                             MemOp memop, bool extend, int memidx,
                              bool iss_valid, unsigned int iss_srt,
                              bool iss_sf, bool iss_ar)
 {
-    MemOp memop = s->be_data + size;
-
-    g_assert(size <= 3);
-
-    if (is_signed) {
-        memop += MO_SIGN;
-    }
-
+    memop = finalize_memop(s, memop);
     tcg_gen_qemu_ld_i64(dest, tcg_addr, memidx, memop);
 
-    if (extend && is_signed) {
-        g_assert(size < 3);
+    if (extend && (memop & MO_SIGN)) {
+        g_assert((memop & MO_SIZE) <= MO_32);
         tcg_gen_ext32u_i64(dest, dest);
     }
 
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld_memidx(DisasContext *s,
         uint32_t syn;
 
         syn = syn_data_abort_with_iss(0,
-                                      size,
-                                      is_signed,
+                                      (memop & MO_SIZE),
+                                      (memop & MO_SIGN) != 0,
                                       iss_srt,
                                       iss_sf,
                                       iss_ar,
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld_memidx(DisasContext *s,
     }
 }
 
-static void do_gpr_ld(DisasContext *s,
-                      TCGv_i64 dest, TCGv_i64 tcg_addr,
-                      int size, bool is_signed, bool extend,
+static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
+                      MemOp memop, bool extend,
                       bool iss_valid, unsigned int iss_srt,
                       bool iss_sf, bool iss_ar)
 {
-    do_gpr_ld_memidx(s, dest, tcg_addr, size, is_signed, extend,
-                     get_mem_index(s),
+    do_gpr_ld_memidx(s, dest, tcg_addr, memop, extend, get_mem_index(s),
                      iss_valid, iss_srt, iss_sf, iss_ar);
 }
 
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
         }
         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
                                     false, rn != 31, size);
-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, false, true, rt,
+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, true, rt,
                   disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_ld_lit(DisasContext *s, uint32_t insn)
         /* Only unsigned 32bit loads target 32bit registers.  */
         bool iss_sf = opc != 0;
 
-        do_gpr_ld(s, tcg_rt, clean_addr, size, is_signed, false,
-                  true, rt, iss_sf, false);
+        do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
+                  false, true, rt, iss_sf, false);
     }
     tcg_temp_free_i64(clean_addr);
 }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pair(DisasContext *s, uint32_t insn)
             /* Do not modify tcg_rt before recognizing any exception
              * from the second load.
              */
-            do_gpr_ld(s, tmp, clean_addr, size, is_signed, false,
-                      false, 0, false, false);
+            do_gpr_ld(s, tmp, clean_addr, size + is_signed * MO_SIGN,
+                      false, false, 0, false, false);
             tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
-            do_gpr_ld(s, tcg_rt2, clean_addr, size, is_signed, false,
-                      false, 0, false, false);
+            do_gpr_ld(s, tcg_rt2, clean_addr, size + is_signed * MO_SIGN,
+                      false, false, 0, false, false);
 
             tcg_gen_mov_i64(tcg_rt, tmp);
             tcg_temp_free_i64(tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_imm9(DisasContext *s, uint32_t insn,
             do_gpr_st_memidx(s, tcg_rt, clean_addr, size, memidx,
                              iss_valid, rt, iss_sf, false);
         } else {
-            do_gpr_ld_memidx(s, tcg_rt, clean_addr, size,
-                             is_signed, is_extended, memidx,
+            do_gpr_ld_memidx(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
+                             is_extended, memidx,
                              iss_valid, rt, iss_sf, false);
         }
     }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_roffset(DisasContext *s, uint32_t insn,
             do_gpr_st(s, tcg_rt, clean_addr, size,
                       true, rt, iss_sf, false);
         } else {
-            do_gpr_ld(s, tcg_rt, clean_addr, size,
-                      is_signed, is_extended,
-                      true, rt, iss_sf, false);
+            do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
+                      is_extended, true, rt, iss_sf, false);
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_unsigned_imm(DisasContext *s, uint32_t insn,
             do_gpr_st(s, tcg_rt, clean_addr, size,
                       true, rt, iss_sf, false);
         } else {
-            do_gpr_ld(s, tcg_rt, clean_addr, size, is_signed, is_extended,
-                      true, rt, iss_sf, false);
+            do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
+                      is_extended, true, rt, iss_sf, false);
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
          * full load-acquire (we only need "load-acquire processor consistent"),
          * but we choose to implement them as full LDAQ.
          */
-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, false,
+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false,
                   true, rt, disas_ldst_compute_iss_sf(size, false, 0), true);
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pac(DisasContext *s, uint32_t insn,
                                 is_wback || rn != 31, size);
 
     tcg_rt = cpu_reg(s, rt);
-    do_gpr_ld(s, tcg_rt, clean_addr, size, /* is_signed */ false,
+    do_gpr_ld(s, tcg_rt, clean_addr, size,
               /* extend */ false, /* iss_valid */ !is_wback,
               /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
 
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
          * Load-AcquirePC semantics; we implement as the slightly more
          * restrictive Load-Acquire.
          */
-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, is_signed, extend,
-                  true, rt, iss_sf, true);
+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size + is_signed * MO_SIGN,
+                  extend, true, rt, iss_sf, true);
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
     }
 }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

For 128-bit load/store, use 16-byte alignment.  This
requires that we perform the two operations in the
correct order so that we generate the alignment fault
before modifying memory.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 42 +++++++++++++++++++++++---------------
 1 file changed, 26 insertions(+), 16 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 static void do_fp_st(DisasContext *s, int srcidx, TCGv_i64 tcg_addr, int size)
 {
     /* This writes the bottom N bits of a 128 bit wide vector to memory */
-    TCGv_i64 tmp = tcg_temp_new_i64();
-    tcg_gen_ld_i64(tmp, cpu_env, fp_reg_offset(s, srcidx, MO_64));
+    TCGv_i64 tmplo = tcg_temp_new_i64();
+    MemOp mop;
+
+    tcg_gen_ld_i64(tmplo, cpu_env, fp_reg_offset(s, srcidx, MO_64));
+
     if (size < 4) {
-        tcg_gen_qemu_st_i64(tmp, tcg_addr, get_mem_index(s),
-                            s->be_data + size);
+        mop = finalize_memop(s, size);
+        tcg_gen_qemu_st_i64(tmplo, tcg_addr, get_mem_index(s), mop);
     } else {
         bool be = s->be_data == MO_BE;
         TCGv_i64 tcg_hiaddr = tcg_temp_new_i64();
+        TCGv_i64 tmphi = tcg_temp_new_i64();
 
+        tcg_gen_ld_i64(tmphi, cpu_env, fp_reg_hi_offset(s, srcidx));
+
+        mop = s->be_data | MO_Q;
+        tcg_gen_qemu_st_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
+                            mop | (s->align_mem ? MO_ALIGN_16 : 0));
         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
-        tcg_gen_qemu_st_i64(tmp, be ? tcg_hiaddr : tcg_addr, get_mem_index(s),
-                            s->be_data | MO_Q);
-        tcg_gen_ld_i64(tmp, cpu_env, fp_reg_hi_offset(s, srcidx));
-        tcg_gen_qemu_st_i64(tmp, be ? tcg_addr : tcg_hiaddr, get_mem_index(s),
-                            s->be_data | MO_Q);
+        tcg_gen_qemu_st_i64(be ? tmplo : tmphi, tcg_hiaddr,
+                            get_mem_index(s), mop);
+
         tcg_temp_free_i64(tcg_hiaddr);
+        tcg_temp_free_i64(tmphi);
     }
 
-    tcg_temp_free_i64(tmp);
+    tcg_temp_free_i64(tmplo);
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
     /* This always zero-extends and writes to a full 128 bit wide vector */
     TCGv_i64 tmplo = tcg_temp_new_i64();
     TCGv_i64 tmphi = NULL;
+    MemOp mop;
 
     if (size < 4) {
-        MemOp memop = s->be_data + size;
-        tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), memop);
+        mop = finalize_memop(s, size);
+        tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), mop);
     } else {
         bool be = s->be_data == MO_BE;
         TCGv_i64 tcg_hiaddr;
@@ -XXX,XX +XXX,XX @@ static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
         tmphi = tcg_temp_new_i64();
         tcg_hiaddr = tcg_temp_new_i64();
 
+        mop = s->be_data | MO_Q;
+        tcg_gen_qemu_ld_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
+                            mop | (s->align_mem ? MO_ALIGN_16 : 0));
         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
-        tcg_gen_qemu_ld_i64(tmplo, be ? tcg_hiaddr : tcg_addr, get_mem_index(s),
-                            s->be_data | MO_Q);
-        tcg_gen_qemu_ld_i64(tmphi, be ? tcg_addr : tcg_hiaddr, get_mem_index(s),
-                            s->be_data | MO_Q);
+        tcg_gen_qemu_ld_i64(be ? tmplo : tmphi, tcg_hiaddr,
+                            get_mem_index(s), mop);
         tcg_temp_free_i64(tcg_hiaddr);
     }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-28-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 23 ++++++++++++++---------
 1 file changed, 14 insertions(+), 9 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
                                     true, rn != 31, size);
-        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size, true, rt,
+        /* TODO: ARMv8.4-LSE SCTLR.nAA */
+        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, true, rt,
                   disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
         return;
 
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
         }
         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
                                     false, rn != 31, size);
-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, true, rt,
-                  disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
+        /* TODO: ARMv8.4-LSE SCTLR.nAA */
+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, false, true,
+                  rt, disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
         return;
 
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
     int size = extract32(insn, 30, 2);
     TCGv_i64 clean_addr, dirty_addr;
     bool is_store = false;
-    bool is_signed = false;
     bool extend = false;
     bool iss_sf;
+    MemOp mop;
 
     if (!dc_isar_feature(aa64_rcpc_8_4, s)) {
         unallocated_encoding(s);
         return;
     }
 
+    /* TODO: ARMv8.4-LSE SCTLR.nAA */
+    mop = size | MO_ALIGN;
+
     switch (opc) {
     case 0: /* STLURB */
         is_store = true;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
             unallocated_encoding(s);
             return;
         }
-        is_signed = true;
+        mop |= MO_SIGN;
         break;
     case 3: /* LDAPURS* 32-bit variant */
         if (size > 1) {
             unallocated_encoding(s);
             return;
         }
-        is_signed = true;
+        mop |= MO_SIGN;
         extend = true; /* zero-extend 32->64 after signed load */
         break;
     default:
         g_assert_not_reached();
     }
 
-    iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
+    iss_sf = disas_ldst_compute_iss_sf(size, (mop & MO_SIGN) != 0, opc);
 
     if (rn == 31) {
         gen_check_sp_alignment(s);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
     if (is_store) {
         /* Store-Release semantics */
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
-        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size, true, rt, iss_sf, true);
+        do_gpr_st(s, cpu_reg(s, rt), clean_addr, mop, true, rt, iss_sf, true);
     } else {
         /*
          * Load-AcquirePC semantics; we implement as the slightly more
          * restrictive Load-Acquire.
          */
-        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size + is_signed * MO_SIGN,
+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, mop,
                   extend, true, rt, iss_sf, true);
         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-30-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 15 +++++++++++----
 1 file changed, 11 insertions(+), 4 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
     bool is_postidx = extract32(insn, 23, 1);
     bool is_q = extract32(insn, 30, 1);
     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
-    MemOp endian = s->be_data;
+    MemOp endian, align, mop;
 
     int total;    /* total bytes */
     int elements; /* elements per vector */
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
     }
 
     /* For our purposes, bytes are always little-endian.  */
+    endian = s->be_data;
     if (size == 0) {
         endian = MO_LE;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
      * Consecutive little-endian elements from a single register
      * can be promoted to a larger little-endian operation.
      */
+    align = MO_ALIGN;
     if (selem == 1 && endian == MO_LE) {
+        align = pow2_align(size);
         size = 3;
     }
-    elements = (is_q ? 16 : 8) >> size;
+    if (!s->align_mem) {
+        align = 0;
+    }
+    mop = endian | size | align;
 
+    elements = (is_q ? 16 : 8) >> size;
     tcg_ebytes = tcg_const_i64(1 << size);
     for (r = 0; r < rpt; r++) {
         int e;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
             for (xs = 0; xs < selem; xs++) {
                 int tt = (rt + r + xs) % 32;
                 if (is_store) {
-                    do_vec_st(s, tt, e, clean_addr, size | endian);
+                    do_vec_st(s, tt, e, clean_addr, mop);
                 } else {
-                    do_vec_ld(s, tt, e, clean_addr, size | endian);
+                    do_vec_ld(s, tt, e, clean_addr, mop);
                 }
                 tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
             }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210419202257.161730-31-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
     int index = is_q << 3 | S << 2 | size;
     int xs, total;
     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
+    MemOp mop;
 
     if (extract32(insn, 31, 1)) {
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
 
     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
                                 total);
+    mop = finalize_memop(s, scale);
 
     tcg_ebytes = tcg_const_i64(1 << scale);
     for (xs = 0; xs < selem; xs++) {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
             /* Load and replicate to all elements */
             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 
-            tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr,
-                                get_mem_index(s), s->be_data + scale);
+            tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr, get_mem_index(s), mop);
             tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
                                  (is_q + 1) * 8, vec_full_reg_size(s),
                                  tcg_tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
         } else {
             /* Load/store one element per register */
             if (is_load) {
-                do_vec_ld(s, rt, index, clean_addr, scale | s->be_data);
+                do_vec_ld(s, rt, index, clean_addr, mop);
             } else {
-                do_vec_st(s, rt, index, clean_addr, scale | s->be_data);
+                do_vec_st(s, rt, index, clean_addr, mop);
             }
         }
         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
-- 
2.20.1

From: Cornelia Huck <cohuck@redhat.com>

Add 6.1 machine types for arm/i440fx/q35/s390x/spapr.

Signed-off-by: Cornelia Huck <cohuck@redhat.com>
Acked-by: Greg Kurz <groug@kaod.org>
Message-id: 20210331111900.118274-1-cohuck@redhat.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/boards.h        |  3 +++
 include/hw/i386/pc.h       |  3 +++
 hw/arm/virt.c              |  7 ++++++-
 hw/core/machine.c          |  3 +++
 hw/i386/pc.c               |  3 +++
 hw/i386/pc_piix.c          | 14 +++++++++++++-
 hw/i386/pc_q35.c           | 13 ++++++++++++-
 hw/ppc/spapr.c             | 17 ++++++++++++++---
 hw/s390x/s390-virtio-ccw.c | 14 +++++++++++++-
 9 files changed, 70 insertions(+), 7 deletions(-)

diff --git a/include/hw/boards.h b/include/hw/boards.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/boards.h
+++ b/include/hw/boards.h
@@ -XXX,XX +XXX,XX @@ struct MachineState {
     } \
     type_init(machine_initfn##_register_types)
 
+extern GlobalProperty hw_compat_6_0[];
+extern const size_t hw_compat_6_0_len;
+
 extern GlobalProperty hw_compat_5_2[];
 extern const size_t hw_compat_5_2_len;
 
diff --git a/include/hw/i386/pc.h b/include/hw/i386/pc.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/i386/pc.h
+++ b/include/hw/i386/pc.h
@@ -XXX,XX +XXX,XX @@ bool pc_system_ovmf_table_find(const char *entry, uint8_t **data,
 void pc_madt_cpu_entry(AcpiDeviceIf *adev, int uid,
                        const CPUArchIdList *apic_ids, GArray *entry);
 
+extern GlobalProperty pc_compat_6_0[];
+extern const size_t pc_compat_6_0_len;
+
 extern GlobalProperty pc_compat_5_2[];
 extern const size_t pc_compat_5_2_len;
 
diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_machine_init(void)
 }
 type_init(machvirt_machine_init);
 
+static void virt_machine_6_1_options(MachineClass *mc)
+{
+}
+DEFINE_VIRT_MACHINE_AS_LATEST(6, 1)
+
 static void virt_machine_6_0_options(MachineClass *mc)
 {
 }
-DEFINE_VIRT_MACHINE_AS_LATEST(6, 0)
+DEFINE_VIRT_MACHINE(6, 0)
 
 static void virt_machine_5_2_options(MachineClass *mc)
 {
diff --git a/hw/core/machine.c b/hw/core/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/core/machine.c
+++ b/hw/core/machine.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/virtio/virtio.h"
 #include "hw/virtio/virtio-pci.h"
 
+GlobalProperty hw_compat_6_0[] = {};
+const size_t hw_compat_6_0_len = G_N_ELEMENTS(hw_compat_6_0);
+
 GlobalProperty hw_compat_5_2[] = {
     { "ICH9-LPC", "smm-compat", "on"},
     { "PIIX4_PM", "smm-compat", "on"},
diff --git a/hw/i386/pc.c b/hw/i386/pc.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/i386/pc.c
+++ b/hw/i386/pc.c
@@ -XXX,XX +XXX,XX @@
 #include "trace.h"
 #include CONFIG_DEVICES
 
+GlobalProperty pc_compat_6_0[] = {};
+const size_t pc_compat_6_0_len = G_N_ELEMENTS(pc_compat_6_0);
+
 GlobalProperty pc_compat_5_2[] = {
     { "ICH9-LPC", "x-smi-cpu-hotunplug", "off" },
 };
diff --git a/hw/i386/pc_piix.c b/hw/i386/pc_piix.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/i386/pc_piix.c
+++ b/hw/i386/pc_piix.c
@@ -XXX,XX +XXX,XX @@ static void pc_i440fx_machine_options(MachineClass *m)
     machine_class_allow_dynamic_sysbus_dev(m, TYPE_VMBUS_BRIDGE);
 }
 
-static void pc_i440fx_6_0_machine_options(MachineClass *m)
+static void pc_i440fx_6_1_machine_options(MachineClass *m)
 {
     PCMachineClass *pcmc = PC_MACHINE_CLASS(m);
     pc_i440fx_machine_options(m);
@@ -XXX,XX +XXX,XX @@ static void pc_i440fx_6_0_machine_options(MachineClass *m)
     pcmc->default_cpu_version = 1;
 }
 
+DEFINE_I440FX_MACHINE(v6_1, "pc-i440fx-6.1", NULL,
+                      pc_i440fx_6_1_machine_options);
+
+static void pc_i440fx_6_0_machine_options(MachineClass *m)
+{
+    pc_i440fx_6_1_machine_options(m);
+    m->alias = NULL;
+    m->is_default = false;
+    compat_props_add(m->compat_props, hw_compat_6_0, hw_compat_6_0_len);
+    compat_props_add(m->compat_props, pc_compat_6_0, pc_compat_6_0_len);
+}
+
 DEFINE_I440FX_MACHINE(v6_0, "pc-i440fx-6.0", NULL,
                       pc_i440fx_6_0_machine_options);
 
diff --git a/hw/i386/pc_q35.c b/hw/i386/pc_q35.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/i386/pc_q35.c
+++ b/hw/i386/pc_q35.c
@@ -XXX,XX +XXX,XX @@ static void pc_q35_machine_options(MachineClass *m)
     m->max_cpus = 288;
 }
 
-static void pc_q35_6_0_machine_options(MachineClass *m)
+static void pc_q35_6_1_machine_options(MachineClass *m)
 {
     PCMachineClass *pcmc = PC_MACHINE_CLASS(m);
     pc_q35_machine_options(m);
@@ -XXX,XX +XXX,XX @@ static void pc_q35_6_0_machine_options(MachineClass *m)
     pcmc->default_cpu_version = 1;
 }
 
+DEFINE_Q35_MACHINE(v6_1, "pc-q35-6.1", NULL,
+                   pc_q35_6_1_machine_options);
+
+static void pc_q35_6_0_machine_options(MachineClass *m)
+{
+    pc_q35_6_1_machine_options(m);
+    m->alias = NULL;
+    compat_props_add(m->compat_props, hw_compat_6_0, hw_compat_6_0_len);
+    compat_props_add(m->compat_props, pc_compat_6_0, pc_compat_6_0_len);
+}
+
 DEFINE_Q35_MACHINE(v6_0, "pc-q35-6.0", NULL,
                    pc_q35_6_0_machine_options);
 
diff --git a/hw/ppc/spapr.c b/hw/ppc/spapr.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/ppc/spapr.c
+++ b/hw/ppc/spapr.c
@@ -XXX,XX +XXX,XX @@ static void spapr_machine_latest_class_options(MachineClass *mc)
     type_init(spapr_machine_register_##suffix)
 
 /*
- * pseries-6.0
+ * pseries-6.1
  */
-static void spapr_machine_6_0_class_options(MachineClass *mc)
+static void spapr_machine_6_1_class_options(MachineClass *mc)
 {
     /* Defaults for the latest behaviour inherited from the base class */
 }
 
-DEFINE_SPAPR_MACHINE(6_0, "6.0", true);
+DEFINE_SPAPR_MACHINE(6_1, "6.1", true);
+
+/*
+ * pseries-6.0
+ */
+static void spapr_machine_6_0_class_options(MachineClass *mc)
+{
+    spapr_machine_6_1_class_options(mc);
+    compat_props_add(mc->compat_props, hw_compat_6_0, hw_compat_6_0_len);
+}
+
+DEFINE_SPAPR_MACHINE(6_0, "6.0", false);
 
 /*
  * pseries-5.2
diff --git a/hw/s390x/s390-virtio-ccw.c b/hw/s390x/s390-virtio-ccw.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/s390x/s390-virtio-ccw.c
+++ b/hw/s390x/s390-virtio-ccw.c
@@ -XXX,XX +XXX,XX @@ bool css_migration_enabled(void)
     }                                                                         \
     type_init(ccw_machine_register_##suffix)
 
+static void ccw_machine_6_1_instance_options(MachineState *machine)
+{
+}
+
+static void ccw_machine_6_1_class_options(MachineClass *mc)
+{
+}
+DEFINE_CCW_MACHINE(6_1, "6.1", true);
+
 static void ccw_machine_6_0_instance_options(MachineState *machine)
 {
+    ccw_machine_6_1_instance_options(machine);
 }
 
 static void ccw_machine_6_0_class_options(MachineClass *mc)
 {
+    ccw_machine_6_1_class_options(mc);
+    compat_props_add(mc->compat_props, hw_compat_6_0, hw_compat_6_0_len);
 }
-DEFINE_CCW_MACHINE(6_0, "6.0", true);
+DEFINE_CCW_MACHINE(6_0, "6.0", false);
 
 static void ccw_machine_5_2_instance_options(MachineState *machine)
 {
-- 
2.20.1

Currently the gpex PCI controller implements no special behaviour for
guest accesses to areas of the PIO and MMIO where it has not mapped
any PCI devices, which means that for Arm you end up with a CPU
exception due to a data abort.

Most host OSes expect "like an x86 PC" behaviour, where bad accesses
like this return -1 for reads and ignore writes.  In the interests of
not being surprising, make host CPU accesses to these windows behave
as -1/discard where there's no mapped PCI device.

The old behaviour generally didn't cause any problems, because
almost always the guest OS will map the PCI devices and then only
access where it has mapped them. One corner case where you will see
this kind of access is if Linux attempts to probe legacy ISA
devices via a PIO window access. So far the only case where we've
seen this has been via the syzkaller fuzzer.

Reported-by: Dmitry Vyukov <dvyukov@google.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Acked-by: Michael S. Tsirkin <mst@redhat.com>
Message-id: 20210325163315.27724-1-peter.maydell@linaro.org
Fixes: https://bugs.launchpad.net/qemu/+bug/1918917
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/pci-host/gpex.h |  4 +++
 hw/core/machine.c          |  4 ++-
 hw/pci-host/gpex.c         | 56 ++++++++++++++++++++++++++++++++++++--
 3 files changed, 60 insertions(+), 4 deletions(-)

diff --git a/include/hw/pci-host/gpex.h b/include/hw/pci-host/gpex.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/pci-host/gpex.h
+++ b/include/hw/pci-host/gpex.h
@@ -XXX,XX +XXX,XX @@ struct GPEXHost {
 
     MemoryRegion io_ioport;
     MemoryRegion io_mmio;
+    MemoryRegion io_ioport_window;
+    MemoryRegion io_mmio_window;
     qemu_irq irq[GPEX_NUM_IRQS];
     int irq_num[GPEX_NUM_IRQS];
+
+    bool allow_unmapped_accesses;
 };
 
 struct GPEXConfig {
diff --git a/hw/core/machine.c b/hw/core/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/core/machine.c
+++ b/hw/core/machine.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/virtio/virtio.h"
 #include "hw/virtio/virtio-pci.h"
 
-GlobalProperty hw_compat_6_0[] = {};
+GlobalProperty hw_compat_6_0[] = {
+    { "gpex-pcihost", "allow-unmapped-accesses", "false" },
+};
 const size_t hw_compat_6_0_len = G_N_ELEMENTS(hw_compat_6_0);
 
 GlobalProperty hw_compat_5_2[] = {
diff --git a/hw/pci-host/gpex.c b/hw/pci-host/gpex.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/pci-host/gpex.c
+++ b/hw/pci-host/gpex.c
@@ -XXX,XX +XXX,XX @@ static void gpex_host_realize(DeviceState *dev, Error **errp)
     int i;
 
     pcie_host_mmcfg_init(pex, PCIE_MMCFG_SIZE_MAX);
+    sysbus_init_mmio(sbd, &pex->mmio);
+
+    /*
+     * Note that the MemoryRegions io_mmio and io_ioport that we pass
+     * to pci_register_root_bus() are not the same as the
+     * MemoryRegions io_mmio_window and io_ioport_window that we
+     * expose as SysBus MRs. The difference is in the behaviour of
+     * accesses to addresses where no PCI device has been mapped.
+     *
+     * io_mmio and io_ioport are the underlying PCI view of the PCI
+     * address space, and when a PCI device does a bus master access
+     * to a bad address this is reported back to it as a transaction
+     * failure.
+     *
+     * io_mmio_window and io_ioport_window implement "unmapped
+     * addresses read as -1 and ignore writes"; this is traditional
+     * x86 PC behaviour, which is not mandated by the PCI spec proper
+     * but expected by much PCI-using guest software, including Linux.
+     *
+     * In the interests of not being unnecessarily surprising, we
+     * implement it in the gpex PCI host controller, by providing the
+     * _window MRs, which are containers with io ops that implement
+     * the 'background' behaviour and which hold the real PCI MRs as
+     * subregions.
+     */
     memory_region_init(&s->io_mmio, OBJECT(s), "gpex_mmio", UINT64_MAX);
     memory_region_init(&s->io_ioport, OBJECT(s), "gpex_ioport", 64 * 1024);
 
-    sysbus_init_mmio(sbd, &pex->mmio);
-    sysbus_init_mmio(sbd, &s->io_mmio);
-    sysbus_init_mmio(sbd, &s->io_ioport);
+    if (s->allow_unmapped_accesses) {
+        memory_region_init_io(&s->io_mmio_window, OBJECT(s),
+                              &unassigned_io_ops, OBJECT(s),
+                              "gpex_mmio_window", UINT64_MAX);
+        memory_region_init_io(&s->io_ioport_window, OBJECT(s),
+                              &unassigned_io_ops, OBJECT(s),
+                              "gpex_ioport_window", 64 * 1024);
+
+        memory_region_add_subregion(&s->io_mmio_window, 0, &s->io_mmio);
+        memory_region_add_subregion(&s->io_ioport_window, 0, &s->io_ioport);
+        sysbus_init_mmio(sbd, &s->io_mmio_window);
+        sysbus_init_mmio(sbd, &s->io_ioport_window);
+    } else {
+        sysbus_init_mmio(sbd, &s->io_mmio);
+        sysbus_init_mmio(sbd, &s->io_ioport);
+    }
+
     for (i = 0; i < GPEX_NUM_IRQS; i++) {
         sysbus_init_irq(sbd, &s->irq[i]);
         s->irq_num[i] = -1;
@@ -XXX,XX +XXX,XX @@ static const char *gpex_host_root_bus_path(PCIHostState *host_bridge,
     return "0000:00";
 }
 
+static Property gpex_host_properties[] = {
+    /*
+     * Permit CPU accesses to unmapped areas of the PIO and MMIO windows
+     * (discarding writes and returning -1 for reads) rather than aborting.
+     */
+    DEFINE_PROP_BOOL("allow-unmapped-accesses", GPEXHost,
+                     allow_unmapped_accesses, true),
+    DEFINE_PROP_END_OF_LIST(),
+};
+
 static void gpex_host_class_init(ObjectClass *klass, void *data)
 {
     DeviceClass *dc = DEVICE_CLASS(klass);
@@ -XXX,XX +XXX,XX @@ static void gpex_host_class_init(ObjectClass *klass, void *data)
     dc->realize = gpex_host_realize;
     set_bit(DEVICE_CATEGORY_BRIDGE, dc->categories);
     dc->fw_name = "pci";
+    device_class_set_props(dc, gpex_host_properties);
 }
 
 static void gpex_host_initfn(Object *obj)
-- 
2.20.1