Series comparison

-[Qemu-devel] [PULL 00/33] target-arm queue
+[Qemu-devel] [PULL 00/45] target-arm queue
-target-arm queue: the big things in here are SVE in system
+As promised, another pullreq... This one's mostly RTH's patches.
 emulation mode, and v8M stack limit checking; there are
 also a handful of smaller fixes.
 thanks
 -- PMM
-The following changes since commit 079911cb6e26898e16f5bb56ef4f9d33cf92d32d:
+The following changes since commit 784c2e4f232adf5ef47a84a262ec72a07d068d6a:
-  Merge remote-tracking branch 'remotes/rth/tags/pull-fpu-20181005' into staging (2018-10-08 12:44:35 +0100)
+  Merge remote-tracking branch 'remotes/jasowang/tags/net-pull-request' into staging (2018-10-19 15:30:40 +0100)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20181008
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20181019
-for you to fetch changes up to 74e2e59b8d0a68be0956310fc349179c89fd7be0:
+for you to fetch changes up to 88c9add25e7120e8622796c81ad3f3fb7f8d40e7:
-  hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow (2018-10-08 14:55:05 +0100)
+  target/arm: Only flush tlb if ASID changes (2018-10-19 17:38:48 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: fix error in a code comment
+ * ssi-sd: Make devices picking up backends unavailable with -device
- * virt: Suppress external aborts on virt-2.10 and earlier
+ * Add support for VCPU event states
- * target/arm: Correct condition for v8M callee stack push
+ * Move towards making ID registers the source of truth for
- * target/arm: Don't read r4 from v8M exception stackframe twice
+   whether a guest CPU implements a feature, rather than having
- * target/arm: Support SVE in system emulation mode
+   parallel ID registers and feature bit flags
- * target/arm: Implement v8M hardware stack limit checking
+ * Implement various HCR hypervisor trap/config bits
- * hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow
+ * Get IL bit correct for v7 syndrome values
  * Report correct syndrome for FP/SIMD traps to Hyp mode
  * hw/arm/boot: Increase compliance with kernel arm64 boot protocol
  * Refactor A32 Neon to use generic vector infrastructure
  * Fix a bug in A32 VLD2 "(multiple 2-element structures)" insn
  * net: cadence_gem: Report features correctly in ID register
  * Avoid some unnecessary TLB flushes on TTBR register writes
 ----------------------------------------------------------------
 Dongjiu Geng (1):
-      target/arm: fix code comments error
+      target/arm: Add support for VCPU event states
-Peter Maydell (17):
+Edgar E. Iglesias (2):
-      virt: Suppress external aborts on virt-2.10 and earlier
+      net: cadence_gem: Announce availability of priority queues
-      target/arm: Correct condition for v8M callee stack push
+      net: cadence_gem: Announce 64bit addressing support
       target/arm: Don't read r4 from v8M exception stackframe twice
       target/arm: Define new TBFLAG for v8M stack checking
       target/arm: Define new EXCP type for v8M stack overflows
       target/arm: Move v7m_using_psp() to internals.h
       target/arm: Add v8M stack checks on ADD/SUB/MOV of SP
       target/arm: Add some comments in Thumb decode
       target/arm: Add v8M stack checks on exception entry
       target/arm: Add v8M stack limit checks on NS function calls
       target/arm: Add v8M stack checks for LDRD/STRD (imm)
       target/arm: Add v8M stack checks for Thumb2 LDM/STM
       target/arm: Add v8M stack checks for T32 load/store single
       target/arm: Add v8M stack checks for Thumb push/pop
       target/arm: Add v8M stack checks for VLDM/VSTM
       target/arm: Add v8M stack checks for MSR to SP_NS
       hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow
-Richard Henderson (15):
+Markus Armbruster (1):
-      target/arm: Define ID_AA64ZFR0_EL1
+      ssi-sd: Make devices picking up backends unavailable with -device
       target/arm: Adjust sve_exception_el
       target/arm: Pass in current_el to fp and sve_exception_el
       target/arm: Handle SVE vector length changes in system mode
       target/arm: Adjust aarch64_cpu_dump_state for system mode SVE
       target/arm: Clear unused predicate bits for LD1RQ
       target/arm: Rewrite helper_sve_ld1*_r using pages
       target/arm: Rewrite helper_sve_ld[234]*_r
       target/arm: Rewrite helper_sve_st[1234]*_r
       target/arm: Split contiguous loads for endianness
       target/arm: Split contiguous stores for endianness
       target/arm: Rewrite vector gather loads
       target/arm: Rewrite vector gather stores
       target/arm: Rewrite vector gather first-fault loads
       target/arm: Pass TCGMemOpIdx to sve memory helpers
- target/arm/cpu.h           |   17 +
+Peter Maydell (10):
- target/arm/helper-sve.h    |  385 ++++++---
+      target/arm: Improve debug logging of AArch32 exception return
- target/arm/helper.h        |    2 +
+      target/arm: Make switch_mode() file-local
- target/arm/internals.h     |   44 +
+      target/arm: Implement HCR.FB
- target/arm/kvm_arm.h       |    4 +-
+      target/arm: Implement HCR.DC
- target/arm/translate.h     |    1 +
+      target/arm: ISR_EL1 bits track virtual interrupts if IMO/FMO set
- hw/arm/virt.c              |    2 +
+      target/arm: Implement HCR.VI and VF
- hw/display/bcm2835_fb.c    |    2 +-
+      target/arm: Implement HCR.PTW
- target/arm/cpu64.c         |   42 -
+      target/arm: New utility function to extract EC from syndrome
- target/arm/helper.c        |  345 +++++---
+      target/arm: Get IL bit correct for v7 syndrome values
- target/arm/kvm.c           |    2 +-
+      target/arm: Report correct syndrome for FP/SIMD traps to Hyp mode
  target/arm/op_helper.c     |   24 +-
  target/arm/sve_helper.c    | 1961 ++++++++++++++++++++++++++++++--------------
  target/arm/translate-a64.c |    8 +-
  target/arm/translate-sve.c |  670 ++++++++++-----
  target/arm/translate.c     |  198 ++++-
 files changed, 2611 insertions(+), 1096 deletions(-)
+Richard Henderson (30):
+      target/arm: Move some system registers into a substructure
+      target/arm: V8M should not imply V7VE
+      target/arm: Convert v8 extensions from feature bits to isar tests
+      target/arm: Convert division from feature bits to isar0 tests
+      target/arm: Convert jazelle from feature bit to isar1 test
+      target/arm: Convert t32ee from feature bit to isar3 test
+      target/arm: Convert sve from feature bit to aa64pfr0 test
+      target/arm: Convert v8.2-fp16 from feature bit to aa64pfr0 test
+      target/arm: Hoist address increment for vector memory ops
+      target/arm: Don't call tcg_clear_temp_count
+      target/arm: Use tcg_gen_gvec_dup_i64 for LD[1-4]R
+      target/arm: Promote consecutive memory ops for aa64
+      target/arm: Mark some arrays const
+      target/arm: Use gvec for NEON VDUP
+      target/arm: Use gvec for NEON VMOV, VMVN, VBIC & VORR (immediate)
+      target/arm: Use gvec for NEON_3R_LOGIC insns
+      target/arm: Use gvec for NEON_3R_VADD_VSUB insns
+      target/arm: Use gvec for NEON_2RM_VMN, NEON_2RM_VNEG
+      target/arm: Use gvec for NEON_3R_VMUL
+      target/arm: Use gvec for VSHR, VSHL
+      target/arm: Use gvec for VSRA
+      target/arm: Use gvec for VSRI, VSLI
+      target/arm: Use gvec for NEON_3R_VML
+      target/arm: Use gvec for NEON_3R_VTST_VCEQ, NEON_3R_VCGT, NEON_3R_VCGE
+      target/arm: Use gvec for NEON VLD all lanes
+      target/arm: Reorg NEON VLD/VST all elements
+      target/arm: Promote consecutive memory ops for aa32
+      target/arm: Reorg NEON VLD/VST single element to one lane
+      target/arm: Remove writefn from TTBR0_EL3
+      target/arm: Only flush tlb if ASID changes
+Stewart Hildebrand (1):
+      hw/arm/boot: Increase compliance with kernel arm64 boot protocol
+ target/arm/cpu.h            |  227 ++++++-
+ target/arm/internals.h      |   45 +-
+ target/arm/kvm_arm.h        |   24 +
+ target/arm/translate.h      |   21 +
+ hw/arm/boot.c               |   18 +
+ hw/intc/armv7m_nvic.c       |   12 +-
+ hw/net/cadence_gem.c        |    9 +-
+ hw/sd/ssi-sd.c              |    2 +
+ linux-user/aarch64/signal.c |    4 +-
+ linux-user/elfload.c        |   60 +-
+ linux-user/syscall.c        |   10 +-
+ target/arm/cpu.c            |  242 ++++----
+ target/arm/cpu64.c          |  148 +++--
+ target/arm/helper.c         |  397 ++++++++----
+ target/arm/kvm.c            |   60 ++
+ target/arm/kvm32.c          |   13 +
+ target/arm/kvm64.c          |   15 +-
+ target/arm/machine.c        |   28 +-
+ target/arm/op_helper.c      |    2 +-
+ target/arm/translate-a64.c  |  715 ++++-----------------
+ target/arm/translate.c      | 1451 ++++++++++++++++++++++++++++---------------
+files changed, 2021 insertions(+), 1482 deletions(-)

-New patch
+[Qemu-devel] [PULL 01/45] ssi-sd: Make devices picking up backends unavailable with -device
+From: Markus Armbruster <armbru@redhat.com>
+Device models aren't supposed to go on fishing expeditions for
+backends.  They should expose suitable properties for the user to set.
+For onboard devices, board code sets them.
+Device ssi-sd picks up its block backend in its init() method with
+drive_get_next() instead.  This mistake is already marked FIXME since
+commit af9e40a.
+Unset user_creatable to remove the mistake from our external
+interface.  Since the SSI bus doesn't support hotplug, only -device
+can be affected.  Only certain ARM machines have ssi-sd and provide an
+SSI bus for it; this patch breaks -device ssi-sd for these machines.
+No actual use of -device ssi-sd is known.
+Signed-off-by: Markus Armbruster <armbru@redhat.com>
+Acked-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Acked-by: Thomas Huth <thuth@redhat.com>
+Message-id: 20181009060835.4608-1-armbru@redhat.com
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/sd/ssi-sd.c | 2 ++
+file changed, 2 insertions(+)
+diff --git a/hw/sd/ssi-sd.c b/hw/sd/ssi-sd.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/sd/ssi-sd.c
++++ b/hw/sd/ssi-sd.c
+@@ -XXX,XX +XXX,XX @@ static void ssi_sd_class_init(ObjectClass *klass, void *data)
+     k->cs_polarity = SSI_CS_LOW;
+     dc->vmsd = &vmstate_ssi_sd;
+     dc->reset = ssi_sd_reset;
++    /* Reason: init() method uses drive_get_next() */
++    dc->user_creatable = false;
+ }
+ static const TypeInfo ssi_sd_info = {
+--
+.19.1

-[Qemu-devel] [PULL 01/33] target/arm: fix code comments error
+[Qemu-devel] [PULL 02/45] target/arm: Add support for VCPU event states
 From: Dongjiu Geng <gengdongjiu@huawei.com>
-The parameter of kvm_arm_init_cpreg_list() is ARMCPU instead of
+This patch extends the qemu-kvm state sync logic with support for
-CPUState, so correct the note to make it match the code.
+KVM_GET/SET_VCPU_EVENTS, giving access to yet missing SError exception.
 And also it can support the exception state migration.
 The SError exception states include SError pending state and ESR value,
 the kvm_put/get_vcpu_events() will be called when set or get system
 registers. When do migration, if source machine has SError pending,
 QEMU will do this migration regardless whether the target machine supports
 to specify guest ESR value, because if target machine does not support that,
 it can also inject the SError with zero ESR value.
 Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Message-id: 1538069046-5757-1-git-send-email-gengdongjiu@huawei.com
+Reviewed-by: Andrew Jones <drjones@redhat.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 1538067351-23931-3-git-send-email-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/kvm_arm.h | 4 ++--
+ target/arm/cpu.h     |  7 ++++++
- target/arm/kvm.c     | 2 +-
+ target/arm/kvm_arm.h | 24 ++++++++++++++++++
-files changed, 3 insertions(+), 3 deletions(-)
+ target/arm/kvm.c     | 60 ++++++++++++++++++++++++++++++++++++++++++++
+ target/arm/kvm32.c   | 13 ++++++++++
  target/arm/kvm64.c   | 13 ++++++++++
  target/arm/machine.c | 22 ++++++++++++++++
 files changed, 139 insertions(+)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
           */
      } exception;
 +    /* Information associated with an SError */
 +    struct {
 +        uint8_t pending;
 +        uint8_t has_esr;
 +        uint64_t esr;
 +    } serror;
 +
      /* Thumb-2 EE state.  */
      uint32_t teecr;
      uint32_t teehbr;
 diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm_arm.h
 +++ b/target/arm/kvm_arm.h
-@@ -XXX,XX +XXX,XX @@ void kvm_arm_register_device(MemoryRegion *mr, uint64_t devid, uint64_t group,
+@@ -XXX,XX +XXX,XX @@ bool write_kvmstate_to_list(ARMCPU *cpu);
+  */
  void kvm_arm_reset_vcpu(ARMCPU *cpu);
 +/**
 + * kvm_arm_init_serror_injection:
 + * @cs: CPUState
 + *
 + * Check whether KVM can set guest SError syndrome.
 + */
 +void kvm_arm_init_serror_injection(CPUState *cs);
 +
 +/**
 + * kvm_get_vcpu_events:
 + * @cpu: ARMCPU
 + *
 + * Get VCPU related state from kvm.
 + */
 +int kvm_get_vcpu_events(ARMCPU *cpu);
 +
 +/**
 + * kvm_put_vcpu_events:
 + * @cpu: ARMCPU
 + *
 + * Put VCPU related state to kvm.
 + */
 +int kvm_put_vcpu_events(ARMCPU *cpu);
 +
  #ifdef CONFIG_KVM
  /**
-  * kvm_arm_init_cpreg_list:
+  * kvm_arm_create_scratch_host_vcpu:
 - * @cs: CPUState
 + * @cpu: ARMCPU
   *
 - * Initialize the CPUState's cpreg list according to the kernel's
 + * Initialize the ARMCPU cpreg list according to the kernel's
   * definition of what CPU registers it knows about (and throw away
   * the previous TCG-created cpreg list).
   *
 diff --git a/target/arm/kvm.c b/target/arm/kvm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm.c
 +++ b/target/arm/kvm.c
-@@ -XXX,XX +XXX,XX @@ static int compare_u64(const void *a, const void *b)
+@@ -XXX,XX +XXX,XX @@ const KVMCapabilityInfo kvm_arch_required_capabilities[] = {
  };
  static bool cap_has_mp_state;
 +static bool cap_has_inject_serror_esr;
  static ARMHostCPUFeatures arm_host_cpu_features;
@@ -XXX,XX +XXX,XX @@ int kvm_arm_vcpu_init(CPUState *cs)
      return kvm_vcpu_ioctl(cs, KVM_ARM_VCPU_INIT, &init);
  }
 +void kvm_arm_init_serror_injection(CPUState *cs)
 +{
 +    cap_has_inject_serror_esr = kvm_check_extension(cs->kvm_state,
 +                                    KVM_CAP_ARM_INJECT_SERROR_ESR);
 +}
 +
  bool kvm_arm_create_scratch_host_vcpu(const uint32_t *cpus_to_try,
                                        int *fdarray,
                                        struct kvm_vcpu_init *init)
@@ -XXX,XX +XXX,XX @@ int kvm_arm_sync_mpstate_to_qemu(ARMCPU *cpu)
      return 0;
  }
--/* Initialize the CPUState's cpreg list according to the kernel's
++int kvm_put_vcpu_events(ARMCPU *cpu)
-+/* Initialize the ARMCPU cpreg list according to the kernel's
++{
-  * definition of what CPU registers it knows about (and throw away
++    CPUARMState *env = &cpu->env;
-  * the previous TCG-created cpreg list).
++    struct kvm_vcpu_events events;
-  */
++    int ret;
 +
 +    if (!kvm_has_vcpu_events()) {
 +        return 0;
 +    }
 +
 +    memset(&events, 0, sizeof(events));
 +    events.exception.serror_pending = env->serror.pending;
 +
 +    /* Inject SError to guest with specified syndrome if host kernel
 +     * supports it, otherwise inject SError without syndrome.
 +     */
 +    if (cap_has_inject_serror_esr) {
 +        events.exception.serror_has_esr = env->serror.has_esr;
 +        events.exception.serror_esr = env->serror.esr;
 +    }
 +
 +    ret = kvm_vcpu_ioctl(CPU(cpu), KVM_SET_VCPU_EVENTS, &events);
 +    if (ret) {
 +        error_report("failed to put vcpu events");
 +    }
 +
 +    return ret;
 +}
 +
 +int kvm_get_vcpu_events(ARMCPU *cpu)
 +{
 +    CPUARMState *env = &cpu->env;
 +    struct kvm_vcpu_events events;
 +    int ret;
 +
 +    if (!kvm_has_vcpu_events()) {
 +        return 0;
 +    }
 +
 +    memset(&events, 0, sizeof(events));
 +    ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_VCPU_EVENTS, &events);
 +    if (ret) {
 +        error_report("failed to get vcpu events");
 +        return ret;
 +    }
 +
 +    env->serror.pending = events.exception.serror_pending;
 +    env->serror.has_esr = events.exception.serror_has_esr;
 +    env->serror.esr = events.exception.serror_esr;
 +
 +    return 0;
 +}
 +
  void kvm_arch_pre_run(CPUState *cs, struct kvm_run *run)
  {
  }
 diff --git a/target/arm/kvm32.c b/target/arm/kvm32.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm32.c
 +++ b/target/arm/kvm32.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_init_vcpu(CPUState *cs)
      }
      cpu->mp_affinity = mpidr & ARM32_AFFINITY_MASK;
 +    /* Check whether userspace can specify guest syndrome value */
 +    kvm_arm_init_serror_injection(cs);
 +
      return kvm_arm_init_cpreg_list(cpu);
  }
@@ -XXX,XX +XXX,XX @@ int kvm_arch_put_registers(CPUState *cs, int level)
          return ret;
      }
 +    ret = kvm_put_vcpu_events(cpu);
 +    if (ret) {
 +        return ret;
 +    }
 +
      /* Note that we do not call write_cpustate_to_list()
       * here, so we are only writing the tuple list back to
       * KVM. This is safe because nothing can change the
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
      }
      vfp_set_fpscr(env, fpscr);
 +    ret = kvm_get_vcpu_events(cpu);
 +    if (ret) {
 +        return ret;
 +    }
 +
      if (!write_kvmstate_to_list(cpu)) {
          return EINVAL;
      }
 diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm64.c
 +++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_init_vcpu(CPUState *cs)
      kvm_arm_init_debug(cs);
 +    /* Check whether user space can specify guest syndrome value */
 +    kvm_arm_init_serror_injection(cs);
 +
      return kvm_arm_init_cpreg_list(cpu);
  }
@@ -XXX,XX +XXX,XX @@ int kvm_arch_put_registers(CPUState *cs, int level)
          return ret;
      }
 +    ret = kvm_put_vcpu_events(cpu);
 +    if (ret) {
 +        return ret;
 +    }
 +
      if (!write_list_to_kvmstate(cpu, level)) {
          return EINVAL;
      }
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
      }
      vfp_set_fpcr(env, fpr);
 +    ret = kvm_get_vcpu_events(cpu);
 +    if (ret) {
 +        return ret;
 +    }
 +
      if (!write_kvmstate_to_list(cpu)) {
          return EINVAL;
      }
 diff --git a/target/arm/machine.c b/target/arm/machine.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/machine.c
 +++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_sve = {
  };
  #endif /* AARCH64 */
 +static bool serror_needed(void *opaque)
 +{
 +    ARMCPU *cpu = opaque;
 +    CPUARMState *env = &cpu->env;
 +
 +    return env->serror.pending != 0;
 +}
 +
 +static const VMStateDescription vmstate_serror = {
 +    .name = "cpu/serror",
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .needed = serror_needed,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT8(env.serror.pending, ARMCPU),
 +        VMSTATE_UINT8(env.serror.has_esr, ARMCPU),
 +        VMSTATE_UINT64(env.serror.esr, ARMCPU),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
  static bool m_needed(void *opaque)
  {
      ARMCPU *cpu = opaque;
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_arm_cpu = {
  #ifdef TARGET_AARCH64
          &vmstate_sve,
  #endif
 +        &vmstate_serror,
          NULL
      }
  };
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 14/33] target/arm: Split contiguous loads for endianness
+[Qemu-devel] [PULL 03/45] target/arm: Move some system registers into a substructure
 From: Richard Henderson <richard.henderson@linaro.org>
-We can choose the endianness at translation time, rather than
+Create struct ARMISARegisters, to be accessed during translation.
 re-computing it at execution time.
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-11-richard.henderson@linaro.org
+Message-id: 20181016223115.24100-2-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    | 117 +++++++++++++++-------
+ target/arm/cpu.h      |  32 ++++----
- target/arm/sve_helper.c    |  70 ++++++-------
+ hw/intc/armv7m_nvic.c |  12 +--
- target/arm/translate-sve.c | 196 +++++++++++++++++++++++++------------
+ target/arm/cpu.c      | 178 +++++++++++++++++++++---------------------
-files changed, 252 insertions(+), 131 deletions(-)
+ target/arm/cpu64.c    |  70 ++++++++---------
  target/arm/helper.c   |  28 +++----
 files changed, 162 insertions(+), 158 deletions(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/cpu.h
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ld2bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
- DEF_HELPER_FLAGS_4(sve_ld3bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+      * ARMv7AR ARM Architecture Reference Manual. A reset_ prefix
- DEF_HELPER_FLAGS_4(sve_ld4bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+      * is used for reset values of non-constant registers; no reset_
+      * prefix means a constant register.
--DEF_HELPER_FLAGS_4(sve_ld1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++     * Some of these registers are split out into a substructure that
--DEF_HELPER_FLAGS_4(sve_ld2hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++     * is shared with the translators to control the ISA.
--DEF_HELPER_FLAGS_4(sve_ld3hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+      */
--DEF_HELPER_FLAGS_4(sve_ld4hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++    struct ARMISARegisters {
-+DEF_HELPER_FLAGS_4(sve_ld1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t id_isar0;
-+DEF_HELPER_FLAGS_4(sve_ld2hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t id_isar1;
-+DEF_HELPER_FLAGS_4(sve_ld3hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t id_isar2;
-+DEF_HELPER_FLAGS_4(sve_ld4hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t id_isar3;
++        uint32_t id_isar4;
--DEF_HELPER_FLAGS_4(sve_ld1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t id_isar5;
--DEF_HELPER_FLAGS_4(sve_ld2ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t id_isar6;
--DEF_HELPER_FLAGS_4(sve_ld3ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t mvfr0;
--DEF_HELPER_FLAGS_4(sve_ld4ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t mvfr1;
-+DEF_HELPER_FLAGS_4(sve_ld1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint32_t mvfr2;
-+DEF_HELPER_FLAGS_4(sve_ld2hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint64_t id_aa64isar0;
-+DEF_HELPER_FLAGS_4(sve_ld3hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint64_t id_aa64isar1;
-+DEF_HELPER_FLAGS_4(sve_ld4hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++        uint64_t id_aa64pfr0;
++        uint64_t id_aa64pfr1;
--DEF_HELPER_FLAGS_4(sve_ld1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++    } isar;
--DEF_HELPER_FLAGS_4(sve_ld2dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t midr;
--DEF_HELPER_FLAGS_4(sve_ld3dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t revidr;
--DEF_HELPER_FLAGS_4(sve_ld4dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t reset_fpsid;
-+DEF_HELPER_FLAGS_4(sve_ld1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t mvfr0;
-+DEF_HELPER_FLAGS_4(sve_ld2ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t mvfr1;
-+DEF_HELPER_FLAGS_4(sve_ld3ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t mvfr2;
-+DEF_HELPER_FLAGS_4(sve_ld4ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t ctr;
-+
+     uint32_t reset_sctlr;
-+DEF_HELPER_FLAGS_4(sve_ld1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t id_pfr0;
-+DEF_HELPER_FLAGS_4(sve_ld2ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
-+DEF_HELPER_FLAGS_4(sve_ld3ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t id_mmfr2;
-+DEF_HELPER_FLAGS_4(sve_ld4ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t id_mmfr3;
-+
+     uint32_t id_mmfr4;
-+DEF_HELPER_FLAGS_4(sve_ld1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t id_isar0;
-+DEF_HELPER_FLAGS_4(sve_ld2dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t id_isar1;
-+DEF_HELPER_FLAGS_4(sve_ld3dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t id_isar2;
-+DEF_HELPER_FLAGS_4(sve_ld4dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t id_isar3;
-+
+-    uint32_t id_isar4;
-+DEF_HELPER_FLAGS_4(sve_ld1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t id_isar5;
-+DEF_HELPER_FLAGS_4(sve_ld2dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint32_t id_isar6;
-+DEF_HELPER_FLAGS_4(sve_ld3dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint64_t id_aa64pfr0;
-+DEF_HELPER_FLAGS_4(sve_ld4dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint64_t id_aa64pfr1;
+     uint64_t id_aa64dfr0;
- DEF_HELPER_FLAGS_4(sve_ld1bhu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint64_t id_aa64dfr1;
- DEF_HELPER_FLAGS_4(sve_ld1bsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint64_t id_aa64afr0;
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ld1bhs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint64_t id_aa64afr1;
- DEF_HELPER_FLAGS_4(sve_ld1bss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint64_t id_aa64isar0;
- DEF_HELPER_FLAGS_4(sve_ld1bds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+-    uint64_t id_aa64isar1;
+     uint64_t id_aa64mmfr0;
--DEF_HELPER_FLAGS_4(sve_ld1hsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint64_t id_aa64mmfr1;
--DEF_HELPER_FLAGS_4(sve_ld1hdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+     uint32_t dbgdidr;
--DEF_HELPER_FLAGS_4(sve_ld1hss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
 -DEF_HELPER_FLAGS_4(sve_ld1hds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hsu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ld1sdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ld1sds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hsu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1hds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_ld1sdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1sds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_ld1sdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ld1sds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldff1bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldff1bhu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ldff1bhs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldff1bss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldff1bds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1hsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1hdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1hss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1hds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hsu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1sdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1sds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hsu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1hds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldff1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1sdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1sds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_ldff1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1sdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1sds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_ldff1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldff1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldnf1bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldnf1bhu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ldnf1bhs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldnf1bss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_ldnf1bds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1hsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1hdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1hss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1hds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hsu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1sdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1sds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hsu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1hds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_ldnf1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1sdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1sds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_ldnf1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1sdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1sds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_ldnf1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_ldnf1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_st1bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_st2bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/hw/intc/armv7m_nvic.c
-+++ b/target/arm/sve_helper.c
++++ b/hw/intc/armv7m_nvic.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
+@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
-               sve_##NAME##_host, sve_##NAME##_tlb);            \
+     case 0xd5c: /* MMFR3.  */
          return cpu->id_mmfr3;
      case 0xd60: /* ISAR0.  */
 -        return cpu->id_isar0;
 +        return cpu->isar.id_isar0;
      case 0xd64: /* ISAR1.  */
 -        return cpu->id_isar1;
 +        return cpu->isar.id_isar1;
      case 0xd68: /* ISAR2.  */
 -        return cpu->id_isar2;
 +        return cpu->isar.id_isar2;
      case 0xd6c: /* ISAR3.  */
 -        return cpu->id_isar3;
 +        return cpu->isar.id_isar3;
      case 0xd70: /* ISAR4.  */
 -        return cpu->id_isar4;
 +        return cpu->isar.id_isar4;
      case 0xd74: /* ISAR5.  */
 -        return cpu->id_isar5;
 +        return cpu->isar.id_isar5;
      case 0xd78: /* CLIDR */
          return cpu->clidr;
      case 0xd7c: /* CTR */
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(CPUState *s)
      g_hash_table_foreach(cpu->cp_regs, cp_reg_check_reset, cpu);
      env->vfp.xregs[ARM_VFP_FPSID] = cpu->reset_fpsid;
 -    env->vfp.xregs[ARM_VFP_MVFR0] = cpu->mvfr0;
 -    env->vfp.xregs[ARM_VFP_MVFR1] = cpu->mvfr1;
 -    env->vfp.xregs[ARM_VFP_MVFR2] = cpu->mvfr2;
 +    env->vfp.xregs[ARM_VFP_MVFR0] = cpu->isar.mvfr0;
 +    env->vfp.xregs[ARM_VFP_MVFR1] = cpu->isar.mvfr1;
 +    env->vfp.xregs[ARM_VFP_MVFR2] = cpu->isar.mvfr2;
      cpu->power_state = cpu->start_powered_off ? PSCI_OFF : PSCI_ON;
      s->halted = cpu->start_powered_off;
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
           * registers as well. These are id_pfr1[7:4] and id_aa64pfr0[15:12].
           */
          cpu->id_pfr1 &= ~0xf0;
 -        cpu->id_aa64pfr0 &= ~0xf000;
 +        cpu->isar.id_aa64pfr0 &= ~0xf000;
      }
      if (!cpu->has_el2) {
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
           * registers if we don't have EL2. These are id_pfr1[15:12] and
           * id_aa64pfr0_el1[11:8].
           */
 -        cpu->id_aa64pfr0 &= ~0xf00;
 +        cpu->isar.id_aa64pfr0 &= ~0xf00;
          cpu->id_pfr1 &= ~0xf000;
      }
@@ -XXX,XX +XXX,XX @@ static void arm1136_r2_initfn(Object *obj)
      set_feature(&cpu->env, ARM_FEATURE_CACHE_BLOCK_OPS);
      cpu->midr = 0x4107b362;
      cpu->reset_fpsid = 0x410120b4;
 -    cpu->mvfr0 = 0x11111111;
 -    cpu->mvfr1 = 0x00000000;
 +    cpu->isar.mvfr0 = 0x11111111;
 +    cpu->isar.mvfr1 = 0x00000000;
      cpu->ctr = 0x1dd20d2;
      cpu->reset_sctlr = 0x00050078;
      cpu->id_pfr0 = 0x111;
@@ -XXX,XX +XXX,XX @@ static void arm1136_r2_initfn(Object *obj)
      cpu->id_mmfr0 = 0x01130003;
      cpu->id_mmfr1 = 0x10030302;
      cpu->id_mmfr2 = 0x01222110;
 -    cpu->id_isar0 = 0x00140011;
 -    cpu->id_isar1 = 0x12002111;
 -    cpu->id_isar2 = 0x11231111;
 -    cpu->id_isar3 = 0x01102131;
 -    cpu->id_isar4 = 0x141;
 +    cpu->isar.id_isar0 = 0x00140011;
 +    cpu->isar.id_isar1 = 0x12002111;
 +    cpu->isar.id_isar2 = 0x11231111;
 +    cpu->isar.id_isar3 = 0x01102131;
 +    cpu->isar.id_isar4 = 0x141;
      cpu->reset_auxcr = 7;
  }
--/* TODO: Propagate the endian check back to the translator.  */
+@@ -XXX,XX +XXX,XX @@ static void arm1136_initfn(Object *obj)
- #define DO_LD1_2(NAME, ESZ, MSZ) \
+     set_feature(&cpu->env, ARM_FEATURE_CACHE_BLOCK_OPS);
--void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
+     cpu->midr = 0x4117b363;
--                            target_ulong addr, uint32_t desc)  \
+     cpu->reset_fpsid = 0x410120b4;
--{                                                              \
+-    cpu->mvfr0 = 0x11111111;
--    if (arm_cpu_data_is_big_endian(env)) {                     \
+-    cpu->mvfr1 = 0x00000000;
--        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
++    cpu->isar.mvfr0 = 0x11111111;
--                  sve_##NAME##_be_host, sve_##NAME##_be_tlb);  \
++    cpu->isar.mvfr1 = 0x00000000;
--    } else {                                                   \
+     cpu->ctr = 0x1dd20d2;
--        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
+     cpu->reset_sctlr = 0x00050078;
--                  sve_##NAME##_le_host, sve_##NAME##_le_tlb);  \
+     cpu->id_pfr0 = 0x111;
--    }                                                          \
+@@ -XXX,XX +XXX,XX @@ static void arm1136_initfn(Object *obj)
-+void HELPER(sve_##NAME##_le_r)(CPUARMState *env, void *vg,        \
+     cpu->id_mmfr0 = 0x01130003;
-+                               target_ulong addr, uint32_t desc)  \
+     cpu->id_mmfr1 = 0x10030302;
-+{                                                                 \
+     cpu->id_mmfr2 = 0x01222110;
-+    sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+-    cpu->id_isar0 = 0x00140011;
-+              sve_##NAME##_le_host, sve_##NAME##_le_tlb);         \
+-    cpu->id_isar1 = 0x12002111;
-+}                                                                 \
+-    cpu->id_isar2 = 0x11231111;
-+void HELPER(sve_##NAME##_be_r)(CPUARMState *env, void *vg,        \
+-    cpu->id_isar3 = 0x01102131;
-+                               target_ulong addr, uint32_t desc)  \
+-    cpu->id_isar4 = 0x141;
-+{                                                                 \
++    cpu->isar.id_isar0 = 0x00140011;
-+    sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
++    cpu->isar.id_isar1 = 0x12002111;
-+              sve_##NAME##_be_host, sve_##NAME##_be_tlb);         \
++    cpu->isar.id_isar2 = 0x11231111;
 +    cpu->isar.id_isar3 = 0x01102131;
 +    cpu->isar.id_isar4 = 0x141;
      cpu->reset_auxcr = 7;
  }
- DO_LD1_1(ld1bb,  0)
+@@ -XXX,XX +XXX,XX @@ static void arm1176_initfn(Object *obj)
-@@ -XXX,XX +XXX,XX @@ void __attribute__((flatten)) HELPER(sve_ld##N##bb_r)               \
+     set_feature(&cpu->env, ARM_FEATURE_EL3);
      cpu->midr = 0x410fb767;
      cpu->reset_fpsid = 0x410120b5;
 -    cpu->mvfr0 = 0x11111111;
 -    cpu->mvfr1 = 0x00000000;
 +    cpu->isar.mvfr0 = 0x11111111;
 +    cpu->isar.mvfr1 = 0x00000000;
      cpu->ctr = 0x1dd20d2;
      cpu->reset_sctlr = 0x00050078;
      cpu->id_pfr0 = 0x111;
@@ -XXX,XX +XXX,XX @@ static void arm1176_initfn(Object *obj)
      cpu->id_mmfr0 = 0x01130003;
      cpu->id_mmfr1 = 0x10030302;
      cpu->id_mmfr2 = 0x01222100;
 -    cpu->id_isar0 = 0x0140011;
 -    cpu->id_isar1 = 0x12002111;
 -    cpu->id_isar2 = 0x11231121;
 -    cpu->id_isar3 = 0x01102131;
 -    cpu->id_isar4 = 0x01141;
 +    cpu->isar.id_isar0 = 0x0140011;
 +    cpu->isar.id_isar1 = 0x12002111;
 +    cpu->isar.id_isar2 = 0x11231121;
 +    cpu->isar.id_isar3 = 0x01102131;
 +    cpu->isar.id_isar4 = 0x01141;
      cpu->reset_auxcr = 7;
  }
- #define DO_LDN_2(N, SUFF, SIZE)                                       \
+@@ -XXX,XX +XXX,XX @@ static void arm11mpcore_initfn(Object *obj)
--void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_r)             \
+     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
-+void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_le_r)          \
+     cpu->midr = 0x410fb022;
-     (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+     cpu->reset_fpsid = 0x410120b4;
- {                                                                     \
+-    cpu->mvfr0 = 0x11111111;
-     sve_ld##N##_r(env, vg, addr, desc, SIZE, GETPC(),                 \
+-    cpu->mvfr1 = 0x00000000;
--                  arm_cpu_data_is_big_endian(env)                     \
++    cpu->isar.mvfr0 = 0x11111111;
--                  ? sve_ld1##SUFF##_be_tlb : sve_ld1##SUFF##_le_tlb); \
++    cpu->isar.mvfr1 = 0x00000000;
-+                  sve_ld1##SUFF##_le_tlb);                            \
+     cpu->ctr = 0x1d192992; /* 32K icache 32K dcache */
-+}                                                                     \
+     cpu->id_pfr0 = 0x111;
-+void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_be_r)          \
+     cpu->id_pfr1 = 0x1;
-+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+@@ -XXX,XX +XXX,XX @@ static void arm11mpcore_initfn(Object *obj)
-+{                                                                     \
+     cpu->id_mmfr0 = 0x01100103;
-+    sve_ld##N##_r(env, vg, addr, desc, SIZE, GETPC(),                 \
+     cpu->id_mmfr1 = 0x10020302;
-+                  sve_ld1##SUFF##_be_tlb);                            \
+     cpu->id_mmfr2 = 0x01222000;
 -    cpu->id_isar0 = 0x00100011;
 -    cpu->id_isar1 = 0x12002111;
 -    cpu->id_isar2 = 0x11221011;
 -    cpu->id_isar3 = 0x01102131;
 -    cpu->id_isar4 = 0x141;
 +    cpu->isar.id_isar0 = 0x00100011;
 +    cpu->isar.id_isar1 = 0x12002111;
 +    cpu->isar.id_isar2 = 0x11221011;
 +    cpu->isar.id_isar3 = 0x01102131;
 +    cpu->isar.id_isar4 = 0x141;
      cpu->reset_auxcr = 1;
  }
- DO_LDN_1(2)
+@@ -XXX,XX +XXX,XX @@ static void cortex_m3_initfn(Object *obj)
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
+     cpu->id_mmfr1 = 0x00000000;
-     sve_ldnf1_r(env, vg, addr, desc, ESZ, 0, sve_ld1##PART##_host);     \
+     cpu->id_mmfr2 = 0x00000000;
      cpu->id_mmfr3 = 0x00000000;
 -    cpu->id_isar0 = 0x01141110;
 -    cpu->id_isar1 = 0x02111000;
 -    cpu->id_isar2 = 0x21112231;
 -    cpu->id_isar3 = 0x01111110;
 -    cpu->id_isar4 = 0x01310102;
 -    cpu->id_isar5 = 0x00000000;
 -    cpu->id_isar6 = 0x00000000;
 +    cpu->isar.id_isar0 = 0x01141110;
 +    cpu->isar.id_isar1 = 0x02111000;
 +    cpu->isar.id_isar2 = 0x21112231;
 +    cpu->isar.id_isar3 = 0x01111110;
 +    cpu->isar.id_isar4 = 0x01310102;
 +    cpu->isar.id_isar5 = 0x00000000;
 +    cpu->isar.id_isar6 = 0x00000000;
  }
--/* TODO: Propagate the endian check back to the translator.  */
+ static void cortex_m4_initfn(Object *obj)
- #define DO_LDFF1_LDNF1_2(PART, ESZ, MSZ) \
+@@ -XXX,XX +XXX,XX @@ static void cortex_m4_initfn(Object *obj)
--void HELPER(sve_ldff1##PART##_r)(CPUARMState *env, void *vg,            \
+     cpu->id_mmfr1 = 0x00000000;
--                                 target_ulong addr, uint32_t desc)      \
+     cpu->id_mmfr2 = 0x00000000;
-+void HELPER(sve_ldff1##PART##_le_r)(CPUARMState *env, void *vg,         \
+     cpu->id_mmfr3 = 0x00000000;
-+                                    target_ulong addr, uint32_t desc)   \
+-    cpu->id_isar0 = 0x01141110;
- {                                                                       \
+-    cpu->id_isar1 = 0x02111000;
--    if (arm_cpu_data_is_big_endian(env)) {                              \
+-    cpu->id_isar2 = 0x21112231;
--        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+-    cpu->id_isar3 = 0x01111110;
--                    sve_ld1##PART##_be_host, sve_ld1##PART##_be_tlb);   \
+-    cpu->id_isar4 = 0x01310102;
--    } else {                                                            \
+-    cpu->id_isar5 = 0x00000000;
--        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+-    cpu->id_isar6 = 0x00000000;
--                    sve_ld1##PART##_le_host, sve_ld1##PART##_le_tlb);   \
++    cpu->isar.id_isar0 = 0x01141110;
--    }                                                                   \
++    cpu->isar.id_isar1 = 0x02111000;
-+    sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,                 \
++    cpu->isar.id_isar2 = 0x21112231;
-+                sve_ld1##PART##_le_host, sve_ld1##PART##_le_tlb);       \
++    cpu->isar.id_isar3 = 0x01111110;
- }                                                                       \
++    cpu->isar.id_isar4 = 0x01310102;
--void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
++    cpu->isar.id_isar5 = 0x00000000;
--                                 target_ulong addr, uint32_t desc)      \
++    cpu->isar.id_isar6 = 0x00000000;
 +void HELPER(sve_ldnf1##PART##_le_r)(CPUARMState *env, void *vg,         \
 +                                    target_ulong addr, uint32_t desc)   \
  {                                                                       \
 -    if (arm_cpu_data_is_big_endian(env)) {                              \
 -        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
 -                    sve_ld1##PART##_be_host);                           \
 -    } else {                                                            \
 -        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
 -                    sve_ld1##PART##_le_host);                           \
 -    }                                                                   \
 +    sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ, sve_ld1##PART##_le_host); \
 +}                                                                       \
 +void HELPER(sve_ldff1##PART##_be_r)(CPUARMState *env, void *vg,         \
 +                                    target_ulong addr, uint32_t desc)   \
 +{                                                                       \
 +    sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,                 \
 +                sve_ld1##PART##_be_host, sve_ld1##PART##_be_tlb);       \
 +}                                                                       \
 +void HELPER(sve_ldnf1##PART##_be_r)(CPUARMState *env, void *vg,         \
 +                                    target_ulong addr, uint32_t desc)   \
 +{                                                                       \
 +    sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ, sve_ld1##PART##_be_host); \
  }
- DO_LDFF1_LDNF1_1(bb,  0)
+ static void cortex_m33_initfn(Object *obj)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+@@ -XXX,XX +XXX,XX @@ static void cortex_m33_initfn(Object *obj)
      cpu->id_mmfr1 = 0x00000000;
      cpu->id_mmfr2 = 0x01000000;
      cpu->id_mmfr3 = 0x00000000;
 -    cpu->id_isar0 = 0x01101110;
 -    cpu->id_isar1 = 0x02212000;
 -    cpu->id_isar2 = 0x20232232;
 -    cpu->id_isar3 = 0x01111131;
 -    cpu->id_isar4 = 0x01310132;
 -    cpu->id_isar5 = 0x00000000;
 -    cpu->id_isar6 = 0x00000000;
 +    cpu->isar.id_isar0 = 0x01101110;
 +    cpu->isar.id_isar1 = 0x02212000;
 +    cpu->isar.id_isar2 = 0x20232232;
 +    cpu->isar.id_isar3 = 0x01111131;
 +    cpu->isar.id_isar4 = 0x01310132;
 +    cpu->isar.id_isar5 = 0x00000000;
 +    cpu->isar.id_isar6 = 0x00000000;
      cpu->clidr = 0x00000000;
      cpu->ctr = 0x8000c000;
  }
@@ -XXX,XX +XXX,XX @@ static void cortex_r5_initfn(Object *obj)
      cpu->id_mmfr1 = 0x00000000;
      cpu->id_mmfr2 = 0x01200000;
      cpu->id_mmfr3 = 0x0211;
 -    cpu->id_isar0 = 0x02101111;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232141;
 -    cpu->id_isar3 = 0x01112131;
 -    cpu->id_isar4 = 0x0010142;
 -    cpu->id_isar5 = 0x0;
 -    cpu->id_isar6 = 0x0;
 +    cpu->isar.id_isar0 = 0x02101111;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232141;
 +    cpu->isar.id_isar3 = 0x01112131;
 +    cpu->isar.id_isar4 = 0x0010142;
 +    cpu->isar.id_isar5 = 0x0;
 +    cpu->isar.id_isar6 = 0x0;
      cpu->mp_is_up = true;
      cpu->pmsav7_dregion = 16;
      define_arm_cp_regs(cpu, cortexr5_cp_reginfo);
@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
      set_feature(&cpu->env, ARM_FEATURE_EL3);
      cpu->midr = 0x410fc080;
      cpu->reset_fpsid = 0x410330c0;
 -    cpu->mvfr0 = 0x11110222;
 -    cpu->mvfr1 = 0x00011111;
 +    cpu->isar.mvfr0 = 0x11110222;
 +    cpu->isar.mvfr1 = 0x00011111;
      cpu->ctr = 0x82048004;
      cpu->reset_sctlr = 0x00c50078;
      cpu->id_pfr0 = 0x1031;
@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
      cpu->id_mmfr1 = 0x20000000;
      cpu->id_mmfr2 = 0x01202000;
      cpu->id_mmfr3 = 0x11;
 -    cpu->id_isar0 = 0x00101111;
 -    cpu->id_isar1 = 0x12112111;
 -    cpu->id_isar2 = 0x21232031;
 -    cpu->id_isar3 = 0x11112131;
 -    cpu->id_isar4 = 0x00111142;
 +    cpu->isar.id_isar0 = 0x00101111;
 +    cpu->isar.id_isar1 = 0x12112111;
 +    cpu->isar.id_isar2 = 0x21232031;
 +    cpu->isar.id_isar3 = 0x11112131;
 +    cpu->isar.id_isar4 = 0x00111142;
      cpu->dbgdidr = 0x15141000;
      cpu->clidr = (1 << 27) | (2 << 24) | 3;
      cpu->ccsidr[0] = 0xe007e01a; /* 16k L1 dcache. */
@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
      set_feature(&cpu->env, ARM_FEATURE_CBAR);
      cpu->midr = 0x410fc090;
      cpu->reset_fpsid = 0x41033090;
 -    cpu->mvfr0 = 0x11110222;
 -    cpu->mvfr1 = 0x01111111;
 +    cpu->isar.mvfr0 = 0x11110222;
 +    cpu->isar.mvfr1 = 0x01111111;
      cpu->ctr = 0x80038003;
      cpu->reset_sctlr = 0x00c50078;
      cpu->id_pfr0 = 0x1031;
@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
      cpu->id_mmfr1 = 0x20000000;
      cpu->id_mmfr2 = 0x01230000;
      cpu->id_mmfr3 = 0x00002111;
 -    cpu->id_isar0 = 0x00101111;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232041;
 -    cpu->id_isar3 = 0x11112131;
 -    cpu->id_isar4 = 0x00111142;
 +    cpu->isar.id_isar0 = 0x00101111;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232041;
 +    cpu->isar.id_isar3 = 0x11112131;
 +    cpu->isar.id_isar4 = 0x00111142;
      cpu->dbgdidr = 0x35141000;
      cpu->clidr = (1 << 27) | (1 << 24) | 3;
      cpu->ccsidr[0] = 0xe00fe019; /* 16k L1 dcache. */
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
      cpu->kvm_target = QEMU_KVM_ARM_TARGET_CORTEX_A7;
      cpu->midr = 0x410fc075;
      cpu->reset_fpsid = 0x41023075;
 -    cpu->mvfr0 = 0x10110222;
 -    cpu->mvfr1 = 0x11111111;
 +    cpu->isar.mvfr0 = 0x10110222;
 +    cpu->isar.mvfr1 = 0x11111111;
      cpu->ctr = 0x84448003;
      cpu->reset_sctlr = 0x00c50078;
      cpu->id_pfr0 = 0x00001131;
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
      /* a7_mpcore_r0p5_trm, page 4-4 gives 0x01101110; but
       * table 4-41 gives 0x02101110, which includes the arm div insns.
       */
 -    cpu->id_isar0 = 0x02101110;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232041;
 -    cpu->id_isar3 = 0x11112131;
 -    cpu->id_isar4 = 0x10011142;
 +    cpu->isar.id_isar0 = 0x02101110;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232041;
 +    cpu->isar.id_isar3 = 0x11112131;
 +    cpu->isar.id_isar4 = 0x10011142;
      cpu->dbgdidr = 0x3515f005;
      cpu->clidr = 0x0a200023;
      cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
      cpu->kvm_target = QEMU_KVM_ARM_TARGET_CORTEX_A15;
      cpu->midr = 0x412fc0f1;
      cpu->reset_fpsid = 0x410430f0;
 -    cpu->mvfr0 = 0x10110222;
 -    cpu->mvfr1 = 0x11111111;
 +    cpu->isar.mvfr0 = 0x10110222;
 +    cpu->isar.mvfr1 = 0x11111111;
      cpu->ctr = 0x8444c004;
      cpu->reset_sctlr = 0x00c50078;
      cpu->id_pfr0 = 0x00001131;
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
      cpu->id_mmfr1 = 0x20000000;
      cpu->id_mmfr2 = 0x01240000;
      cpu->id_mmfr3 = 0x02102211;
 -    cpu->id_isar0 = 0x02101110;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232041;
 -    cpu->id_isar3 = 0x11112131;
 -    cpu->id_isar4 = 0x10011142;
 +    cpu->isar.id_isar0 = 0x02101110;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232041;
 +    cpu->isar.id_isar3 = 0x11112131;
 +    cpu->isar.id_isar4 = 0x10011142;
      cpu->dbgdidr = 0x3515f021;
      cpu->clidr = 0x0a200023;
      cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/cpu64.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/cpu64.c
-@@ -XXX,XX +XXX,XX @@ static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
+@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
- static void do_ld_zpa(DisasContext *s, int zt, int pg,
+     cpu->midr = 0x411fd070;
-                       TCGv_i64 addr, int dtype, int nreg)
+     cpu->revidr = 0x00000000;
      cpu->reset_fpsid = 0x41034070;
 -    cpu->mvfr0 = 0x10110222;
 -    cpu->mvfr1 = 0x12111111;
 -    cpu->mvfr2 = 0x00000043;
 +    cpu->isar.mvfr0 = 0x10110222;
 +    cpu->isar.mvfr1 = 0x12111111;
 +    cpu->isar.mvfr2 = 0x00000043;
      cpu->ctr = 0x8444c004;
      cpu->reset_sctlr = 0x00c50838;
      cpu->id_pfr0 = 0x00000131;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
      cpu->id_mmfr1 = 0x40000000;
      cpu->id_mmfr2 = 0x01260000;
      cpu->id_mmfr3 = 0x02102211;
 -    cpu->id_isar0 = 0x02101110;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232042;
 -    cpu->id_isar3 = 0x01112131;
 -    cpu->id_isar4 = 0x00011142;
 -    cpu->id_isar5 = 0x00011121;
 -    cpu->id_isar6 = 0;
 -    cpu->id_aa64pfr0 = 0x00002222;
 +    cpu->isar.id_isar0 = 0x02101110;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232042;
 +    cpu->isar.id_isar3 = 0x01112131;
 +    cpu->isar.id_isar4 = 0x00011142;
 +    cpu->isar.id_isar5 = 0x00011121;
 +    cpu->isar.id_isar6 = 0;
 +    cpu->isar.id_aa64pfr0 = 0x00002222;
      cpu->id_aa64dfr0 = 0x10305106;
      cpu->pmceid0 = 0x00000000;
      cpu->pmceid1 = 0x00000000;
 -    cpu->id_aa64isar0 = 0x00011120;
 +    cpu->isar.id_aa64isar0 = 0x00011120;
      cpu->id_aa64mmfr0 = 0x00001124;
      cpu->dbgdidr = 0x3516d000;
      cpu->clidr = 0x0a200023;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
      cpu->midr = 0x410fd034;
      cpu->revidr = 0x00000000;
      cpu->reset_fpsid = 0x41034070;
 -    cpu->mvfr0 = 0x10110222;
 -    cpu->mvfr1 = 0x12111111;
 -    cpu->mvfr2 = 0x00000043;
 +    cpu->isar.mvfr0 = 0x10110222;
 +    cpu->isar.mvfr1 = 0x12111111;
 +    cpu->isar.mvfr2 = 0x00000043;
      cpu->ctr = 0x84448004; /* L1Ip = VIPT */
      cpu->reset_sctlr = 0x00c50838;
      cpu->id_pfr0 = 0x00000131;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
      cpu->id_mmfr1 = 0x40000000;
      cpu->id_mmfr2 = 0x01260000;
      cpu->id_mmfr3 = 0x02102211;
 -    cpu->id_isar0 = 0x02101110;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232042;
 -    cpu->id_isar3 = 0x01112131;
 -    cpu->id_isar4 = 0x00011142;
 -    cpu->id_isar5 = 0x00011121;
 -    cpu->id_isar6 = 0;
 -    cpu->id_aa64pfr0 = 0x00002222;
 +    cpu->isar.id_isar0 = 0x02101110;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232042;
 +    cpu->isar.id_isar3 = 0x01112131;
 +    cpu->isar.id_isar4 = 0x00011142;
 +    cpu->isar.id_isar5 = 0x00011121;
 +    cpu->isar.id_isar6 = 0;
 +    cpu->isar.id_aa64pfr0 = 0x00002222;
      cpu->id_aa64dfr0 = 0x10305106;
 -    cpu->id_aa64isar0 = 0x00011120;
 +    cpu->isar.id_aa64isar0 = 0x00011120;
      cpu->id_aa64mmfr0 = 0x00001122; /* 40 bit physical addr */
      cpu->dbgdidr = 0x3516d000;
      cpu->clidr = 0x0a200023;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
      cpu->midr = 0x410fd083;
      cpu->revidr = 0x00000000;
      cpu->reset_fpsid = 0x41034080;
 -    cpu->mvfr0 = 0x10110222;
 -    cpu->mvfr1 = 0x12111111;
 -    cpu->mvfr2 = 0x00000043;
 +    cpu->isar.mvfr0 = 0x10110222;
 +    cpu->isar.mvfr1 = 0x12111111;
 +    cpu->isar.mvfr2 = 0x00000043;
      cpu->ctr = 0x8444c004;
      cpu->reset_sctlr = 0x00c50838;
      cpu->id_pfr0 = 0x00000131;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
      cpu->id_mmfr1 = 0x40000000;
      cpu->id_mmfr2 = 0x01260000;
      cpu->id_mmfr3 = 0x02102211;
 -    cpu->id_isar0 = 0x02101110;
 -    cpu->id_isar1 = 0x13112111;
 -    cpu->id_isar2 = 0x21232042;
 -    cpu->id_isar3 = 0x01112131;
 -    cpu->id_isar4 = 0x00011142;
 -    cpu->id_isar5 = 0x00011121;
 -    cpu->id_aa64pfr0 = 0x00002222;
 +    cpu->isar.id_isar0 = 0x02101110;
 +    cpu->isar.id_isar1 = 0x13112111;
 +    cpu->isar.id_isar2 = 0x21232042;
 +    cpu->isar.id_isar3 = 0x01112131;
 +    cpu->isar.id_isar4 = 0x00011142;
 +    cpu->isar.id_isar5 = 0x00011121;
 +    cpu->isar.id_aa64pfr0 = 0x00002222;
      cpu->id_aa64dfr0 = 0x10305106;
      cpu->pmceid0 = 0x00000000;
      cpu->pmceid1 = 0x00000000;
 -    cpu->id_aa64isar0 = 0x00011120;
 +    cpu->isar.id_aa64isar0 = 0x00011120;
      cpu->id_aa64mmfr0 = 0x00001124;
      cpu->dbgdidr = 0x3516d000;
      cpu->clidr = 0x0a200023;
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t id_pfr1_read(CPUARMState *env, const ARMCPRegInfo *ri)
  static uint64_t id_aa64pfr0_read(CPUARMState *env, const ARMCPRegInfo *ri)
  {
--    static gen_helper_gvec_mem * const fns[16][4] = {
+     ARMCPU *cpu = arm_env_get_cpu(env);
--        { gen_helper_sve_ld1bb_r, gen_helper_sve_ld2bb_r,
+-    uint64_t pfr0 = cpu->id_aa64pfr0;
--          gen_helper_sve_ld3bb_r, gen_helper_sve_ld4bb_r },
++    uint64_t pfr0 = cpu->isar.id_aa64pfr0;
--        { gen_helper_sve_ld1bhu_r, NULL, NULL, NULL },
--        { gen_helper_sve_ld1bsu_r, NULL, NULL, NULL },
+     if (env->gicv3state) {
--        { gen_helper_sve_ld1bdu_r, NULL, NULL, NULL },
+         pfr0 |= 1 << 24;
-+    static gen_helper_gvec_mem * const fns[2][16][4] = {
+@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-+        /* Little-endian */
+             { .name = "ID_ISAR0", .state = ARM_CP_STATE_BOTH,
-+        { { gen_helper_sve_ld1bb_r, gen_helper_sve_ld2bb_r,
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 0,
-+            gen_helper_sve_ld3bb_r, gen_helper_sve_ld4bb_r },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1bhu_r, NULL, NULL, NULL },
+-              .resetvalue = cpu->id_isar0 },
-+          { gen_helper_sve_ld1bsu_r, NULL, NULL, NULL },
++              .resetvalue = cpu->isar.id_isar0 },
-+          { gen_helper_sve_ld1bdu_r, NULL, NULL, NULL },
+             { .name = "ID_ISAR1", .state = ARM_CP_STATE_BOTH,
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 1,
--        { gen_helper_sve_ld1sds_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
--        { gen_helper_sve_ld1hh_r, gen_helper_sve_ld2hh_r,
+-              .resetvalue = cpu->id_isar1 },
--          gen_helper_sve_ld3hh_r, gen_helper_sve_ld4hh_r },
++              .resetvalue = cpu->isar.id_isar1 },
--        { gen_helper_sve_ld1hsu_r, NULL, NULL, NULL },
+             { .name = "ID_ISAR2", .state = ARM_CP_STATE_BOTH,
--        { gen_helper_sve_ld1hdu_r, NULL, NULL, NULL },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 2,
-+          { gen_helper_sve_ld1sds_le_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1hh_le_r, gen_helper_sve_ld2hh_le_r,
+-              .resetvalue = cpu->id_isar2 },
-+            gen_helper_sve_ld3hh_le_r, gen_helper_sve_ld4hh_le_r },
++              .resetvalue = cpu->isar.id_isar2 },
-+          { gen_helper_sve_ld1hsu_le_r, NULL, NULL, NULL },
+             { .name = "ID_ISAR3", .state = ARM_CP_STATE_BOTH,
-+          { gen_helper_sve_ld1hdu_le_r, NULL, NULL, NULL },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 3,
+               .access = PL1_R, .type = ARM_CP_CONST,
--        { gen_helper_sve_ld1hds_r, NULL, NULL, NULL },
+-              .resetvalue = cpu->id_isar3 },
--        { gen_helper_sve_ld1hss_r, NULL, NULL, NULL },
++              .resetvalue = cpu->isar.id_isar3 },
--        { gen_helper_sve_ld1ss_r, gen_helper_sve_ld2ss_r,
+             { .name = "ID_ISAR4", .state = ARM_CP_STATE_BOTH,
--          gen_helper_sve_ld3ss_r, gen_helper_sve_ld4ss_r },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 4,
--        { gen_helper_sve_ld1sdu_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1hds_le_r, NULL, NULL, NULL },
+-              .resetvalue = cpu->id_isar4 },
-+          { gen_helper_sve_ld1hss_le_r, NULL, NULL, NULL },
++              .resetvalue = cpu->isar.id_isar4 },
-+          { gen_helper_sve_ld1ss_le_r, gen_helper_sve_ld2ss_le_r,
+             { .name = "ID_ISAR5", .state = ARM_CP_STATE_BOTH,
-+            gen_helper_sve_ld3ss_le_r, gen_helper_sve_ld4ss_le_r },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 5,
-+          { gen_helper_sve_ld1sdu_le_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
+-              .resetvalue = cpu->id_isar5 },
--        { gen_helper_sve_ld1bds_r, NULL, NULL, NULL },
++              .resetvalue = cpu->isar.id_isar5 },
--        { gen_helper_sve_ld1bss_r, NULL, NULL, NULL },
+             { .name = "ID_MMFR4", .state = ARM_CP_STATE_BOTH,
--        { gen_helper_sve_ld1bhs_r, NULL, NULL, NULL },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 6,
--        { gen_helper_sve_ld1dd_r, gen_helper_sve_ld2dd_r,
+               .access = PL1_R, .type = ARM_CP_CONST,
--          gen_helper_sve_ld3dd_r, gen_helper_sve_ld4dd_r },
+@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-+          { gen_helper_sve_ld1bds_r, NULL, NULL, NULL },
+             { .name = "ID_ISAR6", .state = ARM_CP_STATE_BOTH,
-+          { gen_helper_sve_ld1bss_r, NULL, NULL, NULL },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 7,
-+          { gen_helper_sve_ld1bhs_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1dd_le_r, gen_helper_sve_ld2dd_le_r,
+-              .resetvalue = cpu->id_isar6 },
-+            gen_helper_sve_ld3dd_le_r, gen_helper_sve_ld4dd_le_r } },
++              .resetvalue = cpu->isar.id_isar6 },
-+
+             REGINFO_SENTINEL
-+        /* Big-endian */
+         };
-+        { { gen_helper_sve_ld1bb_r, gen_helper_sve_ld2bb_r,
+         define_arm_cp_regs(cpu, v6_idregs);
-+            gen_helper_sve_ld3bb_r, gen_helper_sve_ld4bb_r },
+@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-+          { gen_helper_sve_ld1bhu_r, NULL, NULL, NULL },
+             { .name = "ID_AA64PFR1_EL1", .state = ARM_CP_STATE_AA64,
-+          { gen_helper_sve_ld1bsu_r, NULL, NULL, NULL },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 1,
-+          { gen_helper_sve_ld1bdu_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+
+-              .resetvalue = cpu->id_aa64pfr1},
-+          { gen_helper_sve_ld1sds_be_r, NULL, NULL, NULL },
++              .resetvalue = cpu->isar.id_aa64pfr1},
-+          { gen_helper_sve_ld1hh_be_r, gen_helper_sve_ld2hh_be_r,
+             { .name = "ID_AA64PFR2_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
-+            gen_helper_sve_ld3hh_be_r, gen_helper_sve_ld4hh_be_r },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 2,
-+          { gen_helper_sve_ld1hsu_be_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1hdu_be_r, NULL, NULL, NULL },
+@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-+
+             { .name = "ID_AA64ISAR0_EL1", .state = ARM_CP_STATE_AA64,
-+          { gen_helper_sve_ld1hds_be_r, NULL, NULL, NULL },
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 6, .opc2 = 0,
-+          { gen_helper_sve_ld1hss_be_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1ss_be_r, gen_helper_sve_ld2ss_be_r,
+-              .resetvalue = cpu->id_aa64isar0 },
-+            gen_helper_sve_ld3ss_be_r, gen_helper_sve_ld4ss_be_r },
++              .resetvalue = cpu->isar.id_aa64isar0 },
-+          { gen_helper_sve_ld1sdu_be_r, NULL, NULL, NULL },
+             { .name = "ID_AA64ISAR1_EL1", .state = ARM_CP_STATE_AA64,
-+
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 6, .opc2 = 1,
-+          { gen_helper_sve_ld1bds_r, NULL, NULL, NULL },
+               .access = PL1_R, .type = ARM_CP_CONST,
-+          { gen_helper_sve_ld1bss_r, NULL, NULL, NULL },
+-              .resetvalue = cpu->id_aa64isar1 },
-+          { gen_helper_sve_ld1bhs_r, NULL, NULL, NULL },
++              .resetvalue = cpu->isar.id_aa64isar1 },
-+          { gen_helper_sve_ld1dd_be_r, gen_helper_sve_ld2dd_be_r,
+             { .name = "ID_AA64ISAR2_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
-+            gen_helper_sve_ld3dd_be_r, gen_helper_sve_ld4dd_be_r } }
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 6, .opc2 = 2,
-     };
+               .access = PL1_R, .type = ARM_CP_CONST,
--    gen_helper_gvec_mem *fn = fns[dtype][nreg];
+@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-+    gen_helper_gvec_mem *fn = fns[s->be_data == MO_BE][dtype][nreg];
+             { .name = "MVFR0_EL1", .state = ARM_CP_STATE_AA64,
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 0,
-     /* While there are holes in the table, they are not
+               .access = PL1_R, .type = ARM_CP_CONST,
-      * accessible via the instruction encoding.
+-              .resetvalue = cpu->mvfr0 },
-@@ -XXX,XX +XXX,XX @@ static bool trans_LD_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
++              .resetvalue = cpu->isar.mvfr0 },
+             { .name = "MVFR1_EL1", .state = ARM_CP_STATE_AA64,
- static bool trans_LDFF1_zprr(DisasContext *s, arg_rprr_load *a, uint32_t insn)
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 1,
- {
+               .access = PL1_R, .type = ARM_CP_CONST,
--    static gen_helper_gvec_mem * const fns[16] = {
+-              .resetvalue = cpu->mvfr1 },
--        gen_helper_sve_ldff1bb_r,
++              .resetvalue = cpu->isar.mvfr1 },
--        gen_helper_sve_ldff1bhu_r,
+             { .name = "MVFR2_EL1", .state = ARM_CP_STATE_AA64,
--        gen_helper_sve_ldff1bsu_r,
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 2,
--        gen_helper_sve_ldff1bdu_r,
+               .access = PL1_R, .type = ARM_CP_CONST,
-+    static gen_helper_gvec_mem * const fns[2][16] = {
+-              .resetvalue = cpu->mvfr2 },
-+        /* Little-endian */
++              .resetvalue = cpu->isar.mvfr2 },
-+        { gen_helper_sve_ldff1bb_r,
+             { .name = "MVFR3_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
-+          gen_helper_sve_ldff1bhu_r,
+               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 3,
-+          gen_helper_sve_ldff1bsu_r,
+               .access = PL1_R, .type = ARM_CP_CONST,
 +          gen_helper_sve_ldff1bdu_r,
 -        gen_helper_sve_ldff1sds_r,
 -        gen_helper_sve_ldff1hh_r,
 -        gen_helper_sve_ldff1hsu_r,
 -        gen_helper_sve_ldff1hdu_r,
 +          gen_helper_sve_ldff1sds_le_r,
 +          gen_helper_sve_ldff1hh_le_r,
 +          gen_helper_sve_ldff1hsu_le_r,
 +          gen_helper_sve_ldff1hdu_le_r,
 -        gen_helper_sve_ldff1hds_r,
 -        gen_helper_sve_ldff1hss_r,
 -        gen_helper_sve_ldff1ss_r,
 -        gen_helper_sve_ldff1sdu_r,
 +          gen_helper_sve_ldff1hds_le_r,
 +          gen_helper_sve_ldff1hss_le_r,
 +          gen_helper_sve_ldff1ss_le_r,
 +          gen_helper_sve_ldff1sdu_le_r,
 -        gen_helper_sve_ldff1bds_r,
 -        gen_helper_sve_ldff1bss_r,
 -        gen_helper_sve_ldff1bhs_r,
 -        gen_helper_sve_ldff1dd_r,
 +          gen_helper_sve_ldff1bds_r,
 +          gen_helper_sve_ldff1bss_r,
 +          gen_helper_sve_ldff1bhs_r,
 +          gen_helper_sve_ldff1dd_le_r },
 +
 +        /* Big-endian */
 +        { gen_helper_sve_ldff1bb_r,
 +          gen_helper_sve_ldff1bhu_r,
 +          gen_helper_sve_ldff1bsu_r,
 +          gen_helper_sve_ldff1bdu_r,
 +
 +          gen_helper_sve_ldff1sds_be_r,
 +          gen_helper_sve_ldff1hh_be_r,
 +          gen_helper_sve_ldff1hsu_be_r,
 +          gen_helper_sve_ldff1hdu_be_r,
 +
 +          gen_helper_sve_ldff1hds_be_r,
 +          gen_helper_sve_ldff1hss_be_r,
 +          gen_helper_sve_ldff1ss_be_r,
 +          gen_helper_sve_ldff1sdu_be_r,
 +
 +          gen_helper_sve_ldff1bds_r,
 +          gen_helper_sve_ldff1bss_r,
 +          gen_helper_sve_ldff1bhs_r,
 +          gen_helper_sve_ldff1dd_be_r },
      };
      if (sve_access_check(s)) {
          TCGv_i64 addr = new_tmp_a64(s);
          tcg_gen_shli_i64(addr, cpu_reg(s, a->rm), dtype_msz(a->dtype));
          tcg_gen_add_i64(addr, addr, cpu_reg_sp(s, a->rn));
 -        do_mem_zpa(s, a->rd, a->pg, addr, fns[a->dtype]);
 +        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
      }
      return true;
  }
  static bool trans_LDNF1_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
  {
 -    static gen_helper_gvec_mem * const fns[16] = {
 -        gen_helper_sve_ldnf1bb_r,
 -        gen_helper_sve_ldnf1bhu_r,
 -        gen_helper_sve_ldnf1bsu_r,
 -        gen_helper_sve_ldnf1bdu_r,
 +    static gen_helper_gvec_mem * const fns[2][16] = {
 +        /* Little-endian */
 +        { gen_helper_sve_ldnf1bb_r,
 +          gen_helper_sve_ldnf1bhu_r,
 +          gen_helper_sve_ldnf1bsu_r,
 +          gen_helper_sve_ldnf1bdu_r,
 -        gen_helper_sve_ldnf1sds_r,
 -        gen_helper_sve_ldnf1hh_r,
 -        gen_helper_sve_ldnf1hsu_r,
 -        gen_helper_sve_ldnf1hdu_r,
 +          gen_helper_sve_ldnf1sds_le_r,
 +          gen_helper_sve_ldnf1hh_le_r,
 +          gen_helper_sve_ldnf1hsu_le_r,
 +          gen_helper_sve_ldnf1hdu_le_r,
 -        gen_helper_sve_ldnf1hds_r,
 -        gen_helper_sve_ldnf1hss_r,
 -        gen_helper_sve_ldnf1ss_r,
 -        gen_helper_sve_ldnf1sdu_r,
 +          gen_helper_sve_ldnf1hds_le_r,
 +          gen_helper_sve_ldnf1hss_le_r,
 +          gen_helper_sve_ldnf1ss_le_r,
 +          gen_helper_sve_ldnf1sdu_le_r,
 -        gen_helper_sve_ldnf1bds_r,
 -        gen_helper_sve_ldnf1bss_r,
 -        gen_helper_sve_ldnf1bhs_r,
 -        gen_helper_sve_ldnf1dd_r,
 +          gen_helper_sve_ldnf1bds_r,
 +          gen_helper_sve_ldnf1bss_r,
 +          gen_helper_sve_ldnf1bhs_r,
 +          gen_helper_sve_ldnf1dd_le_r },
 +
 +        /* Big-endian */
 +        { gen_helper_sve_ldnf1bb_r,
 +          gen_helper_sve_ldnf1bhu_r,
 +          gen_helper_sve_ldnf1bsu_r,
 +          gen_helper_sve_ldnf1bdu_r,
 +
 +          gen_helper_sve_ldnf1sds_be_r,
 +          gen_helper_sve_ldnf1hh_be_r,
 +          gen_helper_sve_ldnf1hsu_be_r,
 +          gen_helper_sve_ldnf1hdu_be_r,
 +
 +          gen_helper_sve_ldnf1hds_be_r,
 +          gen_helper_sve_ldnf1hss_be_r,
 +          gen_helper_sve_ldnf1ss_be_r,
 +          gen_helper_sve_ldnf1sdu_be_r,
 +
 +          gen_helper_sve_ldnf1bds_r,
 +          gen_helper_sve_ldnf1bss_r,
 +          gen_helper_sve_ldnf1bhs_r,
 +          gen_helper_sve_ldnf1dd_be_r },
      };
      if (sve_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_LDNF1_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
          TCGv_i64 addr = new_tmp_a64(s);
          tcg_gen_addi_i64(addr, cpu_reg_sp(s, a->rn), off);
 -        do_mem_zpa(s, a->rd, a->pg, addr, fns[a->dtype]);
 +        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
      }
      return true;
  }
  static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
  {
 -    static gen_helper_gvec_mem * const fns[4] = {
 -        gen_helper_sve_ld1bb_r, gen_helper_sve_ld1hh_r,
 -        gen_helper_sve_ld1ss_r, gen_helper_sve_ld1dd_r,
 +    static gen_helper_gvec_mem * const fns[2][4] = {
 +        { gen_helper_sve_ld1bb_r,    gen_helper_sve_ld1hh_le_r,
 +          gen_helper_sve_ld1ss_le_r, gen_helper_sve_ld1dd_le_r },
 +        { gen_helper_sve_ld1bb_r,    gen_helper_sve_ld1hh_be_r,
 +          gen_helper_sve_ld1ss_be_r, gen_helper_sve_ld1dd_be_r },
      };
      unsigned vsz = vec_full_reg_size(s);
      TCGv_ptr t_pg;
@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
      t_pg = tcg_temp_new_ptr();
      tcg_gen_addi_ptr(t_pg, cpu_env, poff);
 -    fns[msz](cpu_env, t_pg, addr, desc);
 +    fns[s->be_data == MO_BE][msz](cpu_env, t_pg, addr, desc);
      tcg_temp_free_ptr(t_pg);
      tcg_temp_free_i32(desc);
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 04/45] target/arm: V8M should not imply V7VE
+From: Richard Henderson <richard.henderson@linaro.org>
+Instantiating mps2-an505 (cortex-m33) will fail make check when
+V7VE asserts that ID_ISAR0.Divide includes ARM division.  It is
+also wrong to include ARM_FEATURE_LPAE.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181016223115.24100-3-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/cpu.c | 6 +++++-
+file changed, 5 insertions(+), 1 deletion(-)
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.c
++++ b/target/arm/cpu.c
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
+     /* Some features automatically imply others: */
+     if (arm_feature(env, ARM_FEATURE_V8)) {
+-        set_feature(env, ARM_FEATURE_V7VE);
++        if (arm_feature(env, ARM_FEATURE_M)) {
++            set_feature(env, ARM_FEATURE_V7);
++        } else {
++            set_feature(env, ARM_FEATURE_V7VE);
++        }
+     }
+     if (arm_feature(env, ARM_FEATURE_V7VE)) {
+         /* v7 Virtualization Extensions. In real hardware this implies
+--
+.19.1

-[Qemu-devel] [PULL 20/33] target/arm: Define new TBFLAG for v8M stack checking
+[Qemu-devel] [PULL 05/45] target/arm: Convert v8 extensions from feature bits to isar tests
-The Arm v8M architecture includes hardware stack limit checking.
+From: Richard Henderson <richard.henderson@linaro.org>
 When certain instructions update the stack pointer, if the new
 value of SP is below the limit set in the associated limit register
 then an exception is taken. Add a TB flag that tracks whether
 the limit-checking code needs to be emitted.
+Most of the v8 extensions are self-contained within the ISAR
+registers and are not implied by other feature bits, which
+makes them the easiest to convert.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181016223115.24100-4-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Message-id: 20181002163556.10279-2-peter.maydell@linaro.org
 ---
- target/arm/cpu.h       |  7 +++++++
+ target/arm/cpu.h           | 131 +++++++++++++++++++++++++++++++++----
- target/arm/translate.h |  1 +
+ target/arm/translate.h     |   7 ++
- target/arm/helper.c    | 10 ++++++++++
+ linux-user/elfload.c       |  46 ++++++++-----
- target/arm/translate.c |  1 +
+ target/arm/cpu.c           |  27 +++++---
-files changed, 19 insertions(+)
+ target/arm/cpu64.c         |  57 +++++++++-------
  target/arm/translate-a64.c | 101 ++++++++++++++--------------
  target/arm/translate.c     |  36 +++++-----
 files changed, 273 insertions(+), 132 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ FIELD(V7M_CCR, UNALIGN_TRP, 3, 1)
+@@ -XXX,XX +XXX,XX @@ typedef enum ARMPSCIState {
- FIELD(V7M_CCR, DIV_0_TRP, 4, 1)
+     PSCI_ON_PENDING = 2
- FIELD(V7M_CCR, BFHFNMIGN, 8, 1)
+ } ARMPSCIState;
- FIELD(V7M_CCR, STKALIGN, 9, 1)
-+FIELD(V7M_CCR, STKOFHFNMIGN, 10, 1)
++typedef struct ARMISARegisters ARMISARegisters;
- FIELD(V7M_CCR, DC, 16, 1)
++
- FIELD(V7M_CCR, IC, 17, 1)
+ /**
-+FIELD(V7M_CCR, BP, 18, 1)
+  * ARMCPU:
+  * @env: #CPUARMState
- /* V7M SCR bits */
+@@ -XXX,XX +XXX,XX @@ enum arm_features {
- FIELD(V7M_SCR, SLEEPONEXIT, 1, 1)
+     ARM_FEATURE_LPAE, /* has Large Physical Address Extension */
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_cpu_data_is_big_endian(CPUARMState *env)
+     ARM_FEATURE_V8,
- /* For M profile only, Handler (ie not Thread) mode */
+     ARM_FEATURE_AARCH64, /* supports 64 bit mode */
- #define ARM_TBFLAG_HANDLER_SHIFT    21
+-    ARM_FEATURE_V8_AES, /* implements AES part of v8 Crypto Extensions */
- #define ARM_TBFLAG_HANDLER_MASK     (1 << ARM_TBFLAG_HANDLER_SHIFT)
+     ARM_FEATURE_CBAR, /* has cp15 CBAR */
-+/* For M profile only, whether we should generate stack-limit checks */
+     ARM_FEATURE_CRC, /* ARMv8 CRC instructions */
-+#define ARM_TBFLAG_STACKCHECK_SHIFT 22
+     ARM_FEATURE_CBAR_RO, /* has cp15 CBAR and it is read-only */
-+#define ARM_TBFLAG_STACKCHECK_MASK  (1 << ARM_TBFLAG_STACKCHECK_SHIFT)
+     ARM_FEATURE_EL2, /* has EL2 Virtualization support */
+     ARM_FEATURE_EL3, /* has EL3 Secure monitor support */
- /* Bit usage when in AArch64 state */
+-    ARM_FEATURE_V8_SHA1, /* implements SHA1 part of v8 Crypto Extensions */
- #define ARM_TBFLAG_TBI0_SHIFT 0        /* TBI0 for EL0/1 or TBI for EL2/3 */
+-    ARM_FEATURE_V8_SHA256, /* implements SHA256 part of v8 Crypto Extensions */
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_cpu_data_is_big_endian(CPUARMState *env)
+-    ARM_FEATURE_V8_PMULL, /* implements PMULL part of v8 Crypto Extensions */
-     (((F) & ARM_TBFLAG_BE_DATA_MASK) >> ARM_TBFLAG_BE_DATA_SHIFT)
+     ARM_FEATURE_THUMB_DSP, /* DSP insns supported in the Thumb encodings */
- #define ARM_TBFLAG_HANDLER(F) \
+     ARM_FEATURE_PMU, /* has PMU support */
-     (((F) & ARM_TBFLAG_HANDLER_MASK) >> ARM_TBFLAG_HANDLER_SHIFT)
+     ARM_FEATURE_VBAR, /* has cp15 VBAR */
-+#define ARM_TBFLAG_STACKCHECK(F) \
+     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
-+    (((F) & ARM_TBFLAG_STACKCHECK_MASK) >> ARM_TBFLAG_STACKCHECK_SHIFT)
+     ARM_FEATURE_JAZELLE, /* has (trivial) Jazelle implementation */
- #define ARM_TBFLAG_TBI0(F) \
+     ARM_FEATURE_SVE, /* has Scalable Vector Extension */
-     (((F) & ARM_TBFLAG_TBI0_MASK) >> ARM_TBFLAG_TBI0_SHIFT)
+-    ARM_FEATURE_V8_SHA512, /* implements SHA512 part of v8 Crypto Extensions */
- #define ARM_TBFLAG_TBI1(F) \
+-    ARM_FEATURE_V8_SHA3, /* implements SHA3 part of v8 Crypto Extensions */
 -    ARM_FEATURE_V8_SM3, /* implements SM3 part of v8 Crypto Extensions */
 -    ARM_FEATURE_V8_SM4, /* implements SM4 part of v8 Crypto Extensions */
 -    ARM_FEATURE_V8_ATOMICS, /* ARMv8.1-Atomics feature */
 -    ARM_FEATURE_V8_RDM, /* implements v8.1 simd round multiply */
 -    ARM_FEATURE_V8_DOTPROD, /* implements v8.2 simd dot product */
      ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
 -    ARM_FEATURE_V8_FCMA, /* has complex number part of v8.3 extensions.  */
      ARM_FEATURE_M_MAIN, /* M profile Main Extension */
  };
@@ -XXX,XX +XXX,XX @@ static inline uint64_t *aa64_vfp_qreg(CPUARMState *env, unsigned regno)
  /* Shared between translate-sve.c and sve_helper.c.  */
  extern const uint64_t pred_esz_masks[4];
 +/*
 + * 32-bit feature tests via id registers.
 + */
 +static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
 +}
 +
 +static inline bool isar_feature_aa32_pmull(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) > 1;
 +}
 +
 +static inline bool isar_feature_aa32_sha1(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, SHA1) != 0;
 +}
 +
 +static inline bool isar_feature_aa32_sha2(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, SHA2) != 0;
 +}
 +
 +static inline bool isar_feature_aa32_crc32(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, CRC32) != 0;
 +}
 +
 +static inline bool isar_feature_aa32_rdm(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, RDM) != 0;
 +}
 +
 +static inline bool isar_feature_aa32_vcma(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar5, ID_ISAR5, VCMA) != 0;
 +}
 +
 +static inline bool isar_feature_aa32_dp(const ARMISARegisters *id)
 +{
 +    return FIELD_EX32(id->id_isar6, ID_ISAR6, DP) != 0;
 +}
 +
 +/*
 + * 64-bit feature tests via id registers.
 + */
 +static inline bool isar_feature_aa64_aes(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, AES) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_pmull(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, AES) > 1;
 +}
 +
 +static inline bool isar_feature_aa64_sha1(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA1) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_sha256(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA2) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_sha512(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA2) > 1;
 +}
 +
 +static inline bool isar_feature_aa64_crc32(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, CRC32) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_atomics(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, ATOMIC) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_rdm(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, RDM) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_sha3(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA3) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_sm3(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SM3) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_sm4(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SM4) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_dp(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, DP) != 0;
 +}
 +
 +static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
 +}
 +
 +/*
 + * Forward to the above feature tests given an ARMCPU pointer.
 + */
 +#define cpu_isar_feature(name, cpu) \
 +    ({ ARMCPU *cpu_ = (cpu); isar_feature_##name(&cpu_->isar); })
 +
  #endif
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@
-     int vec_stride;
+ /* internal defines */
-     bool v7m_handler_mode;
+ typedef struct DisasContext {
-     bool v8m_secure; /* true if v8M and we're in Secure mode */
+     DisasContextBase base;
-+    bool v8m_stackcheck; /* true if we need to perform v8M stack limit checks */
++    const ARMISARegisters *isar;
-     /* Immediate value in AArch32 SVC insn; must be set if is_jmp == DISAS_SWI
-      * so that top level loop can generate correct syndrome information.
+     target_ulong pc;
-      */
+     target_ulong page_start;
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 get_ahp_flag(void)
      return ret;
  }
 +/*
 + * Forward to the isar_feature_* tests given a DisasContext pointer.
 + */
 +#define dc_isar_feature(name, ctx) \
 +    ({ DisasContext *ctx_ = (ctx); isar_feature_##name(ctx_->isar); })
 +
  #endif /* TARGET_ARM_TRANSLATE_H */
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/linux-user/elfload.c
-+++ b/target/arm/helper.c
++++ b/linux-user/elfload.c
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
+@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
-         flags |= ARM_TBFLAG_HANDLER_MASK;
+     /* probe for the extra features */
-     }
+ #define GET_FEATURE(feat, hwcap) \
+     do { if (arm_feature(&cpu->env, feat)) { hwcaps |= hwcap; } } while (0)
-+    /* v8M always applies stack limit checks unless CCR.STKOFHFNMIGN is
++
-+     * suppressing them because the requested execution priority is less than 0.
++#define GET_FEATURE_ID(feat, hwcap) \
-+     */
++    do { if (cpu_isar_feature(feat, cpu)) { hwcaps |= hwcap; } } while (0)
-+    if (arm_feature(env, ARM_FEATURE_V8) &&
++
-+        arm_feature(env, ARM_FEATURE_M) &&
+     /* EDSP is in v5TE and above, but all our v5 CPUs are v5TE */
-+        !((mmu_idx  & ARM_MMU_IDX_M_NEGPRI) &&
+     GET_FEATURE(ARM_FEATURE_V5, ARM_HWCAP_ARM_EDSP);
-+          (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
+     GET_FEATURE(ARM_FEATURE_VFP, ARM_HWCAP_ARM_VFP);
-+        flags |= ARM_TBFLAG_STACKCHECK_MASK;
+@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap2(void)
-+    }
+     ARMCPU *cpu = ARM_CPU(thread_cpu);
-+
+     uint32_t hwcaps = 0;
-     *pflags = flags;
-     *cs_base = 0;
+-    GET_FEATURE(ARM_FEATURE_V8_AES, ARM_HWCAP2_ARM_AES);
 -    GET_FEATURE(ARM_FEATURE_V8_PMULL, ARM_HWCAP2_ARM_PMULL);
 -    GET_FEATURE(ARM_FEATURE_V8_SHA1, ARM_HWCAP2_ARM_SHA1);
 -    GET_FEATURE(ARM_FEATURE_V8_SHA256, ARM_HWCAP2_ARM_SHA2);
 -    GET_FEATURE(ARM_FEATURE_CRC, ARM_HWCAP2_ARM_CRC32);
 +    GET_FEATURE_ID(aa32_aes, ARM_HWCAP2_ARM_AES);
 +    GET_FEATURE_ID(aa32_pmull, ARM_HWCAP2_ARM_PMULL);
 +    GET_FEATURE_ID(aa32_sha1, ARM_HWCAP2_ARM_SHA1);
 +    GET_FEATURE_ID(aa32_sha2, ARM_HWCAP2_ARM_SHA2);
 +    GET_FEATURE_ID(aa32_crc32, ARM_HWCAP2_ARM_CRC32);
      return hwcaps;
  }
+ #undef GET_FEATURE
++#undef GET_FEATURE_ID
+ #else
+ /* 64 bit ARM definitions */
+@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
+     /* probe for the extra features */
+ #define GET_FEATURE(feat, hwcap) \
+     do { if (arm_feature(&cpu->env, feat)) { hwcaps |= hwcap; } } while (0)
+-    GET_FEATURE(ARM_FEATURE_V8_AES, ARM_HWCAP_A64_AES);
+-    GET_FEATURE(ARM_FEATURE_V8_PMULL, ARM_HWCAP_A64_PMULL);
+-    GET_FEATURE(ARM_FEATURE_V8_SHA1, ARM_HWCAP_A64_SHA1);
+-    GET_FEATURE(ARM_FEATURE_V8_SHA256, ARM_HWCAP_A64_SHA2);
+-    GET_FEATURE(ARM_FEATURE_CRC, ARM_HWCAP_A64_CRC32);
+-    GET_FEATURE(ARM_FEATURE_V8_SHA3, ARM_HWCAP_A64_SHA3);
+-    GET_FEATURE(ARM_FEATURE_V8_SM3, ARM_HWCAP_A64_SM3);
+-    GET_FEATURE(ARM_FEATURE_V8_SM4, ARM_HWCAP_A64_SM4);
+-    GET_FEATURE(ARM_FEATURE_V8_SHA512, ARM_HWCAP_A64_SHA512);
++#define GET_FEATURE_ID(feat, hwcap) \
++    do { if (cpu_isar_feature(feat, cpu)) { hwcaps |= hwcap; } } while (0)
++
++    GET_FEATURE_ID(aa64_aes, ARM_HWCAP_A64_AES);
++    GET_FEATURE_ID(aa64_pmull, ARM_HWCAP_A64_PMULL);
++    GET_FEATURE_ID(aa64_sha1, ARM_HWCAP_A64_SHA1);
++    GET_FEATURE_ID(aa64_sha256, ARM_HWCAP_A64_SHA2);
++    GET_FEATURE_ID(aa64_sha512, ARM_HWCAP_A64_SHA512);
++    GET_FEATURE_ID(aa64_crc32, ARM_HWCAP_A64_CRC32);
++    GET_FEATURE_ID(aa64_sha3, ARM_HWCAP_A64_SHA3);
++    GET_FEATURE_ID(aa64_sm3, ARM_HWCAP_A64_SM3);
++    GET_FEATURE_ID(aa64_sm4, ARM_HWCAP_A64_SM4);
+     GET_FEATURE(ARM_FEATURE_V8_FP16,
+                 ARM_HWCAP_A64_FPHP | ARM_HWCAP_A64_ASIMDHP);
+-    GET_FEATURE(ARM_FEATURE_V8_ATOMICS, ARM_HWCAP_A64_ATOMICS);
+-    GET_FEATURE(ARM_FEATURE_V8_RDM, ARM_HWCAP_A64_ASIMDRDM);
+-    GET_FEATURE(ARM_FEATURE_V8_DOTPROD, ARM_HWCAP_A64_ASIMDDP);
+-    GET_FEATURE(ARM_FEATURE_V8_FCMA, ARM_HWCAP_A64_FCMA);
++    GET_FEATURE_ID(aa64_atomics, ARM_HWCAP_A64_ATOMICS);
++    GET_FEATURE_ID(aa64_rdm, ARM_HWCAP_A64_ASIMDRDM);
++    GET_FEATURE_ID(aa64_dp, ARM_HWCAP_A64_ASIMDDP);
++    GET_FEATURE_ID(aa64_fcma, ARM_HWCAP_A64_FCMA);
+     GET_FEATURE(ARM_FEATURE_SVE, ARM_HWCAP_A64_SVE);
++
+ #undef GET_FEATURE
++#undef GET_FEATURE_ID
+     return hwcaps;
+ }
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.c
++++ b/target/arm/cpu.c
+@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
+         cortex_a15_initfn(obj);
+ #ifdef CONFIG_USER_ONLY
+         /* We don't set these in system emulation mode for the moment,
+-         * since we don't correctly set the ID registers to advertise them,
++         * since we don't correctly set (all of) the ID registers to
++         * advertise them.
+          */
+         set_feature(&cpu->env, ARM_FEATURE_V8);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_AES);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
+-        set_feature(&cpu->env, ARM_FEATURE_CRC);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_RDM);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_DOTPROD);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_FCMA);
++        {
++            uint32_t t;
++
++            t = cpu->isar.id_isar5;
++            t = FIELD_DP32(t, ID_ISAR5, AES, 2);
++            t = FIELD_DP32(t, ID_ISAR5, SHA1, 1);
++            t = FIELD_DP32(t, ID_ISAR5, SHA2, 1);
++            t = FIELD_DP32(t, ID_ISAR5, CRC32, 1);
++            t = FIELD_DP32(t, ID_ISAR5, RDM, 1);
++            t = FIELD_DP32(t, ID_ISAR5, VCMA, 1);
++            cpu->isar.id_isar5 = t;
++
++            t = cpu->isar.id_isar6;
++            t = FIELD_DP32(t, ID_ISAR6, DP, 1);
++            cpu->isar.id_isar6 = t;
++        }
+ #endif
+     }
+ }
+diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu64.c
++++ b/target/arm/cpu64.c
+@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
+     set_feature(&cpu->env, ARM_FEATURE_AARCH64);
+     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_AES);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
+-    set_feature(&cpu->env, ARM_FEATURE_CRC);
+     set_feature(&cpu->env, ARM_FEATURE_EL2);
+     set_feature(&cpu->env, ARM_FEATURE_EL3);
+     set_feature(&cpu->env, ARM_FEATURE_PMU);
+@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
+     set_feature(&cpu->env, ARM_FEATURE_AARCH64);
+     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_AES);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
+-    set_feature(&cpu->env, ARM_FEATURE_CRC);
+     set_feature(&cpu->env, ARM_FEATURE_EL2);
+     set_feature(&cpu->env, ARM_FEATURE_EL3);
+     set_feature(&cpu->env, ARM_FEATURE_PMU);
+@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
+     set_feature(&cpu->env, ARM_FEATURE_AARCH64);
+     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_AES);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
+-    set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
+-    set_feature(&cpu->env, ARM_FEATURE_CRC);
+     set_feature(&cpu->env, ARM_FEATURE_EL2);
+     set_feature(&cpu->env, ARM_FEATURE_EL3);
+     set_feature(&cpu->env, ARM_FEATURE_PMU);
+@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+     if (kvm_enabled()) {
+         kvm_arm_set_cpu_features_from_host(cpu);
+     } else {
++        uint64_t t;
++        uint32_t u;
+         aarch64_a57_initfn(obj);
++
++        t = cpu->isar.id_aa64isar0;
++        t = FIELD_DP64(t, ID_AA64ISAR0, AES, 2); /* AES + PMULL */
++        t = FIELD_DP64(t, ID_AA64ISAR0, SHA1, 1);
++        t = FIELD_DP64(t, ID_AA64ISAR0, SHA2, 2); /* SHA512 */
++        t = FIELD_DP64(t, ID_AA64ISAR0, CRC32, 1);
++        t = FIELD_DP64(t, ID_AA64ISAR0, ATOMIC, 2);
++        t = FIELD_DP64(t, ID_AA64ISAR0, RDM, 1);
++        t = FIELD_DP64(t, ID_AA64ISAR0, SHA3, 1);
++        t = FIELD_DP64(t, ID_AA64ISAR0, SM3, 1);
++        t = FIELD_DP64(t, ID_AA64ISAR0, SM4, 1);
++        t = FIELD_DP64(t, ID_AA64ISAR0, DP, 1);
++        cpu->isar.id_aa64isar0 = t;
++
++        t = cpu->isar.id_aa64isar1;
++        t = FIELD_DP64(t, ID_AA64ISAR1, FCMA, 1);
++        cpu->isar.id_aa64isar1 = t;
++
++        /* Replicate the same data to the 32-bit id registers.  */
++        u = cpu->isar.id_isar5;
++        u = FIELD_DP32(u, ID_ISAR5, AES, 2); /* AES + PMULL */
++        u = FIELD_DP32(u, ID_ISAR5, SHA1, 1);
++        u = FIELD_DP32(u, ID_ISAR5, SHA2, 1);
++        u = FIELD_DP32(u, ID_ISAR5, CRC32, 1);
++        u = FIELD_DP32(u, ID_ISAR5, RDM, 1);
++        u = FIELD_DP32(u, ID_ISAR5, VCMA, 1);
++        cpu->isar.id_isar5 = u;
++
++        u = cpu->isar.id_isar6;
++        u = FIELD_DP32(u, ID_ISAR6, DP, 1);
++        cpu->isar.id_isar6 = u;
++
+ #ifdef CONFIG_USER_ONLY
+         /* We don't set these in system emulation mode for the moment,
+          * since we don't correctly set the ID registers to advertise them,
+@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+          * whereas the architecture requires them to be present in both if
+          * present in either.
+          */
+-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA512);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA3);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_SM3);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_SM4);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_ATOMICS);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_RDM);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_DOTPROD);
+         set_feature(&cpu->env, ARM_FEATURE_V8_FP16);
+-        set_feature(&cpu->env, ARM_FEATURE_V8_FCMA);
+         set_feature(&cpu->env, ARM_FEATURE_SVE);
+         /* For usermode -cpu max we can use a larger and more efficient DCZ
+          * blocksize since we don't have to follow what the hardware does.
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-a64.c
++++ b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
+         }
+         if (rt2 == 31
+             && ((rt | rs) & 1) == 0
+-            && arm_dc_feature(s, ARM_FEATURE_V8_ATOMICS)) {
++            && dc_isar_feature(aa64_atomics, s)) {
+             /* CASP / CASPL */
+             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
+             return;
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
+         }
+         if (rt2 == 31
+             && ((rt | rs) & 1) == 0
+-            && arm_dc_feature(s, ARM_FEATURE_V8_ATOMICS)) {
++            && dc_isar_feature(aa64_atomics, s)) {
+             /* CASPA / CASPAL */
+             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
+             return;
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
+     case 0xb: /* CASL */
+     case 0xe: /* CASA */
+     case 0xf: /* CASAL */
+-        if (rt2 == 31 && arm_dc_feature(s, ARM_FEATURE_V8_ATOMICS)) {
++        if (rt2 == 31 && dc_isar_feature(aa64_atomics, s)) {
+             gen_compare_and_swap(s, rs, rt, rn, size);
+             return;
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
+     int rs = extract32(insn, 16, 5);
+     int rn = extract32(insn, 5, 5);
+     int o3_opc = extract32(insn, 12, 4);
+-    int feature = ARM_FEATURE_V8_ATOMICS;
+     TCGv_i64 tcg_rn, tcg_rs;
+     AtomicThreeOpFn *fn;
+-    if (is_vector) {
++    if (is_vector || !dc_isar_feature(aa64_atomics, s)) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
+         unallocated_encoding(s);
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+     if (rn == 31) {
+         gen_check_sp_alignment(s);
+@@ -XXX,XX +XXX,XX @@ static void handle_crc32(DisasContext *s,
+     TCGv_i64 tcg_acc, tcg_val;
+     TCGv_i32 tcg_bytes;
+-    if (!arm_dc_feature(s, ARM_FEATURE_CRC)
++    if (!dc_isar_feature(aa64_crc32, s)
+         || (sf == 1 && sz != 3)
+         || (sf == 0 && sz == 3)) {
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_extra(DisasContext *s,
+     bool u = extract32(insn, 29, 1);
+     TCGv_i32 ele1, ele2, ele3;
+     TCGv_i64 res;
+-    int feature;
++    bool feature;
+     switch (u * 16 + opcode) {
+     case 0x10: /* SQRDMLAH (vector) */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_extra(DisasContext *s,
+             unallocated_encoding(s);
+             return;
+         }
+-        feature = ARM_FEATURE_V8_RDM;
++        feature = dc_isar_feature(aa64_rdm, s);
+         break;
+     default:
+         unallocated_encoding(s);
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
+             return;
+         }
+         if (size == 3) {
+-            if (!arm_dc_feature(s, ARM_FEATURE_V8_PMULL)) {
++            if (!dc_isar_feature(aa64_pmull, s)) {
+                 unallocated_encoding(s);
+                 return;
+             }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
+     int size = extract32(insn, 22, 2);
+     bool u = extract32(insn, 29, 1);
+     bool is_q = extract32(insn, 30, 1);
+-    int feature, rot;
++    bool feature;
++    int rot;
+     switch (u * 16 + opcode) {
+     case 0x10: /* SQRDMLAH (vector) */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
+             unallocated_encoding(s);
+             return;
+         }
+-        feature = ARM_FEATURE_V8_RDM;
++        feature = dc_isar_feature(aa64_rdm, s);
+         break;
+     case 0x02: /* SDOT (vector) */
+     case 0x12: /* UDOT (vector) */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
+             unallocated_encoding(s);
+             return;
+         }
+-        feature = ARM_FEATURE_V8_DOTPROD;
++        feature = dc_isar_feature(aa64_dp, s);
+         break;
+     case 0x18: /* FCMLA, #0 */
+     case 0x19: /* FCMLA, #90 */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
+             unallocated_encoding(s);
+             return;
+         }
+-        feature = ARM_FEATURE_V8_FCMA;
++        feature = dc_isar_feature(aa64_fcma, s);
+         break;
+     default:
+         unallocated_encoding(s);
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+         break;
+     case 0x1d: /* SQRDMLAH */
+     case 0x1f: /* SQRDMLSH */
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_RDM)) {
++        if (!dc_isar_feature(aa64_rdm, s)) {
+             unallocated_encoding(s);
+             return;
+         }
+         break;
+     case 0x0e: /* SDOT */
+     case 0x1e: /* UDOT */
+-        if (size != MO_32 || !arm_dc_feature(s, ARM_FEATURE_V8_DOTPROD)) {
++        if (size != MO_32 || !dc_isar_feature(aa64_dp, s)) {
+             unallocated_encoding(s);
+             return;
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     case 0x13: /* FCMLA #90 */
+     case 0x15: /* FCMLA #180 */
+     case 0x17: /* FCMLA #270 */
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)) {
++        if (!dc_isar_feature(aa64_fcma, s)) {
+             unallocated_encoding(s);
+             return;
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_aes(DisasContext *s, uint32_t insn)
+     TCGv_i32 tcg_decrypt;
+     CryptoThreeOpIntFn *genfn;
+-    if (!arm_dc_feature(s, ARM_FEATURE_V8_AES)
+-        || size != 0) {
++    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
+     int rd = extract32(insn, 0, 5);
+     CryptoThreeOpFn *genfn;
+     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr, tcg_rm_ptr;
+-    int feature = ARM_FEATURE_V8_SHA256;
++    bool feature;
+     if (size != 0) {
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
+     case 2: /* SHA1M */
+     case 3: /* SHA1SU0 */
+         genfn = NULL;
+-        feature = ARM_FEATURE_V8_SHA1;
++        feature = dc_isar_feature(aa64_sha1, s);
+         break;
+     case 4: /* SHA256H */
+         genfn = gen_helper_crypto_sha256h;
++        feature = dc_isar_feature(aa64_sha256, s);
+         break;
+     case 5: /* SHA256H2 */
+         genfn = gen_helper_crypto_sha256h2;
++        feature = dc_isar_feature(aa64_sha256, s);
+         break;
+     case 6: /* SHA256SU1 */
+         genfn = gen_helper_crypto_sha256su1;
++        feature = dc_isar_feature(aa64_sha256, s);
+         break;
+     default:
+         unallocated_encoding(s);
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+     int rn = extract32(insn, 5, 5);
+     int rd = extract32(insn, 0, 5);
+     CryptoTwoOpFn *genfn;
+-    int feature;
++    bool feature;
+     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr;
+     if (size != 0) {
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+     switch (opcode) {
+     case 0: /* SHA1H */
+-        feature = ARM_FEATURE_V8_SHA1;
++        feature = dc_isar_feature(aa64_sha1, s);
+         genfn = gen_helper_crypto_sha1h;
+         break;
+     case 1: /* SHA1SU1 */
+-        feature = ARM_FEATURE_V8_SHA1;
++        feature = dc_isar_feature(aa64_sha1, s);
+         genfn = gen_helper_crypto_sha1su1;
+         break;
+     case 2: /* SHA256SU0 */
+-        feature = ARM_FEATURE_V8_SHA256;
++        feature = dc_isar_feature(aa64_sha256, s);
+         genfn = gen_helper_crypto_sha256su0;
+         break;
+     default:
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
+     int rm = extract32(insn, 16, 5);
+     int rn = extract32(insn, 5, 5);
+     int rd = extract32(insn, 0, 5);
+-    int feature;
++    bool feature;
+     CryptoThreeOpFn *genfn;
+     if (o == 0) {
+         switch (opcode) {
+         case 0: /* SHA512H */
+-            feature = ARM_FEATURE_V8_SHA512;
++            feature = dc_isar_feature(aa64_sha512, s);
+             genfn = gen_helper_crypto_sha512h;
+             break;
+         case 1: /* SHA512H2 */
+-            feature = ARM_FEATURE_V8_SHA512;
++            feature = dc_isar_feature(aa64_sha512, s);
+             genfn = gen_helper_crypto_sha512h2;
+             break;
+         case 2: /* SHA512SU1 */
+-            feature = ARM_FEATURE_V8_SHA512;
++            feature = dc_isar_feature(aa64_sha512, s);
+             genfn = gen_helper_crypto_sha512su1;
+             break;
+         case 3: /* RAX1 */
+-            feature = ARM_FEATURE_V8_SHA3;
++            feature = dc_isar_feature(aa64_sha3, s);
+             genfn = NULL;
+             break;
+         }
+     } else {
+         switch (opcode) {
+         case 0: /* SM3PARTW1 */
+-            feature = ARM_FEATURE_V8_SM3;
++            feature = dc_isar_feature(aa64_sm3, s);
+             genfn = gen_helper_crypto_sm3partw1;
+             break;
+         case 1: /* SM3PARTW2 */
+-            feature = ARM_FEATURE_V8_SM3;
++            feature = dc_isar_feature(aa64_sm3, s);
+             genfn = gen_helper_crypto_sm3partw2;
+             break;
+         case 2: /* SM4EKEY */
+-            feature = ARM_FEATURE_V8_SM4;
++            feature = dc_isar_feature(aa64_sm4, s);
+             genfn = gen_helper_crypto_sm4ekey;
+             break;
+         default:
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
+         }
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
+     int rn = extract32(insn, 5, 5);
+     int rd = extract32(insn, 0, 5);
+     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr;
+-    int feature;
++    bool feature;
+     CryptoTwoOpFn *genfn;
+     switch (opcode) {
+     case 0: /* SHA512SU0 */
+-        feature = ARM_FEATURE_V8_SHA512;
++        feature = dc_isar_feature(aa64_sha512, s);
+         genfn = gen_helper_crypto_sha512su0;
+         break;
+     case 1: /* SM4E */
+-        feature = ARM_FEATURE_V8_SM4;
++        feature = dc_isar_feature(aa64_sm4, s);
+         genfn = gen_helper_crypto_sm4e;
+         break;
+     default:
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
+     int ra = extract32(insn, 10, 5);
+     int rn = extract32(insn, 5, 5);
+     int rd = extract32(insn, 0, 5);
+-    int feature;
++    bool feature;
+     switch (op0) {
+     case 0: /* EOR3 */
+     case 1: /* BCAX */
+-        feature = ARM_FEATURE_V8_SHA3;
++        feature = dc_isar_feature(aa64_sha3, s);
+         break;
+     case 2: /* SM3SS1 */
+-        feature = ARM_FEATURE_V8_SM3;
++        feature = dc_isar_feature(aa64_sm3, s);
+         break;
+     default:
+         unallocated_encoding(s);
+         return;
+     }
+-    if (!arm_dc_feature(s, feature)) {
++    if (!feature) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_xar(DisasContext *s, uint32_t insn)
+     TCGv_i64 tcg_op1, tcg_op2, tcg_res[2];
+     int pass;
+-    if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA3)) {
++    if (!dc_isar_feature(aa64_sha3, s)) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
+     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr, tcg_rm_ptr;
+     TCGv_i32 tcg_imm2, tcg_opcode;
+-    if (!arm_dc_feature(s, ARM_FEATURE_V8_SM3)) {
++    if (!dc_isar_feature(aa64_sm3, s)) {
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
+     ARMCPU *arm_cpu = arm_env_get_cpu(env);
+     int bound;
++    dc->isar = &arm_cpu->isar;
+     dc->pc = dc->base.pc_first;
+     dc->condjmp = 0;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
+ static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
+                          int q, int rd, int rn, int rm)
+ {
+-    if (arm_dc_feature(s, ARM_FEATURE_V8_RDM)) {
++    if (dc_isar_feature(aa32_rdm, s)) {
+         int opr_sz = (1 + q) * 8;
+         tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd),
+                            vfp_reg_offset(1, rn),
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 return 1;
+             }
+             if (!u) { /* SHA-1 */
+-                if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)) {
++                if (!dc_isar_feature(aa32_sha1, s)) {
+                     return 1;
+                 }
+                 ptr1 = vfp_reg_ptr(true, rd);
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp4);
+                 tcg_temp_free_i32(tmp4);
+             } else { /* SHA-256 */
+-                if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA256) || size == 3) {
++                if (!dc_isar_feature(aa32_sha2, s) || size == 3) {
+                     return 1;
+                 }
+                 ptr1 = vfp_reg_ptr(true, rd);
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 if (op == 14 && size == 2) {
+                     TCGv_i64 tcg_rn, tcg_rm, tcg_rd;
+-                    if (!arm_dc_feature(s, ARM_FEATURE_V8_PMULL)) {
++                    if (!dc_isar_feature(aa32_pmull, s)) {
+                         return 1;
+                     }
+                     tcg_rn = tcg_temp_new_i64();
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                     {
+                         NeonGenThreeOpEnvFn *fn;
+-                        if (!arm_dc_feature(s, ARM_FEATURE_V8_RDM)) {
++                        if (!dc_isar_feature(aa32_rdm, s)) {
+                             return 1;
+                         }
+                         if (u && ((rd | rn) & 1)) {
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                     break;
+                 }
+                 case NEON_2RM_AESE: case NEON_2RM_AESMC:
+-                    if (!arm_dc_feature(s, ARM_FEATURE_V8_AES)
+-                        || ((rm | rd) & 1)) {
++                    if (!dc_isar_feature(aa32_aes, s) || ((rm | rd) & 1)) {
+                         return 1;
+                     }
+                     ptr1 = vfp_reg_ptr(true, rd);
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                     tcg_temp_free_i32(tmp3);
+                     break;
+                 case NEON_2RM_SHA1H:
+-                    if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)
+-                        || ((rm | rd) & 1)) {
++                    if (!dc_isar_feature(aa32_sha1, s) || ((rm | rd) & 1)) {
+                         return 1;
+                     }
+                     ptr1 = vfp_reg_ptr(true, rd);
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                     }
+                     /* bit 6 (q): set -> SHA256SU0, cleared -> SHA1SU1 */
+                     if (q) {
+-                        if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA256)) {
++                        if (!dc_isar_feature(aa32_sha2, s)) {
+                             return 1;
+                         }
+-                    } else if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)) {
++                    } else if (!dc_isar_feature(aa32_sha1, s)) {
+                         return 1;
+                     }
+                     ptr1 = vfp_reg_ptr(true, rd);
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
+         /* VCMLA -- 1111 110R R.1S .... .... 1000 ...0 .... */
+         int size = extract32(insn, 20, 1);
+         data = extract32(insn, 23, 2); /* rot */
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)
++        if (!dc_isar_feature(aa32_vcma, s)
+             || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
+             return 1;
+         }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
+         /* VCADD -- 1111 110R 1.0S .... .... 1000 ...0 .... */
+         int size = extract32(insn, 20, 1);
+         data = extract32(insn, 24, 1); /* rot */
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)
++        if (!dc_isar_feature(aa32_vcma, s)
+             || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
+             return 1;
+         }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
+     } else if ((insn & 0xfeb00f00) == 0xfc200d00) {
+         /* V[US]DOT -- 1111 1100 0.10 .... .... 1101 .Q.U .... */
+         bool u = extract32(insn, 4, 1);
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_DOTPROD)) {
++        if (!dc_isar_feature(aa32_dp, s)) {
+             return 1;
+         }
+         fn_gvec = u ? gen_helper_gvec_udot_b : gen_helper_gvec_sdot_b;
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
+         int size = extract32(insn, 23, 1);
+         int index;
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)) {
++        if (!dc_isar_feature(aa32_vcma, s)) {
+             return 1;
+         }
+         if (size == 0) {
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
+     } else if ((insn & 0xffb00f00) == 0xfe200d00) {
+         /* V[US]DOT -- 1111 1110 0.10 .... .... 1101 .Q.U .... */
+         int u = extract32(insn, 4, 1);
+-        if (!arm_dc_feature(s, ARM_FEATURE_V8_DOTPROD)) {
++        if (!dc_isar_feature(aa32_dp, s)) {
+             return 1;
+         }
+         fn_gvec = u ? gen_helper_gvec_udot_idx_b : gen_helper_gvec_sdot_idx_b;
+@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
+              * op1 == 3 is UNPREDICTABLE but handle as UNDEFINED.
+              * Bits 8, 10 and 11 should be zero.
+              */
+-            if (!arm_dc_feature(s, ARM_FEATURE_CRC) || op1 == 0x3 ||
+-                (c & 0xd) != 0) {
++            if (!dc_isar_feature(aa32_crc32, s) || op1 == 0x3 || (c & 0xd) != 0) {
+                 goto illegal_op;
+             }
+@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+                 case 0x28:
+                 case 0x29:
+                 case 0x2a:
+-                    if (!arm_dc_feature(s, ARM_FEATURE_CRC)) {
++                    if (!dc_isar_feature(aa32_crc32, s)) {
+                         goto illegal_op;
+                     }
+                     break;
 @@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
-     dc->v7m_handler_mode = ARM_TBFLAG_HANDLER(dc->base.tb->flags);
+     CPUARMState *env = cs->env_ptr;
-     dc->v8m_secure = arm_feature(env, ARM_FEATURE_M_SECURITY) &&
+     ARMCPU *cpu = arm_env_get_cpu(env);
-         regime_is_secure(env, dc->mmu_idx);
-+    dc->v8m_stackcheck = ARM_TBFLAG_STACKCHECK(dc->base.tb->flags);
++    dc->isar = &cpu->isar;
-     dc->cp_regs = cpu->cp_regs;
+     dc->pc = dc->base.pc_first;
-     dc->features = env->features;
+     dc->condjmp = 0;
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 16/33] target/arm: Rewrite vector gather loads
+[Qemu-devel] [PULL 06/45] target/arm: Convert division from feature bits to isar0 tests
 From: Richard Henderson <richard.henderson@linaro.org>
-This fixes the endianness problem for softmmu, and moves
+Both arm and thumb2 division are controlled by the same ISAR field,
-the main loop out of a macro and into an inlined function.
+which takes care of the arm implies thumb case.  Having M imply
 thumb2 division was wrong for cortex-m0, which is v6m and does not
 have thumb2 at all, much less thumb2 division.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181016223115.24100-5-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    |  84 +++++++++----
+ target/arm/cpu.h       | 12 ++++++++++--
- target/arm/sve_helper.c    | 225 ++++++++++++++++++++++++----------
+ linux-user/elfload.c   |  4 ++--
- target/arm/translate-sve.c | 244 +++++++++++++++++++++++++------------
+ target/arm/cpu.c       | 10 +---------
-files changed, 386 insertions(+), 167 deletions(-)
+ target/arm/translate.c |  4 ++--
 files changed, 15 insertions(+), 15 deletions(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/cpu.h
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_st1sd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+@@ -XXX,XX +XXX,XX @@ enum arm_features {
+     ARM_FEATURE_VFP3,
- DEF_HELPER_FLAGS_6(sve_ldbsu_zsu, TCG_CALL_NO_WG,
+     ARM_FEATURE_VFP_FP16,
-                    void, env, ptr, ptr, ptr, tl, i32)
+     ARM_FEATURE_NEON,
--DEF_HELPER_FLAGS_6(sve_ldhsu_zsu, TCG_CALL_NO_WG,
+-    ARM_FEATURE_THUMB_DIV, /* divide supported in Thumb encoding */
-+DEF_HELPER_FLAGS_6(sve_ldhsu_le_zsu, TCG_CALL_NO_WG,
+     ARM_FEATURE_M, /* Microcontroller profile.  */
-                    void, env, ptr, ptr, ptr, tl, i32)
+     ARM_FEATURE_OMAPCP, /* OMAP specific CP15 ops handling.  */
--DEF_HELPER_FLAGS_6(sve_ldssu_zsu, TCG_CALL_NO_WG,
+     ARM_FEATURE_THUMB2EE,
-+DEF_HELPER_FLAGS_6(sve_ldhsu_be_zsu, TCG_CALL_NO_WG,
+@@ -XXX,XX +XXX,XX @@ enum arm_features {
-+                   void, env, ptr, ptr, ptr, tl, i32)
+     ARM_FEATURE_V5,
-+DEF_HELPER_FLAGS_6(sve_ldss_le_zsu, TCG_CALL_NO_WG,
+     ARM_FEATURE_STRONGARM,
-+                   void, env, ptr, ptr, ptr, tl, i32)
+     ARM_FEATURE_VAPA, /* cp15 VA to PA lookups */
-+DEF_HELPER_FLAGS_6(sve_ldss_be_zsu, TCG_CALL_NO_WG,
+-    ARM_FEATURE_ARM_DIV, /* divide supported in ARM encoding */
-                    void, env, ptr, ptr, ptr, tl, i32)
+     ARM_FEATURE_VFP4, /* VFPv4 (implies that NEON is v2) */
- DEF_HELPER_FLAGS_6(sve_ldbss_zsu, TCG_CALL_NO_WG,
+     ARM_FEATURE_GENERIC_TIMER,
-                    void, env, ptr, ptr, ptr, tl, i32)
+     ARM_FEATURE_MVFR, /* Media and VFP Feature Registers 0 and 1 */
--DEF_HELPER_FLAGS_6(sve_ldhss_zsu, TCG_CALL_NO_WG,
+@@ -XXX,XX +XXX,XX @@ extern const uint64_t pred_esz_masks[4];
-+DEF_HELPER_FLAGS_6(sve_ldhss_le_zsu, TCG_CALL_NO_WG,
+ /*
-+                   void, env, ptr, ptr, ptr, tl, i32)
+  * 32-bit feature tests via id registers.
-+DEF_HELPER_FLAGS_6(sve_ldhss_be_zsu, TCG_CALL_NO_WG,
+  */
-                    void, env, ptr, ptr, ptr, tl, i32)
++static inline bool isar_feature_thumb_div(const ARMISARegisters *id)
  DEF_HELPER_FLAGS_6(sve_ldbsu_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhsu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhsu_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldssu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhsu_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldss_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldss_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbss_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhss_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhss_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldhss_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbdu_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhdu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhdu_le_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldsdu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhdu_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldddu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldsdu_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsdu_be_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_lddd_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_lddd_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbds_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhds_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhds_le_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldsds_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhds_be_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsds_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsds_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbdu_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhdu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhdu_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldsdu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhdu_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldddu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldsdu_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsdu_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_lddd_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_lddd_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbds_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhds_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhds_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldsds_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhds_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsds_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsds_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbdu_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhdu_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhdu_le_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldsdu_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhdu_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldddu_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldsdu_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsdu_be_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_lddd_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_lddd_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbds_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldhds_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhds_le_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldsds_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldhds_be_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsds_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldsds_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbsu_zsu, TCG_CALL_NO_WG,
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_STN_2(4, dd, 8, 8)
  #undef DO_STN_1
  #undef DO_STN_2
 -/* Loads with a vector index.  */
 +/*
 + * Loads with a vector index.
 + */
 -#define DO_LD1_ZPZ_S(NAME, TYPEI, TYPEM, FN)                            \
 -void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
 -                  target_ulong base, uint32_t desc)                     \
 -{                                                                       \
 -    intptr_t i, oprsz = simd_oprsz(desc);                               \
 -    unsigned scale = simd_data(desc);                                   \
 -    uintptr_t ra = GETPC();                                             \
 -    for (i = 0; i < oprsz; ) {                                          \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
 -        do {                                                            \
 -            TYPEM m = 0;                                                \
 -            if (pg & 1) {                                               \
 -                target_ulong off = *(TYPEI *)(vm + H1_4(i));            \
 -                m = FN(env, base + (off << scale), ra);                 \
 -            }                                                           \
 -            *(uint32_t *)(vd + H1_4(i)) = m;                            \
 -            i += 4, pg >>= 4;                                           \
 -        } while (i & 15);                                               \
 -    }                                                                   \
 +/*
 + * Load the element at @reg + @reg_ofs, sign or zero-extend as needed.
 + */
 +typedef target_ulong zreg_off_fn(void *reg, intptr_t reg_ofs);
 +
 +static target_ulong off_zsu_s(void *reg, intptr_t reg_ofs)
 +{
-+    return *(uint32_t *)(reg + H1_4(reg_ofs));
++    return FIELD_EX32(id->id_isar0, ID_ISAR0, DIVIDE) != 0;
  }
 -#define DO_LD1_ZPZ_D(NAME, TYPEI, TYPEM, FN)                            \
 -void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
 -                  target_ulong base, uint32_t desc)                     \
 -{                                                                       \
 -    intptr_t i, oprsz = simd_oprsz(desc) / 8;                           \
 -    unsigned scale = simd_data(desc);                                   \
 -    uintptr_t ra = GETPC();                                             \
 -    uint64_t *d = vd, *m = vm; uint8_t *pg = vg;                        \
 -    for (i = 0; i < oprsz; i++) {                                       \
 -        TYPEM mm = 0;                                                   \
 -        if (pg[H1(i)] & 1) {                                            \
 -            target_ulong off = (TYPEI)m[i];                             \
 -            mm = FN(env, base + (off << scale), ra);                    \
 -        }                                                               \
 -        d[i] = mm;                                                      \
 -    }                                                                   \
 +static target_ulong off_zss_s(void *reg, intptr_t reg_ofs)
 +{
 +    return *(int32_t *)(reg + H1_4(reg_ofs));
  }
 -DO_LD1_ZPZ_S(sve_ldbsu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LD1_ZPZ_S(sve_ldhsu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LD1_ZPZ_S(sve_ldssu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LD1_ZPZ_S(sve_ldbss_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LD1_ZPZ_S(sve_ldhss_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
 +static target_ulong off_zsu_d(void *reg, intptr_t reg_ofs)
 +{
 +    return (uint32_t)*(uint64_t *)(reg + reg_ofs);
 +}
 -DO_LD1_ZPZ_S(sve_ldbsu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LD1_ZPZ_S(sve_ldhsu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LD1_ZPZ_S(sve_ldssu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LD1_ZPZ_S(sve_ldbss_zss, int32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LD1_ZPZ_S(sve_ldhss_zss, int32_t, int16_t,  cpu_lduw_data_ra)
 +static target_ulong off_zss_d(void *reg, intptr_t reg_ofs)
 +{
 +    return (int32_t)*(uint64_t *)(reg + reg_ofs);
 +}
 -DO_LD1_ZPZ_D(sve_ldbdu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LD1_ZPZ_D(sve_ldhdu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LD1_ZPZ_D(sve_ldsdu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LD1_ZPZ_D(sve_ldddu_zsu, uint32_t, uint64_t, cpu_ldq_data_ra)
 -DO_LD1_ZPZ_D(sve_ldbds_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LD1_ZPZ_D(sve_ldhds_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
 -DO_LD1_ZPZ_D(sve_ldsds_zsu, uint32_t, int32_t,  cpu_ldl_data_ra)
 +static target_ulong off_zd_d(void *reg, intptr_t reg_ofs)
 +{
 +    return *(uint64_t *)(reg + reg_ofs);
 +}
 -DO_LD1_ZPZ_D(sve_ldbdu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LD1_ZPZ_D(sve_ldhdu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LD1_ZPZ_D(sve_ldsdu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LD1_ZPZ_D(sve_ldddu_zss, int32_t, uint64_t, cpu_ldq_data_ra)
 -DO_LD1_ZPZ_D(sve_ldbds_zss, int32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LD1_ZPZ_D(sve_ldhds_zss, int32_t, int16_t,  cpu_lduw_data_ra)
 -DO_LD1_ZPZ_D(sve_ldsds_zss, int32_t, int32_t,  cpu_ldl_data_ra)
 +static void sve_ld1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
 +                       target_ulong base, uint32_t desc, uintptr_t ra,
 +                       zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 +{
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +    unsigned scale = simd_data(desc);
 +    ARMVectorReg scratch = { };
 -DO_LD1_ZPZ_D(sve_ldbdu_zd, uint64_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LD1_ZPZ_D(sve_ldhdu_zd, uint64_t, uint16_t, cpu_lduw_data_ra)
 -DO_LD1_ZPZ_D(sve_ldsdu_zd, uint64_t, uint32_t, cpu_ldl_data_ra)
 -DO_LD1_ZPZ_D(sve_ldddu_zd, uint64_t, uint64_t, cpu_ldq_data_ra)
 -DO_LD1_ZPZ_D(sve_ldbds_zd, uint64_t, int8_t,   cpu_ldub_data_ra)
 -DO_LD1_ZPZ_D(sve_ldhds_zd, uint64_t, int16_t,  cpu_lduw_data_ra)
 -DO_LD1_ZPZ_D(sve_ldsds_zd, uint64_t, int32_t,  cpu_ldl_data_ra)
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (likely(pg & 1)) {
 +                target_ulong off = off_fn(vm, i);
 +                tlb_fn(env, &scratch, i, base + (off << scale), mmu_idx, ra);
 +            }
 +            i += 4, pg >>= 4;
 +        } while (i & 15);
 +    }
 +    set_helper_retaddr(0);
 +
 +    /* Wait until all exceptions have been raised to write back.  */
 +    memcpy(vd, &scratch, oprsz);
 +}
 +
-+static void sve_ld1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
++static inline bool isar_feature_arm_div(const ARMISARegisters *id)
 +                       target_ulong base, uint32_t desc, uintptr_t ra,
 +                       zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 +{
-+    const int mmu_idx = cpu_mmu_index(env, false);
++    return FIELD_EX32(id->id_isar0, ID_ISAR0, DIVIDE) > 1;
 +    intptr_t i, oprsz = simd_oprsz(desc) / 8;
 +    unsigned scale = simd_data(desc);
 +    ARMVectorReg scratch = { };
 +
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; i++) {
 +        uint8_t pg = *(uint8_t *)(vg + H1(i));
 +        if (likely(pg & 1)) {
 +            target_ulong off = off_fn(vm, i * 8);
 +            tlb_fn(env, &scratch, i * 8, base + (off << scale), mmu_idx, ra);
 +        }
 +    }
 +    set_helper_retaddr(0);
 +
 +    /* Wait until all exceptions have been raised to write back.  */
 +    memcpy(vd, &scratch, oprsz * 8);
 +}
 +
-+#define DO_LD1_ZPZ_S(MEM, OFS) \
+ static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
-+void __attribute__((flatten)) HELPER(sve_ld##MEM##_##OFS)    \
+ {
-+    (CPUARMState *env, void *vd, void *vg, void *vm,         \
+     return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
-+     target_ulong base, uint32_t desc)                       \
+diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 +{                                                            \
 +    sve_ld1_zs(env, vd, vg, vm, base, desc, GETPC(),         \
 +              off_##OFS##_s, sve_ld1##MEM##_tlb);            \
 +}
 +
 +#define DO_LD1_ZPZ_D(MEM, OFS) \
 +void __attribute__((flatten)) HELPER(sve_ld##MEM##_##OFS)    \
 +    (CPUARMState *env, void *vd, void *vg, void *vm,         \
 +     target_ulong base, uint32_t desc)                       \
 +{                                                            \
 +    sve_ld1_zd(env, vd, vg, vm, base, desc, GETPC(),         \
 +               off_##OFS##_d, sve_ld1##MEM##_tlb);           \
 +}
 +
 +DO_LD1_ZPZ_S(bsu, zsu)
 +DO_LD1_ZPZ_S(bsu, zss)
 +DO_LD1_ZPZ_D(bdu, zsu)
 +DO_LD1_ZPZ_D(bdu, zss)
 +DO_LD1_ZPZ_D(bdu, zd)
 +
 +DO_LD1_ZPZ_S(bss, zsu)
 +DO_LD1_ZPZ_S(bss, zss)
 +DO_LD1_ZPZ_D(bds, zsu)
 +DO_LD1_ZPZ_D(bds, zss)
 +DO_LD1_ZPZ_D(bds, zd)
 +
 +DO_LD1_ZPZ_S(hsu_le, zsu)
 +DO_LD1_ZPZ_S(hsu_le, zss)
 +DO_LD1_ZPZ_D(hdu_le, zsu)
 +DO_LD1_ZPZ_D(hdu_le, zss)
 +DO_LD1_ZPZ_D(hdu_le, zd)
 +
 +DO_LD1_ZPZ_S(hsu_be, zsu)
 +DO_LD1_ZPZ_S(hsu_be, zss)
 +DO_LD1_ZPZ_D(hdu_be, zsu)
 +DO_LD1_ZPZ_D(hdu_be, zss)
 +DO_LD1_ZPZ_D(hdu_be, zd)
 +
 +DO_LD1_ZPZ_S(hss_le, zsu)
 +DO_LD1_ZPZ_S(hss_le, zss)
 +DO_LD1_ZPZ_D(hds_le, zsu)
 +DO_LD1_ZPZ_D(hds_le, zss)
 +DO_LD1_ZPZ_D(hds_le, zd)
 +
 +DO_LD1_ZPZ_S(hss_be, zsu)
 +DO_LD1_ZPZ_S(hss_be, zss)
 +DO_LD1_ZPZ_D(hds_be, zsu)
 +DO_LD1_ZPZ_D(hds_be, zss)
 +DO_LD1_ZPZ_D(hds_be, zd)
 +
 +DO_LD1_ZPZ_S(ss_le, zsu)
 +DO_LD1_ZPZ_S(ss_le, zss)
 +DO_LD1_ZPZ_D(sdu_le, zsu)
 +DO_LD1_ZPZ_D(sdu_le, zss)
 +DO_LD1_ZPZ_D(sdu_le, zd)
 +
 +DO_LD1_ZPZ_S(ss_be, zsu)
 +DO_LD1_ZPZ_S(ss_be, zss)
 +DO_LD1_ZPZ_D(sdu_be, zsu)
 +DO_LD1_ZPZ_D(sdu_be, zss)
 +DO_LD1_ZPZ_D(sdu_be, zd)
 +
 +DO_LD1_ZPZ_D(sds_le, zsu)
 +DO_LD1_ZPZ_D(sds_le, zss)
 +DO_LD1_ZPZ_D(sds_le, zd)
 +
 +DO_LD1_ZPZ_D(sds_be, zsu)
 +DO_LD1_ZPZ_D(sds_be, zss)
 +DO_LD1_ZPZ_D(sds_be, zd)
 +
 +DO_LD1_ZPZ_D(dd_le, zsu)
 +DO_LD1_ZPZ_D(dd_le, zss)
 +DO_LD1_ZPZ_D(dd_le, zd)
 +
 +DO_LD1_ZPZ_D(dd_be, zsu)
 +DO_LD1_ZPZ_D(dd_be, zss)
 +DO_LD1_ZPZ_D(dd_be, zd)
 +
 +#undef DO_LD1_ZPZ_S
 +#undef DO_LD1_ZPZ_D
  /* First fault loads with a vector index.  */
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/linux-user/elfload.c
-+++ b/target/arm/translate-sve.c
++++ b/linux-user/elfload.c
-@@ -XXX,XX +XXX,XX @@ static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm, int scale,
+@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
-     tcg_temp_free_i32(desc);
+     GET_FEATURE(ARM_FEATURE_VFP3, ARM_HWCAP_ARM_VFPv3);
- }
+     GET_FEATURE(ARM_FEATURE_V6K, ARM_HWCAP_ARM_TLS);
+     GET_FEATURE(ARM_FEATURE_VFP4, ARM_HWCAP_ARM_VFPv4);
--/* Indexed by [ff][xs][u][msz].  */
+-    GET_FEATURE(ARM_FEATURE_ARM_DIV, ARM_HWCAP_ARM_IDIVA);
--static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][3] = {
+-    GET_FEATURE(ARM_FEATURE_THUMB_DIV, ARM_HWCAP_ARM_IDIVT);
--    { { { gen_helper_sve_ldbss_zsu,
++    GET_FEATURE_ID(arm_div, ARM_HWCAP_ARM_IDIVA);
--          gen_helper_sve_ldhss_zsu,
++    GET_FEATURE_ID(thumb_div, ARM_HWCAP_ARM_IDIVT);
--          NULL, },
+     /* All QEMU's VFPv3 CPUs have 32 registers, see VFP_DREG in translate.c.
--        { gen_helper_sve_ldbsu_zsu,
+      * Note that the ARM_HWCAP_ARM_VFPv3D16 bit is always the inverse of
--          gen_helper_sve_ldhsu_zsu,
+      * ARM_HWCAP_ARM_VFPD32 (and so always clear for QEMU); it is unrelated
--          gen_helper_sve_ldssu_zsu, } },
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
--      { { gen_helper_sve_ldbss_zss,
+index XXXXXXX..XXXXXXX 100644
--          gen_helper_sve_ldhss_zss,
+--- a/target/arm/cpu.c
--          NULL, },
++++ b/target/arm/cpu.c
--        { gen_helper_sve_ldbsu_zss,
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
--          gen_helper_sve_ldhsu_zss,
+          * Presence of EL2 itself is ARM_FEATURE_EL2, and of the
--          gen_helper_sve_ldssu_zss, } } },
+          * Security Extensions is ARM_FEATURE_EL3.
-+/* Indexed by [be][ff][xs][u][msz].  */
+          */
-+static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][2][3] = {
+-        set_feature(env, ARM_FEATURE_ARM_DIV);
-+    /* Little-endian */
++        assert(cpu_isar_feature(arm_div, cpu));
-+    { { { { gen_helper_sve_ldbss_zsu,
+         set_feature(env, ARM_FEATURE_LPAE);
-+            gen_helper_sve_ldhss_le_zsu,
+         set_feature(env, ARM_FEATURE_V7);
 +            NULL, },
 +          { gen_helper_sve_ldbsu_zsu,
 +            gen_helper_sve_ldhsu_le_zsu,
 +            gen_helper_sve_ldss_le_zsu, } },
 +        { { gen_helper_sve_ldbss_zss,
 +            gen_helper_sve_ldhss_le_zss,
 +            NULL, },
 +          { gen_helper_sve_ldbsu_zss,
 +            gen_helper_sve_ldhsu_le_zss,
 +            gen_helper_sve_ldss_le_zss, } } },
 -    { { { gen_helper_sve_ldffbss_zsu,
 -          gen_helper_sve_ldffhss_zsu,
 -          NULL, },
 -        { gen_helper_sve_ldffbsu_zsu,
 -          gen_helper_sve_ldffhsu_zsu,
 -          gen_helper_sve_ldffssu_zsu, } },
 -      { { gen_helper_sve_ldffbss_zss,
 -          gen_helper_sve_ldffhss_zss,
 -          NULL, },
 -        { gen_helper_sve_ldffbsu_zss,
 -          gen_helper_sve_ldffhsu_zss,
 -          gen_helper_sve_ldffssu_zss, } } }
 +      /* First-fault */
 +      { { { gen_helper_sve_ldffbss_zsu,
 +            gen_helper_sve_ldffhss_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldffbsu_zsu,
 +            gen_helper_sve_ldffhsu_zsu,
 +            gen_helper_sve_ldffssu_zsu, } },
 +        { { gen_helper_sve_ldffbss_zss,
 +            gen_helper_sve_ldffhss_zss,
 +            NULL, },
 +          { gen_helper_sve_ldffbsu_zss,
 +            gen_helper_sve_ldffhsu_zss,
 +            gen_helper_sve_ldffssu_zss, } } } },
 +
 +    /* Big-endian */
 +    { { { { gen_helper_sve_ldbss_zsu,
 +            gen_helper_sve_ldhss_be_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldbsu_zsu,
 +            gen_helper_sve_ldhsu_be_zsu,
 +            gen_helper_sve_ldss_be_zsu, } },
 +        { { gen_helper_sve_ldbss_zss,
 +            gen_helper_sve_ldhss_be_zss,
 +            NULL, },
 +          { gen_helper_sve_ldbsu_zss,
 +            gen_helper_sve_ldhsu_be_zss,
 +            gen_helper_sve_ldss_be_zss, } } },
 +
 +      /* First-fault */
 +      { { { gen_helper_sve_ldffbss_zsu,
 +            gen_helper_sve_ldffhss_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldffbsu_zsu,
 +            gen_helper_sve_ldffhsu_zsu,
 +            gen_helper_sve_ldffssu_zsu, } },
 +        { { gen_helper_sve_ldffbss_zss,
 +            gen_helper_sve_ldffhss_zss,
 +            NULL, },
 +          { gen_helper_sve_ldffbsu_zss,
 +            gen_helper_sve_ldffhsu_zss,
 +            gen_helper_sve_ldffssu_zss, } } } },
  };
  /* Note that we overload xs=2 to indicate 64-bit offset.  */
 -static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][3][2][4] = {
 -    { { { gen_helper_sve_ldbds_zsu,
 -          gen_helper_sve_ldhds_zsu,
 -          gen_helper_sve_ldsds_zsu,
 -          NULL, },
 -        { gen_helper_sve_ldbdu_zsu,
 -          gen_helper_sve_ldhdu_zsu,
 -          gen_helper_sve_ldsdu_zsu,
 -          gen_helper_sve_ldddu_zsu, } },
 -      { { gen_helper_sve_ldbds_zss,
 -          gen_helper_sve_ldhds_zss,
 -          gen_helper_sve_ldsds_zss,
 -          NULL, },
 -        { gen_helper_sve_ldbdu_zss,
 -          gen_helper_sve_ldhdu_zss,
 -          gen_helper_sve_ldsdu_zss,
 -          gen_helper_sve_ldddu_zss, } },
 -      { { gen_helper_sve_ldbds_zd,
 -          gen_helper_sve_ldhds_zd,
 -          gen_helper_sve_ldsds_zd,
 -          NULL, },
 -        { gen_helper_sve_ldbdu_zd,
 -          gen_helper_sve_ldhdu_zd,
 -          gen_helper_sve_ldsdu_zd,
 -          gen_helper_sve_ldddu_zd, } } },
 +static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][2][3][2][4] = {
 +    /* Little-endian */
 +    { { { { gen_helper_sve_ldbds_zsu,
 +            gen_helper_sve_ldhds_le_zsu,
 +            gen_helper_sve_ldsds_le_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldbdu_zsu,
 +            gen_helper_sve_ldhdu_le_zsu,
 +            gen_helper_sve_ldsdu_le_zsu,
 +            gen_helper_sve_lddd_le_zsu, } },
 +        { { gen_helper_sve_ldbds_zss,
 +            gen_helper_sve_ldhds_le_zss,
 +            gen_helper_sve_ldsds_le_zss,
 +            NULL, },
 +          { gen_helper_sve_ldbdu_zss,
 +            gen_helper_sve_ldhdu_le_zss,
 +            gen_helper_sve_ldsdu_le_zss,
 +            gen_helper_sve_lddd_le_zss, } },
 +        { { gen_helper_sve_ldbds_zd,
 +            gen_helper_sve_ldhds_le_zd,
 +            gen_helper_sve_ldsds_le_zd,
 +            NULL, },
 +          { gen_helper_sve_ldbdu_zd,
 +            gen_helper_sve_ldhdu_le_zd,
 +            gen_helper_sve_ldsdu_le_zd,
 +            gen_helper_sve_lddd_le_zd, } } },
 -    { { { gen_helper_sve_ldffbds_zsu,
 -          gen_helper_sve_ldffhds_zsu,
 -          gen_helper_sve_ldffsds_zsu,
 -          NULL, },
 -        { gen_helper_sve_ldffbdu_zsu,
 -          gen_helper_sve_ldffhdu_zsu,
 -          gen_helper_sve_ldffsdu_zsu,
 -          gen_helper_sve_ldffddu_zsu, } },
 -      { { gen_helper_sve_ldffbds_zss,
 -          gen_helper_sve_ldffhds_zss,
 -          gen_helper_sve_ldffsds_zss,
 -          NULL, },
 -        { gen_helper_sve_ldffbdu_zss,
 -          gen_helper_sve_ldffhdu_zss,
 -          gen_helper_sve_ldffsdu_zss,
 -          gen_helper_sve_ldffddu_zss, } },
 -      { { gen_helper_sve_ldffbds_zd,
 -          gen_helper_sve_ldffhds_zd,
 -          gen_helper_sve_ldffsds_zd,
 -          NULL, },
 -        { gen_helper_sve_ldffbdu_zd,
 -          gen_helper_sve_ldffhdu_zd,
 -          gen_helper_sve_ldffsdu_zd,
 -          gen_helper_sve_ldffddu_zd, } } }
 +      /* First-fault */
 +      { { { gen_helper_sve_ldffbds_zsu,
 +            gen_helper_sve_ldffhds_zsu,
 +            gen_helper_sve_ldffsds_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldffbdu_zsu,
 +            gen_helper_sve_ldffhdu_zsu,
 +            gen_helper_sve_ldffsdu_zsu,
 +            gen_helper_sve_ldffddu_zsu, } },
 +        { { gen_helper_sve_ldffbds_zss,
 +            gen_helper_sve_ldffhds_zss,
 +            gen_helper_sve_ldffsds_zss,
 +            NULL, },
 +          { gen_helper_sve_ldffbdu_zss,
 +            gen_helper_sve_ldffhdu_zss,
 +            gen_helper_sve_ldffsdu_zss,
 +            gen_helper_sve_ldffddu_zss, } },
 +        { { gen_helper_sve_ldffbds_zd,
 +            gen_helper_sve_ldffhds_zd,
 +            gen_helper_sve_ldffsds_zd,
 +            NULL, },
 +          { gen_helper_sve_ldffbdu_zd,
 +            gen_helper_sve_ldffhdu_zd,
 +            gen_helper_sve_ldffsdu_zd,
 +            gen_helper_sve_ldffddu_zd, } } } },
 +
 +    /* Big-endian */
 +    { { { { gen_helper_sve_ldbds_zsu,
 +            gen_helper_sve_ldhds_be_zsu,
 +            gen_helper_sve_ldsds_be_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldbdu_zsu,
 +            gen_helper_sve_ldhdu_be_zsu,
 +            gen_helper_sve_ldsdu_be_zsu,
 +            gen_helper_sve_lddd_be_zsu, } },
 +        { { gen_helper_sve_ldbds_zss,
 +            gen_helper_sve_ldhds_be_zss,
 +            gen_helper_sve_ldsds_be_zss,
 +            NULL, },
 +          { gen_helper_sve_ldbdu_zss,
 +            gen_helper_sve_ldhdu_be_zss,
 +            gen_helper_sve_ldsdu_be_zss,
 +            gen_helper_sve_lddd_be_zss, } },
 +        { { gen_helper_sve_ldbds_zd,
 +            gen_helper_sve_ldhds_be_zd,
 +            gen_helper_sve_ldsds_be_zd,
 +            NULL, },
 +          { gen_helper_sve_ldbdu_zd,
 +            gen_helper_sve_ldhdu_be_zd,
 +            gen_helper_sve_ldsdu_be_zd,
 +            gen_helper_sve_lddd_be_zd, } } },
 +
 +      /* First-fault */
 +      { { { gen_helper_sve_ldffbds_zsu,
 +            gen_helper_sve_ldffhds_zsu,
 +            gen_helper_sve_ldffsds_zsu,
 +            NULL, },
 +          { gen_helper_sve_ldffbdu_zsu,
 +            gen_helper_sve_ldffhdu_zsu,
 +            gen_helper_sve_ldffsdu_zsu,
 +            gen_helper_sve_ldffddu_zsu, } },
 +        { { gen_helper_sve_ldffbds_zss,
 +            gen_helper_sve_ldffhds_zss,
 +            gen_helper_sve_ldffsds_zss,
 +            NULL, },
 +          { gen_helper_sve_ldffbdu_zss,
 +            gen_helper_sve_ldffhdu_zss,
 +            gen_helper_sve_ldffsdu_zss,
 +            gen_helper_sve_ldffddu_zss, } },
 +        { { gen_helper_sve_ldffbds_zd,
 +            gen_helper_sve_ldffhds_zd,
 +            gen_helper_sve_ldffsds_zd,
 +            NULL, },
 +          { gen_helper_sve_ldffbdu_zd,
 +            gen_helper_sve_ldffhdu_zd,
 +            gen_helper_sve_ldffsdu_zd,
 +            gen_helper_sve_ldffddu_zd, } } } },
  };
  static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
  {
      gen_helper_gvec_mem_scatter *fn = NULL;
 +    int be = s->be_data == MO_BE;
      if (!sve_access_check(s)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
      switch (a->esz) {
      case MO_32:
 -        fn = gather_load_fn32[a->ff][a->xs][a->u][a->msz];
 +        fn = gather_load_fn32[be][a->ff][a->xs][a->u][a->msz];
          break;
      case MO_64:
 -        fn = gather_load_fn64[a->ff][a->xs][a->u][a->msz];
 +        fn = gather_load_fn64[be][a->ff][a->xs][a->u][a->msz];
          break;
      }
-     assert(fn != NULL);
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
-@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
+     if (arm_feature(env, ARM_FEATURE_V5)) {
- static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
+         set_feature(env, ARM_FEATURE_V4T);
  {
      gen_helper_gvec_mem_scatter *fn = NULL;
 +    int be = s->be_data == MO_BE;
      TCGv_i64 imm;
      if (a->esz < a->msz || (a->esz == a->msz && !a->u)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
      switch (a->esz) {
      case MO_32:
 -        fn = gather_load_fn32[a->ff][0][a->u][a->msz];
 +        fn = gather_load_fn32[be][a->ff][0][a->u][a->msz];
          break;
      case MO_64:
 -        fn = gather_load_fn64[a->ff][2][a->u][a->msz];
 +        fn = gather_load_fn64[be][a->ff][2][a->u][a->msz];
          break;
      }
-     assert(fn != NULL);
+-    if (arm_feature(env, ARM_FEATURE_M)) {
 -        set_feature(env, ARM_FEATURE_THUMB_DIV);
 -    }
 -    if (arm_feature(env, ARM_FEATURE_ARM_DIV)) {
 -        set_feature(env, ARM_FEATURE_THUMB_DIV);
 -    }
      if (arm_feature(env, ARM_FEATURE_VFP4)) {
          set_feature(env, ARM_FEATURE_VFP3);
          set_feature(env, ARM_FEATURE_VFP_FP16);
@@ -XXX,XX +XXX,XX @@ static void cortex_r5_initfn(Object *obj)
      ARMCPU *cpu = ARM_CPU(obj);
      set_feature(&cpu->env, ARM_FEATURE_V7);
 -    set_feature(&cpu->env, ARM_FEATURE_THUMB_DIV);
 -    set_feature(&cpu->env, ARM_FEATURE_ARM_DIV);
      set_feature(&cpu->env, ARM_FEATURE_V7MP);
      set_feature(&cpu->env, ARM_FEATURE_PMSA);
      cpu->midr = 0x411fc153; /* r1p3 */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
                      case 1:
                      case 3:
                          /* SDIV, UDIV */
 -                        if (!arm_dc_feature(s, ARM_FEATURE_ARM_DIV)) {
 +                        if (!dc_isar_feature(arm_div, s)) {
                              goto illegal_op;
                          }
                          if (((insn >> 5) & 7) || (rd != 15)) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
              tmp2 = load_reg(s, rm);
              if ((op & 0x50) == 0x10) {
                  /* sdiv, udiv */
 -                if (!arm_dc_feature(s, ARM_FEATURE_THUMB_DIV)) {
 +                if (!dc_isar_feature(thumb_div, s)) {
                      goto illegal_op;
                  }
                  if (op & 0x20)
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 08/33] target/arm: Handle SVE vector length changes in system mode
+[Qemu-devel] [PULL 07/45] target/arm: Convert jazelle from feature bit to isar1 test
 From: Richard Henderson <richard.henderson@linaro.org>
-SVE vector length can change when changing EL, or when writing
+Having V6 alone imply jazelle was wrong for cortex-m0.
-to one of the ZCR_ELn registers.
+Change to an assertion for V6 & !M.
-For correctness, our implementation requires that predicate bits
+This was harmless, because the only place we tested ARM_FEATURE_JAZELLE
-that are inaccessible are never set.  Which means noticing length
+was for 'bxj' in disas_arm(), which is unreachable for M-profile cores.
 changes and zeroing the appropriate register bits.
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-5-richard.henderson@linaro.org
+Message-id: 20181016223115.24100-6-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h       |   4 ++
+ target/arm/cpu.h       |  6 +++++-
- target/arm/cpu64.c     |  42 -------------
+ target/arm/cpu.c       | 17 ++++++++++++++---
- target/arm/helper.c    | 133 +++++++++++++++++++++++++++++++++++++----
+ target/arm/translate.c |  2 +-
- target/arm/op_helper.c |   1 +
+files changed, 20 insertions(+), 5 deletions(-)
 files changed, 125 insertions(+), 55 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ int arm_cpu_write_elf32_note(WriteCoreDumpFunction f, CPUState *cs,
+@@ -XXX,XX +XXX,XX @@ enum arm_features {
- int aarch64_cpu_gdb_read_register(CPUState *cpu, uint8_t *buf, int reg);
+     ARM_FEATURE_PMU, /* has PMU support */
- int aarch64_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
+     ARM_FEATURE_VBAR, /* has cp15 VBAR */
- void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq);
+     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
-+void aarch64_sve_change_el(CPUARMState *env, int old_el, int new_el);
+-    ARM_FEATURE_JAZELLE, /* has (trivial) Jazelle implementation */
-+#else
+     ARM_FEATURE_SVE, /* has Scalable Vector Extension */
-+static inline void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq) { }
+     ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
-+static inline void aarch64_sve_change_el(CPUARMState *env, int o, int n) { }
+     ARM_FEATURE_M_MAIN, /* M profile Main Extension */
- #endif
+@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_arm_div(const ARMISARegisters *id)
+     return FIELD_EX32(id->id_isar0, ID_ISAR0, DIVIDE) > 1;
  target_ulong do_arm_semihosting(CPUARMState *env);
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_cpu_register_types(void)
  }
- type_init(aarch64_cpu_register_types)
++static inline bool isar_feature_jazelle(const ARMISARegisters *id)
 -
 -/* The manual says that when SVE is enabled and VQ is widened the
 - * implementation is allowed to zero the previously inaccessible
 - * portion of the registers.  The corollary to that is that when
 - * SVE is enabled and VQ is narrowed we are also allowed to zero
 - * the now inaccessible portion of the registers.
 - *
 - * The intent of this is that no predicate bit beyond VQ is ever set.
 - * Which means that some operations on predicate registers themselves
 - * may operate on full uint64_t or even unrolled across the maximum
 - * uint64_t[4].  Performing 4 bits of host arithmetic unconditionally
 - * may well be cheaper than conditionals to restrict the operation
 - * to the relevant portion of a uint16_t[16].
 - *
 - * TODO: Need to call this for changes to the real system registers
 - * and EL state changes.
 - */
 -void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq)
 -{
 -    int i, j;
 -    uint64_t pmask;
 -
 -    assert(vq >= 1 && vq <= ARM_MAX_VQ);
 -    assert(vq <= arm_env_get_cpu(env)->sve_max_vq);
 -
 -    /* Zap the high bits of the zregs.  */
 -    for (i = 0; i < 32; i++) {
 -        memset(&env->vfp.zregs[i].d[2 * vq], 0, 16 * (ARM_MAX_VQ - vq));
 -    }
 -
 -    /* Zap the high bits of the pregs and ffr.  */
 -    pmask = 0;
 -    if (vq & 3) {
 -        pmask = ~(-1ULL << (16 * (vq & 3)));
 -    }
 -    for (j = vq / 4; j < ARM_MAX_VQ / 4; j++) {
 -        for (i = 0; i < 17; ++i) {
 -            env->vfp.pregs[i].p[j] &= pmask;
 -        }
 -        pmask = 0;
 -    }
 -}
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env, int el)
      return 0;
  }
 +/*
 + * Given that SVE is enabled, return the vector length for EL.
 + */
 +static uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
 +{
-+    ARMCPU *cpu = arm_env_get_cpu(env);
++    return FIELD_EX32(id->id_isar1, ID_ISAR1, JAZELLE) != 0;
 +    uint32_t zcr_len = cpu->sve_max_vq - 1;
 +
 +    if (el <= 1) {
 +        zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[1]);
 +    }
 +    if (el < 2 && arm_feature(env, ARM_FEATURE_EL2)) {
 +        zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[2]);
 +    }
 +    if (el < 3 && arm_feature(env, ARM_FEATURE_EL3)) {
 +        zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[3]);
 +    }
 +    return zcr_len;
 +}
 +
- static void zcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+ static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
                        uint64_t value)
  {
-+    int cur_el = arm_current_el(env);
+     return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
-+    int old_len = sve_zcr_len_for_el(env, cur_el);
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
-+    int new_len;
+index XXXXXXX..XXXXXXX 100644
-+
+--- a/target/arm/cpu.c
-     /* Bits other than [3:0] are RAZ/WI.  */
++++ b/target/arm/cpu.c
-     raw_write(env, ri, value & 0xf);
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
      }
      if (arm_feature(env, ARM_FEATURE_V6)) {
          set_feature(env, ARM_FEATURE_V5);
 -        set_feature(env, ARM_FEATURE_JAZELLE);
          if (!arm_feature(env, ARM_FEATURE_M)) {
 +            assert(cpu_isar_feature(jazelle, cpu));
              set_feature(env, ARM_FEATURE_AUXCR);
          }
      }
@@ -XXX,XX +XXX,XX @@ static void arm926_initfn(Object *obj)
      set_feature(&cpu->env, ARM_FEATURE_VFP);
      set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
      set_feature(&cpu->env, ARM_FEATURE_CACHE_TEST_CLEAN);
 -    set_feature(&cpu->env, ARM_FEATURE_JAZELLE);
      cpu->midr = 0x41069265;
      cpu->reset_fpsid = 0x41011090;
      cpu->ctr = 0x1dd20d2;
      cpu->reset_sctlr = 0x00090078;
 +
 +    /*
-+     * Because we arrived here, we know both FP and SVE are enabled;
++     * ARMv5 does not have the ID_ISAR registers, but we can still
-+     * otherwise we would have trapped access to the ZCR_ELn register.
++     * set the field to indicate Jazelle support within QEMU.
 +     */
-+    new_len = sve_zcr_len_for_el(env, cur_el);
++    cpu->isar.id_isar1 = FIELD_DP32(cpu->isar.id_isar1, ID_ISAR1, JAZELLE, 1);
 +    if (new_len < old_len) {
 +        aarch64_sve_narrow_vq(env, new_len + 1);
 +    }
  }
- static const ARMCPRegInfo zcr_el1_reginfo = {
+ static void arm946_initfn(Object *obj)
-@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch64(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static void arm1026_initfn(Object *obj)
-     unsigned int new_el = env->exception.target_el;
+     set_feature(&cpu->env, ARM_FEATURE_AUXCR);
-     target_ulong addr = env->cp15.vbar_el[new_el];
+     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
-     unsigned int new_mode = aarch64_pstate_mode(new_el, true);
+     set_feature(&cpu->env, ARM_FEATURE_CACHE_TEST_CLEAN);
-+    unsigned int cur_el = arm_current_el(env);
+-    set_feature(&cpu->env, ARM_FEATURE_JAZELLE);
+     cpu->midr = 0x4106a262;
--    if (arm_current_el(env) < new_el) {
+     cpu->reset_fpsid = 0x410110a0;
-+    aarch64_sve_change_el(env, cur_el, new_el);
+     cpu->ctr = 0x1dd20d2;
-+
+     cpu->reset_sctlr = 0x00090078;
-+    if (cur_el < new_el) {
+     cpu->reset_auxcr = 1;
          /* Entry vector offset depends on whether the implemented EL
           * immediately lower than the target level is using AArch32 or AArch64
           */
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
              if (sve_el != 0 && fp_el == 0) {
                  zcr_len = 0;
              } else {
 -                ARMCPU *cpu = arm_env_get_cpu(env);
 -
 -                zcr_len = cpu->sve_max_vq - 1;
 -                if (current_el <= 1) {
 -                    zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[1]);
 -                }
 -                if (current_el < 2 && arm_feature(env, ARM_FEATURE_EL2)) {
 -                    zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[2]);
 -                }
 -                if (current_el < 3 && arm_feature(env, ARM_FEATURE_EL3)) {
 -                    zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[3]);
 -                }
 +                zcr_len = sve_zcr_len_for_el(env, current_el);
              }
              flags |= sve_el << ARM_TBFLAG_SVEEXC_EL_SHIFT;
              flags |= zcr_len << ARM_TBFLAG_ZCR_LEN_SHIFT;
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
      *pflags = flags;
      *cs_base = 0;
  }
 +
 +#ifdef TARGET_AARCH64
 +/*
 + * The manual says that when SVE is enabled and VQ is widened the
 + * implementation is allowed to zero the previously inaccessible
 + * portion of the registers.  The corollary to that is that when
 + * SVE is enabled and VQ is narrowed we are also allowed to zero
 + * the now inaccessible portion of the registers.
 + *
 + * The intent of this is that no predicate bit beyond VQ is ever set.
 + * Which means that some operations on predicate registers themselves
 + * may operate on full uint64_t or even unrolled across the maximum
 + * uint64_t[4].  Performing 4 bits of host arithmetic unconditionally
 + * may well be cheaper than conditionals to restrict the operation
 + * to the relevant portion of a uint16_t[16].
 + */
 +void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq)
 +{
 +    int i, j;
 +    uint64_t pmask;
 +
 +    assert(vq >= 1 && vq <= ARM_MAX_VQ);
 +    assert(vq <= arm_env_get_cpu(env)->sve_max_vq);
 +
 +    /* Zap the high bits of the zregs.  */
 +    for (i = 0; i < 32; i++) {
 +        memset(&env->vfp.zregs[i].d[2 * vq], 0, 16 * (ARM_MAX_VQ - vq));
 +    }
 +
 +    /* Zap the high bits of the pregs and ffr.  */
 +    pmask = 0;
 +    if (vq & 3) {
 +        pmask = ~(-1ULL << (16 * (vq & 3)));
 +    }
 +    for (j = vq / 4; j < ARM_MAX_VQ / 4; j++) {
 +        for (i = 0; i < 17; ++i) {
 +            env->vfp.pregs[i].p[j] &= pmask;
 +        }
 +        pmask = 0;
 +    }
 +}
 +
 +/*
 + * Notice a change in SVE vector size when changing EL.
 + */
 +void aarch64_sve_change_el(CPUARMState *env, int old_el, int new_el)
 +{
 +    int old_len, new_len;
 +
 +    /* Nothing to do if no SVE.  */
 +    if (!arm_feature(env, ARM_FEATURE_SVE)) {
 +        return;
 +    }
 +
 +    /* Nothing to do if FP is disabled in either EL.  */
 +    if (fp_exception_el(env, old_el) || fp_exception_el(env, new_el)) {
 +        return;
 +    }
 +
 +    /*
-+     * DDI0584A.d sec 3.2: "If SVE instructions are disabled or trapped
++     * ARMv5 does not have the ID_ISAR registers, but we can still
-+     * at ELx, or not available because the EL is in AArch32 state, then
++     * set the field to indicate Jazelle support within QEMU.
 +     * for all purposes other than a direct read, the ZCR_ELx.LEN field
 +     * has an effective value of 0".
 +     *
 +     * Consider EL2 (aa64, vq=4) -> EL0 (aa32) -> EL1 (aa64, vq=0).
 +     * If we ignore aa32 state, we would fail to see the vq4->vq0 transition
 +     * from EL2->EL1.  Thus we go ahead and narrow when entering aa32 so that
 +     * we already have the correct register contents when encountering the
 +     * vq0->vq0 transition between EL0->EL1.
 +     */
-+    old_len = (arm_el_is_aa64(env, old_el) && !sve_exception_el(env, old_el)
++    cpu->isar.id_isar1 = FIELD_DP32(cpu->isar.id_isar1, ID_ISAR1, JAZELLE, 1);
 +               ? sve_zcr_len_for_el(env, old_el) : 0);
 +    new_len = (arm_el_is_aa64(env, new_el) && !sve_exception_el(env, new_el)
 +               ? sve_zcr_len_for_el(env, new_el) : 0);
 +
-+    /* When changing vector length, clear inaccessible state.  */
+     {
-+    if (new_len < old_len) {
+         /* The 1026 had an IFAR at c6,c0,0,1 rather than the ARMv6 c6,c0,0,2 */
-+        aarch64_sve_narrow_vq(env, new_len + 1);
+         ARMCPRegInfo ifar = {
-+    }
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 +}
 +#endif
 diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/op_helper.c
+--- a/target/arm/translate.c
-+++ b/target/arm/op_helper.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@
-                       "AArch64 EL%d PC 0x%" PRIx64 "\n",
+ #define ENABLE_ARCH_5     arm_dc_feature(s, ARM_FEATURE_V5)
-                       cur_el, new_el, env->pc);
+ /* currently all emulated v5 cores are also v5TE, so don't bother */
-     }
+ #define ENABLE_ARCH_5TE   arm_dc_feature(s, ARM_FEATURE_V5)
-+    aarch64_sve_change_el(env, cur_el, new_el);
+-#define ENABLE_ARCH_5J    arm_dc_feature(s, ARM_FEATURE_JAZELLE)
++#define ENABLE_ARCH_5J    dc_isar_feature(jazelle, s)
-     qemu_mutex_lock_iothread();
+ #define ENABLE_ARCH_6     arm_dc_feature(s, ARM_FEATURE_V6)
-     arm_call_el_change_hook(arm_env_get_cpu(env));
+ #define ENABLE_ARCH_6K    arm_dc_feature(s, ARM_FEATURE_V6K)
  #define ENABLE_ARCH_6T2   arm_dc_feature(s, ARM_FEATURE_THUMB2)
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 05/33] target/arm: Define ID_AA64ZFR0_EL1
+[Qemu-devel] [PULL 08/45] target/arm: Convert t32ee from feature bit to isar3 test
 From: Richard Henderson <richard.henderson@linaro.org>
-Given that the only field defined for this new register may only
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-be 0, we don't actually need to change anything except the name.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181016223115.24100-7-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-2-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 3 ++-
+ target/arm/cpu.h     | 6 +++++-
-file changed, 2 insertions(+), 1 deletion(-)
+ linux-user/elfload.c | 2 +-
  target/arm/cpu.c     | 4 ----
  target/arm/helper.c  | 2 +-
  target/arm/machine.c | 3 +--
 files changed, 8 insertions(+), 9 deletions(-)
+diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.h
++++ b/target/arm/cpu.h
+@@ -XXX,XX +XXX,XX @@ enum arm_features {
+     ARM_FEATURE_NEON,
+     ARM_FEATURE_M, /* Microcontroller profile.  */
+     ARM_FEATURE_OMAPCP, /* OMAP specific CP15 ops handling.  */
+-    ARM_FEATURE_THUMB2EE,
+     ARM_FEATURE_V7MP,    /* v7 Multiprocessing Extensions */
+     ARM_FEATURE_V7VE, /* v7 Virtualization Extensions (non-EL2 parts) */
+     ARM_FEATURE_V4T,
+@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_jazelle(const ARMISARegisters *id)
+     return FIELD_EX32(id->id_isar1, ID_ISAR1, JAZELLE) != 0;
+ }
++static inline bool isar_feature_t32ee(const ARMISARegisters *id)
++{
++    return FIELD_EX32(id->id_isar3, ID_ISAR3, T32EE) != 0;
++}
++
+ static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
+ {
+     return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
+diff --git a/linux-user/elfload.c b/linux-user/elfload.c
+index XXXXXXX..XXXXXXX 100644
+--- a/linux-user/elfload.c
++++ b/linux-user/elfload.c
+@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
+     GET_FEATURE(ARM_FEATURE_V5, ARM_HWCAP_ARM_EDSP);
+     GET_FEATURE(ARM_FEATURE_VFP, ARM_HWCAP_ARM_VFP);
+     GET_FEATURE(ARM_FEATURE_IWMMXT, ARM_HWCAP_ARM_IWMMXT);
+-    GET_FEATURE(ARM_FEATURE_THUMB2EE, ARM_HWCAP_ARM_THUMBEE);
++    GET_FEATURE_ID(t32ee, ARM_HWCAP_ARM_THUMBEE);
+     GET_FEATURE(ARM_FEATURE_NEON, ARM_HWCAP_ARM_NEON);
+     GET_FEATURE(ARM_FEATURE_VFP3, ARM_HWCAP_ARM_VFPv3);
+     GET_FEATURE(ARM_FEATURE_V6K, ARM_HWCAP_ARM_TLS);
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/cpu.c
++++ b/target/arm/cpu.c
+@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_V7);
+     set_feature(&cpu->env, ARM_FEATURE_VFP3);
+     set_feature(&cpu->env, ARM_FEATURE_NEON);
+-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
+     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
+     set_feature(&cpu->env, ARM_FEATURE_EL3);
+     cpu->midr = 0x410fc080;
+@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_VFP3);
+     set_feature(&cpu->env, ARM_FEATURE_VFP_FP16);
+     set_feature(&cpu->env, ARM_FEATURE_NEON);
+-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
+     set_feature(&cpu->env, ARM_FEATURE_EL3);
+     /* Note that A9 supports the MP extensions even for
+      * A9UP and single-core A9MP (which are both different
+@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_V7VE);
+     set_feature(&cpu->env, ARM_FEATURE_VFP4);
+     set_feature(&cpu->env, ARM_FEATURE_NEON);
+-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
+     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
+     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
+     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
+@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
+     set_feature(&cpu->env, ARM_FEATURE_V7VE);
+     set_feature(&cpu->env, ARM_FEATURE_VFP4);
+     set_feature(&cpu->env, ARM_FEATURE_NEON);
+-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
+     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
+     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
+     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
 @@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 3,
+         define_arm_cp_regs(cpu, vmsa_pmsa_cp_reginfo);
-               .access = PL1_R, .type = ARM_CP_CONST,
+         define_arm_cp_regs(cpu, vmsa_cp_reginfo);
-               .resetvalue = 0 },
+     }
--            { .name = "ID_AA64PFR4_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
+-    if (arm_feature(env, ARM_FEATURE_THUMB2EE)) {
-+            { .name = "ID_AA64ZFR0_EL1", .state = ARM_CP_STATE_AA64,
++    if (cpu_isar_feature(t32ee, cpu)) {
-               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 4,
+         define_arm_cp_regs(cpu, t2ee_cp_reginfo);
-               .access = PL1_R, .type = ARM_CP_CONST,
+     }
-+              /* At present, only SVEver == 0 is defined anyway.  */
+     if (arm_feature(env, ARM_FEATURE_GENERIC_TIMER)) {
-               .resetvalue = 0 },
+diff --git a/target/arm/machine.c b/target/arm/machine.c
-             { .name = "ID_AA64PFR5_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
+index XXXXXXX..XXXXXXX 100644
-               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 5,
+--- a/target/arm/machine.c
 +++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_m = {
  static bool thumb2ee_needed(void *opaque)
  {
      ARMCPU *cpu = opaque;
 -    CPUARMState *env = &cpu->env;
 -    return arm_feature(env, ARM_FEATURE_THUMB2EE);
 +    return cpu_isar_feature(t32ee, cpu);
  }
  static const VMStateDescription vmstate_thumb2ee = {
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 09/33] target/arm: Adjust aarch64_cpu_dump_state for system mode SVE
+[Qemu-devel] [PULL 09/45] target/arm: Convert sve from feature bit to aa64pfr0 test
 From: Richard Henderson <richard.henderson@linaro.org>
-Use the existing helpers to determine if (1) the fpu is enabled,
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-(2) sve state is enabled, and (3) the current sve vector length.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181016223115.24100-8-richard.henderson@linaro.org
 Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h           | 4 ++++
+ target/arm/cpu.h            | 16 +++++++++++++++-
- target/arm/helper.c        | 6 +++---
+ linux-user/aarch64/signal.c |  4 ++--
- target/arm/translate-a64.c | 8 ++++++--
+ linux-user/elfload.c        |  2 +-
-files changed, 13 insertions(+), 5 deletions(-)
+ linux-user/syscall.c        | 10 ++++++----
  target/arm/cpu64.c          |  5 ++++-
  target/arm/helper.c         |  9 ++++++---
  target/arm/machine.c        |  3 +--
  target/arm/translate-a64.c  |  4 ++--
 files changed, 37 insertions(+), 16 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ target_ulong do_arm_semihosting(CPUARMState *env);
+@@ -XXX,XX +XXX,XX @@ FIELD(ID_AA64ISAR1, FRINTTS, 32, 4)
- void aarch64_sync_32_to_64(CPUARMState *env);
+ FIELD(ID_AA64ISAR1, SB, 36, 4)
- void aarch64_sync_64_to_32(CPUARMState *env);
+ FIELD(ID_AA64ISAR1, SPECRES, 40, 4)
-+int fp_exception_el(CPUARMState *env, int cur_el);
++FIELD(ID_AA64PFR0, EL0, 0, 4)
-+int sve_exception_el(CPUARMState *env, int cur_el);
++FIELD(ID_AA64PFR0, EL1, 4, 4)
-+uint32_t sve_zcr_len_for_el(CPUARMState *env, int el);
++FIELD(ID_AA64PFR0, EL2, 8, 4)
-+
++FIELD(ID_AA64PFR0, EL3, 12, 4)
- static inline bool is_a64(CPUARMState *env)
++FIELD(ID_AA64PFR0, FP, 16, 4)
- {
++FIELD(ID_AA64PFR0, ADVSIMD, 20, 4)
-     return env->aarch64;
++FIELD(ID_AA64PFR0, GIC, 24, 4)
 +FIELD(ID_AA64PFR0, RAS, 28, 4)
 +FIELD(ID_AA64PFR0, SVE, 32, 4)
 +
  QEMU_BUILD_BUG_ON(ARRAY_SIZE(((ARMCPU *)0)->ccsidr) <= R_V7M_CSSELR_INDEX_MASK);
  /* If adding a feature bit which corresponds to a Linux ELF
@@ -XXX,XX +XXX,XX @@ enum arm_features {
      ARM_FEATURE_PMU, /* has PMU support */
      ARM_FEATURE_VBAR, /* has cp15 VBAR */
      ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
 -    ARM_FEATURE_SVE, /* has Scalable Vector Extension */
      ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
      ARM_FEATURE_M_MAIN, /* M profile Main Extension */
  };
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
      return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
  }
 +static inline bool isar_feature_aa64_sve(const ARMISARegisters *id)
 +{
 +    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, SVE) != 0;
 +}
 +
  /*
   * Forward to the above feature tests given an ARMCPU pointer.
   */
 diff --git a/linux-user/aarch64/signal.c b/linux-user/aarch64/signal.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/aarch64/signal.c
 +++ b/linux-user/aarch64/signal.c
@@ -XXX,XX +XXX,XX @@ static int target_restore_sigframe(CPUARMState *env,
              break;
          case TARGET_SVE_MAGIC:
 -            if (arm_feature(env, ARM_FEATURE_SVE)) {
 +            if (cpu_isar_feature(aa64_sve, arm_env_get_cpu(env))) {
                  vq = (env->vfp.zcr_el[1] & 0xf) + 1;
                  sve_size = QEMU_ALIGN_UP(TARGET_SVE_SIG_CONTEXT_SIZE(vq), 16);
                  if (!sve && size == sve_size) {
@@ -XXX,XX +XXX,XX @@ static void target_setup_frame(int usig, struct target_sigaction *ka,
                                        &layout);
      /* SVE state needs saving only if it exists.  */
 -    if (arm_feature(env, ARM_FEATURE_SVE)) {
 +    if (cpu_isar_feature(aa64_sve, arm_env_get_cpu(env))) {
          vq = (env->vfp.zcr_el[1] & 0xf) + 1;
          sve_size = QEMU_ALIGN_UP(TARGET_SVE_SIG_CONTEXT_SIZE(vq), 16);
          sve_ofs = alloc_sigframe_space(sve_size, &layout);
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/elfload.c
 +++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
      GET_FEATURE_ID(aa64_rdm, ARM_HWCAP_A64_ASIMDRDM);
      GET_FEATURE_ID(aa64_dp, ARM_HWCAP_A64_ASIMDDP);
      GET_FEATURE_ID(aa64_fcma, ARM_HWCAP_A64_FCMA);
 -    GET_FEATURE(ARM_FEATURE_SVE, ARM_HWCAP_A64_SVE);
 +    GET_FEATURE_ID(aa64_sve, ARM_HWCAP_A64_SVE);
  #undef GET_FEATURE
  #undef GET_FEATURE_ID
 diff --git a/linux-user/syscall.c b/linux-user/syscall.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/syscall.c
 +++ b/linux-user/syscall.c
@@ -XXX,XX +XXX,XX @@ static abi_long do_syscall1(void *cpu_env, int num, abi_long arg1,
               * even though the current architectural maximum is VQ=16.
               */
              ret = -TARGET_EINVAL;
 -            if (arm_feature(cpu_env, ARM_FEATURE_SVE)
 +            if (cpu_isar_feature(aa64_sve, arm_env_get_cpu(cpu_env))
                  && arg2 >= 0 && arg2 <= 512 * 16 && !(arg2 & 15)) {
                  CPUARMState *env = cpu_env;
                  ARMCPU *cpu = arm_env_get_cpu(env);
@@ -XXX,XX +XXX,XX @@ static abi_long do_syscall1(void *cpu_env, int num, abi_long arg1,
              return ret;
          case TARGET_PR_SVE_GET_VL:
              ret = -TARGET_EINVAL;
 -            if (arm_feature(cpu_env, ARM_FEATURE_SVE)) {
 -                CPUARMState *env = cpu_env;
 -                ret = ((env->vfp.zcr_el[1] & 0xf) + 1) * 16;
 +            {
 +                ARMCPU *cpu = arm_env_get_cpu(cpu_env);
 +                if (cpu_isar_feature(aa64_sve, cpu)) {
 +                    ret = ((cpu->env.vfp.zcr_el[1] & 0xf) + 1) * 16;
 +                }
              }
              return ret;
  #endif /* AARCH64 */
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          t = FIELD_DP64(t, ID_AA64ISAR1, FCMA, 1);
          cpu->isar.id_aa64isar1 = t;
 +        t = cpu->isar.id_aa64pfr0;
 +        t = FIELD_DP64(t, ID_AA64PFR0, SVE, 1);
 +        cpu->isar.id_aa64pfr0 = t;
 +
          /* Replicate the same data to the 32-bit id registers.  */
          u = cpu->isar.id_isar5;
          u = FIELD_DP32(u, ID_ISAR5, AES, 2); /* AES + PMULL */
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
           * present in either.
           */
          set_feature(&cpu->env, ARM_FEATURE_V8_FP16);
 -        set_feature(&cpu->env, ARM_FEATURE_SVE);
          /* For usermode -cpu max we can use a larger and more efficient DCZ
           * blocksize since we don't have to follow what the hardware does.
           */
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_lpae_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
-  * take care of raising that exception.
+         define_one_arm_cp_reg(cpu, &sctlr);
-  * C.f. the ARM pseudocode function CheckSVEEnabled.
+     }
-  */
--static int sve_exception_el(CPUARMState *env, int el)
+-    if (arm_feature(env, ARM_FEATURE_SVE)) {
-+int sve_exception_el(CPUARMState *env, int el)
++    if (cpu_isar_feature(aa64_sve, cpu)) {
          define_one_arm_cp_reg(cpu, &zcr_el1_reginfo);
          if (arm_feature(env, ARM_FEATURE_EL2)) {
              define_one_arm_cp_reg(cpu, &zcr_el2_reginfo);
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
      uint32_t flags;
      if (is_a64(env)) {
 +        ARMCPU *cpu = arm_env_get_cpu(env);
 +
          *pc = env->pc;
          flags = ARM_TBFLAG_AARCH64_STATE_MASK;
          /* Get control bits for tagged addresses */
          flags |= (arm_regime_tbi0(env, mmu_idx) << ARM_TBFLAG_TBI0_SHIFT);
          flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
 -        if (arm_feature(env, ARM_FEATURE_SVE)) {
 +        if (cpu_isar_feature(aa64_sve, cpu)) {
              int sve_el = sve_exception_el(env, current_el);
              uint32_t zcr_len;
@@ -XXX,XX +XXX,XX @@ void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq)
  void aarch64_sve_change_el(CPUARMState *env, int old_el,
                             int new_el, bool el0_a64)
  {
- #ifndef CONFIG_USER_ONLY
++    ARMCPU *cpu = arm_env_get_cpu(env);
-     if (el <= 1) {
+     int old_len, new_len;
-@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env, int el)
+     bool old_a64, new_a64;
- /*
-  * Given that SVE is enabled, return the vector length for EL.
+     /* Nothing to do if no SVE.  */
-  */
+-    if (!arm_feature(env, ARM_FEATURE_SVE)) {
--static uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
++    if (!cpu_isar_feature(aa64_sve, cpu)) {
-+uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
+         return;
      }
 diff --git a/target/arm/machine.c b/target/arm/machine.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/machine.c
 +++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_iwmmxt = {
  static bool sve_needed(void *opaque)
  {
-     ARMCPU *cpu = arm_env_get_cpu(env);
+     ARMCPU *cpu = opaque;
-     uint32_t zcr_len = cpu->sve_max_vq - 1;
+-    CPUARMState *env = &cpu->env;
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
- /* Return the exception level to which FP-disabled exceptions should
+-    return arm_feature(env, ARM_FEATURE_SVE);
-  * be taken, or 0 if FP is enabled.
++    return cpu_isar_feature(aa64_sve, cpu);
-  */
+ }
--static int fp_exception_el(CPUARMState *env, int cur_el)
-+int fp_exception_el(CPUARMState *env, int cur_el)
+ /* The first two words of each Zreg is stored in VFP state.  */
  {
  #ifndef CONFIG_USER_ONLY
      int fpen;
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
 @@ -XXX,XX +XXX,XX @@ void aarch64_cpu_dump_state(CPUState *cs, FILE *f,
-         cpu_fprintf(f, "\n");
-         return;
-     }
-+    if (fp_exception_el(env, el) != 0) {
-+        cpu_fprintf(f, "    FPU disabled\n");
-+        return;
-+    }
      cpu_fprintf(f, "     FPCR=%08x FPSR=%08x\n",
                  vfp_get_fpcr(env), vfp_get_fpsr(env));
--    if (arm_feature(env, ARM_FEATURE_SVE)) {
+-    if (arm_feature(env, ARM_FEATURE_SVE) && sve_exception_el(env, el) == 0) {
--        int j, zcr_len = env->vfp.zcr_el[1] & 0xf; /* fix for system mode */
++    if (cpu_isar_feature(aa64_sve, cpu) && sve_exception_el(env, el) == 0) {
-+    if (arm_feature(env, ARM_FEATURE_SVE) && sve_exception_el(env, el) == 0) {
+         int j, zcr_len = sve_zcr_len_for_el(env, el);
 +        int j, zcr_len = sve_zcr_len_for_el(env, el);
          for (i = 0; i <= FFR_PRED_NUM; i++) {
-             bool eol;
+@@ -XXX,XX +XXX,XX @@ static void disas_a64_insn(CPUARMState *env, DisasContext *s)
          unallocated_encoding(s);
          break;
      case 0x2:
 -        if (!arm_dc_feature(s, ARM_FEATURE_SVE) || !disas_sve(s, insn)) {
 +        if (!dc_isar_feature(aa64_sve, s) || !disas_sve(s, insn)) {
              unallocated_encoding(s);
          }
          break;
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 21/33] target/arm: Define new EXCP type for v8M stack overflows
+[Qemu-devel] [PULL 10/45] target/arm: Convert v8.2-fp16 from feature bit to aa64pfr0 test
-Define EXCP_STKOF, and arrange for it to cause us to take
+From: Richard Henderson <richard.henderson@linaro.org>
 a UsageFault with CFSR.STKOF set.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181016223115.24100-9-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-3-peter.maydell@linaro.org
 ---
- target/arm/cpu.h    | 2 ++
+ target/arm/cpu.h           | 17 +++++++++++++++-
- target/arm/helper.c | 5 +++++
+ linux-user/elfload.c       |  6 +-----
-files changed, 7 insertions(+)
+ target/arm/cpu64.c         | 16 ++++++++-------
  target/arm/helper.c        |  2 +-
  target/arm/translate-a64.c | 40 +++++++++++++++++++-------------------
  target/arm/translate.c     |  6 +++---
 files changed, 50 insertions(+), 37 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ enum arm_features {
- #define EXCP_SEMIHOST       16   /* semihosting call */
+     ARM_FEATURE_PMU, /* has PMU support */
- #define EXCP_NOCP           17   /* v7M NOCP UsageFault */
+     ARM_FEATURE_VBAR, /* has cp15 VBAR */
- #define EXCP_INVSTATE       18   /* v7M INVSTATE UsageFault */
+     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
-+#define EXCP_STKOF          19   /* v8M STKOF UsageFault */
+-    ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
- /* NB: add new EXCP_ defines to the array in arm_log_exception() too */
+     ARM_FEATURE_M_MAIN, /* M profile Main Extension */
+ };
- #define ARMV7M_EXCP_RESET   1
-@@ -XXX,XX +XXX,XX @@ FIELD(V7M_CFSR, UNDEFINSTR, 16 + 0, 1)
+@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_dp(const ARMISARegisters *id)
- FIELD(V7M_CFSR, INVSTATE, 16 + 1, 1)
+     return FIELD_EX32(id->id_isar6, ID_ISAR6, DP) != 0;
- FIELD(V7M_CFSR, INVPC, 16 + 2, 1)
+ }
- FIELD(V7M_CFSR, NOCP, 16 + 3, 1)
-+FIELD(V7M_CFSR, STKOF, 16 + 4, 1)
++static inline bool isar_feature_aa32_fp16_arith(const ARMISARegisters *id)
- FIELD(V7M_CFSR, UNALIGNED, 16 + 8, 1)
++{
- FIELD(V7M_CFSR, DIVBYZERO, 16 + 9, 1)
++    /*
++     * This is a placeholder for use by VCMA until the rest of
 +     * the ARMv8.2-FP16 extension is implemented for aa32 mode.
 +     * At which point we can properly set and check MVFR1.FPHP.
 +     */
 +    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, FP) == 1;
 +}
 +
  /*
   * 64-bit feature tests via id registers.
   */
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
      return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
  }
 +static inline bool isar_feature_aa64_fp16(const ARMISARegisters *id)
 +{
 +    /* We always set the AdvSIMD and FP fields identically wrt FP16.  */
 +    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, FP) == 1;
 +}
 +
  static inline bool isar_feature_aa64_sve(const ARMISARegisters *id)
  {
      return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, SVE) != 0;
 diff --git a/linux-user/elfload.c b/linux-user/elfload.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/elfload.c
 +++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
      hwcaps |= ARM_HWCAP_A64_ASIMD;
      /* probe for the extra features */
 -#define GET_FEATURE(feat, hwcap) \
 -    do { if (arm_feature(&cpu->env, feat)) { hwcaps |= hwcap; } } while (0)
  #define GET_FEATURE_ID(feat, hwcap) \
      do { if (cpu_isar_feature(feat, cpu)) { hwcaps |= hwcap; } } while (0)
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
      GET_FEATURE_ID(aa64_sha3, ARM_HWCAP_A64_SHA3);
      GET_FEATURE_ID(aa64_sm3, ARM_HWCAP_A64_SM3);
      GET_FEATURE_ID(aa64_sm4, ARM_HWCAP_A64_SM4);
 -    GET_FEATURE(ARM_FEATURE_V8_FP16,
 -                ARM_HWCAP_A64_FPHP | ARM_HWCAP_A64_ASIMDHP);
 +    GET_FEATURE_ID(aa64_fp16, ARM_HWCAP_A64_FPHP | ARM_HWCAP_A64_ASIMDHP);
      GET_FEATURE_ID(aa64_atomics, ARM_HWCAP_A64_ATOMICS);
      GET_FEATURE_ID(aa64_rdm, ARM_HWCAP_A64_ASIMDRDM);
      GET_FEATURE_ID(aa64_dp, ARM_HWCAP_A64_ASIMDDP);
      GET_FEATURE_ID(aa64_fcma, ARM_HWCAP_A64_FCMA);
      GET_FEATURE_ID(aa64_sve, ARM_HWCAP_A64_SVE);
 -#undef GET_FEATURE
  #undef GET_FEATURE_ID
      return hwcaps;
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          t = cpu->isar.id_aa64pfr0;
          t = FIELD_DP64(t, ID_AA64PFR0, SVE, 1);
 +        t = FIELD_DP64(t, ID_AA64PFR0, FP, 1);
 +        t = FIELD_DP64(t, ID_AA64PFR0, ADVSIMD, 1);
          cpu->isar.id_aa64pfr0 = t;
          /* Replicate the same data to the 32-bit id registers.  */
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          u = FIELD_DP32(u, ID_ISAR6, DP, 1);
          cpu->isar.id_isar6 = u;
 -#ifdef CONFIG_USER_ONLY
 -        /* We don't set these in system emulation mode for the moment,
 -         * since we don't correctly set the ID registers to advertise them,
 -         * and in some cases they're only available in AArch64 and not AArch32,
 -         * whereas the architecture requires them to be present in both if
 -         * present in either.
 +        /*
 +         * FIXME: We do not yet support ARMv8.2-fp16 for AArch32 yet,
 +         * so do not set MVFR1.FPHP.  Strictly speaking this is not legal,
 +         * but it is also not legal to enable SVE without support for FP16,
 +         * and enabling SVE in system mode is more useful in the short term.
           */
 -        set_feature(&cpu->env, ARM_FEATURE_V8_FP16);
 +
 +#ifdef CONFIG_USER_ONLY
          /* For usermode -cpu max we can use a larger and more efficient DCZ
           * blocksize since we don't have to follow what the hardware does.
           */
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static void arm_log_exception(int idx)
+@@ -XXX,XX +XXX,XX @@ void HELPER(vfp_set_fpscr)(CPUARMState *env, uint32_t val)
-             [EXCP_SEMIHOST] = "Semihosting call",
+     uint32_t changed;
-             [EXCP_NOCP] = "v7M NOCP UsageFault",
-             [EXCP_INVSTATE] = "v7M INVSTATE UsageFault",
+     /* When ARMv8.2-FP16 is not supported, FZ16 is RES0.  */
-+            [EXCP_STKOF] = "v8M STKOF UsageFault",
+-    if (!arm_feature(env, ARM_FEATURE_V8_FP16)) {
-         };
++    if (!cpu_isar_feature(aa64_fp16, arm_env_get_cpu(env))) {
+         val &= ~FPCR_FZ16;
-         if (idx >= 0 && idx < ARRAY_SIZE(excnames)) {
+     }
-@@ -XXX,XX +XXX,XX @@ void arm_v7m_cpu_do_interrupt(CPUState *cs)
-         armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE, env->v7m.secure);
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-         env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_INVSTATE_MASK;
+index XXXXXXX..XXXXXXX 100644
-         break;
+--- a/target/arm/translate-a64.c
-+    case EXCP_STKOF:
++++ b/target/arm/translate-a64.c
-+        armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE, env->v7m.secure);
+@@ -XXX,XX +XXX,XX @@ static void disas_fp_compare(DisasContext *s, uint32_t insn)
-+        env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_STKOF_MASK;
+         break;
-+        break;
+     case 3:
-     case EXCP_SWI:
+         size = MO_16;
-         /* The PC already points to the next instruction.  */
+-        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
-         armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_SVC, env->v7m.secure);
++        if (dc_isar_feature(aa64_fp16, s)) {
              break;
          }
          /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_ccomp(DisasContext *s, uint32_t insn)
          break;
      case 3:
          size = MO_16;
 -        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (dc_isar_feature(aa64_fp16, s)) {
              break;
          }
          /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_csel(DisasContext *s, uint32_t insn)
          break;
      case 3:
          sz = MO_16;
 -        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (dc_isar_feature(aa64_fp16, s)) {
              break;
          }
          /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
              handle_fp_1src_double(s, opcode, rd, rn);
              break;
          case 3:
 -            if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +            if (!dc_isar_feature(aa64_fp16, s)) {
                  unallocated_encoding(s);
                  return;
              }
@@ -XXX,XX +XXX,XX @@ static void disas_fp_2src(DisasContext *s, uint32_t insn)
          handle_fp_2src_double(s, opcode, rd, rn, rm);
          break;
      case 3:
 -        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (!dc_isar_feature(aa64_fp16, s)) {
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_fp_3src(DisasContext *s, uint32_t insn)
          handle_fp_3src_double(s, o0, o1, rd, rn, rm, ra);
          break;
      case 3:
 -        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (!dc_isar_feature(aa64_fp16, s)) {
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_fp_imm(DisasContext *s, uint32_t insn)
          break;
      case 3:
          sz = MO_16;
 -        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (dc_isar_feature(aa64_fp16, s)) {
              break;
          }
          /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_fixed_conv(DisasContext *s, uint32_t insn)
      case 1: /* float64 */
          break;
      case 3: /* float16 */
 -        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (dc_isar_feature(aa64_fp16, s)) {
              break;
          }
          /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
              break;
          case 0x6: /* 16-bit float, 32-bit int */
          case 0xe: /* 16-bit float, 64-bit int */
 -            if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +            if (dc_isar_feature(aa64_fp16, s)) {
                  break;
              }
              /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
          case 1: /* float64 */
              break;
          case 3: /* float16 */
 -            if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +            if (dc_isar_feature(aa64_fp16, s)) {
                  break;
              }
              /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
           */
          is_min = extract32(size, 1, 1);
          is_fp = true;
 -        if (!is_u && arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (!is_u && dc_isar_feature(aa64_fp16, s)) {
              size = 1;
          } else if (!is_u || !is_q || extract32(size, 0, 1)) {
              unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
          /* Check for FMOV (vector, immediate) - half-precision */
 -        if (!(arm_dc_feature(s, ARM_FEATURE_V8_FP16) && o2 && cmode == 0xf)) {
 +        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
      case 0x2f: /* FMINP */
          /* FP op, size[0] is 32 or 64 bit*/
          if (!u) {
 -            if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +            if (!dc_isar_feature(aa64_fp16, s)) {
                  unallocated_encoding(s);
                  return;
              } else {
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_intfp_conv(DisasContext *s, bool is_scalar,
          size = MO_32;
      } else if (immh & 2) {
          size = MO_16;
 -        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (!dc_isar_feature(aa64_fp16, s)) {
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
          size = MO_32;
      } else if (immh & 0x2) {
          size = MO_16;
 -        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +        if (!dc_isar_feature(aa64_fp16, s)) {
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
          return;
      }
 -    if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +    if (!dc_isar_feature(aa64_fp16, s)) {
          unallocated_encoding(s);
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      TCGv_ptr fpst;
      bool pairwise = false;
 -    if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +    if (!dc_isar_feature(aa64_fp16, s)) {
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
      case 0x1c: /* FCADD, #90 */
      case 0x1e: /* FCADD, #270 */
          if (size == 0
 -            || (size == 1 && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))
 +            || (size == 1 && !dc_isar_feature(aa64_fp16, s))
              || (size == 3 && !is_q)) {
              unallocated_encoding(s);
              return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
      bool need_fpst = true;
      int rmode;
 -    if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +    if (!dc_isar_feature(aa64_fp16, s)) {
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          }
          break;
      }
 -    if (is_fp16 && !arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +    if (is_fp16 && !dc_isar_feature(aa64_fp16, s)) {
          unallocated_encoding(s);
          return;
      }
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
          int size = extract32(insn, 20, 1);
          data = extract32(insn, 23, 2); /* rot */
          if (!dc_isar_feature(aa32_vcma, s)
 -            || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
 +            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
              return 1;
          }
          fn_gvec_ptr = size ? gen_helper_gvec_fcmlas : gen_helper_gvec_fcmlah;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
          int size = extract32(insn, 20, 1);
          data = extract32(insn, 24, 1); /* rot */
          if (!dc_isar_feature(aa32_vcma, s)
 -            || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
 +            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
              return 1;
          }
          fn_gvec_ptr = size ? gen_helper_gvec_fcadds : gen_helper_gvec_fcaddh;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
              return 1;
          }
          if (size == 0) {
 -            if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
 +            if (!dc_isar_feature(aa32_fp16_arith, s)) {
                  return 1;
              }
              /* For fp16, rm is just Vm, and index is M.  */
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 23/33] target/arm: Add v8M stack checks on ADD/SUB/MOV of SP
+[Qemu-devel] [PULL 11/45] target/arm: Improve debug logging of AArch32 exception return
-Add code to insert calls to a helper function to do the stack
+For AArch32, exception return happens through certain kinds
-limit checking when we handle these forms of instruction
+of CPSR write. We don't currently have any CPU_LOG_INT logging
-that write to SP:
+of these events (unlike AArch64, where we log in the ERET
- * ADD (SP plus immediate)
+instruction). Add some suitable logging.
- * ADD (SP plus register)
- * SUB (SP minus immediate)
+This will log exception returns like this:
- * SUB (SP minus register)
+Exception return from AArch32 hyp to usr PC 0x80100374
- * MOV (register)
 paralleling the existing logging in the exception_return
 helper for AArch64 exception returns:
 Exception return from AArch64 EL2 to AArch64 EL0 PC 0x8003045c
 Exception return from AArch64 EL2 to AArch32 EL0 PC 0x8003045c
 (Note that an AArch32 exception return can only be
 AArch32->AArch32, never to AArch64.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-5-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-2-peter.maydell@linaro.org
 ---
- target/arm/helper.h    |  2 ++
+ target/arm/internals.h | 18 ++++++++++++++++++
- target/arm/internals.h | 14 ++++++++
+ target/arm/helper.c    | 10 ++++++++++
- target/arm/op_helper.c | 19 ++++++++++
+ target/arm/translate.c |  7 +------
- target/arm/translate.c | 80 +++++++++++++++++++++++++++++++++++++-----
+files changed, 29 insertions(+), 6 deletions(-)
 files changed, 106 insertions(+), 9 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
-+++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(v7m_blxns, void, env, i32)
- DEF_HELPER_3(v7m_tt, i32, env, i32, i32)
-+DEF_HELPER_2(v8m_stackcheck, void, env, i32)
-+
- DEF_HELPER_4(access_check_cp_reg, void, env, ptr, i32, i32)
- DEF_HELPER_3(set_cp_reg, void, env, ptr, i32)
- DEF_HELPER_2(get_cp_reg, i32, env, ptr)
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ static inline bool v7m_using_psp(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t v7m_sp_limit(CPUARMState *env)
-         env->v7m.control[env->v7m.secure] & R_V7M_CONTROL_SPSEL_MASK;
+     }
  }
 +/**
-+ * v7m_sp_limit: Return SP limit for current CPU state
++ * aarch32_mode_name(): Return name of the AArch32 CPU mode
-+ * Return the SP limit value for the current CPU security state
++ * @psr: Program Status Register indicating CPU mode
-+ * and stack pointer.
++ *
 + * Returns, for debug logging purposes, a printable representation
 + * of the AArch32 CPU mode ("svc", "usr", etc) as indicated by
 + * the low bits of the specified PSR.
 + */
-+static inline uint32_t v7m_sp_limit(CPUARMState *env)
++static inline const char *aarch32_mode_name(uint32_t psr)
 +{
-+    if (v7m_using_psp(env)) {
++    static const char cpu_mode_names[16][4] = {
-+        return env->v7m.psplim[env->v7m.secure];
++        "usr", "fiq", "irq", "svc", "???", "???", "mon", "abt",
-+    } else {
++        "???", "???", "hyp", "und", "???", "???", "???", "sys"
-+        return env->v7m.msplim[env->v7m.secure];
++    };
-+    }
++
 +    return cpu_mode_names[psr & 0xf];
 +}
 +
  #endif
-diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
+diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/op_helper.c
+--- a/target/arm/helper.c
-+++ b/target/arm/op_helper.c
++++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ void arm_cpu_do_transaction_failed(CPUState *cs, hwaddr physaddr,
+@@ -XXX,XX +XXX,XX @@ void cpsr_write(CPUARMState *env, uint32_t val, uint32_t mask,
+                 mask |= CPSR_IL;
- #endif /* !defined(CONFIG_USER_ONLY) */
+                 val |= CPSR_IL;
+             }
-+void HELPER(v8m_stackcheck)(CPUARMState *env, uint32_t newvalue)
++            qemu_log_mask(LOG_GUEST_ERROR,
-+{
++                          "Illegal AArch32 mode switch attempt from %s to %s\n",
-+    /*
++                          aarch32_mode_name(env->uncached_cpsr),
-+     * Perform the v8M stack limit check for SP updates from translated code,
++                          aarch32_mode_name(val));
-+     * raising an exception if the limit is breached.
+         } else {
-+     */
++            qemu_log_mask(CPU_LOG_INT, "%s %s to %s PC 0x%" PRIx32 "\n",
-+    if (newvalue < v7m_sp_limit(env)) {
++                          write_type == CPSRWriteExceptionReturn ?
-+        CPUState *cs = CPU(arm_env_get_cpu(env));
++                          "Exception return from AArch32" :
-+
++                          "AArch32 mode switch from",
-+        /*
++                          aarch32_mode_name(env->uncached_cpsr),
-+         * Stack limit exceptions are a rare case, so rather than syncing
++                          aarch32_mode_name(val), env->regs[15]);
-+         * PC/condbits before the call, we use cpu_restore_state() to
+             switch_mode(env, val & CPSR_M);
-+         * get them right before raising the exception.
+         }
-+         */
+     }
 +        cpu_restore_state(cs, GETPC(), true);
 +        raise_exception(env, EXCP_STKOF, 0, 1);
 +    }
 +}
 +
  uint32_t HELPER(add_setq)(CPUARMState *env, uint32_t a, uint32_t b)
  {
      uint32_t res = a + b;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void store_reg(DisasContext *s, int reg, TCGv_i32 var)
+@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb)
-     tcg_temp_free_i32(var);
+     translator_loop(ops, &dc.base, cpu, tb);
  }
-+/*
+-static const char *cpu_mode_names[16] = {
-+ * Variant of store_reg which applies v8M stack-limit checks before updating
+-  "usr", "fiq", "irq", "svc", "???", "???", "mon", "abt",
-+ * SP. If the check fails this will result in an exception being taken.
+-  "???", "???", "hyp", "und", "???", "???", "???", "sys"
-+ * We disable the stack checks for CONFIG_USER_ONLY because we have
+-};
-+ * no idea what the stack limits should be in that case.
+-
-+ * If stack checking is not being done this just acts like store_reg().
+ void arm_cpu_dump_state(CPUState *cs, FILE *f, fprintf_function cpu_fprintf,
-+ */
+                         int flags)
-+static void store_sp_checked(DisasContext *s, TCGv_i32 var)
+ {
-+{
+@@ -XXX,XX +XXX,XX @@ void arm_cpu_dump_state(CPUState *cs, FILE *f, fprintf_function cpu_fprintf,
-+#ifndef CONFIG_USER_ONLY
+                     psr & CPSR_V ? 'V' : '-',
-+    if (s->v8m_stackcheck) {
+                     psr & CPSR_T ? 'T' : 'A',
-+        gen_helper_v8m_stackcheck(cpu_env, var);
+                     ns_status,
-+    }
+-                    cpu_mode_names[psr & 0xf], (psr & 0x10) ? 32 : 26);
-+#endif
++                    aarch32_mode_name(psr), (psr & 0x10) ? 32 : 26);
-+    store_reg(s, 13, var);
+     }
-+}
-+
+     if (flags & CPU_DUMP_FPU) {
  /* Value extensions.  */
  #define gen_uxtb(var) tcg_gen_ext8u_i32(var, var)
  #define gen_uxth(var) tcg_gen_ext16u_i32(var, var)
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
              if (gen_thumb2_data_op(s, op, conds, 0, tmp, tmp2))
                  goto illegal_op;
              tcg_temp_free_i32(tmp2);
 -            if (rd != 15) {
 +            if (rd == 13 &&
 +                ((op == 2 && rn == 15) ||
 +                 (op == 8 && rn == 13) ||
 +                 (op == 13 && rn == 13))) {
 +                /* MOV SP, ... or ADD SP, SP, ... or SUB SP, SP, ... */
 +                store_sp_checked(s, tmp);
 +            } else if (rd != 15) {
                  store_reg(s, rd, tmp);
              } else {
                  tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                  gen_jmp(s, s->pc + offset);
              }
          } else {
 -            /* Data processing immediate.  */
 +            /*
 +             * 0b1111_0xxx_xxxx_0xxx_xxxx_xxxx
 +             *  - Data-processing (modified immediate, plain binary immediate)
 +             */
              if (insn & (1 << 25)) {
 +                /*
 +                 * 0b1111_0x1x_xxxx_0xxx_xxxx_xxxx
 +                 *  - Data-processing (plain binary immediate)
 +                 */
                  if (insn & (1 << 24)) {
                      if (insn & (1 << 20))
                          goto illegal_op;
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                              tmp = tcg_temp_new_i32();
                              tcg_gen_movi_i32(tmp, imm);
                          }
 +                        store_reg(s, rd, tmp);
                      } else {
                          /* Add/sub 12-bit immediate.  */
                          if (rn == 15) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                                  offset += imm;
                              tmp = tcg_temp_new_i32();
                              tcg_gen_movi_i32(tmp, offset);
 +                            store_reg(s, rd, tmp);
                          } else {
                              tmp = load_reg(s, rn);
                              if (insn & (1 << 23))
                                  tcg_gen_subi_i32(tmp, tmp, imm);
                              else
                                  tcg_gen_addi_i32(tmp, tmp, imm);
 +                            if (rn == 13 && rd == 13) {
 +                                /* ADD SP, SP, imm or SUB SP, SP, imm */
 +                                store_sp_checked(s, tmp);
 +                            } else {
 +                                store_reg(s, rd, tmp);
 +                            }
                          }
                      }
 -                    store_reg(s, rd, tmp);
                  }
              } else {
 +                /*
 +                 * 0b1111_0x0x_xxxx_0xxx_xxxx_xxxx
 +                 *  - Data-processing (modified immediate)
 +                 */
                  int shifter_out = 0;
                  /* modified 12-bit immediate.  */
                  shift = ((insn & 0x04000000) >> 23) | ((insn & 0x7000) >> 12);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                      goto illegal_op;
                  tcg_temp_free_i32(tmp2);
                  rd = (insn >> 8) & 0xf;
 -                if (rd != 15) {
 +                if (rd == 13 && rn == 13
 +                    && (op == 8 || op == 13)) {
 +                    /* ADD(S) SP, SP, imm or SUB(S) SP, SP, imm */
 +                    store_sp_checked(s, tmp);
 +                } else if (rd != 15) {
                      store_reg(s, rd, tmp);
                  } else {
                      tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
                  tmp2 = load_reg(s, rm);
                  tcg_gen_add_i32(tmp, tmp, tmp2);
                  tcg_temp_free_i32(tmp2);
 -                store_reg(s, rd, tmp);
 +                if (rd == 13) {
 +                    /* ADD SP, SP, reg */
 +                    store_sp_checked(s, tmp);
 +                } else {
 +                    store_reg(s, rd, tmp);
 +                }
                  break;
              case 1: /* cmp */
                  tmp = load_reg(s, rd);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
                  break;
              case 2: /* mov/cpy */
                  tmp = load_reg(s, rm);
 -                store_reg(s, rd, tmp);
 +                if (rd == 13) {
 +                    /* MOV SP, reg */
 +                    store_sp_checked(s, tmp);
 +                } else {
 +                    store_reg(s, rd, tmp);
 +                }
                  break;
              case 3:
              {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
          break;
      case 10:
 -        /* add to high reg */
 +        /*
 +         * 0b1010_xxxx_xxxx_xxxx
 +         *  - Add PC/SP (immediate)
 +         */
          rd = (insn >> 8) & 7;
          if (insn & (1 << 11)) {
              /* SP */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
          op = (insn >> 8) & 0xf;
          switch (op) {
          case 0:
 -            /* adjust stack pointer */
 +            /*
 +             * 0b1011_0000_xxxx_xxxx
 +             *  - ADD (SP plus immediate)
 +             *  - SUB (SP minus immediate)
 +             */
              tmp = load_reg(s, 13);
              val = (insn & 0x7f) * 4;
              if (insn & (1 << 7))
                  val = -(int32_t)val;
              tcg_gen_addi_i32(tmp, tmp, val);
 -            store_reg(s, 13, tmp);
 +            store_sp_checked(s, tmp);
              break;
          case 2: /* sign/zero extend.  */
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 22/33] target/arm: Move v7m_using_psp() to internals.h
+[Qemu-devel] [PULL 12/45] target/arm: Make switch_mode() file-local
-We're going to want v7m_using_psp() in op_helper.c in the
+The switch_mode() function is defined in target/arm/helper.c and used
-next patch, so move it from helper.c to internals.h.
+only in that file and nowhere else, so we can make it file-local
 rather than global.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-4-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-3-peter.maydell@linaro.org
 ---
- target/arm/internals.h | 16 ++++++++++++++++
+ target/arm/internals.h | 1 -
- target/arm/helper.c    | 12 ------------
+ target/arm/helper.c    | 6 ++++--
-files changed, 16 insertions(+), 12 deletions(-)
+files changed, 4 insertions(+), 3 deletions(-)
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t arm_debug_exception_fsr(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ static inline int bank_number(int mode)
-  */
+     g_assert_not_reached();
- #define MEMOPIDX_SHIFT  8
+ }
-+/**
+-void switch_mode(CPUARMState *, int);
-+ * v7m_using_psp: Return true if using process stack pointer
+ void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
-+ * Return true if the CPU is currently using the process stack
+ void arm_translate_init(void);
-+ * pointer, or false if it is using the main stack pointer.
 + */
 +static inline bool v7m_using_psp(CPUARMState *env)
 +{
 +    /* Handler mode always uses the main stack; for thread mode
 +     * the CONTROL.SPSEL bit determines the answer.
 +     * Note that in v7M it is not possible to be in Handler mode with
 +     * CONTROL.SPSEL non-zero, but in v8M it is, so we must check both.
 +     */
 +    return !arm_v7m_is_handler_mode(env) &&
 +        env->v7m.control[env->v7m.secure] & R_V7M_CONTROL_SPSEL_MASK;
 +}
 +
  #endif
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ pend_fault:
+@@ -XXX,XX +XXX,XX @@ static void v8m_security_lookup(CPUARMState *env, uint32_t address,
-     return false;
+                                 V8M_SAttributes *sattrs);
  #endif
 +static void switch_mode(CPUARMState *env, int mode);
 +
  static int vfp_gdb_get_reg(CPUARMState *env, uint8_t *buf, int reg)
  {
      int nregs;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(v7m_tt)(CPUARMState *env, uint32_t addr, uint32_t op)
      return 0;
  }
--/* Return true if we're using the process stack pointer (not the MSP) */
+-void switch_mode(CPUARMState *env, int mode)
--static bool v7m_using_psp(CPUARMState *env)
++static void switch_mode(CPUARMState *env, int mode)
--{
+ {
--    /* Handler mode always uses the main stack; for thread mode
+     ARMCPU *cpu = arm_env_get_cpu(env);
--     * the CONTROL.SPSEL bit determines the answer.
--     * Note that in v7M it is not possible to be in Handler mode with
+@@ -XXX,XX +XXX,XX @@ void aarch64_sync_64_to_32(CPUARMState *env)
--     * CONTROL.SPSEL non-zero, but in v8M it is, so we must check both.
--     */
+ #else
--    return !arm_v7m_is_handler_mode(env) &&
--        env->v7m.control[env->v7m.secure] & R_V7M_CONTROL_SPSEL_MASK;
+-void switch_mode(CPUARMState *env, int mode)
--}
++static void switch_mode(CPUARMState *env, int mode)
--
+ {
- /* Write to v7M CONTROL.SPSEL bit for the specified security bank.
+     int old_mode;
-  * This may change the current stack pointer between Main and Process
+     int i;
   * stack pointers if it is done for the CONTROL register for the current
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 13/45] target/arm: Implement HCR.FB
+The HCR.FB virtualization configuration register bit requests that
 TLB maintenance, branch predictor invalidate-all and icache
 invalidate-all operations performed in NS EL1 should be upgraded
 from "local CPU only to "broadcast within Inner Shareable domain".
 For QEMU we NOP the branch predictor and icache operations, so
 we only need to upgrade the TLB invalidates:
  AArch32 TLBIALL, TLBIMVA, TLBIASID, DTLBIALL, DTLBIMVA, DTLBIASID,
          ITLBIALL, ITLBIMVA, ITLBIASID, TLBIMVAA, TLBIMVAL, TLBIMVAAL
  AArch64 TLBI VMALLE1, TLBI VAE1, TLBI ASIDE1, TLBI VAAE1,
          TLBI VALE1, TLBI VAALE1
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181012144235.19646-4-peter.maydell@linaro.org
 ---
  target/arm/helper.c | 191 +++++++++++++++++++++++++++-----------------
 file changed, 116 insertions(+), 75 deletions(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void contextidr_write(CPUARMState *env, const ARMCPRegInfo *ri,
      raw_write(env, ri, value);
  }
 -static void tlbiall_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                          uint64_t value)
 -{
 -    /* Invalidate all (TLBIALL) */
 -    ARMCPU *cpu = arm_env_get_cpu(env);
 -
 -    tlb_flush(CPU(cpu));
 -}
 -
 -static void tlbimva_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                          uint64_t value)
 -{
 -    /* Invalidate single TLB entry by MVA and ASID (TLBIMVA) */
 -    ARMCPU *cpu = arm_env_get_cpu(env);
 -
 -    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
 -}
 -
 -static void tlbiasid_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                           uint64_t value)
 -{
 -    /* Invalidate by ASID (TLBIASID) */
 -    ARMCPU *cpu = arm_env_get_cpu(env);
 -
 -    tlb_flush(CPU(cpu));
 -}
 -
 -static void tlbimvaa_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                           uint64_t value)
 -{
 -    /* Invalidate single entry by MVA, all ASIDs (TLBIMVAA) */
 -    ARMCPU *cpu = arm_env_get_cpu(env);
 -
 -    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
 -}
 -
  /* IS variants of TLB operations must affect all cores */
  static void tlbiall_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                               uint64_t value)
@@ -XXX,XX +XXX,XX @@ static void tlbimvaa_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
      tlb_flush_page_all_cpus_synced(cs, value & TARGET_PAGE_MASK);
  }
 +/*
 + * Non-IS variants of TLB operations are upgraded to
 + * IS versions if we are at NS EL1 and HCR_EL2.FB is set to
 + * force broadcast of these operations.
 + */
 +static bool tlb_force_broadcast(CPUARMState *env)
 +{
 +    return (env->cp15.hcr_el2 & HCR_FB) &&
 +        arm_current_el(env) == 1 && arm_is_secure_below_el3(env);
 +}
 +
 +static void tlbiall_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                          uint64_t value)
 +{
 +    /* Invalidate all (TLBIALL) */
 +    ARMCPU *cpu = arm_env_get_cpu(env);
 +
 +    if (tlb_force_broadcast(env)) {
 +        tlbiall_is_write(env, NULL, value);
 +        return;
 +    }
 +
 +    tlb_flush(CPU(cpu));
 +}
 +
 +static void tlbimva_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                          uint64_t value)
 +{
 +    /* Invalidate single TLB entry by MVA and ASID (TLBIMVA) */
 +    ARMCPU *cpu = arm_env_get_cpu(env);
 +
 +    if (tlb_force_broadcast(env)) {
 +        tlbimva_is_write(env, NULL, value);
 +        return;
 +    }
 +
 +    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
 +}
 +
 +static void tlbiasid_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                           uint64_t value)
 +{
 +    /* Invalidate by ASID (TLBIASID) */
 +    ARMCPU *cpu = arm_env_get_cpu(env);
 +
 +    if (tlb_force_broadcast(env)) {
 +        tlbiasid_is_write(env, NULL, value);
 +        return;
 +    }
 +
 +    tlb_flush(CPU(cpu));
 +}
 +
 +static void tlbimvaa_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                           uint64_t value)
 +{
 +    /* Invalidate single entry by MVA, all ASIDs (TLBIMVAA) */
 +    ARMCPU *cpu = arm_env_get_cpu(env);
 +
 +    if (tlb_force_broadcast(env)) {
 +        tlbimvaa_is_write(env, NULL, value);
 +        return;
 +    }
 +
 +    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
 +}
 +
  static void tlbiall_nsnh_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                 uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static CPAccessResult aa64_cacheop_access(CPUARMState *env,
   * Page D4-1736 (DDI0487A.b)
   */
 -static void tlbi_aa64_vmalle1_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                                    uint64_t value)
 -{
 -    CPUState *cs = ENV_GET_CPU(env);
 -
 -    if (arm_is_secure_below_el3(env)) {
 -        tlb_flush_by_mmuidx(cs,
 -                            ARMMMUIdxBit_S1SE1 |
 -                            ARMMMUIdxBit_S1SE0);
 -    } else {
 -        tlb_flush_by_mmuidx(cs,
 -                            ARMMMUIdxBit_S12NSE1 |
 -                            ARMMMUIdxBit_S12NSE0);
 -    }
 -}
 -
  static void tlbi_aa64_vmalle1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                        uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_vmalle1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
      }
  }
 +static void tlbi_aa64_vmalle1_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                                    uint64_t value)
 +{
 +    CPUState *cs = ENV_GET_CPU(env);
 +
 +    if (tlb_force_broadcast(env)) {
 +        tlbi_aa64_vmalle1_write(env, NULL, value);
 +        return;
 +    }
 +
 +    if (arm_is_secure_below_el3(env)) {
 +        tlb_flush_by_mmuidx(cs,
 +                            ARMMMUIdxBit_S1SE1 |
 +                            ARMMMUIdxBit_S1SE0);
 +    } else {
 +        tlb_flush_by_mmuidx(cs,
 +                            ARMMMUIdxBit_S12NSE1 |
 +                            ARMMMUIdxBit_S12NSE0);
 +    }
 +}
 +
  static void tlbi_aa64_alle1_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                    uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_alle3is_write(CPUARMState *env, const ARMCPRegInfo *ri,
      tlb_flush_by_mmuidx_all_cpus_synced(cs, ARMMMUIdxBit_S1E3);
  }
 -static void tlbi_aa64_vae1_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                                 uint64_t value)
 -{
 -    /* Invalidate by VA, EL1&0 (AArch64 version).
 -     * Currently handles all of VAE1, VAAE1, VAALE1 and VALE1,
 -     * since we don't support flush-for-specific-ASID-only or
 -     * flush-last-level-only.
 -     */
 -    ARMCPU *cpu = arm_env_get_cpu(env);
 -    CPUState *cs = CPU(cpu);
 -    uint64_t pageaddr = sextract64(value << 12, 0, 56);
 -
 -    if (arm_is_secure_below_el3(env)) {
 -        tlb_flush_page_by_mmuidx(cs, pageaddr,
 -                                 ARMMMUIdxBit_S1SE1 |
 -                                 ARMMMUIdxBit_S1SE0);
 -    } else {
 -        tlb_flush_page_by_mmuidx(cs, pageaddr,
 -                                 ARMMMUIdxBit_S12NSE1 |
 -                                 ARMMMUIdxBit_S12NSE0);
 -    }
 -}
 -
  static void tlbi_aa64_vae2_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                   uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_vae1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
      }
  }
 +static void tlbi_aa64_vae1_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                                 uint64_t value)
 +{
 +    /* Invalidate by VA, EL1&0 (AArch64 version).
 +     * Currently handles all of VAE1, VAAE1, VAALE1 and VALE1,
 +     * since we don't support flush-for-specific-ASID-only or
 +     * flush-last-level-only.
 +     */
 +    ARMCPU *cpu = arm_env_get_cpu(env);
 +    CPUState *cs = CPU(cpu);
 +    uint64_t pageaddr = sextract64(value << 12, 0, 56);
 +
 +    if (tlb_force_broadcast(env)) {
 +        tlbi_aa64_vae1is_write(env, NULL, value);
 +        return;
 +    }
 +
 +    if (arm_is_secure_below_el3(env)) {
 +        tlb_flush_page_by_mmuidx(cs, pageaddr,
 +                                 ARMMMUIdxBit_S1SE1 |
 +                                 ARMMMUIdxBit_S1SE0);
 +    } else {
 +        tlb_flush_page_by_mmuidx(cs, pageaddr,
 +                                 ARMMMUIdxBit_S12NSE1 |
 +                                 ARMMMUIdxBit_S12NSE0);
 +    }
 +}
 +
  static void tlbi_aa64_vae2is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                     uint64_t value)
  {
 --
 .19.1

-[Qemu-devel] [PULL 25/33] target/arm: Add v8M stack checks on exception entry
+[Qemu-devel] [PULL 14/45] target/arm: Implement HCR.DC
-Add checks for breaches of the v8M stack limit when the
+The HCR.DC virtualization configuration register bit has the
-stack pointer is decremented to push the exception frame
+following effects:
-for exception entry.
+ * SCTLR.M behaves as if it is 0 for all purposes except
    direct reads of the bit
  * HCR.VM behaves as if it is 1 for all purposes except
    direct reads of the bit
  * the memory type produced by the first stage of the EL1&EL0
    translation regime is Normal Non-Shareable,
    Inner Write-Back Read-Allocate Write-Allocate,
    Outer Write-Back Read-Allocate Write-Allocate.
-Note that the exception-entry case is unique in that the
+Implement this behaviour.
 stack pointer is updated to be the limit value if the limit
 is hit (per rule R_ZLZG).
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-7-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-5-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 54 ++++++++++++++++++++++++++++++++++++++-------
+ target/arm/helper.c | 23 +++++++++++++++++++++--
-file changed, 46 insertions(+), 8 deletions(-)
+file changed, 21 insertions(+), 2 deletions(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
+@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
-     uint32_t frameptr;
+          * * The Non-secure TTBCR.EAE bit is set to 1
-     ARMMMUIdx mmu_idx;
+          * * The implementation includes EL2, and the value of HCR.VM is 1
-     bool stacked_ok;
+          *
-+    uint32_t limit;
++         * (Note that HCR.DC makes HCR.VM behave as if it is 1.)
-+    bool want_psp;
++         *
+          * ATS1Hx always uses the 64bit format (not supported yet).
-     if (dotailchain) {
+          */
-         bool mode = lr & R_V7M_EXCRET_MODE_MASK;
+         format64 = arm_s1_regime_using_lpae_format(env, mmu_idx);
-@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
-         mmu_idx = arm_v7m_mmu_idx_for_secstate_and_priv(env, M_REG_S, priv);
+         if (arm_feature(env, ARM_FEATURE_EL2)) {
-         frame_sp_p = get_v7m_sp_ptr(env, M_REG_S, mode,
+             if (mmu_idx == ARMMMUIdx_S12NSE0 || mmu_idx == ARMMMUIdx_S12NSE1) {
-                                     lr & R_V7M_EXCRET_SPSEL_MASK);
+-                format64 |= env->cp15.hcr_el2 & HCR_VM;
-+        want_psp = mode && (lr & R_V7M_EXCRET_SPSEL_MASK);
++                format64 |= env->cp15.hcr_el2 & (HCR_VM | HCR_DC);
-+        if (want_psp) {
+             } else {
-+            limit = env->v7m.psplim[M_REG_S];
+                 format64 |= arm_current_el(env) == 2;
-+        } else {
+             }
-+            limit = env->v7m.msplim[M_REG_S];
+@@ -XXX,XX +XXX,XX @@ static inline bool regime_translation_disabled(CPUARMState *env,
 +        }
      } else {
          mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
          frame_sp_p = &env->regs[13];
 +        limit = v7m_sp_limit(env);
      }
-     frameptr = *frame_sp_p - 0x28;
+     if (mmu_idx == ARMMMUIdx_S2NS) {
-+    if (frameptr < limit) {
+-        return (env->cp15.hcr_el2 & HCR_VM) == 0;
-+        /*
++        /* HCR.DC means HCR.VM behaves as 1 */
-+         * Stack limit failure: set SP to the limit value, and generate
++        return (env->cp15.hcr_el2 & (HCR_DC | HCR_VM)) == 0;
-+         * STKOF UsageFault. Stack pushes below the limit must not be
+     }
-+         * performed. It is IMPDEF whether pushes above the limit are
-+         * performed; we choose not to.
+     if (env->cp15.hcr_el2 & HCR_TGE) {
-+         */
+@@ -XXX,XX +XXX,XX @@ static inline bool regime_translation_disabled(CPUARMState *env,
-+        qemu_log_mask(CPU_LOG_INT,
+         }
-+                      "...STKOF during callee-saves register stacking\n");
+     }
-+        env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_STKOF_MASK;
-+        armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE,
++    if ((env->cp15.hcr_el2 & HCR_DC) &&
-+                                env->v7m.secure);
++        (mmu_idx == ARMMMUIdx_S1NSE0 || mmu_idx == ARMMMUIdx_S1NSE1)) {
-+        *frame_sp_p = limit;
++        /* HCR.DC means SCTLR_EL1.M behaves as 0 */
 +        return true;
 +    }
-     /* Write as much of the stack frame as we can. A write failure may
-      * cause us to pend a derived exception.
-@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
-         v7m_stack_write(cpu, frameptr + 0x24, env->regs[11], mmu_idx,
-                         ignore_faults);
--    /* Update SP regardless of whether any of the stack accesses failed.
--     * When we implement v8M stack limit checking then this attempt to
--     * update SP might also fail and result in a derived exception.
--     */
-+    /* Update SP regardless of whether any of the stack accesses failed. */
-     *frame_sp_p = frameptr;
-     return !stacked_ok;
-@@ -XXX,XX +XXX,XX @@ static bool v7m_push_stack(ARMCPU *cpu)
-     frameptr -= 0x20;
-+    if (arm_feature(env, ARM_FEATURE_V8)) {
-+        uint32_t limit = v7m_sp_limit(env);
 +
-+        if (frameptr < limit) {
+     return (regime_sctlr(env, mmu_idx) & SCTLR_M) == 0;
-+            /*
+ }
-+             * Stack limit failure: set SP to the limit value, and generate
-+             * STKOF UsageFault. Stack pushes below the limit must not be
+@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr(CPUARMState *env, target_ulong address,
-+             * performed. It is IMPDEF whether pushes above the limit are
-+             * performed; we choose not to.
+             /* Combine the S1 and S2 cache attributes, if needed */
-+             */
+             if (!ret && cacheattrs != NULL) {
-+            qemu_log_mask(CPU_LOG_INT,
++                if (env->cp15.hcr_el2 & HCR_DC) {
-+                          "...STKOF during stacking\n");
++                    /*
-+            env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_STKOF_MASK;
++                     * HCR.DC forces the first stage attributes to
-+            armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE,
++                     *  Normal Non-Shareable,
-+                                    env->v7m.secure);
++                     *  Inner Write-Back Read-Allocate Write-Allocate,
-+            env->regs[13] = limit;
++                     *  Outer Write-Back Read-Allocate Write-Allocate.
-+            return true;
++                     */
-+        }
++                    cacheattrs->attrs = 0xff;
-+    }
++                    cacheattrs->shareability = 0;
-+
++                }
-     /* Write as much of the stack frame as we can. If we fail a stack
+                 *cacheattrs = combine_cacheattrs(*cacheattrs, cacheattrs2);
-      * write this will result in a derived exception being pended
+             }
-      * (which may be taken in preference to the one we started with
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_stack(ARMCPU *cpu)
          v7m_stack_write(cpu, frameptr + 24, env->regs[15], mmu_idx, false) &&
          v7m_stack_write(cpu, frameptr + 28, xpsr, mmu_idx, false);
 -    /* Update SP regardless of whether any of the stack accesses failed.
 -     * When we implement v8M stack limit checking then this attempt to
 -     * update SP might also fail and result in a derived exception.
 -     */
 +    /* Update SP regardless of whether any of the stack accesses failed. */
      env->regs[13] = frameptr;
      return !stacked_ok;
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 03/33] target/arm: Correct condition for v8M callee stack push
+[Qemu-devel] [PULL 15/45] target/arm: ISR_EL1 bits track virtual interrupts if IMO/FMO set
-In v7m_exception_taken() we were incorrectly using a
+The A/I/F bits in ISR_EL1 should track the virtual interrupt
-"LR bit EXCRET.ES is 1" check when it should be 0
+status, not the physical interrupt status, if the associated
-(compare the pseudocode ExceptionTaken() function).
+HCR_EL2.AMO/IMO/FMO bit is set. Implement this, rather than
-This meant we didn't stack the callee-saved registers
+always showing the physical interrupt status.
 when tailchaining from a NonSecure to a Secure exception.
-Cc: qemu-stable@nongnu.org
+We don't currently implement anything to do with external
 aborts, so this applies only to the I and F bits (though it
 ought to be possible for the outer guest to present a virtual
 external abort to the inner guest, even if QEMU doesn't
 emulate physical external aborts, so there is missing
 functionality in this area).
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002145940.30931-1-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-6-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 2 +-
+ target/arm/helper.c | 22 ++++++++++++++++++----
-file changed, 1 insertion(+), 1 deletion(-)
+file changed, 18 insertions(+), 4 deletions(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static void v7m_exception_taken(ARMCPU *cpu, uint32_t lr, bool dotailchain,
+@@ -XXX,XX +XXX,XX @@ static uint64_t isr_read(CPUARMState *env, const ARMCPRegInfo *ri)
-                  * not already saved.
+     CPUState *cs = ENV_GET_CPU(env);
-                  */
+     uint64_t ret = 0;
-                 if (lr & R_V7M_EXCRET_DCRS_MASK &&
--                    !(dotailchain && (lr & R_V7M_EXCRET_ES_MASK))) {
+-    if (cs->interrupt_request & CPU_INTERRUPT_HARD) {
-+                    !(dotailchain && !(lr & R_V7M_EXCRET_ES_MASK))) {
+-        ret |= CPSR_I;
-                     push_failed = v7m_push_callee_stack(cpu, lr, dotailchain,
++    if (arm_hcr_el2_imo(env)) {
-                                                         ignore_stackfaults);
++        if (cs->interrupt_request & CPU_INTERRUPT_VIRQ) {
-                 }
++            ret |= CPSR_I;
 +        }
 +    } else {
 +        if (cs->interrupt_request & CPU_INTERRUPT_HARD) {
 +            ret |= CPSR_I;
 +        }
      }
 -    if (cs->interrupt_request & CPU_INTERRUPT_FIQ) {
 -        ret |= CPSR_F;
 +
 +    if (arm_hcr_el2_fmo(env)) {
 +        if (cs->interrupt_request & CPU_INTERRUPT_VFIQ) {
 +            ret |= CPSR_F;
 +        }
 +    } else {
 +        if (cs->interrupt_request & CPU_INTERRUPT_FIQ) {
 +            ret |= CPSR_F;
 +        }
      }
 +
      /* External aborts are not possible in QEMU so A bit is always clear */
      return ret;
  }
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 32/33] target/arm: Add v8M stack checks for MSR to SP_NS
+[Qemu-devel] [PULL 16/45] target/arm: Implement HCR.VI and VF
-Updating the NS stack pointer via MSR to SP_NS should include
+The HCR_EL2 VI and VF bits are supposed to track whether there is
-a check whether the new SP value is below the stack limit.
+a pending virtual IRQ or virtual FIQ. For QEMU we store the
-No other kinds of update to the various stack pointer and
+pending VIRQ/VFIQ status in cs->interrupt_request, so this means:
-limit registers via MSR should perform a check.
+ * if the register is read we must get these bit values from
    cs->interrupt_request
  * if the register is written then we must write the bit
    values back into cs->interrupt_request
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-14-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-7-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 14 +++++++++++++-
+ target/arm/helper.c | 47 +++++++++++++++++++++++++++++++++++++++++----
-file changed, 13 insertions(+), 1 deletion(-)
+file changed, 43 insertions(+), 4 deletions(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(v7m_msr)(CPUARMState *env, uint32_t maskreg, uint32_t val)
+@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el3_no_el2_v8_cp_reginfo[] = {
-              * currently in handler mode or not, using the NS CONTROL.SPSEL.
+ static void hcr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
-              */
+ {
-             bool spsel = env->v7m.control[M_REG_NS] & R_V7M_CONTROL_SPSEL_MASK;
+     ARMCPU *cpu = arm_env_get_cpu(env);
-+            bool is_psp = !arm_v7m_is_handler_mode(env) && spsel;
++    CPUState *cs = ENV_GET_CPU(env);
-+            uint32_t limit;
+     uint64_t valid_mask = HCR_MASK;
-             if (!env->v7m.secure) {
+     if (arm_feature(env, ARM_FEATURE_EL3)) {
-                 return;
+@@ -XXX,XX +XXX,XX @@ static void hcr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
-             }
+     /* Clear RES0 bits.  */
--            if (!arm_v7m_is_handler_mode(env) && spsel) {
+     value &= valid_mask;
 +    /*
 +     * VI and VF are kept in cs->interrupt_request. Modifying that
 +     * requires that we have the iothread lock, which is done by
 +     * marking the reginfo structs as ARM_CP_IO.
 +     * Note that if a write to HCR pends a VIRQ or VFIQ it is never
 +     * possible for it to be taken immediately, because VIRQ and
 +     * VFIQ are masked unless running at EL0 or EL1, and HCR
 +     * can only be written at EL2.
 +     */
 +    g_assert(qemu_mutex_iothread_locked());
 +    if (value & HCR_VI) {
 +        cs->interrupt_request |= CPU_INTERRUPT_VIRQ;
 +    } else {
 +        cs->interrupt_request &= ~CPU_INTERRUPT_VIRQ;
 +    }
 +    if (value & HCR_VF) {
 +        cs->interrupt_request |= CPU_INTERRUPT_VFIQ;
 +    } else {
 +        cs->interrupt_request &= ~CPU_INTERRUPT_VFIQ;
 +    }
 +    value &= ~(HCR_VI | HCR_VF);
 +
-+            limit = is_psp ? env->v7m.psplim[false] : env->v7m.msplim[false];
+     /* These bits change the MMU setup:
       * HCR_VM enables stage 2 translation
       * HCR_PTW forbids certain page-table setups
@@ -XXX,XX +XXX,XX @@ static void hcr_writelow(CPUARMState *env, const ARMCPRegInfo *ri,
      hcr_write(env, NULL, value);
  }
 +static uint64_t hcr_read(CPUARMState *env, const ARMCPRegInfo *ri)
 +{
 +    /* The VI and VF bits live in cs->interrupt_request */
 +    uint64_t ret = env->cp15.hcr_el2 & ~(HCR_VI | HCR_VF);
 +    CPUState *cs = ENV_GET_CPU(env);
 +
-+            if (val < limit) {
++    if (cs->interrupt_request & CPU_INTERRUPT_VIRQ) {
-+                CPUState *cs = CPU(arm_env_get_cpu(env));
++        ret |= HCR_VI;
 +    }
 +    if (cs->interrupt_request & CPU_INTERRUPT_VFIQ) {
 +        ret |= HCR_VF;
 +    }
 +    return ret;
 +}
 +
-+                cpu_restore_state(cs, GETPC(), true);
+ static const ARMCPRegInfo el2_cp_reginfo[] = {
-+                raise_exception(env, EXCP_STKOF, 0, 1);
+     { .name = "HCR_EL2", .state = ARM_CP_STATE_AA64,
-+            }
++      .type = ARM_CP_IO,
-+
+       .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 0,
-+            if (is_psp) {
+       .access = PL2_RW, .fieldoffset = offsetof(CPUARMState, cp15.hcr_el2),
-                 env->v7m.other_ss_psp = val;
+-      .writefn = hcr_write },
-             } else {
++      .writefn = hcr_write, .readfn = hcr_read },
-                 env->v7m.other_ss_msp = val;
+     { .name = "HCR", .state = ARM_CP_STATE_AA32,
 -      .type = ARM_CP_ALIAS,
 +      .type = ARM_CP_ALIAS | ARM_CP_IO,
        .cp = 15, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 0,
        .access = PL2_RW, .fieldoffset = offsetof(CPUARMState, cp15.hcr_el2),
 -      .writefn = hcr_writelow },
 +      .writefn = hcr_writelow, .readfn = hcr_read },
      { .name = "ELR_EL2", .state = ARM_CP_STATE_AA64,
        .type = ARM_CP_ALIAS,
        .opc0 = 3, .opc1 = 4, .crn = 4, .crm = 0, .opc2 = 1,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el2_cp_reginfo[] = {
  static const ARMCPRegInfo el2_v8_cp_reginfo[] = {
      { .name = "HCR2", .state = ARM_CP_STATE_AA32,
 -      .type = ARM_CP_ALIAS,
 +      .type = ARM_CP_ALIAS | ARM_CP_IO,
        .cp = 15, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 4,
        .access = PL2_RW,
        .fieldoffset = offsetofhigh32(CPUARMState, cp15.hcr_el2),
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 04/33] target/arm: Don't read r4 from v8M exception stackframe twice
+[Qemu-devel] [PULL 17/45] target/arm: Implement HCR.PTW
-A cut-and-paste error meant we were reading r4 from the v8M
+If the HCR_EL2 PTW virtualizaiton configuration register bit
-callee-saves exception stack frame twice. This is harmless
+is set, then this means that a stage 2 Permission fault must
-since it just meant we did two memory accesses to the same
+be generated if a stage 1 translation table access is made
-location, but it's unnecessary. Delete it.
+to an address that is mapped as Device memory in stage 2.
 Implement this.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002150304.2287-1-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-8-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 1 -
+ target/arm/helper.c | 21 ++++++++++++++++++++-
-file changed, 1 deletion(-)
+file changed, 20 insertions(+), 1 deletion(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static void do_v7m_exception_exit(ARMCPU *cpu)
+@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
-             }
+         hwaddr s2pa;
+         int s2prot;
-             pop_ok = pop_ok &&
+         int ret;
--                v7m_stack_read(cpu, &env->regs[4], frameptr + 0x8, mmu_idx) &&
++        ARMCacheAttrs cacheattrs = {};
-                 v7m_stack_read(cpu, &env->regs[4], frameptr + 0x8, mmu_idx) &&
++        ARMCacheAttrs *pcacheattrs = NULL;
-                 v7m_stack_read(cpu, &env->regs[5], frameptr + 0xc, mmu_idx) &&
++
-                 v7m_stack_read(cpu, &env->regs[6], frameptr + 0x10, mmu_idx) &&
++        if (env->cp15.hcr_el2 & HCR_PTW) {
 +            /*
 +             * PTW means we must fault if this S1 walk touches S2 Device
 +             * memory; otherwise we don't care about the attributes and can
 +             * save the S2 translation the effort of computing them.
 +             */
 +            pcacheattrs = &cacheattrs;
 +        }
          ret = get_phys_addr_lpae(env, addr, 0, ARMMMUIdx_S2NS, &s2pa,
 -                                 &txattrs, &s2prot, &s2size, fi, NULL);
 +                                 &txattrs, &s2prot, &s2size, fi, pcacheattrs);
          if (ret) {
              assert(fi->type != ARMFault_None);
              fi->s2addr = addr;
@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
              fi->s1ptw = true;
              return ~0;
          }
 +        if (pcacheattrs && (pcacheattrs->attrs & 0xf0) == 0) {
 +            /* Access was to Device memory: generate Permission fault */
 +            fi->type = ARMFault_Permission;
 +            fi->s2addr = addr;
 +            fi->stage2 = true;
 +            fi->s1ptw = true;
 +            return ~0;
 +        }
          addr = s2pa;
      }
      return addr;
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 26/33] target/arm: Add v8M stack limit checks on NS function calls
+[Qemu-devel] [PULL 18/45] target/arm: New utility function to extract EC from syndrome
-Check the v8M stack limits when pushing the frame for a
+Create and use a utility function to extract the EC field
-non-secure function call via BLXNS.
+from a syndrome, rather than open-coding the shift.
 In order to be able to generate the exception we need to
 promote raise_exception() from being local to op_helper.c
 so we can call it from helper.c.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-8-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-9-peter.maydell@linaro.org
 ---
- target/arm/internals.h | 9 +++++++++
+ target/arm/internals.h | 5 +++++
- target/arm/helper.c    | 4 ++++
+ target/arm/helper.c    | 4 ++--
- target/arm/op_helper.c | 4 ++--
+ target/arm/kvm64.c     | 2 +-
-files changed, 15 insertions(+), 2 deletions(-)
+ target/arm/op_helper.c | 2 +-
 files changed, 9 insertions(+), 4 deletions(-)
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ FIELD(V7M_EXCRET, RES1, 7, 25) /* including the must-be-1 prefix */
+@@ -XXX,XX +XXX,XX @@ enum arm_exception_class {
- #define M_FAKE_FSR_NSC_EXEC 0xf /* NS executing in S&NSC memory */
+ #define ARM_EL_IL (1 << ARM_EL_IL_SHIFT)
- #define M_FAKE_FSR_SFAULT 0xe /* SecureFault INVTRAN, INVEP or AUVIOL */
+ #define ARM_EL_ISV (1 << ARM_EL_ISV_SHIFT)
-+/**
++static inline uint32_t syn_get_ec(uint32_t syn)
-+ * raise_exception: Raise the specified exception.
++{
-+ * Raise a guest exception with the specified value, syndrome register
++    return syn >> ARM_EL_EC_SHIFT;
-+ * and target exception level. This should be called from helper functions,
++}
 + * and never returns because we will longjump back up to the CPU main loop.
 + */
 +void QEMU_NORETURN raise_exception(CPUARMState *env, uint32_t excp,
 +                                   uint32_t syndrome, uint32_t target_el);
 +
- /*
+ /* Utility functions for constructing various kinds of syndrome value.
-  * For AArch64, map a given EL to an index in the banked_spsr array.
+  * Note that in general we follow the AArch64 syndrome values; in a
-  * Note that this mapping and the AArch32 mapping defined in bank_number()
+  * few cases the value in HSR for exceptions taken to AArch32 Hyp
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(v7m_blxns)(CPUARMState *env, uint32_t dest)
+@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch32(CPUState *cs)
-                       "BLXNS with misaligned SP is UNPREDICTABLE\n");
+     uint32_t moe;
      /* If this is a debug exception we must update the DBGDSCR.MOE bits */
 -    switch (env->exception.syndrome >> ARM_EL_EC_SHIFT) {
 +    switch (syn_get_ec(env->exception.syndrome)) {
      case EC_BREAKPOINT:
      case EC_BREAKPOINT_SAME_EL:
          moe = 1;
@@ -XXX,XX +XXX,XX @@ void arm_cpu_do_interrupt(CPUState *cs)
      if (qemu_loglevel_mask(CPU_LOG_INT)
          && !excp_is_internal(cs->exception_index)) {
          qemu_log_mask(CPU_LOG_INT, "...with ESR 0x%x/0x%" PRIx32 "\n",
 -                      env->exception.syndrome >> ARM_EL_EC_SHIFT,
 +                      syn_get_ec(env->exception.syndrome),
                        env->exception.syndrome);
      }
-+    if (sp < v7m_sp_limit(env)) {
+diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
-+        raise_exception(env, EXCP_STKOF, 0, 1);
+index XXXXXXX..XXXXXXX 100644
-+    }
+--- a/target/arm/kvm64.c
-+
++++ b/target/arm/kvm64.c
-     saved_psr = env->v7m.exception;
+@@ -XXX,XX +XXX,XX @@ int kvm_arch_remove_sw_breakpoint(CPUState *cs, struct kvm_sw_breakpoint *bp)
-     if (env->v7m.control[M_REG_S] & R_V7M_CONTROL_SFPA_MASK) {
-         saved_psr |= XPSR_SFPA;
+ bool kvm_arm_handle_debug(CPUState *cs, struct kvm_debug_exit_arch *debug_exit)
  {
 -    int hsr_ec = debug_exit->hsr >> ARM_EL_EC_SHIFT;
 +    int hsr_ec = syn_get_ec(debug_exit->hsr);
      ARMCPU *cpu = ARM_CPU(cs);
      CPUClass *cc = CPU_GET_CLASS(cs);
      CPUARMState *env = &cpu->env;
 diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/op_helper.c
 +++ b/target/arm/op_helper.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ void raise_exception(CPUARMState *env, uint32_t excp,
- #define SIGNBIT (uint32_t)0x80000000
+          * (see DDI0478C.a D1.10.4)
- #define SIGNBIT64 ((uint64_t)1 << 63)
+          */
+         target_el = 2;
--static void raise_exception(CPUARMState *env, uint32_t excp,
+-        if (syndrome >> ARM_EL_EC_SHIFT == EC_ADVSIMDFPACCESSTRAP) {
--                            uint32_t syndrome, uint32_t target_el)
++        if (syn_get_ec(syndrome) == EC_ADVSIMDFPACCESSTRAP) {
-+void raise_exception(CPUARMState *env, uint32_t excp,
+             syndrome = syn_uncategorized();
-+                     uint32_t syndrome, uint32_t target_el)
+         }
- {
+     }
      CPUState *cs = CPU(arm_env_get_cpu(env));
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 33/33] hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow
+[Qemu-devel] [PULL 19/45] target/arm: Get IL bit correct for v7 syndrome values
-Coverity complains (CID 1395628) that the multiply in the calculation
+For the v7 version of the Arm architecture, the IL bit in
-of the framebuffer base is performed as 32x32 but then used in a
+syndrome register values where the field is not valid was
-context that takes a 64-bit hwaddr. This can't actually ever
+defined to be UNK/SBZP. In v8 this is RES1, which is what
-overflow the 32-bit result, because of the constraints placed on
+QEMU currently implements. Handle the desired v7 behaviour
-the s->config values in bcm2835_fb_validate_config(). But we
+by squashing the IL bit for the affected cases:
-can placate Coverity anyway, by explicitly casting one of the
+ * EC == EC_UNCATEGORIZED
-inputs to a hwaddr, so the whole expression is calculated with
+ * prefetch aborts
--bit arithmetic.
+ * data aborts where ISV is 0
 (The fourth case listed in the v8 Arm ARM DDI 0487C.a in
 section G7.2.70, "illegal state exception", can't happen
 on a v7 CPU.)
 This deals with a corner case noted in a comment.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005133012.26490-1-peter.maydell@linaro.org
+Message-id: 20181012144235.19646-10-peter.maydell@linaro.org
 ---
- hw/display/bcm2835_fb.c | 2 +-
+ target/arm/internals.h |  7 ++-----
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/helper.c    | 13 +++++++++++++
 files changed, 15 insertions(+), 5 deletions(-)
-diff --git a/hw/display/bcm2835_fb.c b/hw/display/bcm2835_fb.c
+diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/display/bcm2835_fb.c
+--- a/target/arm/internals.h
-+++ b/hw/display/bcm2835_fb.c
++++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ static void fb_update_display(void *opaque)
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_get_ec(uint32_t syn)
  /* Utility functions for constructing various kinds of syndrome value.
   * Note that in general we follow the AArch64 syndrome values; in a
   * few cases the value in HSR for exceptions taken to AArch32 Hyp
 - * mode differs slightly, so if we ever implemented Hyp mode then the
 - * syndrome value would need some massaging on exception entry.
 - * (One example of this is that AArch64 defaults to IL bit set for
 - * exceptions which don't specifically indicate information about the
 - * trapping instruction, whereas AArch32 defaults to IL bit clear.)
 + * mode differs slightly, and we fix this up when populating HSR in
 + * arm_cpu_do_interrupt_aarch32_hyp().
   */
  static inline uint32_t syn_uncategorized(void)
  {
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch32_hyp(CPUState *cs)
      }
-     if (s->invalidate) {
+     if (cs->exception_index != EXCP_IRQ && cs->exception_index != EXCP_FIQ) {
--        hwaddr base = s->config.base + xoff + yoff * src_width;
++        if (!arm_feature(env, ARM_FEATURE_V8)) {
-+        hwaddr base = s->config.base + xoff + (hwaddr)yoff * src_width;
++            /*
-         framebuffer_update_memory_section(&s->fbsection, s->dma_mr,
++             * QEMU syndrome values are v8-style. v7 has the IL bit
-                                           base,
++             * UNK/SBZP for "field not valid" cases, where v8 uses RES1.
-                                           s->config.yres, src_width);
++             * If this is a v7 CPU, squash the IL bit in those cases.
 +             */
 +            if (cs->exception_index == EXCP_PREFETCH_ABORT ||
 +                (cs->exception_index == EXCP_DATA_ABORT &&
 +                 !(env->exception.syndrome & ARM_EL_ISV)) ||
 +                syn_get_ec(env->exception.syndrome) == EC_UNCATEGORIZED) {
 +                env->exception.syndrome &= ~ARM_EL_IL;
 +            }
 +        }
          env->cp15.esr_el[2] = env->exception.syndrome;
      }
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 19/33] target/arm: Pass TCGMemOpIdx to sve memory helpers
+[Qemu-devel] [PULL 20/45] target/arm: Report correct syndrome for FP/SIMD traps to Hyp mode
-From: Richard Henderson <richard.henderson@linaro.org>
+For traps of FP/SIMD instructions to AArch32 Hyp mode, the syndrome
 provided in HSR has more information than is reported to AArch64.
 Specifically, there are extra fields TA and coproc which indicate
 whether the trapped instruction was FP or SIMD. Add this extra
 information to the syndromes we construct, and mask it out when
 taking the exception to AArch64.
-There is quite a lot of code required to compute cpu_mem_index,
-or even put together the full TCGMemOpIdx.  This can easily be
-done at translation time.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181012144235.19646-11-peter.maydell@linaro.org
 ---
- target/arm/internals.h     |   5 ++
+ target/arm/internals.h | 14 +++++++++++++-
- target/arm/sve_helper.c    | 138 +++++++++++++++++++------------------
+ target/arm/helper.c    |  9 +++++++++
- target/arm/translate-sve.c |  67 +++++++++++-------
+ target/arm/translate.c |  8 ++++----
-files changed, 121 insertions(+), 89 deletions(-)
+files changed, 26 insertions(+), 5 deletions(-)
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t arm_debug_exception_fsr(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_get_ec(uint32_t syn)
-     }
+  * few cases the value in HSR for exceptions taken to AArch32 Hyp
- }
+  * mode differs slightly, and we fix this up when populating HSR in
+  * arm_cpu_do_interrupt_aarch32_hyp().
-+/* Note make_memop_idx reserves 4 bits for mmu_idx, and MO_BSWAP is bit 3.
++ * The exception is FP/SIMD access traps -- these report extra information
-+ * Thus a TCGMemOpIdx, without any MO_ALIGN bits, fits in 8 bits.
++ * when taking an exception to AArch32. For those we include the extra coproc
-+ */
++ * and TA fields, and mask them out when taking the exception to AArch64.
 +#define MEMOPIDX_SHIFT  8
 +
  #endif
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/osdep.h"
  #include "cpu.h"
 +#include "internals.h"
  #include "exec/exec-all.h"
  #include "exec/cpu_ldst.h"
  #include "exec/helper-proto.h"
@@ -XXX,XX +XXX,XX @@ typedef intptr_t sve_ld1_host_fn(void *vd, void *vg, void *host,
   * The controlling predicate is known to be true.
   */
- typedef void sve_ld1_tlb_fn(CPUARMState *env, void *vd, intptr_t reg_off,
+ static inline uint32_t syn_uncategorized(void)
 -                            target_ulong vaddr, int mmu_idx, uintptr_t ra);
 +                            target_ulong vaddr, TCGMemOpIdx oi, uintptr_t ra);
  typedef sve_ld1_tlb_fn sve_st1_tlb_fn;
  /*
@@ -XXX,XX +XXX,XX @@ static intptr_t sve_##NAME##_host(void *vd, void *vg, void *host,           \
  #ifdef CONFIG_SOFTMMU
  #define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB) \
  static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 -                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra)  \
  {                                                                           \
 -    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
      TYPEM val = TLB(env, addr, oi, ra);                                     \
      *(TYPEE *)(vd + H(reg_off)) = val;                                      \
  }
  #else
  #define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB)                  \
  static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 -                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra)  \
  {                                                                           \
      TYPEM val = HOST(g2h(addr));                                            \
      *(TYPEE *)(vd + H(reg_off)) = val;                                      \
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_r(CPUARMState *env, void *vg, const target_ulong addr,
                        sve_ld1_host_fn *host_fn,
                        sve_ld1_tlb_fn *tlb_fn)
  {
--    void *vd = &env->vfp.zregs[simd_data(desc)];
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_cp15_rrt_trap(int cv, int cond, int opc1, int crm,
-+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
-+    const int mmu_idx = get_mmuidx(oi);
+ static inline uint32_t syn_fp_access_trap(int cv, int cond, bool is_16bit)
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
 +    void *vd = &env->vfp.zregs[rd];
      const int diffsz = esz - msz;
      const intptr_t reg_max = simd_oprsz(desc);
      const intptr_t mem_max = reg_max >> diffsz;
 -    const int mmu_idx = cpu_mmu_index(env, false);
      ARMVectorReg scratch;
      void *host;
      intptr_t split, reg_off, mem_off;
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_r(CPUARMState *env, void *vg, const target_ulong addr,
           * on I/O memory, it may succeed but not bring in the TLB entry.
           * But even then we have still made forward progress.
           */
 -        tlb_fn(env, &scratch, reg_off, addr + mem_off, mmu_idx, retaddr);
 +        tlb_fn(env, &scratch, reg_off, addr + mem_off, oi, retaddr);
          reg_off += 1 << esz;
      }
  #endif
@@ -XXX,XX +XXX,XX @@ static void sve_ld2_r(CPUARMState *env, void *vg, target_ulong addr,
                        uint32_t desc, int size, uintptr_t ra,
                        sve_ld1_tlb_fn *tlb_fn)
  {
--    const int mmu_idx = cpu_mmu_index(env, false);
++    /* AArch32 FP trap or any AArch64 FP/SIMD trap: TA == 0 coproc == 0xa */
-+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+     return (EC_ADVSIMDFPACCESSTRAP << ARM_EL_EC_SHIFT)
-+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
+         | (is_16bit ? 0 : ARM_EL_IL)
-     intptr_t i, oprsz = simd_oprsz(desc);
+-        | (cv << 24) | (cond << 20);
--    unsigned rd = simd_data(desc);
++        | (cv << 24) | (cond << 20) | 0xa;
      ARMVectorReg scratch[2] = { };
      set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld2_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
 -                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
 +                tlb_fn(env, &scratch[0], i, addr, oi, ra);
 +                tlb_fn(env, &scratch[1], i, addr + size, oi, ra);
              }
              i += size, pg >>= size;
              addr += 2 * size;
@@ -XXX,XX +XXX,XX @@ static void sve_ld3_r(CPUARMState *env, void *vg, target_ulong addr,
                        uint32_t desc, int size, uintptr_t ra,
                        sve_ld1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned rd = simd_data(desc);
      ARMVectorReg scratch[3] = { };
      set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld3_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
 -                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
 -                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
 +                tlb_fn(env, &scratch[0], i, addr, oi, ra);
 +                tlb_fn(env, &scratch[1], i, addr + size, oi, ra);
 +                tlb_fn(env, &scratch[2], i, addr + 2 * size, oi, ra);
              }
              i += size, pg >>= size;
              addr += 3 * size;
@@ -XXX,XX +XXX,XX @@ static void sve_ld4_r(CPUARMState *env, void *vg, target_ulong addr,
                        uint32_t desc, int size, uintptr_t ra,
                        sve_ld1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned rd = simd_data(desc);
      ARMVectorReg scratch[4] = { };
      set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld4_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
 -                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
 -                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
 -                tlb_fn(env, &scratch[3], i, addr + 3 * size, mmu_idx, ra);
 +                tlb_fn(env, &scratch[0], i, addr, oi, ra);
 +                tlb_fn(env, &scratch[1], i, addr + size, oi, ra);
 +                tlb_fn(env, &scratch[2], i, addr + 2 * size, oi, ra);
 +                tlb_fn(env, &scratch[3], i, addr + 3 * size, oi, ra);
              }
              i += size, pg >>= size;
              addr += 4 * size;
@@ -XXX,XX +XXX,XX @@ static void sve_ldff1_r(CPUARMState *env, void *vg, const target_ulong addr,
                          sve_ld1_host_fn *host_fn,
                          sve_ld1_tlb_fn *tlb_fn)
  {
 -    void *vd = &env->vfp.zregs[simd_data(desc)];
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int mmu_idx = get_mmuidx(oi);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
 +    void *vd = &env->vfp.zregs[rd];
      const int diffsz = esz - msz;
      const intptr_t reg_max = simd_oprsz(desc);
      const intptr_t mem_max = reg_max >> diffsz;
 -    const int mmu_idx = cpu_mmu_index(env, false);
      intptr_t split, reg_off, mem_off;
      void *host;
@@ -XXX,XX +XXX,XX @@ static void sve_ldff1_r(CPUARMState *env, void *vg, const target_ulong addr,
       * Perform one normal read, which will fault or not.
       * But it is likely to bring the page into the tlb.
       */
 -    tlb_fn(env, vd, reg_off, addr + mem_off, mmu_idx, retaddr);
 +    tlb_fn(env, vd, reg_off, addr + mem_off, oi, retaddr);
      /* After any fault, zero any leading predicated false elts.  */
      swap_memzero(vd, reg_off);
@@ -XXX,XX +XXX,XX @@ static void sve_ldnf1_r(CPUARMState *env, void *vg, const target_ulong addr,
                          uint32_t desc, const int esz, const int msz,
                          sve_ld1_host_fn *host_fn)
  {
 -    void *vd = &env->vfp.zregs[simd_data(desc)];
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
 +    void *vd = &env->vfp.zregs[rd];
      const int diffsz = esz - msz;
      const intptr_t reg_max = simd_oprsz(desc);
      const intptr_t mem_max = reg_max >> diffsz;
@@ -XXX,XX +XXX,XX @@ DO_LDFF1_LDNF1_2(dd,  3, 3)
  #ifdef CONFIG_SOFTMMU
  #define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
  static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 -                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra) \
  {                                                                           \
 -    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
      TLB(env, addr, *(TYPEM *)(vd + H(reg_off)), oi, ra);                    \
  }
  #else
  #define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
  static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 -                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra) \
  {                                                                           \
      HOST(g2h(addr), *(TYPEM *)(vd + H(reg_off)));                           \
  }
@@ -XXX,XX +XXX,XX @@ static void sve_st1_r(CPUARMState *env, void *vg, target_ulong addr,
                        const int esize, const int msize,
                        sve_st1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned rd = simd_data(desc);
      void *vd = &env->vfp.zregs[rd];
      set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_st1_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, vd, i, addr, mmu_idx, ra);
 +                tlb_fn(env, vd, i, addr, oi, ra);
              }
              i += esize, pg >>= esize;
              addr += msize;
@@ -XXX,XX +XXX,XX @@ static void sve_st2_r(CPUARMState *env, void *vg, target_ulong addr,
                        const int esize, const int msize,
                        sve_st1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned rd = simd_data(desc);
      void *d1 = &env->vfp.zregs[rd];
      void *d2 = &env->vfp.zregs[(rd + 1) & 31];
@@ -XXX,XX +XXX,XX @@ static void sve_st2_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, d1, i, addr, mmu_idx, ra);
 -                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
 +                tlb_fn(env, d1, i, addr, oi, ra);
 +                tlb_fn(env, d2, i, addr + msize, oi, ra);
              }
              i += esize, pg >>= esize;
              addr += 2 * msize;
@@ -XXX,XX +XXX,XX @@ static void sve_st3_r(CPUARMState *env, void *vg, target_ulong addr,
                        const int esize, const int msize,
                        sve_st1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned rd = simd_data(desc);
      void *d1 = &env->vfp.zregs[rd];
      void *d2 = &env->vfp.zregs[(rd + 1) & 31];
      void *d3 = &env->vfp.zregs[(rd + 2) & 31];
@@ -XXX,XX +XXX,XX @@ static void sve_st3_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, d1, i, addr, mmu_idx, ra);
 -                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
 -                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
 +                tlb_fn(env, d1, i, addr, oi, ra);
 +                tlb_fn(env, d2, i, addr + msize, oi, ra);
 +                tlb_fn(env, d3, i, addr + 2 * msize, oi, ra);
              }
              i += esize, pg >>= esize;
              addr += 3 * msize;
@@ -XXX,XX +XXX,XX @@ static void sve_st4_r(CPUARMState *env, void *vg, target_ulong addr,
                        const int esize, const int msize,
                        sve_st1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned rd = simd_data(desc);
      void *d1 = &env->vfp.zregs[rd];
      void *d2 = &env->vfp.zregs[(rd + 1) & 31];
      void *d3 = &env->vfp.zregs[(rd + 2) & 31];
@@ -XXX,XX +XXX,XX @@ static void sve_st4_r(CPUARMState *env, void *vg, target_ulong addr,
          uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
          do {
              if (pg & 1) {
 -                tlb_fn(env, d1, i, addr, mmu_idx, ra);
 -                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
 -                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
 -                tlb_fn(env, d4, i, addr + 3 * msize, mmu_idx, ra);
 +                tlb_fn(env, d1, i, addr, oi, ra);
 +                tlb_fn(env, d2, i, addr + msize, oi, ra);
 +                tlb_fn(env, d3, i, addr + 2 * msize, oi, ra);
 +                tlb_fn(env, d4, i, addr + 3 * msize, oi, ra);
              }
              i += esize, pg >>= esize;
              addr += 4 * msize;
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
                         target_ulong base, uint32_t desc, uintptr_t ra,
                         zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned scale = simd_data(desc);
      ARMVectorReg scratch = { };
      set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
          do {
              if (likely(pg & 1)) {
                  target_ulong off = off_fn(vm, i);
 -                tlb_fn(env, &scratch, i, base + (off << scale), mmu_idx, ra);
 +                tlb_fn(env, &scratch, i, base + (off << scale), oi, ra);
              }
              i += 4, pg >>= 4;
          } while (i & 15);
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
                         target_ulong base, uint32_t desc, uintptr_t ra,
                         zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
      intptr_t i, oprsz = simd_oprsz(desc) / 8;
 -    unsigned scale = simd_data(desc);
      ARMVectorReg scratch = { };
      set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
          uint8_t pg = *(uint8_t *)(vg + H1(i));
          if (likely(pg & 1)) {
              target_ulong off = off_fn(vm, i * 8);
 -            tlb_fn(env, &scratch, i * 8, base + (off << scale), mmu_idx, ra);
 +            tlb_fn(env, &scratch, i * 8, base + (off << scale), oi, ra);
          }
      }
      set_helper_retaddr(0);
@@ -XXX,XX +XXX,XX @@ typedef bool sve_ld1_nf_fn(CPUARMState *env, void *vd, intptr_t reg_off,
  #ifdef CONFIG_SOFTMMU
  #define DO_LD_NF(NAME, H, TYPEE, TYPEM, HOST) \
  static bool sve_ld##NAME##_nf(CPUARMState *env, void *vd, intptr_t reg_off, \
 -                            target_ulong addr, int mmu_idx)                 \
 +                              target_ulong addr, int mmu_idx)               \
  {                                                                           \
      target_ulong next_page = -(addr | TARGET_PAGE_MASK);                    \
      if (likely(next_page - addr >= sizeof(TYPEM))) {                        \
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
                                  zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
                                  sve_ld1_nf_fn *nonfault_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int mmu_idx = get_mmuidx(oi);
 +    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
      intptr_t reg_off, reg_max = simd_oprsz(desc);
 -    unsigned scale = simd_data(desc);
      target_ulong addr;
      /* Skip to the first true predicate.  */
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
          set_helper_retaddr(ra);
          addr = off_fn(vm, reg_off);
          addr = base + (addr << scale);
 -        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
 +        tlb_fn(env, vd, reg_off, addr, oi, ra);
          /* The rest of the reads will be non-faulting.  */
          set_helper_retaddr(0);
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
                                  zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
                                  sve_ld1_nf_fn *nonfault_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int mmu_idx = get_mmuidx(oi);
 +    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
      intptr_t reg_off, reg_max = simd_oprsz(desc);
 -    unsigned scale = simd_data(desc);
      target_ulong addr;
      /* Skip to the first true predicate.  */
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
          set_helper_retaddr(ra);
          addr = off_fn(vm, reg_off);
          addr = base + (addr << scale);
 -        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
 +        tlb_fn(env, vd, reg_off, addr, oi, ra);
          /* The rest of the reads will be non-faulting.  */
          set_helper_retaddr(0);
@@ -XXX,XX +XXX,XX @@ static void sve_st1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
                         target_ulong base, uint32_t desc, uintptr_t ra,
                         zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
      intptr_t i, oprsz = simd_oprsz(desc);
 -    unsigned scale = simd_data(desc);
      set_helper_retaddr(ra);
      for (i = 0; i < oprsz; ) {
@@ -XXX,XX +XXX,XX @@ static void sve_st1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
          do {
              if (likely(pg & 1)) {
                  target_ulong off = off_fn(vm, i);
 -                tlb_fn(env, vd, i, base + (off << scale), mmu_idx, ra);
 +                tlb_fn(env, vd, i, base + (off << scale), oi, ra);
              }
              i += 4, pg >>= 4;
          } while (i & 15);
@@ -XXX,XX +XXX,XX @@ static void sve_st1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
                         target_ulong base, uint32_t desc, uintptr_t ra,
                         zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
 +    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
      intptr_t i, oprsz = simd_oprsz(desc) / 8;
 -    unsigned scale = simd_data(desc);
      set_helper_retaddr(ra);
      for (i = 0; i < oprsz; i++) {
          uint8_t pg = *(uint8_t *)(vg + H1(i));
          if (likely(pg & 1)) {
              target_ulong off = off_fn(vm, i * 8);
 -            tlb_fn(env, vd, i * 8, base + (off << scale), mmu_idx, ra);
 +            tlb_fn(env, vd, i * 8, base + (off << scale), oi, ra);
          }
      }
      set_helper_retaddr(0);
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t dtype_esz[16] = {
 , 2, 1, 3
  };
 +static TCGMemOpIdx sve_memopidx(DisasContext *s, int dtype)
 +{
 +    return make_memop_idx(s->be_data | dtype_mop[dtype], get_mem_index(s));
 +}
 +
- static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
++static inline uint32_t syn_simd_access_trap(int cv, int cond, bool is_16bit)
--                       gen_helper_gvec_mem *fn)
++{
-+                       int dtype, gen_helper_gvec_mem *fn)
++    /* AArch32 SIMD trap: TA == 1 coproc == 0 */
- {
++    return (EC_ADVSIMDFPACCESSTRAP << ARM_EL_EC_SHIFT)
-     unsigned vsz = vec_full_reg_size(s);
++        | (is_16bit ? 0 : ARM_EL_IL)
-     TCGv_ptr t_pg;
++        | (cv << 24) | (cond << 20) | (1 << 5);
--    TCGv_i32 desc;
+ }
-+    TCGv_i32 t_desc;
-+    int desc;
+ static inline uint32_t syn_sve_access_trap(void)
+diff --git a/target/arm/helper.c b/target/arm/helper.c
-     /* For e.g. LD4, there are not enough arguments to pass all 4
+index XXXXXXX..XXXXXXX 100644
-      * registers as pointers, so encode the regno into the data field.
+--- a/target/arm/helper.c
-      * For consistency, do this even for LD1.
++++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch64(CPUState *cs)
      case EXCP_HVC:
      case EXCP_HYP_TRAP:
      case EXCP_SMC:
 +        if (syn_get_ec(env->exception.syndrome) == EC_ADVSIMDFPACCESSTRAP) {
 +            /*
 +             * QEMU internal FP/SIMD syndromes from AArch32 include the
 +             * TA and coproc fields which are only exposed if the exception
 +             * is taken to AArch32 Hyp mode. Mask them out to get a valid
 +             * AArch64 format syndrome.
 +             */
 +            env->exception.syndrome &= ~MAKE_64BIT_MASK(0, 20);
 +        }
          env->cp15.esr_el[new_el] = env->exception.syndrome;
          break;
      case EXCP_IRQ:
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
       */
--    desc = tcg_const_i32(simd_desc(vsz, vsz, zt));
+     if (s->fp_excp_el) {
-+    desc = sve_memopidx(s, dtype);
+         gen_exception_insn(s, 4, EXCP_UDEF,
-+    desc |= zt << MEMOPIDX_SHIFT;
+-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
-+    desc = simd_desc(vsz, vsz, desc);
++                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
-+    t_desc = tcg_const_i32(desc);
+         return 0;
-     t_pg = tcg_temp_new_ptr();
+     }
-     tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
 -    fn(cpu_env, t_pg, addr, desc);
 +    fn(cpu_env, t_pg, addr, t_desc);
      tcg_temp_free_ptr(t_pg);
 -    tcg_temp_free_i32(desc);
 +    tcg_temp_free_i32(t_desc);
  }
  static void do_ld_zpa(DisasContext *s, int zt, int pg,
@@ -XXX,XX +XXX,XX @@ static void do_ld_zpa(DisasContext *s, int zt, int pg,
       * accessible via the instruction encoding.
       */
-     assert(fn != NULL);
+     if (s->fp_excp_el) {
--    do_mem_zpa(s, zt, pg, addr, fn);
+         gen_exception_insn(s, 4, EXCP_UDEF,
-+    do_mem_zpa(s, zt, pg, addr, dtype, fn);
+-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
- }
++                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
+         return 0;
  static bool trans_LD_zprr(DisasContext *s, arg_rprr_load *a, uint32_t insn)
@@ -XXX,XX +XXX,XX @@ static bool trans_LDFF1_zprr(DisasContext *s, arg_rprr_load *a, uint32_t insn)
          TCGv_i64 addr = new_tmp_a64(s);
          tcg_gen_shli_i64(addr, cpu_reg(s, a->rm), dtype_msz(a->dtype));
          tcg_gen_add_i64(addr, addr, cpu_reg_sp(s, a->rn));
 -        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
 +        do_mem_zpa(s, a->rd, a->pg, addr, a->dtype,
 +                   fns[s->be_data == MO_BE][a->dtype]);
      }
-     return true;
- }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static bool trans_LDNF1_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
-         TCGv_i64 addr = new_tmp_a64(s);
+     if (s->fp_excp_el) {
+         gen_exception_insn(s, 4, EXCP_UDEF,
-         tcg_gen_addi_i64(addr, cpu_reg_sp(s, a->rn), off);
+-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
--        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
++                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
-+        do_mem_zpa(s, a->rd, a->pg, addr, a->dtype,
+         return 0;
 +                   fns[s->be_data == MO_BE][a->dtype]);
      }
-     return true;
+     if (!s->vfp_enabled) {
- }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
-     };
+     if (s->fp_excp_el) {
-     unsigned vsz = vec_full_reg_size(s);
+         gen_exception_insn(s, 4, EXCP_UDEF,
-     TCGv_ptr t_pg;
+-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
--    TCGv_i32 desc;
++                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
--    int poff;
+         return 0;
 +    TCGv_i32 t_desc;
 +    int desc, poff;
      /* Load the first quadword using the normal predicated load helpers.  */
 -    desc = tcg_const_i32(simd_desc(16, 16, zt));
 +    desc = sve_memopidx(s, msz_dtype(msz));
 +    desc |= zt << MEMOPIDX_SHIFT;
 +    desc = simd_desc(16, 16, desc);
 +    t_desc = tcg_const_i32(desc);
      poff = pred_full_reg_offset(s, pg);
      if (vsz > 16) {
@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
      t_pg = tcg_temp_new_ptr();
      tcg_gen_addi_ptr(t_pg, cpu_env, poff);
 -    fns[s->be_data == MO_BE][msz](cpu_env, t_pg, addr, desc);
 +    fns[s->be_data == MO_BE][msz](cpu_env, t_pg, addr, t_desc);
      tcg_temp_free_ptr(t_pg);
 -    tcg_temp_free_i32(desc);
 +    tcg_temp_free_i32(t_desc);
      /* Replicate that first quadword.  */
      if (vsz > 16) {
@@ -XXX,XX +XXX,XX @@ static void do_st_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
          fn = fn_multiple[be][nreg - 1][msz];
      }
-     assert(fn != NULL);
+     if (!s->vfp_enabled) {
 -    do_mem_zpa(s, zt, pg, addr, fn);
 +    do_mem_zpa(s, zt, pg, addr, msz_dtype(msz), fn);
  }
  static bool trans_ST_zprr(DisasContext *s, arg_rprr_store *a, uint32_t insn)
@@ -XXX,XX +XXX,XX @@ static bool trans_ST_zpri(DisasContext *s, arg_rpri_store *a, uint32_t insn)
   *** SVE gather loads / scatter stores
   */
 -static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm, int scale,
 -                       TCGv_i64 scalar, gen_helper_gvec_mem_scatter *fn)
 +static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm,
 +                       int scale, TCGv_i64 scalar, int msz,
 +                       gen_helper_gvec_mem_scatter *fn)
  {
      unsigned vsz = vec_full_reg_size(s);
 -    TCGv_i32 desc = tcg_const_i32(simd_desc(vsz, vsz, scale));
      TCGv_ptr t_zm = tcg_temp_new_ptr();
      TCGv_ptr t_pg = tcg_temp_new_ptr();
      TCGv_ptr t_zt = tcg_temp_new_ptr();
 +    TCGv_i32 t_desc;
 +    int desc;
 +
 +    desc = sve_memopidx(s, msz_dtype(msz));
 +    desc |= scale << MEMOPIDX_SHIFT;
 +    desc = simd_desc(vsz, vsz, desc);
 +    t_desc = tcg_const_i32(desc);
      tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
      tcg_gen_addi_ptr(t_zm, cpu_env, vec_full_reg_offset(s, zm));
      tcg_gen_addi_ptr(t_zt, cpu_env, vec_full_reg_offset(s, zt));
 -    fn(cpu_env, t_zt, t_pg, t_zm, scalar, desc);
 +    fn(cpu_env, t_zt, t_pg, t_zm, scalar, t_desc);
      tcg_temp_free_ptr(t_zt);
      tcg_temp_free_ptr(t_zm);
      tcg_temp_free_ptr(t_pg);
 -    tcg_temp_free_i32(desc);
 +    tcg_temp_free_i32(t_desc);
  }
  /* Indexed by [be][ff][xs][u][msz].  */
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
      assert(fn != NULL);
      do_mem_zpz(s, a->rd, a->pg, a->rm, a->scale * a->msz,
 -               cpu_reg_sp(s, a->rn), fn);
 +               cpu_reg_sp(s, a->rn), a->msz, fn);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
       * by loading the immediate into the scalar parameter.
       */
      imm = tcg_const_i64(a->imm << a->msz);
 -    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, fn);
 +    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, a->msz, fn);
      tcg_temp_free_i64(imm);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zprz(DisasContext *s, arg_ST1_zprz *a, uint32_t insn)
          g_assert_not_reached();
      }
      do_mem_zpz(s, a->rd, a->pg, a->rm, a->scale * a->msz,
 -               cpu_reg_sp(s, a->rn), fn);
 +               cpu_reg_sp(s, a->rn), a->msz, fn);
      return true;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zpiz(DisasContext *s, arg_ST1_zpiz *a, uint32_t insn)
       * by loading the immediate into the scalar parameter.
       */
      imm = tcg_const_i64(a->imm << a->msz);
 -    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, fn);
 +    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, a->msz, fn);
      tcg_temp_free_i64(imm);
      return true;
  }
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 21/45] hw/arm/boot: Increase compliance with kernel arm64 boot protocol
+From: Stewart Hildebrand <Stewart.Hildebrand@dornerworks.com>
+"The Image must be placed text_offset bytes from a 2MB aligned base
+address anywhere in usable system RAM and called there."
+For the virt board, we write our startup bootloader at the very
+bottom of RAM, so that bit can't be used for the image. To avoid
+overlap in case the image requests to be loaded at an offset
+smaller than our bootloader, we increment the load offset to the
+next 2MB.
+This fixes a boot failure for Xen AArch64.
+Signed-off-by: Stewart Hildebrand <stewart.hildebrand@dornerworks.com>
+Tested-by: Andre Przywara <andre.przywara@arm.com>
+Message-id: b8a89518794b4436af0c151ed10de4fa@dornerworks.com
+[PMM: Rephrased a comment a bit]
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/boot.c | 18 ++++++++++++++++++
+file changed, 18 insertions(+)
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/boot.c
++++ b/hw/arm/boot.c
+@@ -XXX,XX +XXX,XX @@
+ #include "qemu/config-file.h"
+ #include "qemu/option.h"
+ #include "exec/address-spaces.h"
++#include "qemu/units.h"
+ /* Kernel boot protocol is specified in the kernel docs
+  * Documentation/arm/Booting and Documentation/arm64/booting.txt
+@@ -XXX,XX +XXX,XX @@
+ #define ARM64_TEXT_OFFSET_OFFSET    8
+ #define ARM64_MAGIC_OFFSET          56
++#define BOOTLOADER_MAX_SIZE         (4 * KiB)
++
+ AddressSpace *arm_boot_address_space(ARMCPU *cpu,
+                                      const struct arm_boot_info *info)
+ {
+@@ -XXX,XX +XXX,XX @@ static void write_bootloader(const char *name, hwaddr addr,
+         code[i] = tswap32(insn);
+     }
++    assert((len * sizeof(uint32_t)) < BOOTLOADER_MAX_SIZE);
++
+     rom_add_blob_fixed_as(name, code, len * sizeof(uint32_t), addr, as);
+     g_free(code);
+@@ -XXX,XX +XXX,XX @@ static uint64_t load_aarch64_image(const char *filename, hwaddr mem_base,
+         memcpy(&hdrvals, buffer + ARM64_TEXT_OFFSET_OFFSET, sizeof(hdrvals));
+         if (hdrvals[1] != 0) {
+             kernel_load_offset = le64_to_cpu(hdrvals[0]);
++
++            /*
++             * We write our startup "bootloader" at the very bottom of RAM,
++             * so that bit can't be used for the image. Luckily the Image
++             * format specification is that the image requests only an offset
++             * from a 2MB boundary, not an absolute load address. So if the
++             * image requests an offset that might mean it overlaps with the
++             * bootloader, we can just load it starting at 2MB+offset rather
++             * than 0MB + offset.
++             */
++            if (kernel_load_offset < BOOTLOADER_MAX_SIZE) {
++                kernel_load_offset += 2 * MiB;
++            }
+         }
+     }
+--
+.19.1

-[Qemu-devel] [PULL 02/33] virt: Suppress external aborts on virt-2.10 and earlier
+[Qemu-devel] [PULL 22/45] target/arm: Hoist address increment for vector memory ops
-In commit c79c0a314c43b78 we enabled emulation of external aborts
+From: Richard Henderson <rth@twiddle.net>
 when the guest attempts to access a physical address with no
 mapped device. In commit 4672cbd7bed88dc6 we suppress this for
 most legacy boards to prevent breakage of previously working
 guests, but we didn't suppress it in the 'virt' board, with
 the rationale "we know that guests won't try to prod devices
 that we don't describe in the device tree or ACPI tables". This
 is mostly true, but we've had a report of a Linux guest image
 that this did break. The problem seems to be that the guest
 is (incorrectly) configured with a DEBUG_UART_PHYS value that
 tells it there is a uart at 0x10009000 (which is true for
 vexpress but not for virt), so in early bootup the kernel
 probes this bogus address.
-This is a misconfigured guest, so we don't need to worry
+This can reduce the number of opcodes required for certain
-about it too much, but we can arrange that guests that ran
+complex forms of load-multiple (e.g. ld4.16b).
 on QEMU v2.10 (before c79c0a314c43b78) will still run on
 the "virt-2.10" board model, by suppressing external aborts
 only for that version and earlier. This seems a reasonable
 compromise: "virt-2.10" is supposed to behave the same way
 that "virt" did in the 2.10 release, and making it do that
 provides a usable workaround for guests with bugs like this.
-Cc: qemu-stable@nongnu.org
+Signed-off-by: Richard Henderson <rth@twiddle.net>
 Message-id: 20181011205206.3552-2-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20180925144127.31965-1-peter.maydell@linaro.org
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
 ---
- hw/arm/virt.c | 2 ++
+ target/arm/translate-a64.c | 12 ++++++++----
-file changed, 2 insertions(+)
+file changed, 8 insertions(+), 4 deletions(-)
-diff --git a/hw/arm/virt.c b/hw/arm/virt.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt.c
+--- a/target/arm/translate-a64.c
-+++ b/hw/arm/virt.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void virt_machine_2_10_options(MachineClass *mc)
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
- {
+     bool is_store = !extract32(insn, 22, 1);
-     virt_machine_2_11_options(mc);
+     bool is_postidx = extract32(insn, 23, 1);
-     SET_MACHINE_COMPAT(mc, VIRT_COMPAT_2_10);
+     bool is_q = extract32(insn, 30, 1);
-+    /* before 2.11 we never faulted accesses to bad addresses */
+-    TCGv_i64 tcg_addr, tcg_rn;
-+    mc->ignore_memory_transaction_failures = true;
++    TCGv_i64 tcg_addr, tcg_rn, tcg_ebytes;
      int ebytes = 1 << size;
      int elements = (is_q ? 128 : 64) / (8 << size);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
      tcg_rn = cpu_reg_sp(s, rn);
      tcg_addr = tcg_temp_new_i64();
      tcg_gen_mov_i64(tcg_addr, tcg_rn);
 +    tcg_ebytes = tcg_const_i64(ebytes);
      for (r = 0; r < rpt; r++) {
          int e;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
                          clear_vec_high(s, is_q, tt);
                      }
                  }
 -                tcg_gen_addi_i64(tcg_addr, tcg_addr, ebytes);
 +                tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
                  tt = (tt + 1) % 32;
              }
          }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
              tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
          }
      }
 +    tcg_temp_free_i64(tcg_ebytes);
      tcg_temp_free_i64(tcg_addr);
  }
- DEFINE_VIRT_MACHINE(2, 10)
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
      bool replicate = false;
      int index = is_q << 3 | S << 2 | size;
      int ebytes, xs;
 -    TCGv_i64 tcg_addr, tcg_rn;
 +    TCGv_i64 tcg_addr, tcg_rn, tcg_ebytes;
      switch (scale) {
      case 3:
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
      tcg_rn = cpu_reg_sp(s, rn);
      tcg_addr = tcg_temp_new_i64();
      tcg_gen_mov_i64(tcg_addr, tcg_rn);
 +    tcg_ebytes = tcg_const_i64(ebytes);
      for (xs = 0; xs < selem; xs++) {
          if (replicate) {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
                  do_vec_st(s, rt, index, tcg_addr, scale);
              }
          }
 -        tcg_gen_addi_i64(tcg_addr, tcg_addr, ebytes);
 +        tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
          rt = (rt + 1) % 32;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
              tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
          }
      }
 +    tcg_temp_free_i64(tcg_ebytes);
      tcg_temp_free_i64(tcg_addr);
  }
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 12/33] target/arm: Rewrite helper_sve_ld[234]*_r
+[Qemu-devel] [PULL 23/45] target/arm: Don't call tcg_clear_temp_count
 From: Richard Henderson <richard.henderson@linaro.org>
-Use the same *_tlb primitives as we use for ld1.
+This is done generically in translator_loop.
-For linux-user, this hoists the set of helper_retaddr.  For softmmu,
+Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-hoists the computation of the current mmu_idx outside the loop,
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-fixes the endianness problem, and moves the main loop out of a
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-macro and into an inlined function.
+Message-id: 20181011205206.3552-3-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-9-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/sve_helper.c | 210 ++++++++++++++++++++++------------------
+ target/arm/translate-a64.c | 1 -
-file changed, 117 insertions(+), 93 deletions(-)
+ target/arm/translate.c     | 1 -
 files changed, 2 deletions(-)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-a64.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ DO_LD1_2(ld1dd,  3, 3)
+@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
- #undef DO_LD1_1
- #undef DO_LD1_2
+ static void aarch64_tr_tb_start(DisasContextBase *db, CPUState *cpu)
+ {
--#define DO_LD2(NAME, FN, TYPEE, TYPEM, H)                  \
+-    tcg_clear_temp_count();
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    intptr_t i, oprsz = simd_oprsz(desc);                  \
 -    intptr_t ra = GETPC();                                 \
 -    unsigned rd = simd_data(desc);                         \
 -    void *d1 = &env->vfp.zregs[rd];                        \
 -    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            TYPEM m1 = 0, m2 = 0;                          \
 -            if (pg & 1) {                                  \
 -                m1 = FN(env, addr, ra);                    \
 -                m2 = FN(env, addr + sizeof(TYPEM), ra);    \
 -            }                                              \
 -            *(TYPEE *)(d1 + H(i)) = m1;                    \
 -            *(TYPEE *)(d2 + H(i)) = m2;                    \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += 2 * sizeof(TYPEM);                     \
 -        } while (i & 15);                                  \
 -    }                                                      \
 +/*
 + * Common helpers for all contiguous 2,3,4-register predicated loads.
 + */
 +static void sve_ld2_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, int size, uintptr_t ra,
 +                      sve_ld1_tlb_fn *tlb_fn)
 +{
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +    unsigned rd = simd_data(desc);
 +    ARMVectorReg scratch[2] = { };
 +
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
 +                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
 +            }
 +            i += size, pg >>= size;
 +            addr += 2 * size;
 +        } while (i & 15);
 +    }
 +    set_helper_retaddr(0);
 +
 +    /* Wait until all exceptions have been raised to write back.  */
 +    memcpy(&env->vfp.zregs[rd], &scratch[0], oprsz);
 +    memcpy(&env->vfp.zregs[(rd + 1) & 31], &scratch[1], oprsz);
  }
--#define DO_LD3(NAME, FN, TYPEE, TYPEM, H)                  \
+ static void aarch64_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
--void HELPER(NAME)(CPUARMState *env, void *vg,              \
+diff --git a/target/arm/translate.c b/target/arm/translate.c
--                  target_ulong addr, uint32_t desc)        \
+index XXXXXXX..XXXXXXX 100644
--{                                                          \
+--- a/target/arm/translate.c
--    intptr_t i, oprsz = simd_oprsz(desc);                  \
++++ b/target/arm/translate.c
--    intptr_t ra = GETPC();                                 \
+@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_start(DisasContextBase *dcbase, CPUState *cpu)
--    unsigned rd = simd_data(desc);                         \
+         tcg_gen_movi_i32(tmp, 0);
--    void *d1 = &env->vfp.zregs[rd];                        \
+         store_cpu_field(tmp, condexec_bits);
--    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
+     }
--    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
+-    tcg_clear_temp_count();
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            TYPEM m1 = 0, m2 = 0, m3 = 0;                  \
 -            if (pg & 1) {                                  \
 -                m1 = FN(env, addr, ra);                    \
 -                m2 = FN(env, addr + sizeof(TYPEM), ra);    \
 -                m3 = FN(env, addr + 2 * sizeof(TYPEM), ra); \
 -            }                                              \
 -            *(TYPEE *)(d1 + H(i)) = m1;                    \
 -            *(TYPEE *)(d2 + H(i)) = m2;                    \
 -            *(TYPEE *)(d3 + H(i)) = m3;                    \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += 3 * sizeof(TYPEM);                     \
 -        } while (i & 15);                                  \
 -    }                                                      \
 +static void sve_ld3_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, int size, uintptr_t ra,
 +                      sve_ld1_tlb_fn *tlb_fn)
 +{
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +    unsigned rd = simd_data(desc);
 +    ARMVectorReg scratch[3] = { };
 +
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
 +                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
 +                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
 +            }
 +            i += size, pg >>= size;
 +            addr += 3 * size;
 +        } while (i & 15);
 +    }
 +    set_helper_retaddr(0);
 +
 +    /* Wait until all exceptions have been raised to write back.  */
 +    memcpy(&env->vfp.zregs[rd], &scratch[0], oprsz);
 +    memcpy(&env->vfp.zregs[(rd + 1) & 31], &scratch[1], oprsz);
 +    memcpy(&env->vfp.zregs[(rd + 2) & 31], &scratch[2], oprsz);
  }
--#define DO_LD4(NAME, FN, TYPEE, TYPEM, H)                  \
+ static void arm_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    intptr_t i, oprsz = simd_oprsz(desc);                  \
 -    intptr_t ra = GETPC();                                 \
 -    unsigned rd = simd_data(desc);                         \
 -    void *d1 = &env->vfp.zregs[rd];                        \
 -    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
 -    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
 -    void *d4 = &env->vfp.zregs[(rd + 3) & 31];             \
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            TYPEM m1 = 0, m2 = 0, m3 = 0, m4 = 0;          \
 -            if (pg & 1) {                                  \
 -                m1 = FN(env, addr, ra);                    \
 -                m2 = FN(env, addr + sizeof(TYPEM), ra);    \
 -                m3 = FN(env, addr + 2 * sizeof(TYPEM), ra); \
 -                m4 = FN(env, addr + 3 * sizeof(TYPEM), ra); \
 -            }                                              \
 -            *(TYPEE *)(d1 + H(i)) = m1;                    \
 -            *(TYPEE *)(d2 + H(i)) = m2;                    \
 -            *(TYPEE *)(d3 + H(i)) = m3;                    \
 -            *(TYPEE *)(d4 + H(i)) = m4;                    \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += 4 * sizeof(TYPEM);                     \
 -        } while (i & 15);                                  \
 -    }                                                      \
 +static void sve_ld4_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, int size, uintptr_t ra,
 +                      sve_ld1_tlb_fn *tlb_fn)
 +{
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +    unsigned rd = simd_data(desc);
 +    ARMVectorReg scratch[4] = { };
 +
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
 +                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
 +                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
 +                tlb_fn(env, &scratch[3], i, addr + 3 * size, mmu_idx, ra);
 +            }
 +            i += size, pg >>= size;
 +            addr += 4 * size;
 +        } while (i & 15);
 +    }
 +    set_helper_retaddr(0);
 +
 +    /* Wait until all exceptions have been raised to write back.  */
 +    memcpy(&env->vfp.zregs[rd], &scratch[0], oprsz);
 +    memcpy(&env->vfp.zregs[(rd + 1) & 31], &scratch[1], oprsz);
 +    memcpy(&env->vfp.zregs[(rd + 2) & 31], &scratch[2], oprsz);
 +    memcpy(&env->vfp.zregs[(rd + 3) & 31], &scratch[3], oprsz);
  }
 -DO_LD2(sve_ld2bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 -DO_LD3(sve_ld3bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 -DO_LD4(sve_ld4bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 +#define DO_LDN_1(N) \
 +void __attribute__((flatten)) HELPER(sve_ld##N##bb_r)               \
 +    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)  \
 +{                                                                   \
 +    sve_ld##N##_r(env, vg, addr, desc, 1, GETPC(), sve_ld1bb_tlb);  \
 +}
 -DO_LD2(sve_ld2hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 -DO_LD3(sve_ld3hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 -DO_LD4(sve_ld4hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 +#define DO_LDN_2(N, SUFF, SIZE)                                       \
 +void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_r)             \
 +    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
 +{                                                                     \
 +    sve_ld##N##_r(env, vg, addr, desc, SIZE, GETPC(),                 \
 +                  arm_cpu_data_is_big_endian(env)                     \
 +                  ? sve_ld1##SUFF##_be_tlb : sve_ld1##SUFF##_le_tlb); \
 +}
 -DO_LD2(sve_ld2ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 -DO_LD3(sve_ld3ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 -DO_LD4(sve_ld4ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 +DO_LDN_1(2)
 +DO_LDN_1(3)
 +DO_LDN_1(4)
 -DO_LD2(sve_ld2dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 -DO_LD3(sve_ld3dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 -DO_LD4(sve_ld4dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 +DO_LDN_2(2, hh, 2)
 +DO_LDN_2(3, hh, 2)
 +DO_LDN_2(4, hh, 2)
 -#undef DO_LD2
 -#undef DO_LD3
 -#undef DO_LD4
 +DO_LDN_2(2, ss, 4)
 +DO_LDN_2(3, ss, 4)
 +DO_LDN_2(4, ss, 4)
 +
 +DO_LDN_2(2, dd, 8)
 +DO_LDN_2(3, dd, 8)
 +DO_LDN_2(4, dd, 8)
 +
 +#undef DO_LDN_1
 +#undef DO_LDN_2
  /*
   * Load contiguous data, first-fault and no-fault.
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 24/45] target/arm: Use tcg_gen_gvec_dup_i64 for LD[1-4]R
+From: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-4-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/translate-a64.c | 28 +++-------------------------
+file changed, 3 insertions(+), 25 deletions(-)
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-a64.c
++++ b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
+     for (xs = 0; xs < selem; xs++) {
+         if (replicate) {
+             /* Load and replicate to all elements */
+-            uint64_t mulconst;
+             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
+             tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr,
+                                 get_mem_index(s), s->be_data + scale);
+-            switch (scale) {
+-            case 0:
+-                mulconst = 0x0101010101010101ULL;
+-                break;
+-            case 1:
+-                mulconst = 0x0001000100010001ULL;
+-                break;
+-            case 2:
+-                mulconst = 0x0000000100000001ULL;
+-                break;
+-            case 3:
+-                mulconst = 0;
+-                break;
+-            default:
+-                g_assert_not_reached();
+-            }
+-            if (mulconst) {
+-                tcg_gen_muli_i64(tcg_tmp, tcg_tmp, mulconst);
+-            }
+-            write_vec_element(s, tcg_tmp, rt, 0, MO_64);
+-            if (is_q) {
+-                write_vec_element(s, tcg_tmp, rt, 1, MO_64);
+-            }
++            tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
++                                 (is_q + 1) * 8, vec_full_reg_size(s),
++                                 tcg_tmp);
+             tcg_temp_free_i64(tcg_tmp);
+-            clear_vec_high(s, is_q, rt);
+         } else {
+             /* Load/store one element per register */
+             if (is_load) {
+--
+.19.1

-[Qemu-devel] [PULL 10/33] target/arm: Clear unused predicate bits for LD1RQ
+[Qemu-devel] [PULL 25/45] target/arm: Promote consecutive memory ops for aa64
 From: Richard Henderson <richard.henderson@linaro.org>
-The 16-byte load only uses 16 predicate bits.  But while
+For a sequence of loads or stores from a single register,
-reusing the other load infrastructure, we find other bits
+little-endian operations can be promoted to an 8-byte op.
-that are set and trigger an assert.  To avoid this and
+This can reduce the number of operations by a factor of 8.
 retain the assert, zero-extend the predicate that we pass
 to the LD1 helper.
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Message-id: 20181011205206.3552-5-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-sve.c | 25 +++++++++++++++++++++++--
+ target/arm/translate-a64.c | 66 +++++++++++++++++++++++---------------
-file changed, 23 insertions(+), 2 deletions(-)
+file changed, 40 insertions(+), 26 deletions(-)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
+@@ -XXX,XX +XXX,XX @@ static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
-     unsigned vsz = vec_full_reg_size(s);
-     TCGv_ptr t_pg;
+ /* Store from vector register to memory */
-     TCGv_i32 desc;
+ static void do_vec_st(DisasContext *s, int srcidx, int element,
-+    int poff;
+-                      TCGv_i64 tcg_addr, int size)
++                      TCGv_i64 tcg_addr, int size, TCGMemOp endian)
-     /* Load the first quadword using the normal predicated load helpers.  */
+ {
-     desc = tcg_const_i32(simd_desc(16, 16, zt));
+-    TCGMemOp memop = s->be_data + size;
--    t_pg = tcg_temp_new_ptr();
+     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
--    tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
+     read_vec_element(s, tcg_tmp, srcidx, element, size);
-+    poff = pred_full_reg_offset(s, pg);
+-    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), memop);
-+    if (vsz > 16) {
++    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
-+        /*
-+         * Zero-extend the first 16 bits of the predicate into a temporary.
+     tcg_temp_free_i64(tcg_tmp);
-+         * This avoids triggering an assert making sure we don't have bits
+ }
-+         * set within a predicate beyond VQ, but we have lowered VQ to 1
-+         * for this load operation.
+ /* Load from memory to vector register */
-+         */
+ static void do_vec_ld(DisasContext *s, int destidx, int element,
-+        TCGv_i64 tmp = tcg_temp_new_i64();
+-                      TCGv_i64 tcg_addr, int size)
-+#ifdef HOST_WORDS_BIGENDIAN
++                      TCGv_i64 tcg_addr, int size, TCGMemOp endian)
-+        poff += 6;
+ {
-+#endif
+-    TCGMemOp memop = s->be_data + size;
-+        tcg_gen_ld16u_i64(tmp, cpu_env, poff);
+     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-+
-+        poff = offsetof(CPUARMState, vfp.preg_tmp);
+-    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), memop);
-+        tcg_gen_st_i64(tmp, cpu_env, poff);
++    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
-+        tcg_temp_free_i64(tmp);
+     write_vec_element(s, tcg_tmp, destidx, element, size);
      tcg_temp_free_i64(tcg_tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
      bool is_postidx = extract32(insn, 23, 1);
      bool is_q = extract32(insn, 30, 1);
      TCGv_i64 tcg_addr, tcg_rn, tcg_ebytes;
 +    TCGMemOp endian = s->be_data;
 -    int ebytes = 1 << size;
 -    int elements = (is_q ? 128 : 64) / (8 << size);
 +    int ebytes;   /* bytes per element */
 +    int elements; /* elements per vector */
      int rpt;    /* num iterations */
      int selem;  /* structure elements */
      int r;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
          gen_check_sp_alignment(s);
      }
 +    /* For our purposes, bytes are always little-endian.  */
 +    if (size == 0) {
 +        endian = MO_LE;
 +    }
 +
-+    t_pg = tcg_temp_new_ptr();
++    /* Consecutive little-endian elements from a single register
-+    tcg_gen_addi_ptr(t_pg, cpu_env, poff);
++     * can be promoted to a larger little-endian operation.
 +     */
 +    if (selem == 1 && endian == MO_LE) {
 +        size = 3;
 +    }
 +    ebytes = 1 << size;
 +    elements = (is_q ? 16 : 8) / ebytes;
 +
-     fns[msz](cpu_env, t_pg, addr, desc);
+     tcg_rn = cpu_reg_sp(s, rn);
+     tcg_addr = tcg_temp_new_i64();
-     tcg_temp_free_ptr(t_pg);
+     tcg_gen_mov_i64(tcg_addr, tcg_rn);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
      for (r = 0; r < rpt; r++) {
          int e;
          for (e = 0; e < elements; e++) {
 -            int tt = (rt + r) % 32;
              int xs;
              for (xs = 0; xs < selem; xs++) {
 +                int tt = (rt + r + xs) % 32;
                  if (is_store) {
 -                    do_vec_st(s, tt, e, tcg_addr, size);
 +                    do_vec_st(s, tt, e, tcg_addr, size, endian);
                  } else {
 -                    do_vec_ld(s, tt, e, tcg_addr, size);
 -
 -                    /* For non-quad operations, setting a slice of the low
 -                     * 64 bits of the register clears the high 64 bits (in
 -                     * the ARM ARM pseudocode this is implicit in the fact
 -                     * that 'rval' is a 64 bit wide variable).
 -                     * For quad operations, we might still need to zero the
 -                     * high bits of SVE.  We optimize by noticing that we only
 -                     * need to do this the first time we touch a register.
 -                     */
 -                    if (e == 0 && (r == 0 || xs == selem - 1)) {
 -                        clear_vec_high(s, is_q, tt);
 -                    }
 +                    do_vec_ld(s, tt, e, tcg_addr, size, endian);
                  }
                  tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
 -                tt = (tt + 1) % 32;
              }
          }
      }
 +    if (!is_store) {
 +        /* For non-quad operations, setting a slice of the low
 +         * 64 bits of the register clears the high 64 bits (in
 +         * the ARM ARM pseudocode this is implicit in the fact
 +         * that 'rval' is a 64 bit wide variable).
 +         * For quad operations, we might still need to zero the
 +         * high bits of SVE.
 +         */
 +        for (r = 0; r < rpt * selem; r++) {
 +            int tt = (rt + r) % 32;
 +            clear_vec_high(s, is_q, tt);
 +        }
 +    }
 +
      if (is_postidx) {
          int rm = extract32(insn, 16, 5);
          if (rm == 31) {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
          } else {
              /* Load/store one element per register */
              if (is_load) {
 -                do_vec_ld(s, rt, index, tcg_addr, scale);
 +                do_vec_ld(s, rt, index, tcg_addr, scale, s->be_data);
              } else {
 -                do_vec_st(s, rt, index, tcg_addr, scale);
 +                do_vec_st(s, rt, index, tcg_addr, scale, s->be_data);
              }
          }
          tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 26/45] target/arm: Mark some arrays const
+From: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Message-id: 20181011205206.3552-6-richard.henderson@linaro.org
+[PMM: drop change to now-deleted cpu_mode_names array]
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/translate.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static TCGv_i64 cpu_F0d, cpu_F1d;
+ #include "exec/gen-icount.h"
+-static const char *regnames[] =
++static const char * const regnames[] =
+     { "r0", "r1", "r2", "r3", "r4", "r5", "r6", "r7",
+       "r8", "r9", "r10", "r11", "r12", "r13", "r14", "pc" };
+@@ -XXX,XX +XXX,XX @@ static struct {
+     int nregs;
+     int interleave;
+     int spacing;
+-} neon_ls_element_type[11] = {
++} const neon_ls_element_type[11] = {
+     {4, 4, 1},
+     {4, 4, 2},
+     {4, 1, 1},
+--
+.19.1

-[Qemu-devel] [PULL 13/33] target/arm: Rewrite helper_sve_st[1234]*_r
+[Qemu-devel] [PULL 27/45] target/arm: Use gvec for NEON VDUP
 From: Richard Henderson <richard.henderson@linaro.org>
-This fixes the endianness problem for softmmu, and moves the
+Also introduces neon_element_offset to find the env offset
-main loop out of a macro and into an inlined function.
+of a specific element within a neon register.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-7-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-10-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/sve_helper.c | 351 ++++++++++++++++++++--------------------
+ target/arm/translate.c | 63 ++++++++++++++++++++++++------------------
-file changed, 172 insertions(+), 179 deletions(-)
+file changed, 36 insertions(+), 27 deletions(-)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ typedef intptr_t sve_ld1_host_fn(void *vd, void *vg, void *host,
+@@ -XXX,XX +XXX,XX @@ neon_reg_offset (int reg, int n)
-  */
+     return vfp_reg_offset(0, sreg);
  typedef void sve_ld1_tlb_fn(CPUARMState *env, void *vd, intptr_t reg_off,
                              target_ulong vaddr, int mmu_idx, uintptr_t ra);
 +typedef sve_ld1_tlb_fn sve_st1_tlb_fn;
  /*
   * Generate the above primitives.
@@ -XXX,XX +XXX,XX @@ DO_LDFF1_LDNF1_2(dd,  3, 3)
  /*
   * Store contiguous data, protected by a governing predicate.
   */
 -#define DO_ST1(NAME, FN, TYPEE, TYPEM, H)                  \
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    intptr_t i, oprsz = simd_oprsz(desc);                  \
 -    intptr_t ra = GETPC();                                 \
 -    unsigned rd = simd_data(desc);                         \
 -    void *vd = &env->vfp.zregs[rd];                        \
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            if (pg & 1) {                                  \
 -                TYPEM m = *(TYPEE *)(vd + H(i));           \
 -                FN(env, addr, m, ra);                      \
 -            }                                              \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += sizeof(TYPEM);                         \
 -        } while (i & 15);                                  \
 -    }                                                      \
 +
 +#ifdef CONFIG_SOFTMMU
 +#define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
 +static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 +                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +{                                                                           \
 +    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
 +    TLB(env, addr, *(TYPEM *)(vd + H(reg_off)), oi, ra);                    \
  }
--
--#define DO_ST1_D(NAME, FN, TYPEM)                          \
++/* Return the offset of a 2**SIZE piece of a NEON register, at index ELE,
--void HELPER(NAME)(CPUARMState *env, void *vg,              \
++ * where 0 is the least significant end of the register.
--                  target_ulong addr, uint32_t desc)        \
++ */
--{                                                          \
++static inline long
--    intptr_t i, oprsz = simd_oprsz(desc) / 8;              \
++neon_element_offset(int reg, int element, TCGMemOp size)
--    intptr_t ra = GETPC();                                 \
++{
--    unsigned rd = simd_data(desc);                         \
++    int element_size = 1 << size;
--    uint64_t *d = &env->vfp.zregs[rd].d[0];                \
++    int ofs = element * element_size;
--    uint8_t *pg = vg;                                      \
++#ifdef HOST_WORDS_BIGENDIAN
--    for (i = 0; i < oprsz; i += 1) {                       \
++    /* Calculate the offset assuming fully little-endian,
--        if (pg[H1(i)] & 1) {                               \
++     * then XOR to account for the order of the 8-byte units.
--            FN(env, addr, d[i], ra);                       \
++     */
--        }                                                  \
++    if (element_size < 8) {
--        addr += sizeof(TYPEM);                             \
++        ofs ^= 8 - element_size;
--    }                                                      \
++    }
 +#else
 +#define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
 +static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 +                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +{                                                                           \
 +    HOST(g2h(addr), *(TYPEM *)(vd + H(reg_off)));                           \
  }
 +#endif
++    return neon_reg_offset(reg, 0) + ofs;
 -#define DO_ST2(NAME, FN, TYPEE, TYPEM, H)                  \
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    intptr_t i, oprsz = simd_oprsz(desc);                  \
 -    intptr_t ra = GETPC();                                 \
 -    unsigned rd = simd_data(desc);                         \
 -    void *d1 = &env->vfp.zregs[rd];                        \
 -    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            if (pg & 1) {                                  \
 -                TYPEM m1 = *(TYPEE *)(d1 + H(i));          \
 -                TYPEM m2 = *(TYPEE *)(d2 + H(i));          \
 -                FN(env, addr, m1, ra);                     \
 -                FN(env, addr + sizeof(TYPEM), m2, ra);     \
 -            }                                              \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += 2 * sizeof(TYPEM);                     \
 -        } while (i & 15);                                  \
 -    }                                                      \
 -}
 +DO_ST_TLB(st1bb,   H1,  uint8_t, stb_p, 0, helper_ret_stb_mmu)
 +DO_ST_TLB(st1bh, H1_2, uint16_t, stb_p, 0, helper_ret_stb_mmu)
 +DO_ST_TLB(st1bs, H1_4, uint32_t, stb_p, 0, helper_ret_stb_mmu)
 +DO_ST_TLB(st1bd,     , uint64_t, stb_p, 0, helper_ret_stb_mmu)
 -#define DO_ST3(NAME, FN, TYPEE, TYPEM, H)                  \
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    intptr_t i, oprsz = simd_oprsz(desc);                  \
 -    intptr_t ra = GETPC();                                 \
 -    unsigned rd = simd_data(desc);                         \
 -    void *d1 = &env->vfp.zregs[rd];                        \
 -    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
 -    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            if (pg & 1) {                                  \
 -                TYPEM m1 = *(TYPEE *)(d1 + H(i));          \
 -                TYPEM m2 = *(TYPEE *)(d2 + H(i));          \
 -                TYPEM m3 = *(TYPEE *)(d3 + H(i));          \
 -                FN(env, addr, m1, ra);                     \
 -                FN(env, addr + sizeof(TYPEM), m2, ra);     \
 -                FN(env, addr + 2 * sizeof(TYPEM), m3, ra); \
 -            }                                              \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += 3 * sizeof(TYPEM);                     \
 -        } while (i & 15);                                  \
 -    }                                                      \
 -}
 +DO_ST_TLB(st1hh_le, H1_2, uint16_t, stw_le_p, MO_LE, helper_le_stw_mmu)
 +DO_ST_TLB(st1hs_le, H1_4, uint32_t, stw_le_p, MO_LE, helper_le_stw_mmu)
 +DO_ST_TLB(st1hd_le,     , uint64_t, stw_le_p, MO_LE, helper_le_stw_mmu)
 -#define DO_ST4(NAME, FN, TYPEE, TYPEM, H)                  \
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    intptr_t i, oprsz = simd_oprsz(desc);                  \
 -    intptr_t ra = GETPC();                                 \
 -    unsigned rd = simd_data(desc);                         \
 -    void *d1 = &env->vfp.zregs[rd];                        \
 -    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
 -    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
 -    void *d4 = &env->vfp.zregs[(rd + 3) & 31];             \
 -    for (i = 0; i < oprsz; ) {                             \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            if (pg & 1) {                                  \
 -                TYPEM m1 = *(TYPEE *)(d1 + H(i));          \
 -                TYPEM m2 = *(TYPEE *)(d2 + H(i));          \
 -                TYPEM m3 = *(TYPEE *)(d3 + H(i));          \
 -                TYPEM m4 = *(TYPEE *)(d4 + H(i));          \
 -                FN(env, addr, m1, ra);                     \
 -                FN(env, addr + sizeof(TYPEM), m2, ra);     \
 -                FN(env, addr + 2 * sizeof(TYPEM), m3, ra); \
 -                FN(env, addr + 3 * sizeof(TYPEM), m4, ra); \
 -            }                                              \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += 4 * sizeof(TYPEM);                     \
 -        } while (i & 15);                                  \
 -    }                                                      \
 -}
 +DO_ST_TLB(st1ss_le, H1_4, uint32_t, stl_le_p, MO_LE, helper_le_stl_mmu)
 +DO_ST_TLB(st1sd_le,     , uint64_t, stl_le_p, MO_LE, helper_le_stl_mmu)
 -DO_ST1(sve_st1bh_r, cpu_stb_data_ra, uint16_t, uint8_t, H1_2)
 -DO_ST1(sve_st1bs_r, cpu_stb_data_ra, uint32_t, uint8_t, H1_4)
 -DO_ST1_D(sve_st1bd_r, cpu_stb_data_ra, uint8_t)
 +DO_ST_TLB(st1dd_le,     , uint64_t, stq_le_p, MO_LE, helper_le_stq_mmu)
 -DO_ST1(sve_st1hs_r, cpu_stw_data_ra, uint32_t, uint16_t, H1_4)
 -DO_ST1_D(sve_st1hd_r, cpu_stw_data_ra, uint16_t)
 +DO_ST_TLB(st1hh_be, H1_2, uint16_t, stw_be_p, MO_BE, helper_be_stw_mmu)
 +DO_ST_TLB(st1hs_be, H1_4, uint32_t, stw_be_p, MO_BE, helper_be_stw_mmu)
 +DO_ST_TLB(st1hd_be,     , uint64_t, stw_be_p, MO_BE, helper_be_stw_mmu)
 -DO_ST1_D(sve_st1sd_r, cpu_stl_data_ra, uint32_t)
 +DO_ST_TLB(st1ss_be, H1_4, uint32_t, stl_be_p, MO_BE, helper_be_stl_mmu)
 +DO_ST_TLB(st1sd_be,     , uint64_t, stl_be_p, MO_BE, helper_be_stl_mmu)
 -DO_ST1(sve_st1bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
 -DO_ST2(sve_st2bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
 -DO_ST3(sve_st3bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
 -DO_ST4(sve_st4bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
 +DO_ST_TLB(st1dd_be,     , uint64_t, stq_be_p, MO_BE, helper_be_stq_mmu)
 -DO_ST1(sve_st1hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
 -DO_ST2(sve_st2hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
 -DO_ST3(sve_st3hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
 -DO_ST4(sve_st4hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
 +#undef DO_ST_TLB
 -DO_ST1(sve_st1ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
 -DO_ST2(sve_st2ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
 -DO_ST3(sve_st3ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
 -DO_ST4(sve_st4ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
 -
 -DO_ST1_D(sve_st1dd_r, cpu_stq_data_ra, uint64_t)
 -
 -void HELPER(sve_st2dd_r)(CPUARMState *env, void *vg,
 -                         target_ulong addr, uint32_t desc)
 +/*
 + * Common helpers for all contiguous 1,2,3,4-register predicated stores.
 + */
 +static void sve_st1_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, const uintptr_t ra,
 +                      const int esize, const int msize,
 +                      sve_st1_tlb_fn *tlb_fn)
  {
 -    intptr_t i, oprsz = simd_oprsz(desc) / 8;
 -    intptr_t ra = GETPC();
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
      unsigned rd = simd_data(desc);
 -    uint64_t *d1 = &env->vfp.zregs[rd].d[0];
 -    uint64_t *d2 = &env->vfp.zregs[(rd + 1) & 31].d[0];
 -    uint8_t *pg = vg;
 +    void *vd = &env->vfp.zregs[rd];
 -    for (i = 0; i < oprsz; i += 1) {
 -        if (pg[H1(i)] & 1) {
 -            cpu_stq_data_ra(env, addr, d1[i], ra);
 -            cpu_stq_data_ra(env, addr + 8, d2[i], ra);
 -        }
 -        addr += 2 * 8;
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, vd, i, addr, mmu_idx, ra);
 +            }
 +            i += esize, pg >>= esize;
 +            addr += msize;
 +        } while (i & 15);
      }
 +    set_helper_retaddr(0);
  }
 -void HELPER(sve_st3dd_r)(CPUARMState *env, void *vg,
 -                         target_ulong addr, uint32_t desc)
 +static void sve_st2_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, const uintptr_t ra,
 +                      const int esize, const int msize,
 +                      sve_st1_tlb_fn *tlb_fn)
  {
 -    intptr_t i, oprsz = simd_oprsz(desc) / 8;
 -    intptr_t ra = GETPC();
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
      unsigned rd = simd_data(desc);
 -    uint64_t *d1 = &env->vfp.zregs[rd].d[0];
 -    uint64_t *d2 = &env->vfp.zregs[(rd + 1) & 31].d[0];
 -    uint64_t *d3 = &env->vfp.zregs[(rd + 2) & 31].d[0];
 -    uint8_t *pg = vg;
 +    void *d1 = &env->vfp.zregs[rd];
 +    void *d2 = &env->vfp.zregs[(rd + 1) & 31];
 -    for (i = 0; i < oprsz; i += 1) {
 -        if (pg[H1(i)] & 1) {
 -            cpu_stq_data_ra(env, addr, d1[i], ra);
 -            cpu_stq_data_ra(env, addr + 8, d2[i], ra);
 -            cpu_stq_data_ra(env, addr + 16, d3[i], ra);
 -        }
 -        addr += 3 * 8;
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, d1, i, addr, mmu_idx, ra);
 +                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
 +            }
 +            i += esize, pg >>= esize;
 +            addr += 2 * msize;
 +        } while (i & 15);
      }
 +    set_helper_retaddr(0);
  }
 -void HELPER(sve_st4dd_r)(CPUARMState *env, void *vg,
 -                         target_ulong addr, uint32_t desc)
 +static void sve_st3_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, const uintptr_t ra,
 +                      const int esize, const int msize,
 +                      sve_st1_tlb_fn *tlb_fn)
  {
 -    intptr_t i, oprsz = simd_oprsz(desc) / 8;
 -    intptr_t ra = GETPC();
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
      unsigned rd = simd_data(desc);
 -    uint64_t *d1 = &env->vfp.zregs[rd].d[0];
 -    uint64_t *d2 = &env->vfp.zregs[(rd + 1) & 31].d[0];
 -    uint64_t *d3 = &env->vfp.zregs[(rd + 2) & 31].d[0];
 -    uint64_t *d4 = &env->vfp.zregs[(rd + 3) & 31].d[0];
 -    uint8_t *pg = vg;
 +    void *d1 = &env->vfp.zregs[rd];
 +    void *d2 = &env->vfp.zregs[(rd + 1) & 31];
 +    void *d3 = &env->vfp.zregs[(rd + 2) & 31];
 -    for (i = 0; i < oprsz; i += 1) {
 -        if (pg[H1(i)] & 1) {
 -            cpu_stq_data_ra(env, addr, d1[i], ra);
 -            cpu_stq_data_ra(env, addr + 8, d2[i], ra);
 -            cpu_stq_data_ra(env, addr + 16, d3[i], ra);
 -            cpu_stq_data_ra(env, addr + 24, d4[i], ra);
 -        }
 -        addr += 4 * 8;
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, d1, i, addr, mmu_idx, ra);
 +                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
 +                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
 +            }
 +            i += esize, pg >>= esize;
 +            addr += 3 * msize;
 +        } while (i & 15);
      }
 +    set_helper_retaddr(0);
  }
 +static void sve_st4_r(CPUARMState *env, void *vg, target_ulong addr,
 +                      uint32_t desc, const uintptr_t ra,
 +                      const int esize, const int msize,
 +                      sve_st1_tlb_fn *tlb_fn)
 +{
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +    unsigned rd = simd_data(desc);
 +    void *d1 = &env->vfp.zregs[rd];
 +    void *d2 = &env->vfp.zregs[(rd + 1) & 31];
 +    void *d3 = &env->vfp.zregs[(rd + 2) & 31];
 +    void *d4 = &env->vfp.zregs[(rd + 3) & 31];
 +
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (pg & 1) {
 +                tlb_fn(env, d1, i, addr, mmu_idx, ra);
 +                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
 +                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
 +                tlb_fn(env, d4, i, addr + 3 * msize, mmu_idx, ra);
 +            }
 +            i += esize, pg >>= esize;
 +            addr += 4 * msize;
 +        } while (i & 15);
 +    }
 +    set_helper_retaddr(0);
 +}
 +
-+#define DO_STN_1(N, NAME, ESIZE) \
+ static TCGv_i32 neon_load_reg(int reg, int pass)
-+void __attribute__((flatten)) HELPER(sve_st##N##NAME##_r)           \
+ {
-+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)  \
+     TCGv_i32 tmp = tcg_temp_new_i32();
-+{                                                                   \
+@@ -XXX,XX +XXX,XX @@ static int disas_vfp_insn(DisasContext *s, uint32_t insn)
-+    sve_st##N##_r(env, vg, addr, desc, GETPC(), ESIZE, 1,           \
+                     tmp = load_reg(s, rd);
-+                  sve_st1##NAME##_tlb);                             \
+                     if (insn & (1 << 23)) {
-+}
+                         /* VDUP */
 -                        if (size == 0) {
 -                            gen_neon_dup_u8(tmp, 0);
 -                        } else if (size == 1) {
 -                            gen_neon_dup_low16(tmp);
 -                        }
 -                        for (n = 0; n <= pass * 2; n++) {
 -                            tmp2 = tcg_temp_new_i32();
 -                            tcg_gen_mov_i32(tmp2, tmp);
 -                            neon_store_reg(rn, n, tmp2);
 -                        }
 -                        neon_store_reg(rn, n, tmp);
 +                        int vec_size = pass ? 16 : 8;
 +                        tcg_gen_gvec_dup_i32(size, neon_reg_offset(rn, 0),
 +                                             vec_size, vec_size, tmp);
 +                        tcg_temp_free_i32(tmp);
                      } else {
                          /* VMOV */
                          switch (size) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  tcg_temp_free_i32(tmp);
              } else if ((insn & 0x380) == 0) {
                  /* VDUP */
 +                int element;
 +                TCGMemOp size;
 +
-+#define DO_STN_2(N, NAME, ESIZE, MSIZE) \
+                 if ((insn & (7 << 16)) == 0 || (q && (rd & 1))) {
-+void __attribute__((flatten)) HELPER(sve_st##N##NAME##_r)             \
+                     return 1;
-+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+                 }
-+{                                                                     \
+-                if (insn & (1 << 19)) {
-+    sve_st##N##_r(env, vg, addr, desc, GETPC(), ESIZE, MSIZE,         \
+-                    tmp = neon_load_reg(rm, 1);
-+                  arm_cpu_data_is_big_endian(env)                     \
+-                } else {
-+                  ? sve_st1##NAME##_be_tlb : sve_st1##NAME##_le_tlb); \
+-                    tmp = neon_load_reg(rm, 0);
-+}
+-                }
-+
+                 if (insn & (1 << 16)) {
-+DO_STN_1(1, bb, 1)
+-                    gen_neon_dup_u8(tmp, ((insn >> 17) & 3) * 8);
-+DO_STN_1(1, bh, 2)
++                    size = MO_8;
-+DO_STN_1(1, bs, 4)
++                    element = (insn >> 17) & 7;
-+DO_STN_1(1, bd, 8)
+                 } else if (insn & (1 << 17)) {
-+DO_STN_1(2, bb, 1)
+-                    if ((insn >> 18) & 1)
-+DO_STN_1(3, bb, 1)
+-                        gen_neon_dup_high16(tmp);
-+DO_STN_1(4, bb, 1)
+-                    else
-+
+-                        gen_neon_dup_low16(tmp);
-+DO_STN_2(1, hh, 2, 2)
++                    size = MO_16;
-+DO_STN_2(1, hs, 4, 2)
++                    element = (insn >> 18) & 3;
-+DO_STN_2(1, hd, 8, 2)
++                } else {
-+DO_STN_2(2, hh, 2, 2)
++                    size = MO_32;
-+DO_STN_2(3, hh, 2, 2)
++                    element = (insn >> 19) & 1;
-+DO_STN_2(4, hh, 2, 2)
+                 }
-+
+-                for (pass = 0; pass < (q ? 4 : 2); pass++) {
-+DO_STN_2(1, ss, 4, 4)
+-                    tmp2 = tcg_temp_new_i32();
-+DO_STN_2(1, sd, 8, 4)
+-                    tcg_gen_mov_i32(tmp2, tmp);
-+DO_STN_2(2, ss, 4, 4)
+-                    neon_store_reg(rd, pass, tmp2);
-+DO_STN_2(3, ss, 4, 4)
+-                }
-+DO_STN_2(4, ss, 4, 4)
+-                tcg_temp_free_i32(tmp);
-+
++                tcg_gen_gvec_dup_mem(size, neon_reg_offset(rd, 0),
-+DO_STN_2(1, dd, 8, 8)
++                                     neon_element_offset(rm, element, size),
-+DO_STN_2(2, dd, 8, 8)
++                                     q ? 16 : 8, q ? 16 : 8);
-+DO_STN_2(3, dd, 8, 8)
+             } else {
-+DO_STN_2(4, dd, 8, 8)
+                 return 1;
-+
+             }
 +#undef DO_STN_1
 +#undef DO_STN_2
 +
  /* Loads with a vector index.  */
  #define DO_LD1_ZPZ_S(NAME, TYPEI, TYPEM, FN)                            \
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 28/45] target/arm: Use gvec for NEON VMOV, VMVN, VBIC & VORR (immediate)
+From: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-8-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/translate.c | 67 ++++++++++++++++++++++++------------------
+file changed, 39 insertions(+), 28 deletions(-)
+diff --git a/target/arm/translate.c b/target/arm/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate.c
++++ b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 return 1;
+             }
+         } else { /* (insn & 0x00380080) == 0 */
+-            int invert;
++            int invert, reg_ofs, vec_size;
++
+             if (q && (rd & 1)) {
+                 return 1;
+             }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                 break;
+             case 14:
+                 imm |= (imm << 8) | (imm << 16) | (imm << 24);
+-                if (invert)
++                if (invert) {
+                     imm = ~imm;
++                }
+                 break;
+             case 15:
+                 if (invert) {
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                       | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
+                 break;
+             }
+-            if (invert)
++            if (invert) {
+                 imm = ~imm;
++            }
+-            for (pass = 0; pass < (q ? 4 : 2); pass++) {
+-                if (op & 1 && op < 12) {
+-                    tmp = neon_load_reg(rd, pass);
+-                    if (invert) {
+-                        /* The immediate value has already been inverted, so
+-                           BIC becomes AND.  */
+-                        tcg_gen_andi_i32(tmp, tmp, imm);
+-                    } else {
+-                        tcg_gen_ori_i32(tmp, tmp, imm);
+-                    }
++            reg_ofs = neon_reg_offset(rd, 0);
++            vec_size = q ? 16 : 8;
++
++            if (op & 1 && op < 12) {
++                if (invert) {
++                    /* The immediate value has already been inverted,
++                     * so BIC becomes AND.
++                     */
++                    tcg_gen_gvec_andi(MO_32, reg_ofs, reg_ofs, imm,
++                                      vec_size, vec_size);
+                 } else {
+-                    /* VMOV, VMVN.  */
+-                    tmp = tcg_temp_new_i32();
+-                    if (op == 14 && invert) {
+-                        int n;
+-                        uint32_t val;
+-                        val = 0;
+-                        for (n = 0; n < 4; n++) {
+-                            if (imm & (1 << (n + (pass & 1) * 4)))
+-                                val |= 0xff << (n * 8);
+-                        }
+-                        tcg_gen_movi_i32(tmp, val);
+-                    } else {
+-                        tcg_gen_movi_i32(tmp, imm);
+-                    }
++                    tcg_gen_gvec_ori(MO_32, reg_ofs, reg_ofs, imm,
++                                     vec_size, vec_size);
++                }
++            } else {
++                /* VMOV, VMVN.  */
++                if (op == 14 && invert) {
++                    TCGv_i64 t64 = tcg_temp_new_i64();
++
++                    for (pass = 0; pass <= q; ++pass) {
++                        uint64_t val = 0;
++                        int n;
++
++                        for (n = 0; n < 8; n++) {
++                            if (imm & (1 << (n + pass * 8))) {
++                                val |= 0xffull << (n * 8);
++                            }
++                        }
++                        tcg_gen_movi_i64(t64, val);
++                        neon_store_reg64(t64, rd + pass);
++                    }
++                    tcg_temp_free_i64(t64);
++                } else {
++                    tcg_gen_gvec_dup32i(reg_ofs, vec_size, vec_size, imm);
+                 }
+-                neon_store_reg(rd, pass, tmp);
+             }
+         }
+     } else { /* (insn & 0x00800010 == 0x00800000) */
+--
+.19.1

-New patch
+[Qemu-devel] [PULL 29/45] target/arm: Use gvec for NEON_3R_LOGIC insns
+From: Richard Henderson <richard.henderson@linaro.org>
 Move expanders for VBSL, VBIT, and VBIF from translate-a64.c.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181011205206.3552-9-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/translate.h     |   6 ++
  target/arm/translate-a64.c |  61 --------------
  target/arm/translate.c     | 162 +++++++++++++++++++++++++++----------
 files changed, 124 insertions(+), 105 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 get_ahp_flag(void)
      return ret;
  }
 +
 +/* Vector operations shared between ARM and AArch64.  */
 +extern const GVecGen3 bsl_op;
 +extern const GVecGen3 bit_op;
 +extern const GVecGen3 bif_op;
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
      }
  }
 -static void gen_bsl_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 -{
 -    tcg_gen_xor_i64(rn, rn, rm);
 -    tcg_gen_and_i64(rn, rn, rd);
 -    tcg_gen_xor_i64(rd, rm, rn);
 -}
 -
 -static void gen_bit_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 -{
 -    tcg_gen_xor_i64(rn, rn, rd);
 -    tcg_gen_and_i64(rn, rn, rm);
 -    tcg_gen_xor_i64(rd, rd, rn);
 -}
 -
 -static void gen_bif_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 -{
 -    tcg_gen_xor_i64(rn, rn, rd);
 -    tcg_gen_andc_i64(rn, rn, rm);
 -    tcg_gen_xor_i64(rd, rd, rn);
 -}
 -
 -static void gen_bsl_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
 -{
 -    tcg_gen_xor_vec(vece, rn, rn, rm);
 -    tcg_gen_and_vec(vece, rn, rn, rd);
 -    tcg_gen_xor_vec(vece, rd, rm, rn);
 -}
 -
 -static void gen_bit_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
 -{
 -    tcg_gen_xor_vec(vece, rn, rn, rd);
 -    tcg_gen_and_vec(vece, rn, rn, rm);
 -    tcg_gen_xor_vec(vece, rd, rd, rn);
 -}
 -
 -static void gen_bif_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
 -{
 -    tcg_gen_xor_vec(vece, rn, rn, rd);
 -    tcg_gen_andc_vec(vece, rn, rn, rm);
 -    tcg_gen_xor_vec(vece, rd, rd, rn);
 -}
 -
  /* Logic op (opcode == 3) subgroup of C3.6.16. */
  static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  {
 -    static const GVecGen3 bsl_op = {
 -        .fni8 = gen_bsl_i64,
 -        .fniv = gen_bsl_vec,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -        .load_dest = true
 -    };
 -    static const GVecGen3 bit_op = {
 -        .fni8 = gen_bit_i64,
 -        .fniv = gen_bit_vec,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -        .load_dest = true
 -    };
 -    static const GVecGen3 bif_op = {
 -        .fni8 = gen_bif_i64,
 -        .fniv = gen_bif_vec,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -        .load_dest = true
 -    };
 -
      int rd = extract32(insn, 0, 5);
      int rn = extract32(insn, 5, 5);
      int rm = extract32(insn, 16, 5);
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
      return 0;
  }
 -/* Bitwise select.  dest = c ? t : f.  Clobbers T and F.  */
 -static void gen_neon_bsl(TCGv_i32 dest, TCGv_i32 t, TCGv_i32 f, TCGv_i32 c)
 -{
 -    tcg_gen_and_i32(t, t, c);
 -    tcg_gen_andc_i32(f, f, c);
 -    tcg_gen_or_i32(dest, t, f);
 -}
 -
  static inline void gen_neon_narrow(int size, TCGv_i32 dest, TCGv_i64 src)
  {
      switch (size) {
@@ -XXX,XX +XXX,XX @@ static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
      return 1;
  }
 +/*
 + * Expanders for VBitOps_VBIF, VBIT, VBSL.
 + */
 +static void gen_bsl_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 +{
 +    tcg_gen_xor_i64(rn, rn, rm);
 +    tcg_gen_and_i64(rn, rn, rd);
 +    tcg_gen_xor_i64(rd, rm, rn);
 +}
 +
 +static void gen_bit_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 +{
 +    tcg_gen_xor_i64(rn, rn, rd);
 +    tcg_gen_and_i64(rn, rn, rm);
 +    tcg_gen_xor_i64(rd, rd, rn);
 +}
 +
 +static void gen_bif_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
 +{
 +    tcg_gen_xor_i64(rn, rn, rd);
 +    tcg_gen_andc_i64(rn, rn, rm);
 +    tcg_gen_xor_i64(rd, rd, rn);
 +}
 +
 +static void gen_bsl_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
 +{
 +    tcg_gen_xor_vec(vece, rn, rn, rm);
 +    tcg_gen_and_vec(vece, rn, rn, rd);
 +    tcg_gen_xor_vec(vece, rd, rm, rn);
 +}
 +
 +static void gen_bit_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
 +{
 +    tcg_gen_xor_vec(vece, rn, rn, rd);
 +    tcg_gen_and_vec(vece, rn, rn, rm);
 +    tcg_gen_xor_vec(vece, rd, rd, rn);
 +}
 +
 +static void gen_bif_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
 +{
 +    tcg_gen_xor_vec(vece, rn, rn, rd);
 +    tcg_gen_andc_vec(vece, rn, rn, rm);
 +    tcg_gen_xor_vec(vece, rd, rd, rn);
 +}
 +
 +const GVecGen3 bsl_op = {
 +    .fni8 = gen_bsl_i64,
 +    .fniv = gen_bsl_vec,
 +    .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    .load_dest = true
 +};
 +
 +const GVecGen3 bit_op = {
 +    .fni8 = gen_bit_i64,
 +    .fniv = gen_bit_vec,
 +    .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    .load_dest = true
 +};
 +
 +const GVecGen3 bif_op = {
 +    .fni8 = gen_bif_i64,
 +    .fniv = gen_bif_vec,
 +    .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    .load_dest = true
 +};
 +
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
  {
      int op;
      int q;
 -    int rd, rn, rm;
 +    int rd, rn, rm, rd_ofs, rn_ofs, rm_ofs;
      int size;
      int shift;
      int pass;
      int count;
      int pairwise;
      int u;
 +    int vec_size;
      uint32_t imm, mask;
      TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
      TCGv_ptr ptr1, ptr2, ptr3;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      VFP_DREG_N(rn, insn);
      VFP_DREG_M(rm, insn);
      size = (insn >> 20) & 3;
 +    vec_size = q ? 16 : 8;
 +    rd_ofs = neon_reg_offset(rd, 0);
 +    rn_ofs = neon_reg_offset(rn, 0);
 +    rm_ofs = neon_reg_offset(rm, 0);
 +
      if ((insn & (1 << 23)) == 0) {
          /* Three register same length.  */
          op = ((insn >> 7) & 0x1e) | ((insn >> 4) & 1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                       q, rd, rn, rm);
              }
              return 1;
 +
 +        case NEON_3R_LOGIC: /* Logic ops.  */
 +            switch ((u << 2) | size) {
 +            case 0: /* VAND */
 +                tcg_gen_gvec_and(0, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +                break;
 +            case 1: /* VBIC */
 +                tcg_gen_gvec_andc(0, rd_ofs, rn_ofs, rm_ofs,
 +                                  vec_size, vec_size);
 +                break;
 +            case 2:
 +                if (rn == rm) {
 +                    /* VMOV */
 +                    tcg_gen_gvec_mov(0, rd_ofs, rn_ofs, vec_size, vec_size);
 +                } else {
 +                    /* VORR */
 +                    tcg_gen_gvec_or(0, rd_ofs, rn_ofs, rm_ofs,
 +                                    vec_size, vec_size);
 +                }
 +                break;
 +            case 3: /* VORN */
 +                tcg_gen_gvec_orc(0, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +                break;
 +            case 4: /* VEOR */
 +                tcg_gen_gvec_xor(0, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +                break;
 +            case 5: /* VBSL */
 +                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
 +                               vec_size, vec_size, &bsl_op);
 +                break;
 +            case 6: /* VBIT */
 +                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
 +                               vec_size, vec_size, &bit_op);
 +                break;
 +            case 7: /* VBIF */
 +                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
 +                               vec_size, vec_size, &bif_op);
 +                break;
 +            }
 +            return 0;
          }
 -        if (size == 3 && op != NEON_3R_LOGIC) {
 +        if (size == 3) {
              /* 64-bit element instructions. */
              for (pass = 0; pass < (q ? 2 : 1); pass++) {
                  neon_load_reg64(cpu_V0, rn + pass);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VRHADD:
              GEN_NEON_INTEGER_OP(rhadd);
              break;
 -        case NEON_3R_LOGIC: /* Logic ops.  */
 -            switch ((u << 2) | size) {
 -            case 0: /* VAND */
 -                tcg_gen_and_i32(tmp, tmp, tmp2);
 -                break;
 -            case 1: /* BIC */
 -                tcg_gen_andc_i32(tmp, tmp, tmp2);
 -                break;
 -            case 2: /* VORR */
 -                tcg_gen_or_i32(tmp, tmp, tmp2);
 -                break;
 -            case 3: /* VORN */
 -                tcg_gen_orc_i32(tmp, tmp, tmp2);
 -                break;
 -            case 4: /* VEOR */
 -                tcg_gen_xor_i32(tmp, tmp, tmp2);
 -                break;
 -            case 5: /* VBSL */
 -                tmp3 = neon_load_reg(rd, pass);
 -                gen_neon_bsl(tmp, tmp, tmp2, tmp3);
 -                tcg_temp_free_i32(tmp3);
 -                break;
 -            case 6: /* VBIT */
 -                tmp3 = neon_load_reg(rd, pass);
 -                gen_neon_bsl(tmp, tmp, tmp3, tmp2);
 -                tcg_temp_free_i32(tmp3);
 -                break;
 -            case 7: /* VBIF */
 -                tmp3 = neon_load_reg(rd, pass);
 -                gen_neon_bsl(tmp, tmp3, tmp, tmp2);
 -                tcg_temp_free_i32(tmp3);
 -                break;
 -            }
 -            break;
          case NEON_3R_VHSUB:
              GEN_NEON_INTEGER_OP(hsub);
              break;
 --
 .19.1

-[Qemu-devel] [PULL 31/33] target/arm: Add v8M stack checks for VLDM/VSTM
+[Qemu-devel] [PULL 30/45] target/arm: Use gvec for NEON_3R_VADD_VSUB insns
-Add the v8M stack checks for the VLDM/VSTM
+From: Richard Henderson <richard.henderson@linaro.org>
 (aka VPUSH/VPOP) instructions. This code is currently
 unreachable because we haven't yet implemented M profile
 floating point support, but since the change is simple,
 we add it now because otherwise we're likely to forget to
 do it later.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-10-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-13-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 12 ++++++++++++
+ target/arm/translate.c | 29 ++++++++++-------------------
-file changed, 12 insertions(+)
+file changed, 10 insertions(+), 19 deletions(-)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_vfp_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                 if (insn & (1 << 24)) /* pre-decrement */
+                 break;
-                     tcg_gen_addi_i32(addr, addr, -((insn & 0xff) << 2));
+             }
+             return 0;
 +                if (s->v8m_stackcheck && rn == 13 && w) {
 +                    /*
 +                     * Here 'addr' is the lowest address we will store to,
 +                     * and is either the old SP (if post-increment) or
 +                     * the new SP (if pre-decrement). For post-increment
 +                     * where the old value is below the limit and the new
 +                     * value is above, it is UNKNOWN whether the limit check
 +                     * triggers; we choose to trigger.
 +                     */
 +                    gen_helper_v8m_stackcheck(cpu_env, addr);
 +                }
 +
-                 if (dp)
++        case NEON_3R_VADD_VSUB:
-                     offset = 8;
++            if (u) {
-                 else
++                tcg_gen_gvec_sub(size, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +            } else {
 +                tcg_gen_gvec_add(size, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +            }
 +            return 0;
          }
          if (size == 3) {
              /* 64-bit element instructions. */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                                    cpu_V1, cpu_V0);
                      }
                      break;
 -                case NEON_3R_VADD_VSUB:
 -                    if (u) {
 -                        tcg_gen_sub_i64(CPU_V001);
 -                    } else {
 -                        tcg_gen_add_i64(CPU_V001);
 -                    }
 -                    break;
                  default:
                      abort();
                  }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rd, pass);
              gen_neon_add(size, tmp, tmp2);
              break;
 -        case NEON_3R_VADD_VSUB:
 -            if (!u) { /* VADD */
 -                gen_neon_add(size, tmp, tmp2);
 -            } else { /* VSUB */
 -                switch (size) {
 -                case 0: gen_helper_neon_sub_u8(tmp, tmp, tmp2); break;
 -                case 1: gen_helper_neon_sub_u16(tmp, tmp, tmp2); break;
 -                case 2: tcg_gen_sub_i32(tmp, tmp, tmp2); break;
 -                default: abort();
 -                }
 -            }
 -            break;
          case NEON_3R_VTST_VCEQ:
              if (!u) { /* VTST */
                  switch (size) {
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 30/33] target/arm: Add v8M stack checks for Thumb push/pop
+[Qemu-devel] [PULL 31/45] target/arm: Use gvec for NEON_2RM_VMN, NEON_2RM_VNEG
-Add v8M stack checks for the 16-bit Thumb push/pop
+From: Richard Henderson <richard.henderson@linaro.org>
 encodings: STMDB, STMFD, LDM, LDMIA, LDMFD.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-11-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-12-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 16 +++++++++++++++-
+ target/arm/translate.c | 16 ++++++++--------
-file changed, 15 insertions(+), 1 deletion(-)
+file changed, 8 insertions(+), 8 deletions(-)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             store_reg(s, rd, tmp);
+                     tcg_temp_free_ptr(ptr1);
-             break;
+                     tcg_temp_free_ptr(ptr2);
-         case 4: case 5: case 0xc: case 0xd:
+                     break;
 -            /* push/pop */
 +            /*
 +             * 0b1011_x10x_xxxx_xxxx
 +             *  - push/pop
 +             */
              addr = load_reg(s, 13);
              if (insn & (1 << 8))
                  offset = 4;
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
              if ((insn & (1 << 11)) == 0) {
                  tcg_gen_addi_i32(addr, addr, -offset);
              }
 +
-+            if (s->v8m_stackcheck) {
++                case NEON_2RM_VMVN:
-+                /*
++                    tcg_gen_gvec_not(0, rd_ofs, rm_ofs, vec_size, vec_size);
-+                 * Here 'addr' is the lower of "old SP" and "new SP";
++                    break;
-+                 * if this is a pop that starts below the limit and ends
++                case NEON_2RM_VNEG:
-+                 * above it, it is UNKNOWN whether the limit check triggers;
++                    tcg_gen_gvec_neg(size, rd_ofs, rm_ofs, vec_size, vec_size);
-+                 * we choose to trigger.
++                    break;
 +                 */
 +                gen_helper_v8m_stackcheck(cpu_env, addr);
 +            }
 +
-             for (i = 0; i < 8; i++) {
+                 default:
-                 if (insn & (1 << i)) {
+                 elementwise:
-                     if (insn & (1 << 11)) {
+                     for (pass = 0; pass < (q ? 4 : 2); pass++) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          case NEON_2RM_VCNT:
                              gen_helper_neon_cnt_u8(tmp, tmp);
                              break;
 -                        case NEON_2RM_VMVN:
 -                            tcg_gen_not_i32(tmp, tmp);
 -                            break;
                          case NEON_2RM_VQABS:
                              switch (size) {
                              case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              default: abort();
                              }
                              break;
 -                        case NEON_2RM_VNEG:
 -                            tmp2 = tcg_const_i32(0);
 -                            gen_neon_rsb(size, tmp, tmp2);
 -                            tcg_temp_free_i32(tmp2);
 -                            break;
                          case NEON_2RM_VCGT0_F:
                          {
                              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 29/33] target/arm: Add v8M stack checks for T32 load/store single
+[Qemu-devel] [PULL 32/45] target/arm: Use gvec for NEON_3R_VMUL
-Add v8M stack checks for the instructions in the T32
+From: Richard Henderson <richard.henderson@linaro.org>
 "load/store single" encoding class: these are the
 "immediate pre-indexed" and "immediate, post-indexed"
 LDR and STR instructions.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-12-richard.henderson@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-11-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 23 ++++++++++++++++++++++-
+ target/arm/translate.c | 31 +++++++++++++++----------------
-file changed, 22 insertions(+), 1 deletion(-)
+file changed, 15 insertions(+), 16 deletions(-)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                     imm = -imm;
+                                  vec_size, vec_size);
-                     /* Fall through.  */
+             }
-                 case 0xf: /* Pre-increment.  */
+             return 0;
 -                    tcg_gen_addi_i32(addr, addr, imm);
                      writeback = 1;
                      break;
                  default:
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
          issinfo = writeback ? ISSInvalid : rs;
 +        if (s->v8m_stackcheck && rn == 13 && writeback) {
 +            /*
 +             * Stackcheck. Here we know 'addr' is the current SP;
 +             * if imm is +ve we're moving SP up, else down. It is
 +             * UNKNOWN whether the limit check triggers when SP starts
 +             * below the limit and ends up above it; we chose to do so.
 +             */
 +            if ((int32_t)imm < 0) {
 +                TCGv_i32 newsp = tcg_temp_new_i32();
 +
-+                tcg_gen_addi_i32(newsp, addr, imm);
++        case NEON_3R_VMUL: /* VMUL */
-+                gen_helper_v8m_stackcheck(cpu_env, newsp);
++            if (u) {
-+                tcg_temp_free_i32(newsp);
++                /* Polynomial case allows only P8 and is handled below.  */
 +                if (size != 0) {
 +                    return 1;
 +                }
 +            } else {
-+                gen_helper_v8m_stackcheck(cpu_env, addr);
++                tcg_gen_gvec_mul(size, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +                return 0;
 +            }
-+        }
++            break;
-+
+         }
-+        if (writeback && !postinc) {
+         if (size == 3) {
-+            tcg_gen_addi_i32(addr, addr, imm);
+             /* 64-bit element instructions. */
-+        }
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-+
+                 return 1;
-         if (insn & (1 << 20)) {
+             }
-             /* Load.  */
+             break;
-             tmp = tcg_temp_new_i32();
+-        case NEON_3R_VMUL:
 -            if (u && (size != 0)) {
 -                /* UNDEF on invalid size for polynomial subcase */
 -                return 1;
 -            }
 -            break;
          case NEON_3R_VFM_VQRDMLSH:
              if (!arm_dc_feature(s, ARM_FEATURE_VFP4)) {
                  return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              break;
          case NEON_3R_VMUL:
 -            if (u) { /* polynomial */
 -                gen_helper_neon_mul_p8(tmp, tmp, tmp2);
 -            } else { /* Integer */
 -                switch (size) {
 -                case 0: gen_helper_neon_mul_u8(tmp, tmp, tmp2); break;
 -                case 1: gen_helper_neon_mul_u16(tmp, tmp, tmp2); break;
 -                case 2: tcg_gen_mul_i32(tmp, tmp, tmp2); break;
 -                default: abort();
 -                }
 -            }
 +            /* VMUL.P8; other cases already eliminated.  */
 +            gen_helper_neon_mul_p8(tmp, tmp, tmp2);
              break;
          case NEON_3R_VPMAX:
              GEN_NEON_INTEGER_OP(pmax);
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 27/33] target/arm: Add v8M stack checks for LDRD/STRD (imm)
+[Qemu-devel] [PULL 33/45] target/arm: Use gvec for VSHR, VSHL
-Add the v8M stack checks for:
+From: Richard Henderson <richard.henderson@linaro.org>
  * LDRD (immediate)
  * STRD (immediate)
-Loads and stores are more complicated than ADD/SUB/MOV, because we
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-must ensure that memory accesses below the stack limit are not
+Message-id: 20181011205206.3552-13-richard.henderson@linaro.org
-performed, so we can't simply do the check when we actually update
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 SP.
 For these instructions, if the stack limit check triggers
 we must not:
  * perform any memory access below the SP limit
  * update PC, SP or the load/store base register
 but it is IMPDEF whether we:
  * perform any accesses above or equal to the SP limit
  * update destination registers for loads
 For QEMU we choose to always check the limit before doing any other
 part of the load or store, so we won't update any registers or
 perform any memory accesses.
 It is UNKNOWN whether the limit check triggers for a load or store
 where the initial SP value is below the limit and one of the stores
 would be below the limit, but the writeback moves SP to above the
 limit.  For QEMU we choose to trigger the check in this situation.
 Note that limit checks happen only for loads and stores which update
 SP via writeback; they do not happen for loads and stores which
 simply use SP as a base register.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-9-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 27 +++++++++++++++++++++++++--
+ target/arm/translate.c | 70 +++++++++++++++++++++++++++++-------------
-file changed, 25 insertions(+), 2 deletions(-)
+file changed, 48 insertions(+), 22 deletions(-)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                  * 0b1111_1001_x11x_xxxx_xxxx_xxxx_xxxx_xxxx
+                     size--;
-                  *  - load/store dual (pre-indexed)
+             }
-                  */
+             shift = (insn >> 16) & ((1 << (3 + size)) - 1);
-+                bool wback = extract32(insn, 21, 1);
+-            /* To avoid excessive duplication of ops we implement shift
-+
+-               by immediate using the variable shift operations.  */
-                 if (rn == 15) {
+             if (op < 8) {
-                     if (insn & (1 << 21)) {
+                 /* Shift by immediate:
-                         /* UNPREDICTABLE */
+                    VSHR, VSRA, VRSHR, VRSRA, VSRI, VSHL, VQSHL, VQSHLU.  */
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      addr = load_reg(s, rn);
                  }
-                 offset = (insn & 0xff) * 4;
+                 /* Right shifts are encoded as N - shift, where N is the
--                if ((insn & (1 << 23)) == 0)
+                    element size in bits.  */
-+                if ((insn & (1 << 23)) == 0) {
+-                if (op <= 4)
-                     offset = -offset;
++                if (op <= 4) {
                      shift = shift - (1 << (size + 3));
 +                }
 +
-+                if (s->v8m_stackcheck && rn == 13 && wback) {
++                switch (op) {
-+                    /*
++                case 0:  /* VSHR */
-+                     * Here 'addr' is the current SP; if offset is +ve we're
++                    /* Right shift comes here negative.  */
-+                     * moving SP up, else down. It is UNKNOWN whether the limit
++                    shift = -shift;
-+                     * check triggers when SP starts below the limit and ends
++                    /* Shifts larger than the element size are architecturally
-+                     * up above it; check whichever of the current and final
++                     * valid.  Unsigned results in all zeros; signed results
-+                     * SP is lower, so QEMU will trigger in that situation.
++                     * in all sign bits.
 +                     */
-+                    if ((int32_t)offset < 0) {
++                    if (!u) {
-+                        TCGv_i32 newsp = tcg_temp_new_i32();
++                        tcg_gen_gvec_sari(size, rd_ofs, rm_ofs,
 +                                          MIN(shift, (8 << size) - 1),
 +                                          vec_size, vec_size);
 +                    } else if (shift >= 8 << size) {
 +                        tcg_gen_gvec_dup8i(rd_ofs, vec_size, vec_size, 0);
 +                    } else {
 +                        tcg_gen_gvec_shri(size, rd_ofs, rm_ofs, shift,
 +                                          vec_size, vec_size);
 +                    }
 +                    return 0;
 +
-+                        tcg_gen_addi_i32(newsp, addr, offset);
++                case 5: /* VSHL, VSLI */
-+                        gen_helper_v8m_stackcheck(cpu_env, newsp);
++                    if (!u) { /* VSHL */
-+                        tcg_temp_free_i32(newsp);
++                        /* Shifts larger than the element size are
-+                    } else {
++                         * architecturally valid and results in zero.
-+                        gen_helper_v8m_stackcheck(cpu_env, addr);
++                         */
 +                        if (shift >= 8 << size) {
 +                            tcg_gen_gvec_dup8i(rd_ofs, vec_size, vec_size, 0);
 +                        } else {
 +                            tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
 +                                              vec_size, vec_size);
 +                        }
 +                        return 0;
 +                    }
++                    break;
 +                }
 +
-                 if (insn & (1 << 24)) {
+                 if (size == 3) {
-                     tcg_gen_addi_i32(addr, addr, offset);
+                     count = q + 1;
-                     offset = 0;
+                 } else {
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+                     count = q ? 4: 2;
                      gen_aa32_st32(s, tmp, addr, get_mem_index(s));
                      tcg_temp_free_i32(tmp);
                  }
--                if (insn & (1 << 21)) {
+-                switch (size) {
-+                if (wback) {
+-                case 0:
-                     /* Base writeback.  */
+-                    imm = (uint8_t) shift;
-                     tcg_gen_addi_i32(addr, addr, offset - 4);
+-                    imm |= imm << 8;
-                     store_reg(s, rn, addr);
+-                    imm |= imm << 16;
 -                    break;
 -                case 1:
 -                    imm = (uint16_t) shift;
 -                    imm |= imm << 16;
 -                    break;
 -                case 2:
 -                case 3:
 -                    imm = shift;
 -                    break;
 -                default:
 -                    abort();
 -                }
 +
 +                /* To avoid excessive duplication of ops we implement shift
 +                 * by immediate using the variable shift operations.
 +                  */
 +                imm = dup_const(size, shift);
                  for (pass = 0; pass < count; pass++) {
                      if (size == 3) {
                          neon_load_reg64(cpu_V0, rm + pass);
                          tcg_gen_movi_i64(cpu_V1, imm);
                          switch (op) {
 -                        case 0:  /* VSHR */
                          case 1:  /* VSRA */
                              if (u)
                                  gen_helper_neon_shl_u64(cpu_V0, cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                                           cpu_V0, cpu_V1);
                              }
                              break;
 +                        default:
 +                            g_assert_not_reached();
                          }
                          if (op == 1 || op == 3) {
                              /* Accumulate.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          tmp2 = tcg_temp_new_i32();
                          tcg_gen_movi_i32(tmp2, imm);
                          switch (op) {
 -                        case 0:  /* VSHR */
                          case 1:  /* VSRA */
                              GEN_NEON_INTEGER_OP(shl);
                              break;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          case 7: /* VQSHL */
                              GEN_NEON_INTEGER_OP_ENV(qshl);
                              break;
 +                        default:
 +                            g_assert_not_reached();
                          }
                          tcg_temp_free_i32(tmp2);
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 34/45] target/arm: Use gvec for VSRA
+From: Richard Henderson <richard.henderson@linaro.org>
 Move ssra_op and usra_op expanders from translate-a64.c.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181011205206.3552-14-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/translate.h     |   2 +
  target/arm/translate-a64.c | 106 ----------------------------
  target/arm/translate.c     | 139 ++++++++++++++++++++++++++++++++++---
 files changed, 130 insertions(+), 117 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 get_ahp_flag(void)
  extern const GVecGen3 bsl_op;
  extern const GVecGen3 bit_op;
  extern const GVecGen3 bif_op;
 +extern const GVecGen2i ssra_op[4];
 +extern const GVecGen2i usra_op[4];
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
      }
  }
 -static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_sar8i_i64(a, a, shift);
 -    tcg_gen_vec_add8_i64(d, d, a);
 -}
 -
 -static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_sar16i_i64(a, a, shift);
 -    tcg_gen_vec_add16_i64(d, d, a);
 -}
 -
 -static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_sari_i32(a, a, shift);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_sari_i64(a, a, shift);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    tcg_gen_sari_vec(vece, a, a, sh);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_shr8i_i64(a, a, shift);
 -    tcg_gen_vec_add8_i64(d, d, a);
 -}
 -
 -static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_shr16i_i64(a, a, shift);
 -    tcg_gen_vec_add16_i64(d, d, a);
 -}
 -
 -static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_shri_i32(a, a, shift);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_shri_i64(a, a, shift);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    tcg_gen_shri_vec(vece, a, a, sh);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
  static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
      uint64_t mask = dup_const(MO_8, 0xff >> shift);
@@ -XXX,XX +XXX,XX @@ static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
  static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                                   int immh, int immb, int opcode, int rn, int rd)
  {
 -    static const GVecGen2i ssra_op[4] = {
 -        { .fni8 = gen_ssra8_i64,
 -          .fniv = gen_ssra_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_sari_vec,
 -          .vece = MO_8 },
 -        { .fni8 = gen_ssra16_i64,
 -          .fniv = gen_ssra_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_sari_vec,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ssra32_i32,
 -          .fniv = gen_ssra_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_sari_vec,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ssra64_i64,
 -          .fniv = gen_ssra_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opc = INDEX_op_sari_vec,
 -          .vece = MO_64 },
 -    };
 -    static const GVecGen2i usra_op[4] = {
 -        { .fni8 = gen_usra8_i64,
 -          .fniv = gen_usra_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_8, },
 -        { .fni8 = gen_usra16_i64,
 -          .fniv = gen_usra_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_16, },
 -        { .fni4 = gen_usra32_i32,
 -          .fniv = gen_usra_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_32, },
 -        { .fni8 = gen_usra64_i64,
 -          .fniv = gen_usra_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_64, },
 -    };
      static const GVecGen2i sri_op[4] = {
          { .fni8 = gen_shr8_ins_i64,
            .fniv = gen_shr_ins_vec,
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ const GVecGen3 bif_op = {
      .load_dest = true
  };
 +static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_sar8i_i64(a, a, shift);
 +    tcg_gen_vec_add8_i64(d, d, a);
 +}
 +
 +static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_sar16i_i64(a, a, shift);
 +    tcg_gen_vec_add16_i64(d, d, a);
 +}
 +
 +static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_sari_i32(a, a, shift);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_sari_i64(a, a, shift);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    tcg_gen_sari_vec(vece, a, a, sh);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +const GVecGen2i ssra_op[4] = {
 +    { .fni8 = gen_ssra8_i64,
 +      .fniv = gen_ssra_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_sari_vec,
 +      .vece = MO_8 },
 +    { .fni8 = gen_ssra16_i64,
 +      .fniv = gen_ssra_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_sari_vec,
 +      .vece = MO_16 },
 +    { .fni4 = gen_ssra32_i32,
 +      .fniv = gen_ssra_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_sari_vec,
 +      .vece = MO_32 },
 +    { .fni8 = gen_ssra64_i64,
 +      .fniv = gen_ssra_vec,
 +      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +      .load_dest = true,
 +      .opc = INDEX_op_sari_vec,
 +      .vece = MO_64 },
 +};
 +
 +static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_shr8i_i64(a, a, shift);
 +    tcg_gen_vec_add8_i64(d, d, a);
 +}
 +
 +static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_shr16i_i64(a, a, shift);
 +    tcg_gen_vec_add16_i64(d, d, a);
 +}
 +
 +static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_shri_i32(a, a, shift);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_shri_i64(a, a, shift);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    tcg_gen_shri_vec(vece, a, a, sh);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +const GVecGen2i usra_op[4] = {
 +    { .fni8 = gen_usra8_i64,
 +      .fniv = gen_usra_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_shri_vec,
 +      .vece = MO_8, },
 +    { .fni8 = gen_usra16_i64,
 +      .fniv = gen_usra_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_shri_vec,
 +      .vece = MO_16, },
 +    { .fni4 = gen_usra32_i32,
 +      .fniv = gen_usra_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_shri_vec,
 +      .vece = MO_32, },
 +    { .fni8 = gen_usra64_i64,
 +      .fniv = gen_usra_vec,
 +      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +      .load_dest = true,
 +      .opc = INDEX_op_shri_vec,
 +      .vece = MO_64, },
 +};
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      }
                      return 0;
 +                case 1:  /* VSRA */
 +                    /* Right shift comes here negative.  */
 +                    shift = -shift;
 +                    /* Shifts larger than the element size are architecturally
 +                     * valid.  Unsigned results in all zeros; signed results
 +                     * in all sign bits.
 +                     */
 +                    if (!u) {
 +                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 +                                        MIN(shift, (8 << size) - 1),
 +                                        &ssra_op[size]);
 +                    } else if (shift >= 8 << size) {
 +                        /* rd += 0 */
 +                    } else {
 +                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 +                                        shift, &usra_op[size]);
 +                    }
 +                    return 0;
 +
                  case 5: /* VSHL, VSLI */
                      if (!u) { /* VSHL */
                          /* Shifts larger than the element size are
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          neon_load_reg64(cpu_V0, rm + pass);
                          tcg_gen_movi_i64(cpu_V1, imm);
                          switch (op) {
 -                        case 1:  /* VSRA */
 -                            if (u)
 -                                gen_helper_neon_shl_u64(cpu_V0, cpu_V0, cpu_V1);
 -                            else
 -                                gen_helper_neon_shl_s64(cpu_V0, cpu_V0, cpu_V1);
 -                            break;
                          case 2: /* VRSHR */
                          case 3: /* VRSRA */
                              if (u)
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          default:
                              g_assert_not_reached();
                          }
 -                        if (op == 1 || op == 3) {
 +                        if (op == 3) {
                              /* Accumulate.  */
                              neon_load_reg64(cpu_V1, rd + pass);
                              tcg_gen_add_i64(cpu_V0, cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          tmp2 = tcg_temp_new_i32();
                          tcg_gen_movi_i32(tmp2, imm);
                          switch (op) {
 -                        case 1:  /* VSRA */
 -                            GEN_NEON_INTEGER_OP(shl);
 -                            break;
                          case 2: /* VRSHR */
                          case 3: /* VRSRA */
                              GEN_NEON_INTEGER_OP(rshl);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          }
                          tcg_temp_free_i32(tmp2);
 -                        if (op == 1 || op == 3) {
 +                        if (op == 3) {
                              /* Accumulate.  */
                              tmp2 = neon_load_reg(rd, pass);
                              gen_neon_add(size, tmp, tmp2);
 --
 .19.1

-[Qemu-devel] [PULL 15/33] target/arm: Split contiguous stores for endianness
+[Qemu-devel] [PULL 35/45] target/arm: Use gvec for VSRI, VSLI
 From: Richard Henderson <richard.henderson@linaro.org>
-We can choose the endianness at translation time, rather than
+Move shi_op and sli_op expanders from translate-a64.c.
 re-computing it at execution time.
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-12-richard.henderson@linaro.org
+Message-id: 20181011205206.3552-15-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    | 48 +++++++++++++++++--------
+ target/arm/translate.h     |   2 +
- target/arm/sve_helper.c    | 11 ++++--
+ target/arm/translate-a64.c | 152 +----------------------
- target/arm/translate-sve.c | 72 +++++++++++++++++++++++++++++---------
+ target/arm/translate.c     | 244 ++++++++++++++++++++++++++-----------
-files changed, 96 insertions(+), 35 deletions(-)
+files changed, 179 insertions(+), 219 deletions(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/translate.h
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_st2bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 bit_op;
- DEF_HELPER_FLAGS_4(sve_st3bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+ extern const GVecGen3 bif_op;
- DEF_HELPER_FLAGS_4(sve_st4bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+ extern const GVecGen2i ssra_op[4];
+ extern const GVecGen2i usra_op[4];
--DEF_HELPER_FLAGS_4(sve_st1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++extern const GVecGen2i sri_op[4];
--DEF_HELPER_FLAGS_4(sve_st2hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
++extern const GVecGen2i sli_op[4];
--DEF_HELPER_FLAGS_4(sve_st3hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
--DEF_HELPER_FLAGS_4(sve_st4hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+ /*
-+DEF_HELPER_FLAGS_4(sve_st1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+  * Forward to the isar_feature_* tests given a DisasContext pointer.
-+DEF_HELPER_FLAGS_4(sve_st2hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 +DEF_HELPER_FLAGS_4(sve_st3hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st4hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st2ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st3ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st4ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st2hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st3hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st4hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st2dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st3dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st4dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st2ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st3ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st4ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_st1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st2ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st3ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st4ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_st1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st2dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st3dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st4dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +
 +DEF_HELPER_FLAGS_4(sve_st1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st2dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st3dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st4dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_st1bh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_st1bs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_4(sve_st1bd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st1hs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st1hd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1hs_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1hd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1hs_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1hd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 -DEF_HELPER_FLAGS_4(sve_st1sd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1sd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 +DEF_HELPER_FLAGS_4(sve_st1sd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldbsu_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-a64.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ void __attribute__((flatten)) HELPER(sve_st##N##NAME##_r)           \
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
      }
  }
- #define DO_STN_2(N, NAME, ESIZE, MSIZE) \
+-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
--void __attribute__((flatten)) HELPER(sve_st##N##NAME##_r)             \
+-{
-+void __attribute__((flatten)) HELPER(sve_st##N##NAME##_le_r)          \
+-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
-     (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+-    TCGv_i64 t = tcg_temp_new_i64();
- {                                                                     \
+-
-     sve_st##N##_r(env, vg, addr, desc, GETPC(), ESIZE, MSIZE,         \
+-    tcg_gen_shri_i64(t, a, shift);
--                  arm_cpu_data_is_big_endian(env)                     \
+-    tcg_gen_andi_i64(t, t, mask);
--                  ? sve_st1##NAME##_be_tlb : sve_st1##NAME##_le_tlb); \
+-    tcg_gen_andi_i64(d, d, ~mask);
-+                  sve_st1##NAME##_le_tlb);                            \
+-    tcg_gen_or_i64(d, d, t);
-+}                                                                     \
+-    tcg_temp_free_i64(t);
-+void __attribute__((flatten)) HELPER(sve_st##N##NAME##_be_r)          \
+-}
-+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+-
-+{                                                                     \
+-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-+    sve_st##N##_r(env, vg, addr, desc, GETPC(), ESIZE, MSIZE,         \
+-{
-+                  sve_st1##NAME##_be_tlb);                            \
+-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -    tcg_temp_free_i64(t);
 -}
 -
 -static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_shri_i32(a, a, shift);
 -    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
 -}
 -
 -static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_shri_i64(a, a, shift);
 -    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
 -}
 -
 -static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    uint64_t mask = (2ull << ((8 << vece) - 1)) - 1;
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_dupi_vec(vece, m, mask ^ (mask >> sh));
 -    tcg_gen_shri_vec(vece, t, a, sh);
 -    tcg_gen_and_vec(vece, d, d, m);
 -    tcg_gen_or_vec(vece, d, d, t);
 -
 -    tcg_temp_free_vec(t);
 -    tcg_temp_free_vec(m);
 -}
 -
  /* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
  static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                                   int immh, int immb, int opcode, int rn, int rd)
  {
 -    static const GVecGen2i sri_op[4] = {
 -        { .fni8 = gen_shr8_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_8 },
 -        { .fni8 = gen_shr16_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_16 },
 -        { .fni4 = gen_shr32_ins_i32,
 -          .fniv = gen_shr_ins_vec,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_32 },
 -        { .fni8 = gen_shr64_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opc = INDEX_op_shri_vec,
 -          .vece = MO_64 },
 -    };
 -
      int size = 32 - clz32(immh) - 1;
      int immhb = immh << 3 | immb;
      int shift = 2 * (8 << size) - immhb;
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
      clear_vec_high(s, is_q, rd);
  }
- DO_STN_1(1, bb, 1)
+-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+-{
 -    uint64_t mask = dup_const(MO_8, 0xff << shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shli_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -    tcg_temp_free_i64(t);
 -}
 -
 -static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_16, 0xffff << shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shli_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -    tcg_temp_free_i64(t);
 -}
 -
 -static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
 -}
 -
 -static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
 -}
 -
 -static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    uint64_t mask = (1ull << sh) - 1;
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_dupi_vec(vece, m, mask);
 -    tcg_gen_shli_vec(vece, t, a, sh);
 -    tcg_gen_and_vec(vece, d, d, m);
 -    tcg_gen_or_vec(vece, d, d, t);
 -
 -    tcg_temp_free_vec(t);
 -    tcg_temp_free_vec(m);
 -}
 -
  /* SHL/SLI - Vector shift left */
  static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
                                   int immh, int immb, int opcode, int rn, int rd)
  {
 -    static const GVecGen2i shi_op[4] = {
 -        { .fni8 = gen_shl8_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .opc = INDEX_op_shli_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fni8 = gen_shl16_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .opc = INDEX_op_shli_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_shl32_ins_i32,
 -          .fniv = gen_shl_ins_vec,
 -          .opc = INDEX_op_shli_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_shl64_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .opc = INDEX_op_shli_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
      int size = 32 - clz32(immh) - 1;
      int immhb = immh << 3 | immb;
      int shift = immhb - (8 << size);
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
      }
      if (insert) {
 -        gen_gvec_op2i(s, is_q, rd, rn, shift, &shi_op[size]);
 +        gen_gvec_op2i(s, is_q, rd, rn, shift, &sli_op[size]);
      } else {
          gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
      }
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/translate.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_LD1R_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ const GVecGen2i usra_op[4] = {
- static void do_st_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
+       .vece = MO_64, },
-                       int msz, int esz, int nreg)
+ };
- {
--    static gen_helper_gvec_mem * const fn_single[4][4] = {
++static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
--        { gen_helper_sve_st1bb_r, gen_helper_sve_st1bh_r,
++{
--          gen_helper_sve_st1bs_r, gen_helper_sve_st1bd_r },
++    uint64_t mask = dup_const(MO_8, 0xff >> shift);
--        { NULL,                   gen_helper_sve_st1hh_r,
++    TCGv_i64 t = tcg_temp_new_i64();
--          gen_helper_sve_st1hs_r, gen_helper_sve_st1hd_r },
++
--        { NULL, NULL,
++    tcg_gen_shri_i64(t, a, shift);
--          gen_helper_sve_st1ss_r, gen_helper_sve_st1sd_r },
++    tcg_gen_andi_i64(t, t, mask);
--        { NULL, NULL, NULL, gen_helper_sve_st1dd_r },
++    tcg_gen_andi_i64(d, d, ~mask);
-+    static gen_helper_gvec_mem * const fn_single[2][4][4] = {
++    tcg_gen_or_i64(d, d, t);
-+        { { gen_helper_sve_st1bb_r,
++    tcg_temp_free_i64(t);
-+            gen_helper_sve_st1bh_r,
++}
-+            gen_helper_sve_st1bs_r,
++
-+            gen_helper_sve_st1bd_r },
++static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-+          { NULL,
++{
-+            gen_helper_sve_st1hh_le_r,
++    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
-+            gen_helper_sve_st1hs_le_r,
++    TCGv_i64 t = tcg_temp_new_i64();
-+            gen_helper_sve_st1hd_le_r },
++
-+          { NULL, NULL,
++    tcg_gen_shri_i64(t, a, shift);
-+            gen_helper_sve_st1ss_le_r,
++    tcg_gen_andi_i64(t, t, mask);
-+            gen_helper_sve_st1sd_le_r },
++    tcg_gen_andi_i64(d, d, ~mask);
-+          { NULL, NULL, NULL,
++    tcg_gen_or_i64(d, d, t);
-+            gen_helper_sve_st1dd_le_r } },
++    tcg_temp_free_i64(t);
-+        { { gen_helper_sve_st1bb_r,
++}
-+            gen_helper_sve_st1bh_r,
++
-+            gen_helper_sve_st1bs_r,
++static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-+            gen_helper_sve_st1bd_r },
++{
-+          { NULL,
++    tcg_gen_shri_i32(a, a, shift);
-+            gen_helper_sve_st1hh_be_r,
++    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
-+            gen_helper_sve_st1hs_be_r,
++}
-+            gen_helper_sve_st1hd_be_r },
++
-+          { NULL, NULL,
++static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-+            gen_helper_sve_st1ss_be_r,
++{
-+            gen_helper_sve_st1sd_be_r },
++    tcg_gen_shri_i64(a, a, shift);
-+          { NULL, NULL, NULL,
++    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
-+            gen_helper_sve_st1dd_be_r } },
++}
-     };
++
--    static gen_helper_gvec_mem * const fn_multiple[3][4] = {
++static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
--        { gen_helper_sve_st2bb_r, gen_helper_sve_st2hh_r,
++{
--          gen_helper_sve_st2ss_r, gen_helper_sve_st2dd_r },
++    if (sh == 0) {
--        { gen_helper_sve_st3bb_r, gen_helper_sve_st3hh_r,
++        tcg_gen_mov_vec(d, a);
--          gen_helper_sve_st3ss_r, gen_helper_sve_st3dd_r },
++    } else {
--        { gen_helper_sve_st4bb_r, gen_helper_sve_st4hh_r,
++        TCGv_vec t = tcg_temp_new_vec_matching(d);
--          gen_helper_sve_st4ss_r, gen_helper_sve_st4dd_r },
++        TCGv_vec m = tcg_temp_new_vec_matching(d);
-+    static gen_helper_gvec_mem * const fn_multiple[2][3][4] = {
++
-+        { { gen_helper_sve_st2bb_r,
++        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
-+            gen_helper_sve_st2hh_le_r,
++        tcg_gen_shri_vec(vece, t, a, sh);
-+            gen_helper_sve_st2ss_le_r,
++        tcg_gen_and_vec(vece, d, d, m);
-+            gen_helper_sve_st2dd_le_r },
++        tcg_gen_or_vec(vece, d, d, t);
-+          { gen_helper_sve_st3bb_r,
++
-+            gen_helper_sve_st3hh_le_r,
++        tcg_temp_free_vec(t);
-+            gen_helper_sve_st3ss_le_r,
++        tcg_temp_free_vec(m);
-+            gen_helper_sve_st3dd_le_r },
++    }
-+          { gen_helper_sve_st4bb_r,
++}
-+            gen_helper_sve_st4hh_le_r,
++
-+            gen_helper_sve_st4ss_le_r,
++const GVecGen2i sri_op[4] = {
-+            gen_helper_sve_st4dd_le_r } },
++    { .fni8 = gen_shr8_ins_i64,
-+        { { gen_helper_sve_st2bb_r,
++      .fniv = gen_shr_ins_vec,
-+            gen_helper_sve_st2hh_be_r,
++      .load_dest = true,
-+            gen_helper_sve_st2ss_be_r,
++      .opc = INDEX_op_shri_vec,
-+            gen_helper_sve_st2dd_be_r },
++      .vece = MO_8 },
-+          { gen_helper_sve_st3bb_r,
++    { .fni8 = gen_shr16_ins_i64,
-+            gen_helper_sve_st3hh_be_r,
++      .fniv = gen_shr_ins_vec,
-+            gen_helper_sve_st3ss_be_r,
++      .load_dest = true,
-+            gen_helper_sve_st3dd_be_r },
++      .opc = INDEX_op_shri_vec,
-+          { gen_helper_sve_st4bb_r,
++      .vece = MO_16 },
-+            gen_helper_sve_st4hh_be_r,
++    { .fni4 = gen_shr32_ins_i32,
-+            gen_helper_sve_st4ss_be_r,
++      .fniv = gen_shr_ins_vec,
-+            gen_helper_sve_st4dd_be_r } },
++      .load_dest = true,
-     };
++      .opc = INDEX_op_shri_vec,
-     gen_helper_gvec_mem *fn;
++      .vece = MO_32 },
-+    int be = s->be_data == MO_BE;
++    { .fni8 = gen_shr64_ins_i64,
++      .fniv = gen_shr_ins_vec,
-     if (nreg == 0) {
++      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-         /* ST1 */
++      .load_dest = true,
--        fn = fn_single[msz][esz];
++      .opc = INDEX_op_shri_vec,
-+        fn = fn_single[be][msz][esz];
++      .vece = MO_64 },
-     } else {
++};
-         /* ST2, ST3, ST4 -- msz == esz, enforced by encoding */
++
-         assert(msz == esz);
++static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
--        fn = fn_multiple[nreg - 1][msz];
++{
-+        fn = fn_multiple[be][nreg - 1][msz];
++    uint64_t mask = dup_const(MO_8, 0xff << shift);
-     }
++    TCGv_i64 t = tcg_temp_new_i64();
-     assert(fn != NULL);
++
-     do_mem_zpa(s, zt, pg, addr, fn);
++    tcg_gen_shli_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_16, 0xffff << shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shli_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
 +}
 +
 +static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
 +}
 +
 +static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    if (sh == 0) {
 +        tcg_gen_mov_vec(d, a);
 +    } else {
 +        TCGv_vec t = tcg_temp_new_vec_matching(d);
 +        TCGv_vec m = tcg_temp_new_vec_matching(d);
 +
 +        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 +        tcg_gen_shli_vec(vece, t, a, sh);
 +        tcg_gen_and_vec(vece, d, d, m);
 +        tcg_gen_or_vec(vece, d, d, t);
 +
 +        tcg_temp_free_vec(t);
 +        tcg_temp_free_vec(m);
 +    }
 +}
 +
 +const GVecGen2i sli_op[4] = {
 +    { .fni8 = gen_shl8_ins_i64,
 +      .fniv = gen_shl_ins_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_shli_vec,
 +      .vece = MO_8 },
 +    { .fni8 = gen_shl16_ins_i64,
 +      .fniv = gen_shl_ins_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_shli_vec,
 +      .vece = MO_16 },
 +    { .fni4 = gen_shl32_ins_i32,
 +      .fniv = gen_shl_ins_vec,
 +      .load_dest = true,
 +      .opc = INDEX_op_shli_vec,
 +      .vece = MO_32 },
 +    { .fni8 = gen_shl64_ins_i64,
 +      .fniv = gen_shl_ins_vec,
 +      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +      .load_dest = true,
 +      .opc = INDEX_op_shli_vec,
 +      .vece = MO_64 },
 +};
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      int pairwise;
      int u;
      int vec_size;
 -    uint32_t imm, mask;
 +    uint32_t imm;
      TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
      TCGv_ptr ptr1, ptr2, ptr3;
      TCGv_i64 tmp64;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      }
                      return 0;
 +                case 4: /* VSRI */
 +                    if (!u) {
 +                        return 1;
 +                    }
 +                    /* Right shift comes here negative.  */
 +                    shift = -shift;
 +                    /* Shift out of range leaves destination unchanged.  */
 +                    if (shift < 8 << size) {
 +                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 +                                        shift, &sri_op[size]);
 +                    }
 +                    return 0;
 +
                  case 5: /* VSHL, VSLI */
 -                    if (!u) { /* VSHL */
 +                    if (u) { /* VSLI */
 +                        /* Shift out of range leaves destination unchanged.  */
 +                        if (shift < 8 << size) {
 +                            tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size,
 +                                            vec_size, shift, &sli_op[size]);
 +                        }
 +                    } else { /* VSHL */
                          /* Shifts larger than the element size are
                           * architecturally valid and results in zero.
                           */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
                                                vec_size, vec_size);
                          }
 -                        return 0;
                      }
 -                    break;
 +                    return 0;
                  }
                  if (size == 3) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              else
                                  gen_helper_neon_rshl_s64(cpu_V0, cpu_V0, cpu_V1);
                              break;
 -                        case 4: /* VSRI */
 -                        case 5: /* VSHL, VSLI */
 -                            gen_helper_neon_shl_u64(cpu_V0, cpu_V0, cpu_V1);
 -                            break;
                          case 6: /* VQSHLU */
                              gen_helper_neon_qshlu_s64(cpu_V0, cpu_env,
                                                        cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              /* Accumulate.  */
                              neon_load_reg64(cpu_V1, rd + pass);
                              tcg_gen_add_i64(cpu_V0, cpu_V0, cpu_V1);
 -                        } else if (op == 4 || (op == 5 && u)) {
 -                            /* Insert */
 -                            neon_load_reg64(cpu_V1, rd + pass);
 -                            uint64_t mask;
 -                            if (shift < -63 || shift > 63) {
 -                                mask = 0;
 -                            } else {
 -                                if (op == 4) {
 -                                    mask = 0xffffffffffffffffull >> -shift;
 -                                } else {
 -                                    mask = 0xffffffffffffffffull << shift;
 -                                }
 -                            }
 -                            tcg_gen_andi_i64(cpu_V1, cpu_V1, ~mask);
 -                            tcg_gen_or_i64(cpu_V0, cpu_V0, cpu_V1);
                          }
                          neon_store_reg64(cpu_V0, rd + pass);
                      } else { /* size < 3 */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          case 3: /* VRSRA */
                              GEN_NEON_INTEGER_OP(rshl);
                              break;
 -                        case 4: /* VSRI */
 -                        case 5: /* VSHL, VSLI */
 -                            switch (size) {
 -                            case 0: gen_helper_neon_shl_u8(tmp, tmp, tmp2); break;
 -                            case 1: gen_helper_neon_shl_u16(tmp, tmp, tmp2); break;
 -                            case 2: gen_helper_neon_shl_u32(tmp, tmp, tmp2); break;
 -                            default: abort();
 -                            }
 -                            break;
                          case 6: /* VQSHLU */
                              switch (size) {
                              case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              tmp2 = neon_load_reg(rd, pass);
                              gen_neon_add(size, tmp, tmp2);
                              tcg_temp_free_i32(tmp2);
 -                        } else if (op == 4 || (op == 5 && u)) {
 -                            /* Insert */
 -                            switch (size) {
 -                            case 0:
 -                                if (op == 4)
 -                                    mask = 0xff >> -shift;
 -                                else
 -                                    mask = (uint8_t)(0xff << shift);
 -                                mask |= mask << 8;
 -                                mask |= mask << 16;
 -                                break;
 -                            case 1:
 -                                if (op == 4)
 -                                    mask = 0xffff >> -shift;
 -                                else
 -                                    mask = (uint16_t)(0xffff << shift);
 -                                mask |= mask << 16;
 -                                break;
 -                            case 2:
 -                                if (shift < -31 || shift > 31) {
 -                                    mask = 0;
 -                                } else {
 -                                    if (op == 4)
 -                                        mask = 0xffffffffu >> -shift;
 -                                    else
 -                                        mask = 0xffffffffu << shift;
 -                                }
 -                                break;
 -                            default:
 -                                abort();
 -                            }
 -                            tmp2 = neon_load_reg(rd, pass);
 -                            tcg_gen_andi_i32(tmp, tmp, mask);
 -                            tcg_gen_andi_i32(tmp2, tmp2, ~mask);
 -                            tcg_gen_or_i32(tmp, tmp, tmp2);
 -                            tcg_temp_free_i32(tmp2);
                          }
                          neon_store_reg(rd, pass, tmp);
                      }
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 17/33] target/arm: Rewrite vector gather stores
+[Qemu-devel] [PULL 36/45] target/arm: Use gvec for NEON_3R_VML
 From: Richard Henderson <richard.henderson@linaro.org>
-This fixes the endianness problem for softmmu, and moves
+Move mla_op and mls_op expanders from translate-a64.c.
-the main loop out of a macro and into an inlined function.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181011205206.3552-16-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-14-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    |  52 ++++++++++----
+ target/arm/translate.h     |   2 +
- target/arm/sve_helper.c    | 139 ++++++++++++++++++++++++-------------
+ target/arm/translate-a64.c | 106 -----------------------------
- target/arm/translate-sve.c |  74 +++++++++++++-------
+ target/arm/translate.c     | 134 ++++++++++++++++++++++++++++++++-----
-files changed, 177 insertions(+), 88 deletions(-)
+files changed, 120 insertions(+), 122 deletions(-)
-diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/translate.h
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(sve_ldffsds_zd, TCG_CALL_NO_WG,
+@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 get_ahp_flag(void)
+ extern const GVecGen3 bsl_op;
- DEF_HELPER_FLAGS_6(sve_stbs_zsu, TCG_CALL_NO_WG,
+ extern const GVecGen3 bit_op;
-                    void, env, ptr, ptr, ptr, tl, i32)
+ extern const GVecGen3 bif_op;
--DEF_HELPER_FLAGS_6(sve_sths_zsu, TCG_CALL_NO_WG,
++extern const GVecGen3 mla_op[4];
-+DEF_HELPER_FLAGS_6(sve_sths_le_zsu, TCG_CALL_NO_WG,
++extern const GVecGen3 mls_op[4];
-                    void, env, ptr, ptr, ptr, tl, i32)
+ extern const GVecGen2i ssra_op[4];
--DEF_HELPER_FLAGS_6(sve_stss_zsu, TCG_CALL_NO_WG,
+ extern const GVecGen2i usra_op[4];
-+DEF_HELPER_FLAGS_6(sve_sths_be_zsu, TCG_CALL_NO_WG,
+ extern const GVecGen2i sri_op[4];
-+                   void, env, ptr, ptr, ptr, tl, i32)
+diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 +DEF_HELPER_FLAGS_6(sve_stss_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stss_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_stbs_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_sths_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sths_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stss_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sths_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stss_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stss_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_stbd_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_sthd_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sthd_le_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stsd_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sthd_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stdd_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_stsd_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stsd_be_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stdd_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stdd_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_stbd_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_sthd_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sthd_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stsd_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sthd_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stdd_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_stsd_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stsd_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stdd_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stdd_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_stbd_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_sthd_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sthd_le_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stsd_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_sthd_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_stdd_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_stsd_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stsd_be_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stdd_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_stdd_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-a64.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ DO_LDFF1_ZPZ_D(sve_ldffsds_zd, uint64_t, int32_t,  cpu_ldl_data_ra)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     }
  /* Stores with a vector index.  */
 -#define DO_ST1_ZPZ_S(NAME, TYPEI, FN)                                   \
 -void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
 -                  target_ulong base, uint32_t desc)                     \
 -{                                                                       \
 -    intptr_t i, oprsz = simd_oprsz(desc);                               \
 -    unsigned scale = simd_data(desc);                                   \
 -    uintptr_t ra = GETPC();                                             \
 -    for (i = 0; i < oprsz; ) {                                          \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
 -        do {                                                            \
 -            if (likely(pg & 1)) {                                       \
 -                target_ulong off = *(TYPEI *)(vm + H1_4(i));            \
 -                uint32_t d = *(uint32_t *)(vd + H1_4(i));               \
 -                FN(env, base + (off << scale), d, ra);                  \
 -            }                                                           \
 -            i += sizeof(uint32_t), pg >>= sizeof(uint32_t);             \
 -        } while (i & 15);                                               \
 -    }                                                                   \
 +static void sve_st1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
 +                       target_ulong base, uint32_t desc, uintptr_t ra,
 +                       zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 +{
 +    const int mmu_idx = cpu_mmu_index(env, false);
 +    intptr_t i, oprsz = simd_oprsz(desc);
 +    unsigned scale = simd_data(desc);
 +
 +    set_helper_retaddr(ra);
 +    for (i = 0; i < oprsz; ) {
 +        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
 +        do {
 +            if (likely(pg & 1)) {
 +                target_ulong off = off_fn(vm, i);
 +                tlb_fn(env, vd, i, base + (off << scale), mmu_idx, ra);
 +            }
 +            i += 4, pg >>= 4;
 +        } while (i & 15);
 +    }
 +    set_helper_retaddr(0);
  }
--#define DO_ST1_ZPZ_D(NAME, TYPEI, FN)                                   \
+-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
--void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
+-{
--                  target_ulong base, uint32_t desc)                     \
+-    gen_helper_neon_mul_u8(a, a, b);
--{                                                                       \
+-    gen_helper_neon_add_u8(d, d, a);
--    intptr_t i, oprsz = simd_oprsz(desc) / 8;                           \
+-}
--    unsigned scale = simd_data(desc);                                   \
+-
--    uintptr_t ra = GETPC();                                             \
+-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
--    uint64_t *d = vd, *m = vm; uint8_t *pg = vg;                        \
+-{
--    for (i = 0; i < oprsz; i++) {                                       \
+-    gen_helper_neon_mul_u16(a, a, b);
--        if (likely(pg[H1(i)] & 1)) {                                    \
+-    gen_helper_neon_add_u16(d, d, a);
--            target_ulong off = (target_ulong)(TYPEI)m[i] << scale;      \
+-}
--            FN(env, base + off, d[i], ra);                              \
+-
--        }                                                               \
+-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
--    }                                                                   \
+-{
-+static void sve_st1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
+-    tcg_gen_mul_i32(a, a, b);
-+                       target_ulong base, uint32_t desc, uintptr_t ra,
+-    tcg_gen_add_i32(d, d, a);
-+                       zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
+-}
-+{
+-
-+    const int mmu_idx = cpu_mmu_index(env, false);
+-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-+    intptr_t i, oprsz = simd_oprsz(desc) / 8;
+-{
-+    unsigned scale = simd_data(desc);
+-    tcg_gen_mul_i64(a, a, b);
-+
+-    tcg_gen_add_i64(d, d, a);
-+    set_helper_retaddr(ra);
+-}
-+    for (i = 0; i < oprsz; i++) {
+-
-+        uint8_t pg = *(uint8_t *)(vg + H1(i));
+-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-+        if (likely(pg & 1)) {
+-{
-+            target_ulong off = off_fn(vm, i * 8);
+-    tcg_gen_mul_vec(vece, a, a, b);
-+            tlb_fn(env, vd, i * 8, base + (off << scale), mmu_idx, ra);
+-    tcg_gen_add_vec(vece, d, d, a);
-+        }
+-}
-+    }
+-
-+    set_helper_retaddr(0);
+-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
- }
+-{
+-    gen_helper_neon_mul_u8(a, a, b);
--DO_ST1_ZPZ_S(sve_stbs_zsu, uint32_t, cpu_stb_data_ra)
+-    gen_helper_neon_sub_u8(d, d, a);
--DO_ST1_ZPZ_S(sve_sths_zsu, uint32_t, cpu_stw_data_ra)
+-}
--DO_ST1_ZPZ_S(sve_stss_zsu, uint32_t, cpu_stl_data_ra)
+-
-+#define DO_ST1_ZPZ_S(MEM, OFS) \
+-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-+void __attribute__((flatten)) HELPER(sve_st##MEM##_##OFS)    \
+-{
-+    (CPUARMState *env, void *vd, void *vg, void *vm,         \
+-    gen_helper_neon_mul_u16(a, a, b);
-+     target_ulong base, uint32_t desc)                       \
+-    gen_helper_neon_sub_u16(d, d, a);
-+{                                                            \
+-}
-+    sve_st1_zs(env, vd, vg, vm, base, desc, GETPC(),         \
+-
-+              off_##OFS##_s, sve_st1##MEM##_tlb);            \
+-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-+}
+-{
+-    tcg_gen_mul_i32(a, a, b);
--DO_ST1_ZPZ_S(sve_stbs_zss, int32_t, cpu_stb_data_ra)
+-    tcg_gen_sub_i32(d, d, a);
--DO_ST1_ZPZ_S(sve_sths_zss, int32_t, cpu_stw_data_ra)
+-}
--DO_ST1_ZPZ_S(sve_stss_zss, int32_t, cpu_stl_data_ra)
+-
-+#define DO_ST1_ZPZ_D(MEM, OFS) \
+-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-+void __attribute__((flatten)) HELPER(sve_st##MEM##_##OFS)    \
+-{
-+    (CPUARMState *env, void *vd, void *vg, void *vm,         \
+-    tcg_gen_mul_i64(a, a, b);
-+     target_ulong base, uint32_t desc)                       \
+-    tcg_gen_sub_i64(d, d, a);
-+{                                                            \
+-}
-+    sve_st1_zd(env, vd, vg, vm, base, desc, GETPC(),         \
+-
-+               off_##OFS##_d, sve_st1##MEM##_tlb);           \
+-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-+}
+-{
+-    tcg_gen_mul_vec(vece, a, a, b);
--DO_ST1_ZPZ_D(sve_stbd_zsu, uint32_t, cpu_stb_data_ra)
+-    tcg_gen_sub_vec(vece, d, d, a);
--DO_ST1_ZPZ_D(sve_sthd_zsu, uint32_t, cpu_stw_data_ra)
+-}
--DO_ST1_ZPZ_D(sve_stsd_zsu, uint32_t, cpu_stl_data_ra)
+-
--DO_ST1_ZPZ_D(sve_stdd_zsu, uint32_t, cpu_stq_data_ra)
+ /* Integer op subgroup of C3.6.16. */
-+DO_ST1_ZPZ_S(bs, zsu)
+ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
-+DO_ST1_ZPZ_S(hs_le, zsu)
+ {
-+DO_ST1_ZPZ_S(hs_be, zsu)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
-+DO_ST1_ZPZ_S(ss_le, zsu)
+           .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+DO_ST1_ZPZ_S(ss_be, zsu)
+           .vece = MO_64 },
+     };
--DO_ST1_ZPZ_D(sve_stbd_zss, int32_t, cpu_stb_data_ra)
+-    static const GVecGen3 mla_op[4] = {
--DO_ST1_ZPZ_D(sve_sthd_zss, int32_t, cpu_stw_data_ra)
+-        { .fni4 = gen_mla8_i32,
--DO_ST1_ZPZ_D(sve_stsd_zss, int32_t, cpu_stl_data_ra)
+-          .fniv = gen_mla_vec,
--DO_ST1_ZPZ_D(sve_stdd_zss, int32_t, cpu_stq_data_ra)
+-          .opc = INDEX_op_mul_vec,
-+DO_ST1_ZPZ_S(bs, zss)
+-          .load_dest = true,
-+DO_ST1_ZPZ_S(hs_le, zss)
+-          .vece = MO_8 },
-+DO_ST1_ZPZ_S(hs_be, zss)
+-        { .fni4 = gen_mla16_i32,
-+DO_ST1_ZPZ_S(ss_le, zss)
+-          .fniv = gen_mla_vec,
-+DO_ST1_ZPZ_S(ss_be, zss)
+-          .opc = INDEX_op_mul_vec,
+-          .load_dest = true,
--DO_ST1_ZPZ_D(sve_stbd_zd, uint64_t, cpu_stb_data_ra)
+-          .vece = MO_16 },
--DO_ST1_ZPZ_D(sve_sthd_zd, uint64_t, cpu_stw_data_ra)
+-        { .fni4 = gen_mla32_i32,
--DO_ST1_ZPZ_D(sve_stsd_zd, uint64_t, cpu_stl_data_ra)
+-          .fniv = gen_mla_vec,
--DO_ST1_ZPZ_D(sve_stdd_zd, uint64_t, cpu_stq_data_ra)
+-          .opc = INDEX_op_mul_vec,
-+DO_ST1_ZPZ_D(bd, zsu)
+-          .load_dest = true,
-+DO_ST1_ZPZ_D(hd_le, zsu)
+-          .vece = MO_32 },
-+DO_ST1_ZPZ_D(hd_be, zsu)
+-        { .fni8 = gen_mla64_i64,
-+DO_ST1_ZPZ_D(sd_le, zsu)
+-          .fniv = gen_mla_vec,
-+DO_ST1_ZPZ_D(sd_be, zsu)
+-          .opc = INDEX_op_mul_vec,
-+DO_ST1_ZPZ_D(dd_le, zsu)
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+DO_ST1_ZPZ_D(dd_be, zsu)
+-          .load_dest = true,
-+
+-          .vece = MO_64 },
-+DO_ST1_ZPZ_D(bd, zss)
+-    };
-+DO_ST1_ZPZ_D(hd_le, zss)
+-    static const GVecGen3 mls_op[4] = {
-+DO_ST1_ZPZ_D(hd_be, zss)
+-        { .fni4 = gen_mls8_i32,
-+DO_ST1_ZPZ_D(sd_le, zss)
+-          .fniv = gen_mls_vec,
-+DO_ST1_ZPZ_D(sd_be, zss)
+-          .opc = INDEX_op_mul_vec,
-+DO_ST1_ZPZ_D(dd_le, zss)
+-          .load_dest = true,
-+DO_ST1_ZPZ_D(dd_be, zss)
+-          .vece = MO_8 },
-+
+-        { .fni4 = gen_mls16_i32,
-+DO_ST1_ZPZ_D(bd, zd)
+-          .fniv = gen_mls_vec,
-+DO_ST1_ZPZ_D(hd_le, zd)
+-          .opc = INDEX_op_mul_vec,
-+DO_ST1_ZPZ_D(hd_be, zd)
+-          .load_dest = true,
-+DO_ST1_ZPZ_D(sd_le, zd)
+-          .vece = MO_16 },
-+DO_ST1_ZPZ_D(sd_be, zd)
+-        { .fni4 = gen_mls32_i32,
-+DO_ST1_ZPZ_D(dd_le, zd)
+-          .fniv = gen_mls_vec,
-+DO_ST1_ZPZ_D(dd_be, zd)
+-          .opc = INDEX_op_mul_vec,
-+
+-          .load_dest = true,
-+#undef DO_ST1_ZPZ_S
+-          .vece = MO_32 },
-+#undef DO_ST1_ZPZ_D
+-        { .fni8 = gen_mls64_i64,
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+-          .fniv = gen_mls_vec,
 -          .opc = INDEX_op_mul_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
      int is_q = extract32(insn, 30, 1);
      int u = extract32(insn, 29, 1);
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/target/arm/translate.c
-+++ b/target/arm/translate-sve.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void gen_neon_narrow_op(int op, int u, int size,
-     return true;
+ #define NEON_3R_VABA 15
- }
+ #define NEON_3R_VADD_VSUB 16
+ #define NEON_3R_VTST_VCEQ 17
--/* Indexed by [xs][msz].  */
+-#define NEON_3R_VML 18 /* VMLA, VMLAL, VMLS, VMLSL */
--static gen_helper_gvec_mem_scatter * const scatter_store_fn32[2][3] = {
++#define NEON_3R_VML 18 /* VMLA, VMLS */
--    { gen_helper_sve_stbs_zsu,
+ #define NEON_3R_VMUL 19
--      gen_helper_sve_sths_zsu,
+ #define NEON_3R_VPMAX 20
--      gen_helper_sve_stss_zsu, },
+ #define NEON_3R_VPMIN 21
--    { gen_helper_sve_stbs_zss,
+@@ -XXX,XX +XXX,XX @@ const GVecGen2i sli_op[4] = {
--      gen_helper_sve_sths_zss,
+       .vece = MO_64 },
 -      gen_helper_sve_stss_zss, },
 +/* Indexed by [be][xs][msz].  */
 +static gen_helper_gvec_mem_scatter * const scatter_store_fn32[2][2][3] = {
 +    /* Little-endian */
 +    { { gen_helper_sve_stbs_zsu,
 +        gen_helper_sve_sths_le_zsu,
 +        gen_helper_sve_stss_le_zsu, },
 +      { gen_helper_sve_stbs_zss,
 +        gen_helper_sve_sths_le_zss,
 +        gen_helper_sve_stss_le_zss, } },
 +    /* Big-endian */
 +    { { gen_helper_sve_stbs_zsu,
 +        gen_helper_sve_sths_be_zsu,
 +        gen_helper_sve_stss_be_zsu, },
 +      { gen_helper_sve_stbs_zss,
 +        gen_helper_sve_sths_be_zss,
 +        gen_helper_sve_stss_be_zss, } },
  };
- /* Note that we overload xs=2 to indicate 64-bit offset.  */
++static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
--static gen_helper_gvec_mem_scatter * const scatter_store_fn64[3][4] = {
++{
--    { gen_helper_sve_stbd_zsu,
++    gen_helper_neon_mul_u8(a, a, b);
--      gen_helper_sve_sthd_zsu,
++    gen_helper_neon_add_u8(d, d, a);
--      gen_helper_sve_stsd_zsu,
++}
--      gen_helper_sve_stdd_zsu, },
++
--    { gen_helper_sve_stbd_zss,
++static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
--      gen_helper_sve_sthd_zss,
++{
--      gen_helper_sve_stsd_zss,
++    gen_helper_neon_mul_u8(a, a, b);
--      gen_helper_sve_stdd_zss, },
++    gen_helper_neon_sub_u8(d, d, a);
--    { gen_helper_sve_stbd_zd,
++}
--      gen_helper_sve_sthd_zd,
++
--      gen_helper_sve_stsd_zd,
++static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
--      gen_helper_sve_stdd_zd, },
++{
-+static gen_helper_gvec_mem_scatter * const scatter_store_fn64[2][3][4] = {
++    gen_helper_neon_mul_u16(a, a, b);
-+    /* Little-endian */
++    gen_helper_neon_add_u16(d, d, a);
-+    { { gen_helper_sve_stbd_zsu,
++}
-+        gen_helper_sve_sthd_le_zsu,
++
-+        gen_helper_sve_stsd_le_zsu,
++static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-+        gen_helper_sve_stdd_le_zsu, },
++{
-+      { gen_helper_sve_stbd_zss,
++    gen_helper_neon_mul_u16(a, a, b);
-+        gen_helper_sve_sthd_le_zss,
++    gen_helper_neon_sub_u16(d, d, a);
-+        gen_helper_sve_stsd_le_zss,
++}
-+        gen_helper_sve_stdd_le_zss, },
++
-+      { gen_helper_sve_stbd_zd,
++static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-+        gen_helper_sve_sthd_le_zd,
++{
-+        gen_helper_sve_stsd_le_zd,
++    tcg_gen_mul_i32(a, a, b);
-+        gen_helper_sve_stdd_le_zd, } },
++    tcg_gen_add_i32(d, d, a);
-+    /* Big-endian */
++}
-+    { { gen_helper_sve_stbd_zsu,
++
-+        gen_helper_sve_sthd_be_zsu,
++static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-+        gen_helper_sve_stsd_be_zsu,
++{
-+        gen_helper_sve_stdd_be_zsu, },
++    tcg_gen_mul_i32(a, a, b);
-+      { gen_helper_sve_stbd_zss,
++    tcg_gen_sub_i32(d, d, a);
-+        gen_helper_sve_sthd_be_zss,
++}
-+        gen_helper_sve_stsd_be_zss,
++
-+        gen_helper_sve_stdd_be_zss, },
++static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-+      { gen_helper_sve_stbd_zd,
++{
-+        gen_helper_sve_sthd_be_zd,
++    tcg_gen_mul_i64(a, a, b);
-+        gen_helper_sve_stsd_be_zd,
++    tcg_gen_add_i64(d, d, a);
-+        gen_helper_sve_stdd_be_zd, } },
++}
- };
++
++static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
- static bool trans_ST1_zprz(DisasContext *s, arg_ST1_zprz *a, uint32_t insn)
++{
- {
++    tcg_gen_mul_i64(a, a, b);
-     gen_helper_gvec_mem_scatter *fn;
++    tcg_gen_sub_i64(d, d, a);
-+    int be = s->be_data == MO_BE;
++}
++
-     if (a->esz < a->msz || (a->msz == 0 && a->scale)) {
++static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-         return false;
++{
-@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zprz(DisasContext *s, arg_ST1_zprz *a, uint32_t insn)
++    tcg_gen_mul_vec(vece, a, a, b);
-     }
++    tcg_gen_add_vec(vece, d, d, a);
-     switch (a->esz) {
++}
-     case MO_32:
++
--        fn = scatter_store_fn32[a->xs][a->msz];
++static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-+        fn = scatter_store_fn32[be][a->xs][a->msz];
++{
-         break;
++    tcg_gen_mul_vec(vece, a, a, b);
-     case MO_64:
++    tcg_gen_sub_vec(vece, d, d, a);
--        fn = scatter_store_fn64[a->xs][a->msz];
++}
-+        fn = scatter_store_fn64[be][a->xs][a->msz];
++
-         break;
++/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
-     default:
++ * these tables are shared with AArch64 which does support them.
-         g_assert_not_reached();
++ */
-@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zprz(DisasContext *s, arg_ST1_zprz *a, uint32_t insn)
++const GVecGen3 mla_op[4] = {
- static bool trans_ST1_zpiz(DisasContext *s, arg_ST1_zpiz *a, uint32_t insn)
++    { .fni4 = gen_mla8_i32,
- {
++      .fniv = gen_mla_vec,
-     gen_helper_gvec_mem_scatter *fn = NULL;
++      .opc = INDEX_op_mul_vec,
-+    int be = s->be_data == MO_BE;
++      .load_dest = true,
-     TCGv_i64 imm;
++      .vece = MO_8 },
++    { .fni4 = gen_mla16_i32,
-     if (a->esz < a->msz) {
++      .fniv = gen_mla_vec,
-@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zpiz(DisasContext *s, arg_ST1_zpiz *a, uint32_t insn)
++      .opc = INDEX_op_mul_vec,
++      .load_dest = true,
-     switch (a->esz) {
++      .vece = MO_16 },
-     case MO_32:
++    { .fni4 = gen_mla32_i32,
--        fn = scatter_store_fn32[0][a->msz];
++      .fniv = gen_mla_vec,
-+        fn = scatter_store_fn32[be][0][a->msz];
++      .opc = INDEX_op_mul_vec,
-         break;
++      .load_dest = true,
-     case MO_64:
++      .vece = MO_32 },
--        fn = scatter_store_fn64[2][a->msz];
++    { .fni8 = gen_mla64_i64,
-+        fn = scatter_store_fn64[be][2][a->msz];
++      .fniv = gen_mla_vec,
-         break;
++      .opc = INDEX_op_mul_vec,
-     }
++      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-     assert(fn != NULL);
++      .load_dest = true,
 +      .vece = MO_64 },
 +};
 +
 +const GVecGen3 mls_op[4] = {
 +    { .fni4 = gen_mls8_i32,
 +      .fniv = gen_mls_vec,
 +      .opc = INDEX_op_mul_vec,
 +      .load_dest = true,
 +      .vece = MO_8 },
 +    { .fni4 = gen_mls16_i32,
 +      .fniv = gen_mls_vec,
 +      .opc = INDEX_op_mul_vec,
 +      .load_dest = true,
 +      .vece = MO_16 },
 +    { .fni4 = gen_mls32_i32,
 +      .fniv = gen_mls_vec,
 +      .opc = INDEX_op_mul_vec,
 +      .load_dest = true,
 +      .vece = MO_32 },
 +    { .fni8 = gen_mls64_i64,
 +      .fniv = gen_mls_vec,
 +      .opc = INDEX_op_mul_vec,
 +      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +      .load_dest = true,
 +      .vece = MO_64 },
 +};
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  return 0;
              }
              break;
 +
 +        case NEON_3R_VML: /* VMLA, VMLS */
 +            tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size,
 +                           u ? &mls_op[size] : &mla_op[size]);
 +            return 0;
          }
 +
          if (size == 3) {
              /* 64-bit element instructions. */
              for (pass = 0; pass < (q ? 2 : 1); pass++) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  }
              }
              break;
 -        case NEON_3R_VML: /* VMLA, VMLAL, VMLS,VMLSL */
 -            switch (size) {
 -            case 0: gen_helper_neon_mul_u8(tmp, tmp, tmp2); break;
 -            case 1: gen_helper_neon_mul_u16(tmp, tmp, tmp2); break;
 -            case 2: tcg_gen_mul_i32(tmp, tmp, tmp2); break;
 -            default: abort();
 -            }
 -            tcg_temp_free_i32(tmp2);
 -            tmp2 = neon_load_reg(rd, pass);
 -            if (u) { /* VMLS */
 -                gen_neon_rsb(size, tmp, tmp2);
 -            } else { /* VMLA */
 -                gen_neon_add(size, tmp, tmp2);
 -            }
 -            break;
          case NEON_3R_VMUL:
              /* VMUL.P8; other cases already eliminated.  */
              gen_helper_neon_mul_p8(tmp, tmp, tmp2);
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 37/45] target/arm: Use gvec for NEON_3R_VTST_VCEQ, NEON_3R_VCGT, NEON_3R_VCGE
+From: Richard Henderson <richard.henderson@linaro.org>
 Move cmtst_op expanders from translate-a64.c.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181011205206.3552-17-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/translate.h     |  2 +
  target/arm/translate-a64.c | 38 ------------------
  target/arm/translate.c     | 81 +++++++++++++++++++++++++++-----------
 files changed, 60 insertions(+), 61 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 bit_op;
  extern const GVecGen3 bif_op;
  extern const GVecGen3 mla_op[4];
  extern const GVecGen3 mls_op[4];
 +extern const GVecGen3 cmtst_op[4];
  extern const GVecGen2i ssra_op[4];
  extern const GVecGen2i usra_op[4];
  extern const GVecGen2i sri_op[4];
  extern const GVecGen2i sli_op[4];
 +void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_diff(DisasContext *s, uint32_t insn)
      }
  }
 -/* CMTST : test is "if (X & Y != 0)". */
 -static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_and_i32(d, a, b);
 -    tcg_gen_setcondi_i32(TCG_COND_NE, d, d, 0);
 -    tcg_gen_neg_i32(d, d);
 -}
 -
 -static void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_and_i64(d, a, b);
 -    tcg_gen_setcondi_i64(TCG_COND_NE, d, d, 0);
 -    tcg_gen_neg_i64(d, d);
 -}
 -
 -static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_and_vec(vece, d, a, b);
 -    tcg_gen_dupi_vec(vece, a, 0);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 -}
 -
  static void handle_3same_64(DisasContext *s, int opcode, bool u,
                              TCGv_i64 tcg_rd, TCGv_i64 tcg_rn, TCGv_i64 tcg_rm)
  {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
  /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
 -    static const GVecGen3 cmtst_op[4] = {
 -        { .fni4 = gen_helper_neon_tst_u8,
 -          .fniv = gen_cmtst_vec,
 -          .vece = MO_8 },
 -        { .fni4 = gen_helper_neon_tst_u16,
 -          .fniv = gen_cmtst_vec,
 -          .vece = MO_16 },
 -        { .fni4 = gen_cmtst_i32,
 -          .fniv = gen_cmtst_vec,
 -          .vece = MO_32 },
 -        { .fni8 = gen_cmtst_i64,
 -          .fniv = gen_cmtst_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .vece = MO_64 },
 -    };
 -
      int is_q = extract32(insn, 30, 1);
      int u = extract32(insn, 29, 1);
      int size = extract32(insn, 22, 2);
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ const GVecGen3 mls_op[4] = {
        .vece = MO_64 },
  };
 +/* CMTST : test is "if (X & Y != 0)". */
 +static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_and_i32(d, a, b);
 +    tcg_gen_setcondi_i32(TCG_COND_NE, d, d, 0);
 +    tcg_gen_neg_i32(d, d);
 +}
 +
 +void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_and_i64(d, a, b);
 +    tcg_gen_setcondi_i64(TCG_COND_NE, d, d, 0);
 +    tcg_gen_neg_i64(d, d);
 +}
 +
 +static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_and_vec(vece, d, a, b);
 +    tcg_gen_dupi_vec(vece, a, 0);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 +}
 +
 +const GVecGen3 cmtst_op[4] = {
 +    { .fni4 = gen_helper_neon_tst_u8,
 +      .fniv = gen_cmtst_vec,
 +      .vece = MO_8 },
 +    { .fni4 = gen_helper_neon_tst_u16,
 +      .fniv = gen_cmtst_vec,
 +      .vece = MO_16 },
 +    { .fni4 = gen_cmtst_i32,
 +      .fniv = gen_cmtst_vec,
 +      .vece = MO_32 },
 +    { .fni8 = gen_cmtst_i64,
 +      .fniv = gen_cmtst_vec,
 +      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +      .vece = MO_64 },
 +};
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size,
                             u ? &mls_op[size] : &mla_op[size]);
              return 0;
 +
 +        case NEON_3R_VTST_VCEQ:
 +            if (u) { /* VCEQ */
 +                tcg_gen_gvec_cmp(TCG_COND_EQ, size, rd_ofs, rn_ofs, rm_ofs,
 +                                 vec_size, vec_size);
 +            } else { /* VTST */
 +                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
 +                               vec_size, vec_size, &cmtst_op[size]);
 +            }
 +            return 0;
 +
 +        case NEON_3R_VCGT:
 +            tcg_gen_gvec_cmp(u ? TCG_COND_GTU : TCG_COND_GT, size,
 +                             rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
 +            return 0;
 +
 +        case NEON_3R_VCGE:
 +            tcg_gen_gvec_cmp(u ? TCG_COND_GEU : TCG_COND_GE, size,
 +                             rd_ofs, rn_ofs, rm_ofs, vec_size, vec_size);
 +            return 0;
          }
          if (size == 3) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VQSUB:
              GEN_NEON_INTEGER_OP_ENV(qsub);
              break;
 -        case NEON_3R_VCGT:
 -            GEN_NEON_INTEGER_OP(cgt);
 -            break;
 -        case NEON_3R_VCGE:
 -            GEN_NEON_INTEGER_OP(cge);
 -            break;
          case NEON_3R_VSHL:
              GEN_NEON_INTEGER_OP(shl);
              break;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rd, pass);
              gen_neon_add(size, tmp, tmp2);
              break;
 -        case NEON_3R_VTST_VCEQ:
 -            if (!u) { /* VTST */
 -                switch (size) {
 -                case 0: gen_helper_neon_tst_u8(tmp, tmp, tmp2); break;
 -                case 1: gen_helper_neon_tst_u16(tmp, tmp, tmp2); break;
 -                case 2: gen_helper_neon_tst_u32(tmp, tmp, tmp2); break;
 -                default: abort();
 -                }
 -            } else { /* VCEQ */
 -                switch (size) {
 -                case 0: gen_helper_neon_ceq_u8(tmp, tmp, tmp2); break;
 -                case 1: gen_helper_neon_ceq_u16(tmp, tmp, tmp2); break;
 -                case 2: gen_helper_neon_ceq_u32(tmp, tmp, tmp2); break;
 -                default: abort();
 -                }
 -            }
 -            break;
          case NEON_3R_VMUL:
              /* VMUL.P8; other cases already eliminated.  */
              gen_helper_neon_mul_p8(tmp, tmp, tmp2);
 --
 .19.1

-[Qemu-devel] [PULL 28/33] target/arm: Add v8M stack checks for Thumb2 LDM/STM
+[Qemu-devel] [PULL 38/45] target/arm: Use gvec for NEON VLD all lanes
-Add the v8M stack checks for:
+From: Richard Henderson <richard.henderson@linaro.org>
  * LDM (T2 encoding)
  * STM (T2 encoding)
-This includes the 32-bit encodings of the instructions listed
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-in v8M ARM ARM rule R_YVWT as
+Message-id: 20181011205206.3552-18-richard.henderson@linaro.org
- * LDM, LDMIA, LDMFD
+[PMM: added parens in ?: expression]
- * LDMDB, LDMEA
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
  * POP (multiple registers)
  * PUSH (muliple registers)
  * STM, STMIA, STMEA
  * STMDB, STMFD
 We perform the stack limit before doing any other part
 of the load or store.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-10-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 19 ++++++++++++++++++-
+ target/arm/translate.c | 81 ++++++++++++++----------------------------
-file changed, 18 insertions(+), 1 deletion(-)
+file changed, 26 insertions(+), 55 deletions(-)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void gen_vfp_msr(TCGv_i32 tmp)
-             } else {
+     tcg_temp_free_i32(tmp);
-                 int i, loaded_base = 0;
+ }
-                 TCGv_i32 loaded_var;
-+                bool wback = extract32(insn, 21, 1);
+-static void gen_neon_dup_u8(TCGv_i32 var, int shift)
-                 /* Load/store multiple.  */
+-{
-                 addr = load_reg(s, rn);
+-    TCGv_i32 tmp = tcg_temp_new_i32();
-                 offset = 0;
+-    if (shift)
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+-        tcg_gen_shri_i32(var, var, shift);
-                     if (insn & (1 << i))
+-    tcg_gen_ext8u_i32(var, var);
-                         offset += 4;
+-    tcg_gen_shli_i32(tmp, var, 8);
 -    tcg_gen_or_i32(var, var, tmp);
 -    tcg_gen_shli_i32(tmp, var, 16);
 -    tcg_gen_or_i32(var, var, tmp);
 -    tcg_temp_free_i32(tmp);
 -}
 -
  static void gen_neon_dup_low16(TCGv_i32 var)
  {
      TCGv_i32 tmp = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static void gen_neon_dup_high16(TCGv_i32 var)
      tcg_temp_free_i32(tmp);
  }
 -static TCGv_i32 gen_load_and_replicate(DisasContext *s, TCGv_i32 addr, int size)
 -{
 -    /* Load a single Neon element and replicate into a 32 bit TCG reg */
 -    TCGv_i32 tmp = tcg_temp_new_i32();
 -    switch (size) {
 -    case 0:
 -        gen_aa32_ld8u(s, tmp, addr, get_mem_index(s));
 -        gen_neon_dup_u8(tmp, 0);
 -        break;
 -    case 1:
 -        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
 -        gen_neon_dup_low16(tmp);
 -        break;
 -    case 2:
 -        gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
 -        break;
 -    default: /* Avoid compiler warnings.  */
 -        abort();
 -    }
 -    return tmp;
 -}
 -
  static int handle_vsel(uint32_t insn, uint32_t rd, uint32_t rn, uint32_t rm,
                         uint32_t dp)
  {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
      int load;
      int shift;
      int n;
 +    int vec_size;
      TCGv_i32 addr;
      TCGv_i32 tmp;
      TCGv_i32 tmp2;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
              }
              addr = tcg_temp_new_i32();
              load_reg_var(s, addr, rn);
 -            if (nregs == 1) {
 -                /* VLD1 to all lanes: bit 5 indicates how many Dregs to write */
 -                tmp = gen_load_and_replicate(s, addr, size);
 -                tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 0));
 -                tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 1));
 -                if (insn & (1 << 5)) {
 -                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd + 1, 0));
 -                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd + 1, 1));
 -                }
 -                tcg_temp_free_i32(tmp);
 -            } else {
 -                /* VLD2/3/4 to all lanes: bit 5 indicates register stride */
 -                stride = (insn & (1 << 5)) ? 2 : 1;
 -                for (reg = 0; reg < nregs; reg++) {
 -                    tmp = gen_load_and_replicate(s, addr, size);
 -                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 0));
 -                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 1));
 -                    tcg_temp_free_i32(tmp);
 -                    tcg_gen_addi_i32(addr, addr, 1 << size);
 -                    rd += stride;
 +
 +            /* VLD1 to all lanes: bit 5 indicates how many Dregs to write.
 +             * VLD2/3/4 to all lanes: bit 5 indicates register stride.
 +             */
 +            stride = (insn & (1 << 5)) ? 2 : 1;
 +            vec_size = nregs == 1 ? stride * 8 : 8;
 +
 +            tmp = tcg_temp_new_i32();
 +            for (reg = 0; reg < nregs; reg++) {
 +                gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
 +                                s->be_data | size);
 +                if ((rd & 1) && vec_size == 16) {
 +                    /* We cannot write 16 bytes at once because the
 +                     * destination is unaligned.
 +                     */
 +                    tcg_gen_gvec_dup_i32(size, neon_reg_offset(rd, 0),
 +                                         8, 8, tmp);
 +                    tcg_gen_gvec_mov(0, neon_reg_offset(rd + 1, 0),
 +                                     neon_reg_offset(rd, 0), 8, 8);
 +                } else {
 +                    tcg_gen_gvec_dup_i32(size, neon_reg_offset(rd, 0),
 +                                         vec_size, vec_size, tmp);
                  }
-+
++                tcg_gen_addi_i32(addr, addr, 1 << size);
-                 if (insn & (1 << 24)) {
++                rd += stride;
-                     tcg_gen_addi_i32(addr, addr, -offset);
+             }
-                 }
++            tcg_temp_free_i32(tmp);
+             tcg_temp_free_i32(addr);
-+                if (s->v8m_stackcheck && rn == 13 && wback) {
+             stride = (1 << size) * nregs;
-+                    /*
+         } else {
 +                     * If the writeback is incrementing SP rather than
 +                     * decrementing it, and the initial SP is below the
 +                     * stack limit but the final written-back SP would
 +                     * be above, then then we must not perform any memory
 +                     * accesses, but it is IMPDEF whether we generate
 +                     * an exception. We choose to do so in this case.
 +                     * At this point 'addr' is the lowest address, so
 +                     * either the original SP (if incrementing) or our
 +                     * final SP (if decrementing), so that's what we check.
 +                     */
 +                    gen_helper_v8m_stackcheck(cpu_env, addr);
 +                }
 +
                  loaded_var = NULL;
                  for (i = 0; i < 16; i++) {
                      if ((insn & (1 << i)) == 0)
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                  if (loaded_base) {
                      store_reg(s, rn, loaded_var);
                  }
 -                if (insn & (1 << 21)) {
 +                if (wback) {
                      /* Base register writeback.  */
                      if (insn & (1 << 24)) {
                          tcg_gen_addi_i32(addr, addr, -offset);
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 18/33] target/arm: Rewrite vector gather first-fault loads
+[Qemu-devel] [PULL 39/45] target/arm: Reorg NEON VLD/VST all elements
 From: Richard Henderson <richard.henderson@linaro.org>
-This implements the feature for softmmu, and moves the
+Instead of shifts and masks, use direct loads and stores from the neon
-main loop out of a macro and into a function.
+register file.  Mirror the iteration structure of the ARM pseudocode
+more closely.  Correct the parameters of the VLD2 A2 insn.
 Note that this includes a bugfix for handling of the insn
 "VLD2 (multiple 2-element structures)" -- we were using an
 incorrect stride value.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181011205206.3552-19-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-15-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-sve.h    |  84 ++++++++---
+ target/arm/translate.c | 170 ++++++++++++++++++-----------------------
- target/arm/sve_helper.c    | 290 +++++++++++++++++++++++++++----------
+file changed, 74 insertions(+), 96 deletions(-)
- target/arm/translate-sve.c |  84 +++++------
-files changed, 321 insertions(+), 137 deletions(-)
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-sve.h
+--- a/target/arm/translate.c
-+++ b/target/arm/helper-sve.h
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(sve_ldsds_be_zd, TCG_CALL_NO_WG,
+@@ -XXX,XX +XXX,XX @@ static TCGv_i32 neon_load_reg(int reg, int pass)
+     return tmp;
  DEF_HELPER_FLAGS_6(sve_ldffbsu_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhsu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhsu_le_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffssu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhsu_be_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffss_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffss_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbss_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhss_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhss_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffhss_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbsu_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhsu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhsu_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffssu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhsu_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffss_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffss_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbss_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhss_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhss_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffhss_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbdu_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhdu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhdu_le_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffsdu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhdu_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffddu_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffsdu_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsdu_be_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffdd_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffdd_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbds_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhds_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhds_le_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffsds_zsu, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhds_be_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsds_le_zsu, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsds_be_zsu, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbdu_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhdu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhdu_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffsdu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhdu_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffddu_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffsdu_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsdu_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffdd_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffdd_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbds_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhds_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhds_le_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffsds_zss, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhds_be_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsds_le_zss, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsds_be_zss, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbdu_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhdu_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhdu_le_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffsdu_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhdu_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffddu_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffsdu_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsdu_be_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffdd_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffdd_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_ldffbds_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffhds_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhds_le_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
 -DEF_HELPER_FLAGS_6(sve_ldffsds_zd, TCG_CALL_NO_WG,
 +DEF_HELPER_FLAGS_6(sve_ldffhds_be_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsds_le_zd, TCG_CALL_NO_WG,
 +                   void, env, ptr, ptr, ptr, tl, i32)
 +DEF_HELPER_FLAGS_6(sve_ldffsds_be_zd, TCG_CALL_NO_WG,
                     void, env, ptr, ptr, ptr, tl, i32)
  DEF_HELPER_FLAGS_6(sve_stbs_zsu, TCG_CALL_NO_WG,
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/sve_helper.c
 +++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_LD1_ZPZ_D(dd_be, zd)
  /* First fault loads with a vector index.  */
 -#ifdef CONFIG_USER_ONLY
 +/* Load one element into VD+REG_OFF from (ENV,VADDR) without faulting.
 + * The controlling predicate is known to be true.  Return true if the
 + * load was successful.
 + */
 +typedef bool sve_ld1_nf_fn(CPUARMState *env, void *vd, intptr_t reg_off,
 +                           target_ulong vaddr, int mmu_idx);
 -#define DO_LDFF1_ZPZ(NAME, TYPEE, TYPEI, TYPEM, FN, H)                  \
 -void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
 -                  target_ulong base, uint32_t desc)                     \
 -{                                                                       \
 -    intptr_t i, oprsz = simd_oprsz(desc);                               \
 -    unsigned scale = simd_data(desc);                                   \
 -    uintptr_t ra = GETPC();                                             \
 -    bool first = true;                                                  \
 -    mmap_lock();                                                        \
 -    for (i = 0; i < oprsz; ) {                                          \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
 -        do {                                                            \
 -            TYPEM m = 0;                                                \
 -            if (pg & 1) {                                               \
 -                target_ulong off = *(TYPEI *)(vm + H(i));               \
 -                target_ulong addr = base + (off << scale);              \
 -                if (!first &&                                           \
 -                    page_check_range(addr, sizeof(TYPEM), PAGE_READ)) { \
 -                    record_fault(env, i, oprsz);                        \
 -                    goto exit;                                          \
 -                }                                                       \
 -                m = FN(env, addr, ra);                                  \
 -                first = false;                                          \
 -            }                                                           \
 -            *(TYPEE *)(vd + H(i)) = m;                                  \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);                   \
 -        } while (i & 15);                                               \
 -    }                                                                   \
 - exit:                                                                  \
 -    mmap_unlock();                                                      \
 +#ifdef CONFIG_SOFTMMU
 +#define DO_LD_NF(NAME, H, TYPEE, TYPEM, HOST) \
 +static bool sve_ld##NAME##_nf(CPUARMState *env, void *vd, intptr_t reg_off, \
 +                            target_ulong addr, int mmu_idx)                 \
 +{                                                                           \
 +    target_ulong next_page = -(addr | TARGET_PAGE_MASK);                    \
 +    if (likely(next_page - addr >= sizeof(TYPEM))) {                        \
 +        void *host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD, mmu_idx);  \
 +        if (likely(host)) {                                                 \
 +            TYPEM val = HOST(host);                                         \
 +            *(TYPEE *)(vd + H(reg_off)) = val;                              \
 +            return true;                                                    \
 +        }                                                                   \
 +    }                                                                       \
 +    return false;                                                           \
  }
--
- #else
++static void neon_load_element64(TCGv_i64 var, int reg, int ele, TCGMemOp mop)
 -
 -#define DO_LDFF1_ZPZ(NAME, TYPEE, TYPEI, TYPEM, FN, H)                  \
 -void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
 -                  target_ulong base, uint32_t desc)                     \
 -{                                                                       \
 -    g_assert_not_reached();                                             \
 +#define DO_LD_NF(NAME, H, TYPEE, TYPEM, HOST) \
 +static bool sve_ld##NAME##_nf(CPUARMState *env, void *vd, intptr_t reg_off, \
 +                            target_ulong addr, int mmu_idx)                 \
 +{                                                                           \
 +    if (likely(page_check_range(addr, sizeof(TYPEM), PAGE_READ))) {         \
 +        TYPEM val = HOST(g2h(addr));                                        \
 +        *(TYPEE *)(vd + H(reg_off)) = val;                                  \
 +        return true;                                                        \
 +    }                                                                       \
 +    return false;                                                           \
  }
 -
  #endif
 -#define DO_LDFF1_ZPZ_S(NAME, TYPEI, TYPEM, FN) \
 -    DO_LDFF1_ZPZ(NAME, uint32_t, TYPEI, TYPEM, FN, H1_4)
 -#define DO_LDFF1_ZPZ_D(NAME, TYPEI, TYPEM, FN) \
 -    DO_LDFF1_ZPZ(NAME, uint64_t, TYPEI, TYPEM, FN, )
 +DO_LD_NF(bsu, H1_4, uint32_t, uint8_t, ldub_p)
 +DO_LD_NF(bss, H1_4, uint32_t,  int8_t, ldsb_p)
 +DO_LD_NF(bdu,     , uint64_t, uint8_t, ldub_p)
 +DO_LD_NF(bds,     , uint64_t,  int8_t, ldsb_p)
 -DO_LDFF1_ZPZ_S(sve_ldffbsu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffhsu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffssu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffbss_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffhss_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
 +DO_LD_NF(hsu_le, H1_4, uint32_t, uint16_t, lduw_le_p)
 +DO_LD_NF(hss_le, H1_4, uint32_t,  int16_t, ldsw_le_p)
 +DO_LD_NF(hsu_be, H1_4, uint32_t, uint16_t, lduw_be_p)
 +DO_LD_NF(hss_be, H1_4, uint32_t,  int16_t, ldsw_be_p)
 +DO_LD_NF(hdu_le,     , uint64_t, uint16_t, lduw_le_p)
 +DO_LD_NF(hds_le,     , uint64_t,  int16_t, ldsw_le_p)
 +DO_LD_NF(hdu_be,     , uint64_t, uint16_t, lduw_be_p)
 +DO_LD_NF(hds_be,     , uint64_t,  int16_t, ldsw_be_p)
 -DO_LDFF1_ZPZ_S(sve_ldffbsu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffhsu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffssu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffbss_zss, int32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_S(sve_ldffhss_zss, int32_t, int16_t,  cpu_lduw_data_ra)
 +DO_LD_NF(ss_le,  H1_4, uint32_t, uint32_t, ldl_le_p)
 +DO_LD_NF(ss_be,  H1_4, uint32_t, uint32_t, ldl_be_p)
 +DO_LD_NF(sdu_le,     , uint64_t, uint32_t, ldl_le_p)
 +DO_LD_NF(sds_le,     , uint64_t,  int32_t, ldl_le_p)
 +DO_LD_NF(sdu_be,     , uint64_t, uint32_t, ldl_be_p)
 +DO_LD_NF(sds_be,     , uint64_t,  int32_t, ldl_be_p)
 -DO_LDFF1_ZPZ_D(sve_ldffbdu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffhdu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffsdu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffddu_zsu, uint32_t, uint64_t, cpu_ldq_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffbds_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffhds_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffsds_zsu, uint32_t, int32_t,  cpu_ldl_data_ra)
 +DO_LD_NF(dd_le,      , uint64_t, uint64_t, ldq_le_p)
 +DO_LD_NF(dd_be,      , uint64_t, uint64_t, ldq_be_p)
 -DO_LDFF1_ZPZ_D(sve_ldffbdu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffhdu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffsdu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffddu_zss, int32_t, uint64_t, cpu_ldq_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffbds_zss, int32_t, int8_t,   cpu_ldub_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffhds_zss, int32_t, int16_t,  cpu_lduw_data_ra)
 -DO_LDFF1_ZPZ_D(sve_ldffsds_zss, int32_t, int32_t,  cpu_ldl_data_ra)
 +/*
 + * Common helper for all gather first-faulting loads.
 + */
 +static inline void sve_ldff1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
 +                                target_ulong base, uint32_t desc, uintptr_t ra,
 +                                zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
 +                                sve_ld1_nf_fn *nonfault_fn)
 +{
-+    const int mmu_idx = cpu_mmu_index(env, false);
++    long offset = neon_element_offset(reg, ele, mop & MO_SIZE);
-+    intptr_t reg_off, reg_max = simd_oprsz(desc);
++
-+    unsigned scale = simd_data(desc);
++    switch (mop) {
-+    target_ulong addr;
++    case MO_UB:
++        tcg_gen_ld8u_i64(var, cpu_env, offset);
--DO_LDFF1_ZPZ_D(sve_ldffbdu_zd, uint64_t, uint8_t,  cpu_ldub_data_ra)
++        break;
--DO_LDFF1_ZPZ_D(sve_ldffhdu_zd, uint64_t, uint16_t, cpu_lduw_data_ra)
++    case MO_UW:
--DO_LDFF1_ZPZ_D(sve_ldffsdu_zd, uint64_t, uint32_t, cpu_ldl_data_ra)
++        tcg_gen_ld16u_i64(var, cpu_env, offset);
--DO_LDFF1_ZPZ_D(sve_ldffddu_zd, uint64_t, uint64_t, cpu_ldq_data_ra)
++        break;
--DO_LDFF1_ZPZ_D(sve_ldffbds_zd, uint64_t, int8_t,   cpu_ldub_data_ra)
++    case MO_UL:
--DO_LDFF1_ZPZ_D(sve_ldffhds_zd, uint64_t, int16_t,  cpu_lduw_data_ra)
++        tcg_gen_ld32u_i64(var, cpu_env, offset);
--DO_LDFF1_ZPZ_D(sve_ldffsds_zd, uint64_t, int32_t,  cpu_ldl_data_ra)
++        break;
-+    /* Skip to the first true predicate.  */
++    case MO_Q:
-+    reg_off = find_next_active(vg, 0, reg_max, MO_32);
++        tcg_gen_ld_i64(var, cpu_env, offset);
-+    if (likely(reg_off < reg_max)) {
++        break;
-+        /* Perform one normal read, which will fault or not.  */
++    default:
-+        set_helper_retaddr(ra);
++        g_assert_not_reached();
 +        addr = off_fn(vm, reg_off);
 +        addr = base + (addr << scale);
 +        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
 +
 +        /* The rest of the reads will be non-faulting.  */
 +        set_helper_retaddr(0);
 +    }
 +
 +    /* After any fault, zero the leading predicated false elements.  */
 +    swap_memzero(vd, reg_off);
 +
 +    while (likely((reg_off += 4) < reg_max)) {
 +        uint64_t pg = *(uint64_t *)(vg + (reg_off >> 6) * 8);
 +        if (likely((pg >> (reg_off & 63)) & 1)) {
 +            addr = off_fn(vm, reg_off);
 +            addr = base + (addr << scale);
 +            if (!nonfault_fn(env, vd, reg_off, addr, mmu_idx)) {
 +                record_fault(env, reg_off, reg_max);
 +                break;
 +            }
 +        } else {
 +            *(uint32_t *)(vd + H1_4(reg_off)) = 0;
 +        }
 +    }
 +}
 +
-+static inline void sve_ldff1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
+ static void neon_store_reg(int reg, int pass, TCGv_i32 var)
-+                                target_ulong base, uint32_t desc, uintptr_t ra,
+ {
-+                                zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
+     tcg_gen_st_i32(var, cpu_env, neon_reg_offset(reg, pass));
-+                                sve_ld1_nf_fn *nonfault_fn)
+     tcg_temp_free_i32(var);
  }
 +static void neon_store_element64(int reg, int ele, TCGMemOp size, TCGv_i64 var)
 +{
-+    const int mmu_idx = cpu_mmu_index(env, false);
++    long offset = neon_element_offset(reg, ele, size);
-+    intptr_t reg_off, reg_max = simd_oprsz(desc);
++
-+    unsigned scale = simd_data(desc);
++    switch (size) {
-+    target_ulong addr;
++    case MO_8:
-+
++        tcg_gen_st8_i64(var, cpu_env, offset);
-+    /* Skip to the first true predicate.  */
++        break;
-+    reg_off = find_next_active(vg, 0, reg_max, MO_64);
++    case MO_16:
-+    if (likely(reg_off < reg_max)) {
++        tcg_gen_st16_i64(var, cpu_env, offset);
-+        /* Perform one normal read, which will fault or not.  */
++        break;
-+        set_helper_retaddr(ra);
++    case MO_32:
-+        addr = off_fn(vm, reg_off);
++        tcg_gen_st32_i64(var, cpu_env, offset);
-+        addr = base + (addr << scale);
++        break;
-+        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
++    case MO_64:
-+
++        tcg_gen_st_i64(var, cpu_env, offset);
-+        /* The rest of the reads will be non-faulting.  */
++        break;
-+        set_helper_retaddr(0);
++    default:
-+    }
++        g_assert_not_reached();
 +
 +    /* After any fault, zero the leading predicated false elements.  */
 +    swap_memzero(vd, reg_off);
 +
 +    while (likely((reg_off += 8) < reg_max)) {
 +        uint8_t pg = *(uint8_t *)(vg + H1(reg_off >> 3));
 +        if (likely(pg & 1)) {
 +            addr = off_fn(vm, reg_off);
 +            addr = base + (addr << scale);
 +            if (!nonfault_fn(env, vd, reg_off, addr, mmu_idx)) {
 +                record_fault(env, reg_off, reg_max);
 +                break;
 +            }
 +        } else {
 +            *(uint64_t *)(vd + reg_off) = 0;
 +        }
 +    }
 +}
 +
-+#define DO_LDFF1_ZPZ_S(MEM, OFS) \
+ static inline void neon_load_reg64(TCGv_i64 var, int reg)
-+void HELPER(sve_ldff##MEM##_##OFS)                                      \
+ {
-+    (CPUARMState *env, void *vd, void *vg, void *vm,                    \
+     tcg_gen_ld_i64(var, cpu_env, vfp_reg_offset(1, reg));
-+     target_ulong base, uint32_t desc)                                  \
+@@ -XXX,XX +XXX,XX @@ static struct {
-+{                                                                       \
+     int interleave;
-+    sve_ldff1_zs(env, vd, vg, vm, base, desc, GETPC(),                  \
+     int spacing;
-+                 off_##OFS##_s, sve_ld1##MEM##_tlb, sve_ld##MEM##_nf);  \
+ } const neon_ls_element_type[11] = {
-+}
+-    {4, 4, 1},
-+
+-    {4, 4, 2},
-+#define DO_LDFF1_ZPZ_D(MEM, OFS) \
++    {1, 4, 1},
-+void HELPER(sve_ldff##MEM##_##OFS)                                      \
++    {1, 4, 2},
-+    (CPUARMState *env, void *vd, void *vg, void *vm,                    \
+     {4, 1, 1},
-+     target_ulong base, uint32_t desc)                                  \
+-    {4, 2, 1},
-+{                                                                       \
+-    {3, 3, 1},
-+    sve_ldff1_zd(env, vd, vg, vm, base, desc, GETPC(),                  \
+-    {3, 3, 2},
-+                 off_##OFS##_d, sve_ld1##MEM##_tlb, sve_ld##MEM##_nf);  \
++    {2, 2, 2},
-+}
++    {1, 3, 1},
-+
++    {1, 3, 2},
-+DO_LDFF1_ZPZ_S(bsu, zsu)
+     {3, 1, 1},
-+DO_LDFF1_ZPZ_S(bsu, zss)
+     {1, 1, 1},
-+DO_LDFF1_ZPZ_D(bdu, zsu)
+-    {2, 2, 1},
-+DO_LDFF1_ZPZ_D(bdu, zss)
+-    {2, 2, 2},
-+DO_LDFF1_ZPZ_D(bdu, zd)
++    {1, 2, 1},
-+
++    {1, 2, 2},
-+DO_LDFF1_ZPZ_S(bss, zsu)
+     {2, 1, 1}
 +DO_LDFF1_ZPZ_S(bss, zss)
 +DO_LDFF1_ZPZ_D(bds, zsu)
 +DO_LDFF1_ZPZ_D(bds, zss)
 +DO_LDFF1_ZPZ_D(bds, zd)
 +
 +DO_LDFF1_ZPZ_S(hsu_le, zsu)
 +DO_LDFF1_ZPZ_S(hsu_le, zss)
 +DO_LDFF1_ZPZ_D(hdu_le, zsu)
 +DO_LDFF1_ZPZ_D(hdu_le, zss)
 +DO_LDFF1_ZPZ_D(hdu_le, zd)
 +
 +DO_LDFF1_ZPZ_S(hsu_be, zsu)
 +DO_LDFF1_ZPZ_S(hsu_be, zss)
 +DO_LDFF1_ZPZ_D(hdu_be, zsu)
 +DO_LDFF1_ZPZ_D(hdu_be, zss)
 +DO_LDFF1_ZPZ_D(hdu_be, zd)
 +
 +DO_LDFF1_ZPZ_S(hss_le, zsu)
 +DO_LDFF1_ZPZ_S(hss_le, zss)
 +DO_LDFF1_ZPZ_D(hds_le, zsu)
 +DO_LDFF1_ZPZ_D(hds_le, zss)
 +DO_LDFF1_ZPZ_D(hds_le, zd)
 +
 +DO_LDFF1_ZPZ_S(hss_be, zsu)
 +DO_LDFF1_ZPZ_S(hss_be, zss)
 +DO_LDFF1_ZPZ_D(hds_be, zsu)
 +DO_LDFF1_ZPZ_D(hds_be, zss)
 +DO_LDFF1_ZPZ_D(hds_be, zd)
 +
 +DO_LDFF1_ZPZ_S(ss_le,  zsu)
 +DO_LDFF1_ZPZ_S(ss_le,  zss)
 +DO_LDFF1_ZPZ_D(sdu_le, zsu)
 +DO_LDFF1_ZPZ_D(sdu_le, zss)
 +DO_LDFF1_ZPZ_D(sdu_le, zd)
 +
 +DO_LDFF1_ZPZ_S(ss_be,  zsu)
 +DO_LDFF1_ZPZ_S(ss_be,  zss)
 +DO_LDFF1_ZPZ_D(sdu_be, zsu)
 +DO_LDFF1_ZPZ_D(sdu_be, zss)
 +DO_LDFF1_ZPZ_D(sdu_be, zd)
 +
 +DO_LDFF1_ZPZ_D(sds_le, zsu)
 +DO_LDFF1_ZPZ_D(sds_le, zss)
 +DO_LDFF1_ZPZ_D(sds_le, zd)
 +
 +DO_LDFF1_ZPZ_D(sds_be, zsu)
 +DO_LDFF1_ZPZ_D(sds_be, zss)
 +DO_LDFF1_ZPZ_D(sds_be, zd)
 +
 +DO_LDFF1_ZPZ_D(dd_le, zsu)
 +DO_LDFF1_ZPZ_D(dd_le, zss)
 +DO_LDFF1_ZPZ_D(dd_le, zd)
 +
 +DO_LDFF1_ZPZ_D(dd_be, zsu)
 +DO_LDFF1_ZPZ_D(dd_be, zss)
 +DO_LDFF1_ZPZ_D(dd_be, zd)
  /* Stores with a vector index.  */
 diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-sve.c
 +++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][2][3] = {
        /* First-fault */
        { { { gen_helper_sve_ldffbss_zsu,
 -            gen_helper_sve_ldffhss_zsu,
 +            gen_helper_sve_ldffhss_le_zsu,
              NULL, },
            { gen_helper_sve_ldffbsu_zsu,
 -            gen_helper_sve_ldffhsu_zsu,
 -            gen_helper_sve_ldffssu_zsu, } },
 +            gen_helper_sve_ldffhsu_le_zsu,
 +            gen_helper_sve_ldffss_le_zsu, } },
          { { gen_helper_sve_ldffbss_zss,
 -            gen_helper_sve_ldffhss_zss,
 +            gen_helper_sve_ldffhss_le_zss,
              NULL, },
            { gen_helper_sve_ldffbsu_zss,
 -            gen_helper_sve_ldffhsu_zss,
 -            gen_helper_sve_ldffssu_zss, } } } },
 +            gen_helper_sve_ldffhsu_le_zss,
 +            gen_helper_sve_ldffss_le_zss, } } } },
      /* Big-endian */
      { { { { gen_helper_sve_ldbss_zsu,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][2][3] = {
        /* First-fault */
        { { { gen_helper_sve_ldffbss_zsu,
 -            gen_helper_sve_ldffhss_zsu,
 +            gen_helper_sve_ldffhss_be_zsu,
              NULL, },
            { gen_helper_sve_ldffbsu_zsu,
 -            gen_helper_sve_ldffhsu_zsu,
 -            gen_helper_sve_ldffssu_zsu, } },
 +            gen_helper_sve_ldffhsu_be_zsu,
 +            gen_helper_sve_ldffss_be_zsu, } },
          { { gen_helper_sve_ldffbss_zss,
 -            gen_helper_sve_ldffhss_zss,
 +            gen_helper_sve_ldffhss_be_zss,
              NULL, },
            { gen_helper_sve_ldffbsu_zss,
 -            gen_helper_sve_ldffhsu_zss,
 -            gen_helper_sve_ldffssu_zss, } } } },
 +            gen_helper_sve_ldffhsu_be_zss,
 +            gen_helper_sve_ldffss_be_zss, } } } },
  };
- /* Note that we overload xs=2 to indicate 64-bit offset.  */
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][2][3][2][4] = {
+     int shift;
+     int n;
-       /* First-fault */
+     int vec_size;
-       { { { gen_helper_sve_ldffbds_zsu,
++    int mmu_idx;
--            gen_helper_sve_ldffhds_zsu,
++    TCGMemOp endian;
--            gen_helper_sve_ldffsds_zsu,
+     TCGv_i32 addr;
-+            gen_helper_sve_ldffhds_le_zsu,
+     TCGv_i32 tmp;
-+            gen_helper_sve_ldffsds_le_zsu,
+     TCGv_i32 tmp2;
-             NULL, },
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-           { gen_helper_sve_ldffbdu_zsu,
+     rn = (insn >> 16) & 0xf;
--            gen_helper_sve_ldffhdu_zsu,
+     rm = insn & 0xf;
--            gen_helper_sve_ldffsdu_zsu,
+     load = (insn & (1 << 21)) != 0;
--            gen_helper_sve_ldffddu_zsu, } },
++    endian = s->be_data;
-+            gen_helper_sve_ldffhdu_le_zsu,
++    mmu_idx = get_mem_index(s);
-+            gen_helper_sve_ldffsdu_le_zsu,
+     if ((insn & (1 << 23)) == 0) {
-+            gen_helper_sve_ldffdd_le_zsu, } },
+         /* Load store all elements.  */
-         { { gen_helper_sve_ldffbds_zss,
+         op = (insn >> 8) & 0xf;
--            gen_helper_sve_ldffhds_zss,
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
--            gen_helper_sve_ldffsds_zss,
+         nregs = neon_ls_element_type[op].nregs;
-+            gen_helper_sve_ldffhds_le_zss,
+         interleave = neon_ls_element_type[op].interleave;
-+            gen_helper_sve_ldffsds_le_zss,
+         spacing = neon_ls_element_type[op].spacing;
-             NULL, },
+-        if (size == 3 && (interleave | spacing) != 1)
-           { gen_helper_sve_ldffbdu_zss,
++        if (size == 3 && (interleave | spacing) != 1) {
--            gen_helper_sve_ldffhdu_zss,
+             return 1;
--            gen_helper_sve_ldffsdu_zss,
++        }
--            gen_helper_sve_ldffddu_zss, } },
++        tmp64 = tcg_temp_new_i64();
-+            gen_helper_sve_ldffhdu_le_zss,
+         addr = tcg_temp_new_i32();
-+            gen_helper_sve_ldffsdu_le_zss,
++        tmp2 = tcg_const_i32(1 << size);
-+            gen_helper_sve_ldffdd_le_zss, } },
+         load_reg_var(s, addr, rn);
-         { { gen_helper_sve_ldffbds_zd,
+-        stride = (1 << size) * interleave;
--            gen_helper_sve_ldffhds_zd,
+         for (reg = 0; reg < nregs; reg++) {
--            gen_helper_sve_ldffsds_zd,
+-            if (interleave > 2 || (interleave == 2 && nregs == 2)) {
-+            gen_helper_sve_ldffhds_le_zd,
+-                load_reg_var(s, addr, rn);
-+            gen_helper_sve_ldffsds_le_zd,
+-                tcg_gen_addi_i32(addr, addr, (1 << size) * reg);
-             NULL, },
+-            } else if (interleave == 2 && nregs == 4 && reg == 2) {
-           { gen_helper_sve_ldffbdu_zd,
+-                load_reg_var(s, addr, rn);
--            gen_helper_sve_ldffhdu_zd,
+-                tcg_gen_addi_i32(addr, addr, 1 << size);
--            gen_helper_sve_ldffsdu_zd,
+-            }
--            gen_helper_sve_ldffddu_zd, } } } },
+-            if (size == 3) {
-+            gen_helper_sve_ldffhdu_le_zd,
+-                tmp64 = tcg_temp_new_i64();
-+            gen_helper_sve_ldffsdu_le_zd,
+-                if (load) {
-+            gen_helper_sve_ldffdd_le_zd, } } } },
+-                    gen_aa32_ld64(s, tmp64, addr, get_mem_index(s));
+-                    neon_store_reg64(tmp64, rd);
-     /* Big-endian */
+-                } else {
-     { { { { gen_helper_sve_ldbds_zsu,
+-                    neon_load_reg64(tmp64, rd);
-@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][2][3][2][4] = {
+-                    gen_aa32_st64(s, tmp64, addr, get_mem_index(s));
+-                }
-       /* First-fault */
+-                tcg_temp_free_i64(tmp64);
-       { { { gen_helper_sve_ldffbds_zsu,
+-                tcg_gen_addi_i32(addr, addr, stride);
--            gen_helper_sve_ldffhds_zsu,
+-            } else {
--            gen_helper_sve_ldffsds_zsu,
+-                for (pass = 0; pass < 2; pass++) {
-+            gen_helper_sve_ldffhds_be_zsu,
+-                    if (size == 2) {
-+            gen_helper_sve_ldffsds_be_zsu,
+-                        if (load) {
-             NULL, },
+-                            tmp = tcg_temp_new_i32();
-           { gen_helper_sve_ldffbdu_zsu,
+-                            gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
--            gen_helper_sve_ldffhdu_zsu,
+-                            neon_store_reg(rd, pass, tmp);
--            gen_helper_sve_ldffsdu_zsu,
+-                        } else {
--            gen_helper_sve_ldffddu_zsu, } },
+-                            tmp = neon_load_reg(rd, pass);
-+            gen_helper_sve_ldffhdu_be_zsu,
+-                            gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-+            gen_helper_sve_ldffsdu_be_zsu,
+-                            tcg_temp_free_i32(tmp);
-+            gen_helper_sve_ldffdd_be_zsu, } },
+-                        }
-         { { gen_helper_sve_ldffbds_zss,
+-                        tcg_gen_addi_i32(addr, addr, stride);
--            gen_helper_sve_ldffhds_zss,
+-                    } else if (size == 1) {
--            gen_helper_sve_ldffsds_zss,
+-                        if (load) {
-+            gen_helper_sve_ldffhds_be_zss,
+-                            tmp = tcg_temp_new_i32();
-+            gen_helper_sve_ldffsds_be_zss,
+-                            gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-             NULL, },
+-                            tcg_gen_addi_i32(addr, addr, stride);
-           { gen_helper_sve_ldffbdu_zss,
+-                            tmp2 = tcg_temp_new_i32();
--            gen_helper_sve_ldffhdu_zss,
+-                            gen_aa32_ld16u(s, tmp2, addr, get_mem_index(s));
--            gen_helper_sve_ldffsdu_zss,
+-                            tcg_gen_addi_i32(addr, addr, stride);
--            gen_helper_sve_ldffddu_zss, } },
+-                            tcg_gen_shli_i32(tmp2, tmp2, 16);
-+            gen_helper_sve_ldffhdu_be_zss,
+-                            tcg_gen_or_i32(tmp, tmp, tmp2);
-+            gen_helper_sve_ldffsdu_be_zss,
+-                            tcg_temp_free_i32(tmp2);
-+            gen_helper_sve_ldffdd_be_zss, } },
+-                            neon_store_reg(rd, pass, tmp);
-         { { gen_helper_sve_ldffbds_zd,
+-                        } else {
--            gen_helper_sve_ldffhds_zd,
+-                            tmp = neon_load_reg(rd, pass);
--            gen_helper_sve_ldffsds_zd,
+-                            tmp2 = tcg_temp_new_i32();
-+            gen_helper_sve_ldffhds_be_zd,
+-                            tcg_gen_shri_i32(tmp2, tmp, 16);
-+            gen_helper_sve_ldffsds_be_zd,
+-                            gen_aa32_st16(s, tmp, addr, get_mem_index(s));
-             NULL, },
+-                            tcg_temp_free_i32(tmp);
-           { gen_helper_sve_ldffbdu_zd,
+-                            tcg_gen_addi_i32(addr, addr, stride);
--            gen_helper_sve_ldffhdu_zd,
+-                            gen_aa32_st16(s, tmp2, addr, get_mem_index(s));
--            gen_helper_sve_ldffsdu_zd,
+-                            tcg_temp_free_i32(tmp2);
--            gen_helper_sve_ldffddu_zd, } } } },
+-                            tcg_gen_addi_i32(addr, addr, stride);
-+            gen_helper_sve_ldffhdu_be_zd,
+-                        }
-+            gen_helper_sve_ldffsdu_be_zd,
+-                    } else /* size == 0 */ {
-+            gen_helper_sve_ldffdd_be_zd, } } } },
+-                        if (load) {
- };
+-                            tmp2 = NULL;
+-                            for (n = 0; n < 4; n++) {
- static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
+-                                tmp = tcg_temp_new_i32();
 -                                gen_aa32_ld8u(s, tmp, addr, get_mem_index(s));
 -                                tcg_gen_addi_i32(addr, addr, stride);
 -                                if (n == 0) {
 -                                    tmp2 = tmp;
 -                                } else {
 -                                    tcg_gen_shli_i32(tmp, tmp, n * 8);
 -                                    tcg_gen_or_i32(tmp2, tmp2, tmp);
 -                                    tcg_temp_free_i32(tmp);
 -                                }
 -                            }
 -                            neon_store_reg(rd, pass, tmp2);
 -                        } else {
 -                            tmp2 = neon_load_reg(rd, pass);
 -                            for (n = 0; n < 4; n++) {
 -                                tmp = tcg_temp_new_i32();
 -                                if (n == 0) {
 -                                    tcg_gen_mov_i32(tmp, tmp2);
 -                                } else {
 -                                    tcg_gen_shri_i32(tmp, tmp2, n * 8);
 -                                }
 -                                gen_aa32_st8(s, tmp, addr, get_mem_index(s));
 -                                tcg_temp_free_i32(tmp);
 -                                tcg_gen_addi_i32(addr, addr, stride);
 -                            }
 -                            tcg_temp_free_i32(tmp2);
 -                        }
 +            for (n = 0; n < 8 >> size; n++) {
 +                int xs;
 +                for (xs = 0; xs < interleave; xs++) {
 +                    int tt = rd + reg + spacing * xs;
 +
 +                    if (load) {
 +                        gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                        neon_store_element64(tt, n, size, tmp64);
 +                    } else {
 +                        neon_load_element64(tmp64, tt, n, size);
 +                        gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
                      }
 +                    tcg_gen_add_i32(addr, addr, tmp2);
                  }
              }
 -            rd += spacing;
          }
          tcg_temp_free_i32(addr);
 -        stride = nregs * 8;
 +        tcg_temp_free_i32(tmp2);
 +        tcg_temp_free_i64(tmp64);
 +        stride = nregs * interleave * 8;
      } else {
          size = (insn >> 10) & 3;
          if (size == 3) {
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 24/33] target/arm: Add some comments in Thumb decode
+[Qemu-devel] [PULL 40/45] target/arm: Promote consecutive memory ops for aa32
-Add some comments to the Thumb decoder indicating what bits
+From: Richard Henderson <richard.henderson@linaro.org>
 of the instruction have been decoded at various points in
 the code.
-This is not an exhaustive set of comments; we're gradually
+For a sequence of loads or stores from a single register,
-adding comments as we work with particular bits of the code.
+little-endian operations can be promoted to an 8-byte op.
 This can reduce the number of operations by a factor of 8.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-20-richard.henderson@linaro.org
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181002163556.10279-6-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 20 +++++++++++++++++---
+ target/arm/translate.c | 10 ++++++++++
-file changed, 17 insertions(+), 3 deletions(-)
+file changed, 10 insertions(+)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-             tmp2 = load_reg(s, rm);
+         if (size == 3 && (interleave | spacing) != 1) {
-             if ((insn & 0x70) != 0)
+             return 1;
                  goto illegal_op;
 +            /*
 +             * 0b1111_1010_0xxx_xxxx_1111_xxxx_0000_xxxx:
 +             *  - MOV, MOVS (register-shifted register), flagsetting
 +             */
              op = (insn >> 21) & 3;
              logic_cc = (insn & (1 << 20)) != 0;
              gen_arm_shift_reg(tmp, op, tmp2, logic_cc);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
          rd = insn & 7;
          op = (insn >> 11) & 3;
          if (op == 3) {
 -            /* add/subtract */
 +            /*
 +             * 0b0001_1xxx_xxxx_xxxx
 +             *  - Add, subtract (three low registers)
 +             *  - Add, subtract (two low registers and immediate)
 +             */
              rn = (insn >> 3) & 7;
              tmp = load_reg(s, rn);
              if (insn & (1 << 10)) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
          }
-         break;
++        /* For our purposes, bytes are always little-endian.  */
-     case 2: case 3:
++        if (size == 0) {
--        /* arithmetic large immediate */
++            endian = MO_LE;
-+        /*
++        }
-+         * 0b001x_xxxx_xxxx_xxxx
++        /* Consecutive little-endian elements from a single register
-+         *  - Add, subtract, compare, move (one low register and immediate)
++         * can be promoted to a larger little-endian operation.
 +         */
-         op = (insn >> 11) & 3;
++        if (interleave == 1 && endian == MO_LE) {
-         rd = (insn >> 8) & 0x7;
++            size = 3;
-         if (op == 0) { /* mov */
++        }
-@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
+         tmp64 = tcg_temp_new_i64();
-             break;
+         addr = tcg_temp_new_i32();
-         }
+         tmp2 = tcg_const_i32(1 << size);
 -        /* data processing register */
 +        /*
 +         * 0b0100_00xx_xxxx_xxxx
 +         *  - Data-processing (two low registers)
 +         */
          rd = insn & 7;
          rm = (insn >> 3) & 7;
          op = (insn >> 6) & 0xf;
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 11/33] target/arm: Rewrite helper_sve_ld1*_r using pages
+[Qemu-devel] [PULL 41/45] target/arm: Reorg NEON VLD/VST single element to one lane
 From: Richard Henderson <richard.henderson@linaro.org>
-Uses tlb_vaddr_to_host for correct operation with softmmu.
+Instead of shifts and masks, use direct loads and stores from
-Optimize for accesses within a single page or pair of pages.
+the neon register file.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181011205206.3552-21-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181005175350.30752-8-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/sve_helper.c | 731 +++++++++++++++++++++++++++++++---------
+ target/arm/translate.c | 92 +++++++++++++++++++++++-------------------
-file changed, 569 insertions(+), 162 deletions(-)
+file changed, 50 insertions(+), 42 deletions(-)
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
+diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void swap_memmove(void *vd, void *vs, size_t n)
+@@ -XXX,XX +XXX,XX @@ static TCGv_i32 neon_load_reg(int reg, int pass)
-     }
+     return tmp;
  }
-+/* Similarly for memset of 0.  */
++static void neon_load_element(TCGv_i32 var, int reg, int ele, TCGMemOp mop)
 +static void swap_memzero(void *vd, size_t n)
 +{
-+    uintptr_t d = (uintptr_t)vd;
++    long offset = neon_element_offset(reg, ele, mop & MO_SIZE);
 +    uintptr_t o = (d | n) & 7;
 +    size_t i;
 +
-+    /* Usually, the first bit of a predicate is set, so N is 0.  */
++    switch (mop) {
-+    if (likely(n == 0)) {
++    case MO_UB:
-+        return;
++        tcg_gen_ld8u_i32(var, cpu_env, offset);
 +    }
 +
 +#ifndef HOST_WORDS_BIGENDIAN
 +    o = 0;
 +#endif
 +    switch (o) {
 +    case 0:
 +        memset(vd, 0, n);
 +        break;
-+
++    case MO_UW:
-+    case 4:
++        tcg_gen_ld16u_i32(var, cpu_env, offset);
 +        for (i = 0; i < n; i += 4) {
 +            *(uint32_t *)H1_4(d + i) = 0;
 +        }
 +        break;
-+
++    case MO_UL:
-+    case 2:
++        tcg_gen_ld_i32(var, cpu_env, offset);
 +    case 6:
 +        for (i = 0; i < n; i += 2) {
 +            *(uint16_t *)H1_2(d + i) = 0;
 +        }
 +        break;
-+
 +    default:
-+        for (i = 0; i < n; i++) {
++        g_assert_not_reached();
 +            *(uint8_t *)H1(d + i) = 0;
 +        }
 +        break;
 +    }
 +}
 +
- void HELPER(sve_ext)(void *vd, void *vn, void *vm, uint32_t desc)
+ static void neon_load_element64(TCGv_i64 var, int reg, int ele, TCGMemOp mop)
  {
-     intptr_t opr_sz = simd_oprsz(desc);
+     long offset = neon_element_offset(reg, ele, mop & MO_SIZE);
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcmla_zpzzz_d)(CPUARMState *env, void *vg, uint32_t desc)
+@@ -XXX,XX +XXX,XX @@ static void neon_store_reg(int reg, int pass, TCGv_i32 var)
- /*
+     tcg_temp_free_i32(var);
-  * Load contiguous data, protected by a governing predicate.
+ }
-  */
--#define DO_LD1(NAME, FN, TYPEE, TYPEM, H)                  \
++static void neon_store_element(int reg, int ele, TCGMemOp size, TCGv_i32 var)
--static void do_##NAME(CPUARMState *env, void *vd, void *vg, \
++{
--                      target_ulong addr, intptr_t oprsz,   \
++    long offset = neon_element_offset(reg, ele, size);
 -                      uintptr_t ra)                        \
 -{                                                          \
 -    intptr_t i = 0;                                        \
 -    do {                                                   \
 -        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
 -        do {                                               \
 -            TYPEM m = 0;                                   \
 -            if (pg & 1) {                                  \
 -                m = FN(env, addr, ra);                     \
 -            }                                              \
 -            *(TYPEE *)(vd + H(i)) = m;                     \
 -            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
 -            addr += sizeof(TYPEM);                         \
 -        } while (i & 15);                                  \
 -    } while (i < oprsz);                                   \
 -}                                                          \
 -void HELPER(NAME)(CPUARMState *env, void *vg,              \
 -                  target_ulong addr, uint32_t desc)        \
 -{                                                          \
 -    do_##NAME(env, &env->vfp.zregs[simd_data(desc)], vg,   \
 -              addr, simd_oprsz(desc), GETPC());            \
 +
-+/*
++    switch (size) {
-+ * Load elements into @vd, controlled by @vg, from @host + @mem_ofs.
++    case MO_8:
-+ * Memory is valid through @host + @mem_max.  The register element
++        tcg_gen_st8_i32(var, cpu_env, offset);
-+ * indicies are inferred from @mem_ofs, as modified by the types for
++        break;
-+ * which the helper is built.  Return the @mem_ofs of the first element
++    case MO_16:
-+ * not loaded (which is @mem_max if they are all loaded).
++        tcg_gen_st16_i32(var, cpu_env, offset);
-+ *
++        break;
-+ * For softmmu, we have fully validated the guest page.  For user-only,
++    case MO_32:
-+ * we cannot fully validate without taking the mmap lock, but since we
++        tcg_gen_st_i32(var, cpu_env, offset);
-+ * know the access is within one host page, if any access is valid they
++        break;
-+ * all must be valid.  However, when @vg is all false, it may be that
++    default:
-+ * no access is valid.
++        g_assert_not_reached();
 + */
 +typedef intptr_t sve_ld1_host_fn(void *vd, void *vg, void *host,
 +                                 intptr_t mem_ofs, intptr_t mem_max);
 +
 +/*
 + * Load one element into @vd + @reg_off from (@env, @vaddr, @ra).
 + * The controlling predicate is known to be true.
 + */
 +typedef void sve_ld1_tlb_fn(CPUARMState *env, void *vd, intptr_t reg_off,
 +                            target_ulong vaddr, int mmu_idx, uintptr_t ra);
 +
 +/*
 + * Generate the above primitives.
 + */
 +
 +#define DO_LD_HOST(NAME, H, TYPEE, TYPEM, HOST) \
 +static intptr_t sve_##NAME##_host(void *vd, void *vg, void *host,           \
 +                                  intptr_t mem_off, const intptr_t mem_max) \
 +{                                                                           \
 +    intptr_t reg_off = mem_off * (sizeof(TYPEE) / sizeof(TYPEM));           \
 +    uint64_t *pg = vg;                                                      \
 +    while (mem_off + sizeof(TYPEM) <= mem_max) {                            \
 +        TYPEM val = 0;                                                      \
 +        if (likely((pg[reg_off >> 6] >> (reg_off & 63)) & 1)) {             \
 +            val = HOST(host + mem_off);                                     \
 +        }                                                                   \
 +        *(TYPEE *)(vd + H(reg_off)) = val;                                  \
 +        mem_off += sizeof(TYPEM), reg_off += sizeof(TYPEE);                 \
 +    }                                                                       \
 +    return mem_off;                                                         \
  }
 +#ifdef CONFIG_SOFTMMU
 +#define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB) \
 +static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 +                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +{                                                                           \
 +    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
 +    TYPEM val = TLB(env, addr, oi, ra);                                     \
 +    *(TYPEE *)(vd + H(reg_off)) = val;                                      \
 +}
 +#else
 +#define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB)                  \
 +static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
 +                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
 +{                                                                           \
 +    TYPEM val = HOST(g2h(addr));                                            \
 +    *(TYPEE *)(vd + H(reg_off)) = val;                                      \
 +}
 +#endif
 +
 +#define DO_LD_PRIM_1(NAME, H, TE, TM)                   \
 +    DO_LD_HOST(NAME, H, TE, TM, ldub_p)                 \
 +    DO_LD_TLB(NAME, H, TE, TM, ldub_p, 0, helper_ret_ldub_mmu)
 +
 +DO_LD_PRIM_1(ld1bb,  H1,   uint8_t,  uint8_t)
 +DO_LD_PRIM_1(ld1bhu, H1_2, uint16_t, uint8_t)
 +DO_LD_PRIM_1(ld1bhs, H1_2, uint16_t,  int8_t)
 +DO_LD_PRIM_1(ld1bsu, H1_4, uint32_t, uint8_t)
 +DO_LD_PRIM_1(ld1bss, H1_4, uint32_t,  int8_t)
 +DO_LD_PRIM_1(ld1bdu,     , uint64_t, uint8_t)
 +DO_LD_PRIM_1(ld1bds,     , uint64_t,  int8_t)
 +
 +#define DO_LD_PRIM_2(NAME, end, MOEND, H, TE, TM, PH, PT)  \
 +    DO_LD_HOST(NAME##_##end, H, TE, TM, PH##_##end##_p)    \
 +    DO_LD_TLB(NAME##_##end, H, TE, TM, PH##_##end##_p,     \
 +              MOEND, helper_##end##_##PT##_mmu)
 +
 +DO_LD_PRIM_2(ld1hh,  le, MO_LE, H1_2, uint16_t, uint16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hsu, le, MO_LE, H1_4, uint32_t, uint16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hss, le, MO_LE, H1_4, uint32_t,  int16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hdu, le, MO_LE,     , uint64_t, uint16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hds, le, MO_LE,     , uint64_t,  int16_t, lduw, lduw)
 +
 +DO_LD_PRIM_2(ld1ss,  le, MO_LE, H1_4, uint32_t, uint32_t, ldl, ldul)
 +DO_LD_PRIM_2(ld1sdu, le, MO_LE,     , uint64_t, uint32_t, ldl, ldul)
 +DO_LD_PRIM_2(ld1sds, le, MO_LE,     , uint64_t,  int32_t, ldl, ldul)
 +
 +DO_LD_PRIM_2(ld1dd,  le, MO_LE,     , uint64_t, uint64_t, ldq, ldq)
 +
 +DO_LD_PRIM_2(ld1hh,  be, MO_BE, H1_2, uint16_t, uint16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hsu, be, MO_BE, H1_4, uint32_t, uint16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hss, be, MO_BE, H1_4, uint32_t,  int16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hdu, be, MO_BE,     , uint64_t, uint16_t, lduw, lduw)
 +DO_LD_PRIM_2(ld1hds, be, MO_BE,     , uint64_t,  int16_t, lduw, lduw)
 +
 +DO_LD_PRIM_2(ld1ss,  be, MO_BE, H1_4, uint32_t, uint32_t, ldl, ldul)
 +DO_LD_PRIM_2(ld1sdu, be, MO_BE,     , uint64_t, uint32_t, ldl, ldul)
 +DO_LD_PRIM_2(ld1sds, be, MO_BE,     , uint64_t,  int32_t, ldl, ldul)
 +
 +DO_LD_PRIM_2(ld1dd,  be, MO_BE,     , uint64_t, uint64_t, ldq, ldq)
 +
 +#undef DO_LD_TLB
 +#undef DO_LD_HOST
 +#undef DO_LD_PRIM_1
 +#undef DO_LD_PRIM_2
 +
 +/*
 + * Skip through a sequence of inactive elements in the guarding predicate @vg,
 + * beginning at @reg_off bounded by @reg_max.  Return the offset of the active
 + * element >= @reg_off, or @reg_max if there were no active elements at all.
 + */
 +static intptr_t find_next_active(uint64_t *vg, intptr_t reg_off,
 +                                 intptr_t reg_max, int esz)
 +{
 +    uint64_t pg_mask = pred_esz_masks[esz];
 +    uint64_t pg = (vg[reg_off >> 6] & pg_mask) >> (reg_off & 63);
 +
 +    /* In normal usage, the first element is active.  */
 +    if (likely(pg & 1)) {
 +        return reg_off;
 +    }
-+
-+    if (pg == 0) {
-+        reg_off &= -64;
-+        do {
-+            reg_off += 64;
-+            if (unlikely(reg_off >= reg_max)) {
-+                /* The entire predicate was false.  */
-+                return reg_max;
-+            }
-+            pg = vg[reg_off >> 6] & pg_mask;
-+        } while (pg == 0);
-+    }
-+    reg_off += ctz64(pg);
-+
-+    /* We should never see an out of range predicate bit set.  */
-+    tcg_debug_assert(reg_off < reg_max);
-+    return reg_off;
 +}
 +
-+/*
+ static void neon_store_element64(int reg, int ele, TCGMemOp size, TCGv_i64 var)
-+ * Return the maximum offset <= @mem_max which is still within the page
+ {
-+ * referenced by @base + @mem_off.
+     long offset = neon_element_offset(reg, ele, size);
-+ */
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-+static intptr_t max_for_page(target_ulong base, intptr_t mem_off,
+     int stride;
-+                             intptr_t mem_max)
+     int size;
-+{
+     int reg;
-+    target_ulong addr = base + mem_off;
+-    int pass;
-+    intptr_t split = -(intptr_t)(addr | TARGET_PAGE_MASK);
+     int load;
-+    return MIN(split, mem_max - mem_off) + mem_off;
+-    int shift;
-+}
+     int n;
-+
+     int vec_size;
-+static inline void set_helper_retaddr(uintptr_t ra)
+     int mmu_idx;
-+{
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-+#ifdef CONFIG_USER_ONLY
+         } else {
-+    helper_retaddr = ra;
+             /* Single element.  */
-+#endif
+             int idx = (insn >> 4) & 0xf;
-+}
+-            pass = (insn >> 7) & 1;
-+
++            int reg_idx;
-+/*
+             switch (size) {
-+ * The result of tlb_vaddr_to_host for user-only is just g2h(x),
+             case 0:
-+ * which is always non-null.  Elide the useless test.
+-                shift = ((insn >> 5) & 3) * 8;
-+ */
++                reg_idx = (insn >> 5) & 7;
-+static inline bool test_host_page(void *host)
+                 stride = 1;
-+{
+                 break;
-+#ifdef CONFIG_USER_ONLY
+             case 1:
-+    return true;
+-                shift = ((insn >> 6) & 1) * 16;
-+#else
++                reg_idx = (insn >> 6) & 3;
-+    return likely(host != NULL);
+                 stride = (insn & (1 << 5)) ? 2 : 1;
-+#endif
+                 break;
-+}
+             case 2:
-+
+-                shift = 0;
-+/*
++                reg_idx = (insn >> 7) & 1;
-+ * Common helper for all contiguous one-register predicated loads.
+                 stride = (insn & (1 << 6)) ? 2 : 1;
-+ */
+                 break;
-+static void sve_ld1_r(CPUARMState *env, void *vg, const target_ulong addr,
+             default:
-+                      uint32_t desc, const uintptr_t retaddr,
+@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
-+                      const int esz, const int msz,
+                  */
-+                      sve_ld1_host_fn *host_fn,
+                 return 1;
-+                      sve_ld1_tlb_fn *tlb_fn)
+             }
-+{
++            tmp = tcg_temp_new_i32();
-+    void *vd = &env->vfp.zregs[simd_data(desc)];
+             addr = tcg_temp_new_i32();
-+    const int diffsz = esz - msz;
+             load_reg_var(s, addr, rn);
-+    const intptr_t reg_max = simd_oprsz(desc);
+             for (reg = 0; reg < nregs; reg++) {
-+    const intptr_t mem_max = reg_max >> diffsz;
+                 if (load) {
-+    const int mmu_idx = cpu_mmu_index(env, false);
+-                    tmp = tcg_temp_new_i32();
-+    ARMVectorReg scratch;
+-                    switch (size) {
-+    void *host;
+-                    case 0:
-+    intptr_t split, reg_off, mem_off;
+-                        gen_aa32_ld8u(s, tmp, addr, get_mem_index(s));
-+
+-                        break;
-+    /* Find the first active element.  */
+-                    case 1:
-+    reg_off = find_next_active(vg, 0, reg_max, esz);
+-                        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-+    if (unlikely(reg_off == reg_max)) {
+-                        break;
-+        /* The entire predicate was false; no load occurs.  */
+-                    case 2:
-+        memset(vd, 0, reg_max);
+-                        gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-+        return;
+-                        break;
-+    }
+-                    default: /* Avoid compiler warnings.  */
-+    mem_off = reg_off >> diffsz;
+-                        abort();
-+    set_helper_retaddr(retaddr);
+-                    }
-+
+-                    if (size != 2) {
-+    /*
+-                        tmp2 = neon_load_reg(rd, pass);
-+     * If the (remaining) load is entirely within a single page, then:
+-                        tcg_gen_deposit_i32(tmp, tmp2, tmp,
-+     * For softmmu, and the tlb hits, then no faults will occur;
+-                                            shift, size ? 16 : 8);
-+     * For user-only, either the first load will fault or none will.
+-                        tcg_temp_free_i32(tmp2);
-+     * We can thus perform the load directly to the destination and
+-                    }
-+     * Vd will be unmodified on any exception path.
+-                    neon_store_reg(rd, pass, tmp);
-+     */
++                    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
-+    split = max_for_page(addr, mem_off, mem_max);
++                                    s->be_data | size);
-+    if (likely(split == mem_max)) {
++                    neon_store_element(rd, reg_idx, size, tmp);
-+        host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
+                 } else { /* Store */
-+        if (test_host_page(host)) {
+-                    tmp = neon_load_reg(rd, pass);
-+            mem_off = host_fn(vd, vg, host - mem_off, mem_off, mem_max);
+-                    if (shift)
-+            tcg_debug_assert(mem_off == mem_max);
+-                        tcg_gen_shri_i32(tmp, tmp, shift);
-+            set_helper_retaddr(0);
+-                    switch (size) {
-+            /* After having taken any fault, zero leading inactive elements. */
+-                    case 0:
-+            swap_memzero(vd, reg_off);
+-                        gen_aa32_st8(s, tmp, addr, get_mem_index(s));
-+            return;
+-                        break;
-+        }
+-                    case 1:
-+    }
+-                        gen_aa32_st16(s, tmp, addr, get_mem_index(s));
-+
+-                        break;
-+    /*
+-                    case 2:
-+     * Perform the predicated read into a temporary, thus ensuring
+-                        gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-+     * if the load of the last element faults, Vd is not modified.
+-                        break;
-+     */
+-                    }
-+#ifdef CONFIG_USER_ONLY
+-                    tcg_temp_free_i32(tmp);
-+    swap_memzero(&scratch, reg_off);
++                    neon_load_element(tmp, rd, reg_idx, size);
-+    host_fn(&scratch, vg, g2h(addr), mem_off, mem_max);
++                    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
-+#else
++                                    s->be_data | size);
-+    memset(&scratch, 0, reg_max);
+                 }
-+    goto start;
+                 rd += stride;
-+    while (1) {
+                 tcg_gen_addi_i32(addr, addr, 1 << size);
-+        reg_off = find_next_active(vg, reg_off, reg_max, esz);
+             }
-+        if (reg_off >= reg_max) {
+             tcg_temp_free_i32(addr);
-+            break;
++            tcg_temp_free_i32(tmp);
-+        }
+             stride = nregs * (1 << size);
-+        mem_off = reg_off >> diffsz;
+         }
 +        split = max_for_page(addr, mem_off, mem_max);
 +
 +    start:
 +        if (split - mem_off >= (1 << msz)) {
 +            /* At least one whole element on this page.  */
 +            host = tlb_vaddr_to_host(env, addr + mem_off,
 +                                     MMU_DATA_LOAD, mmu_idx);
 +            if (host) {
 +                mem_off = host_fn(&scratch, vg, host - mem_off,
 +                                  mem_off, split);
 +                reg_off = mem_off << diffsz;
 +                continue;
 +            }
 +        }
 +
 +        /*
 +         * Perform one normal read.  This may fault, longjmping out to the
 +         * main loop in order to raise an exception.  It may succeed, and
 +         * as a side-effect load the TLB entry for the next round.  Finally,
 +         * in the extremely unlikely case we're performing this operation
 +         * on I/O memory, it may succeed but not bring in the TLB entry.
 +         * But even then we have still made forward progress.
 +         */
 +        tlb_fn(env, &scratch, reg_off, addr + mem_off, mmu_idx, retaddr);
 +        reg_off += 1 << esz;
 +    }
 +#endif
 +
 +    set_helper_retaddr(0);
 +    memcpy(vd, &scratch, reg_max);
 +}
 +
 +#define DO_LD1_1(NAME, ESZ) \
 +void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
 +                            target_ulong addr, uint32_t desc)  \
 +{                                                              \
 +    sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, 0,            \
 +              sve_##NAME##_host, sve_##NAME##_tlb);            \
 +}
 +
 +/* TODO: Propagate the endian check back to the translator.  */
 +#define DO_LD1_2(NAME, ESZ, MSZ) \
 +void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
 +                            target_ulong addr, uint32_t desc)  \
 +{                                                              \
 +    if (arm_cpu_data_is_big_endian(env)) {                     \
 +        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
 +                  sve_##NAME##_be_host, sve_##NAME##_be_tlb);  \
 +    } else {                                                   \
 +        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
 +                  sve_##NAME##_le_host, sve_##NAME##_le_tlb);  \
 +    }                                                          \
 +}
 +
 +DO_LD1_1(ld1bb,  0)
 +DO_LD1_1(ld1bhu, 1)
 +DO_LD1_1(ld1bhs, 1)
 +DO_LD1_1(ld1bsu, 2)
 +DO_LD1_1(ld1bss, 2)
 +DO_LD1_1(ld1bdu, 3)
 +DO_LD1_1(ld1bds, 3)
 +
 +DO_LD1_2(ld1hh,  1, 1)
 +DO_LD1_2(ld1hsu, 2, 1)
 +DO_LD1_2(ld1hss, 2, 1)
 +DO_LD1_2(ld1hdu, 3, 1)
 +DO_LD1_2(ld1hds, 3, 1)
 +
 +DO_LD1_2(ld1ss,  2, 2)
 +DO_LD1_2(ld1sdu, 3, 2)
 +DO_LD1_2(ld1sds, 3, 2)
 +
 +DO_LD1_2(ld1dd,  3, 3)
 +
 +#undef DO_LD1_1
 +#undef DO_LD1_2
 +
  #define DO_LD2(NAME, FN, TYPEE, TYPEM, H)                  \
  void HELPER(NAME)(CPUARMState *env, void *vg,              \
                    target_ulong addr, uint32_t desc)        \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(CPUARMState *env, void *vg,              \
      }                                                      \
  }
 -DO_LD1(sve_ld1bhu_r, cpu_ldub_data_ra, uint16_t, uint8_t, H1_2)
 -DO_LD1(sve_ld1bhs_r, cpu_ldsb_data_ra, uint16_t, int8_t, H1_2)
 -DO_LD1(sve_ld1bsu_r, cpu_ldub_data_ra, uint32_t, uint8_t, H1_4)
 -DO_LD1(sve_ld1bss_r, cpu_ldsb_data_ra, uint32_t, int8_t, H1_4)
 -DO_LD1(sve_ld1bdu_r, cpu_ldub_data_ra, uint64_t, uint8_t, )
 -DO_LD1(sve_ld1bds_r, cpu_ldsb_data_ra, uint64_t, int8_t, )
 -
 -DO_LD1(sve_ld1hsu_r, cpu_lduw_data_ra, uint32_t, uint16_t, H1_4)
 -DO_LD1(sve_ld1hss_r, cpu_ldsw_data_ra, uint32_t, int16_t, H1_4)
 -DO_LD1(sve_ld1hdu_r, cpu_lduw_data_ra, uint64_t, uint16_t, )
 -DO_LD1(sve_ld1hds_r, cpu_ldsw_data_ra, uint64_t, int16_t, )
 -
 -DO_LD1(sve_ld1sdu_r, cpu_ldl_data_ra, uint64_t, uint32_t, )
 -DO_LD1(sve_ld1sds_r, cpu_ldl_data_ra, uint64_t, int32_t, )
 -
 -DO_LD1(sve_ld1bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
  DO_LD2(sve_ld2bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
  DO_LD3(sve_ld3bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
  DO_LD4(sve_ld4bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 -DO_LD1(sve_ld1hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
  DO_LD2(sve_ld2hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
  DO_LD3(sve_ld3hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
  DO_LD4(sve_ld4hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 -DO_LD1(sve_ld1ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
  DO_LD2(sve_ld2ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
  DO_LD3(sve_ld3ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
  DO_LD4(sve_ld4ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 -DO_LD1(sve_ld1dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
  DO_LD2(sve_ld2dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
  DO_LD3(sve_ld3dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
  DO_LD4(sve_ld4dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 -#undef DO_LD1
  #undef DO_LD2
  #undef DO_LD3
  #undef DO_LD4
  /*
   * Load contiguous data, first-fault and no-fault.
 + *
 + * For user-only, one could argue that we should hold the mmap_lock during
 + * the operation so that there is no race between page_check_range and the
 + * load operation.  However, unmapping pages out from under a running thread
 + * is extraordinarily unlikely.  This theoretical race condition also affects
 + * linux-user/ in its get_user/put_user macros.
 + *
 + * TODO: Construct some helpers, written in assembly, that interact with
 + * handle_cpu_signal to produce memory ops which can properly report errors
 + * without racing.
   */
 -#ifdef CONFIG_USER_ONLY
 -
  /* Fault on byte I.  All bits in FFR from I are cleared.  The vector
   * result from I is CONSTRAINED UNPREDICTABLE; we choose the MERGE
   * option, which leaves subsequent data unchanged.
@@ -XXX,XX +XXX,XX @@ static void record_fault(CPUARMState *env, uintptr_t i, uintptr_t oprsz)
      }
- }
--/* Hold the mmap lock during the operation so that there is no race
-- * between page_check_range and the load operation.  We expect the
-- * usual case to have no faults at all, so we check the whole range
-- * first and if successful defer to the normal load operation.
-- *
-- * TODO: Change mmap_lock to a rwlock so that multiple readers
-- * can run simultaneously.  This will probably help other uses
-- * within QEMU as well.
-+/*
-+ * Common helper for all contiguous first-fault loads.
-  */
--#define DO_LDFF1(PART, FN, TYPEE, TYPEM, H)                             \
--static void do_sve_ldff1##PART(CPUARMState *env, void *vd, void *vg,    \
--                               target_ulong addr, intptr_t oprsz,       \
--                               bool first, uintptr_t ra)                \
--{                                                                       \
--    intptr_t i = 0;                                                     \
--    do {                                                                \
--        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
--        do {                                                            \
--            TYPEM m = 0;                                                \
--            if (pg & 1) {                                               \
--                if (!first &&                                           \
--                    unlikely(page_check_range(addr, sizeof(TYPEM),      \
--                                              PAGE_READ))) {            \
--                    record_fault(env, i, oprsz);                        \
--                    return;                                             \
--                }                                                       \
--                m = FN(env, addr, ra);                                  \
--                first = false;                                          \
--            }                                                           \
--            *(TYPEE *)(vd + H(i)) = m;                                  \
--            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);                   \
--            addr += sizeof(TYPEM);                                      \
--        } while (i & 15);                                               \
--    } while (i < oprsz);                                                \
--}                                                                       \
--void HELPER(sve_ldff1##PART)(CPUARMState *env, void *vg,                \
--                             target_ulong addr, uint32_t desc)          \
--{                                                                       \
--    intptr_t oprsz = simd_oprsz(desc);                                  \
--    unsigned rd = simd_data(desc);                                      \
--    void *vd = &env->vfp.zregs[rd];                                     \
--    mmap_lock();                                                        \
--    if (likely(page_check_range(addr, oprsz, PAGE_READ) == 0)) {        \
--        do_sve_ld1##PART(env, vd, vg, addr, oprsz, GETPC());            \
--    } else {                                                            \
--        do_sve_ldff1##PART(env, vd, vg, addr, oprsz, true, GETPC());    \
--    }                                                                   \
--    mmap_unlock();                                                      \
--}
-+static void sve_ldff1_r(CPUARMState *env, void *vg, const target_ulong addr,
-+                        uint32_t desc, const uintptr_t retaddr,
-+                        const int esz, const int msz,
-+                        sve_ld1_host_fn *host_fn,
-+                        sve_ld1_tlb_fn *tlb_fn)
-+{
-+    void *vd = &env->vfp.zregs[simd_data(desc)];
-+    const int diffsz = esz - msz;
-+    const intptr_t reg_max = simd_oprsz(desc);
-+    const intptr_t mem_max = reg_max >> diffsz;
-+    const int mmu_idx = cpu_mmu_index(env, false);
-+    intptr_t split, reg_off, mem_off;
-+    void *host;
--/* No-fault loads are like first-fault loads without the
-- * first faulting special case.
-- */
--#define DO_LDNF1(PART)                                                  \
--void HELPER(sve_ldnf1##PART)(CPUARMState *env, void *vg,                \
--                             target_ulong addr, uint32_t desc)          \
--{                                                                       \
--    intptr_t oprsz = simd_oprsz(desc);                                  \
--    unsigned rd = simd_data(desc);                                      \
--    void *vd = &env->vfp.zregs[rd];                                     \
--    mmap_lock();                                                        \
--    if (likely(page_check_range(addr, oprsz, PAGE_READ) == 0)) {        \
--        do_sve_ld1##PART(env, vd, vg, addr, oprsz, GETPC());            \
--    } else {                                                            \
--        do_sve_ldff1##PART(env, vd, vg, addr, oprsz, false, GETPC());   \
--    }                                                                   \
--    mmap_unlock();                                                      \
--}
-+    /* Skip to the first active element.  */
-+    reg_off = find_next_active(vg, 0, reg_max, esz);
-+    if (unlikely(reg_off == reg_max)) {
-+        /* The entire predicate was false; no load occurs.  */
-+        memset(vd, 0, reg_max);
-+        return;
-+    }
-+    mem_off = reg_off >> diffsz;
-+    set_helper_retaddr(retaddr);
-+    /*
-+     * If the (remaining) load is entirely within a single page, then:
-+     * For softmmu, and the tlb hits, then no faults will occur;
-+     * For user-only, either the first load will fault or none will.
-+     * We can thus perform the load directly to the destination and
-+     * Vd will be unmodified on any exception path.
-+     */
-+    split = max_for_page(addr, mem_off, mem_max);
-+    if (likely(split == mem_max)) {
-+        host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
-+        if (test_host_page(host)) {
-+            mem_off = host_fn(vd, vg, host - mem_off, mem_off, mem_max);
-+            tcg_debug_assert(mem_off == mem_max);
-+            set_helper_retaddr(0);
-+            /* After any fault, zero any leading inactive elements.  */
-+            swap_memzero(vd, reg_off);
-+            return;
-+        }
-+    }
-+
-+#ifdef CONFIG_USER_ONLY
-+    /*
-+     * The page(s) containing this first element at ADDR+MEM_OFF must
-+     * be valid.  Considering that this first element may be misaligned
-+     * and cross a page boundary itself, take the rest of the page from
-+     * the last byte of the element.
-+     */
-+    split = max_for_page(addr, mem_off + (1 << msz) - 1, mem_max);
-+    mem_off = host_fn(vd, vg, g2h(addr), mem_off, split);
-+
-+    /* After any fault, zero any leading inactive elements.  */
-+    swap_memzero(vd, reg_off);
-+    reg_off = mem_off << diffsz;
- #else
-+    /*
-+     * Perform one normal read, which will fault or not.
-+     * But it is likely to bring the page into the tlb.
-+     */
-+    tlb_fn(env, vd, reg_off, addr + mem_off, mmu_idx, retaddr);
--/* TODO: System mode is not yet supported.
-- * This would probably use tlb_vaddr_to_host.
-- */
--#define DO_LDFF1(PART, FN, TYPEE, TYPEM, H)                     \
--void HELPER(sve_ldff1##PART)(CPUARMState *env, void *vg,        \
--                  target_ulong addr, uint32_t desc)             \
--{                                                               \
--    g_assert_not_reached();                                     \
--}
--
--#define DO_LDNF1(PART)                                          \
--void HELPER(sve_ldnf1##PART)(CPUARMState *env, void *vg,        \
--                  target_ulong addr, uint32_t desc)             \
--{                                                               \
--    g_assert_not_reached();                                     \
--}
-+    /* After any fault, zero any leading predicated false elts.  */
-+    swap_memzero(vd, reg_off);
-+    mem_off += 1 << msz;
-+    reg_off += 1 << esz;
-+    /* Try again to read the balance of the page.  */
-+    split = max_for_page(addr, mem_off - 1, mem_max);
-+    if (split >= (1 << msz)) {
-+        host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
-+        if (host) {
-+            mem_off = host_fn(vd, vg, host - mem_off, mem_off, split);
-+            reg_off = mem_off << diffsz;
-+        }
-+    }
- #endif
--DO_LDFF1(bb_r,  cpu_ldub_data_ra, uint8_t, uint8_t, H1)
--DO_LDFF1(bhu_r, cpu_ldub_data_ra, uint16_t, uint8_t, H1_2)
--DO_LDFF1(bhs_r, cpu_ldsb_data_ra, uint16_t, int8_t, H1_2)
--DO_LDFF1(bsu_r, cpu_ldub_data_ra, uint32_t, uint8_t, H1_4)
--DO_LDFF1(bss_r, cpu_ldsb_data_ra, uint32_t, int8_t, H1_4)
--DO_LDFF1(bdu_r, cpu_ldub_data_ra, uint64_t, uint8_t, )
--DO_LDFF1(bds_r, cpu_ldsb_data_ra, uint64_t, int8_t, )
-+    set_helper_retaddr(0);
-+    record_fault(env, reg_off, reg_max);
-+}
--DO_LDFF1(hh_r,  cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
--DO_LDFF1(hsu_r, cpu_lduw_data_ra, uint32_t, uint16_t, H1_4)
--DO_LDFF1(hss_r, cpu_ldsw_data_ra, uint32_t, int8_t, H1_4)
--DO_LDFF1(hdu_r, cpu_lduw_data_ra, uint64_t, uint16_t, )
--DO_LDFF1(hds_r, cpu_ldsw_data_ra, uint64_t, int16_t, )
-+/*
-+ * Common helper for all contiguous no-fault loads.
-+ */
-+static void sve_ldnf1_r(CPUARMState *env, void *vg, const target_ulong addr,
-+                        uint32_t desc, const int esz, const int msz,
-+                        sve_ld1_host_fn *host_fn)
-+{
-+    void *vd = &env->vfp.zregs[simd_data(desc)];
-+    const int diffsz = esz - msz;
-+    const intptr_t reg_max = simd_oprsz(desc);
-+    const intptr_t mem_max = reg_max >> diffsz;
-+    const int mmu_idx = cpu_mmu_index(env, false);
-+    intptr_t split, reg_off, mem_off;
-+    void *host;
--DO_LDFF1(ss_r,  cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
--DO_LDFF1(sdu_r, cpu_ldl_data_ra, uint64_t, uint32_t, )
--DO_LDFF1(sds_r, cpu_ldl_data_ra, uint64_t, int32_t, )
-+#ifdef CONFIG_USER_ONLY
-+    host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD, mmu_idx);
-+    if (likely(page_check_range(addr, mem_max, PAGE_READ) == 0)) {
-+        /* The entire operation is valid and will not fault.  */
-+        host_fn(vd, vg, host, 0, mem_max);
-+        return;
-+    }
-+#endif
--DO_LDFF1(dd_r,  cpu_ldq_data_ra, uint64_t, uint64_t, )
-+    /* There will be no fault, so we may modify in advance.  */
-+    memset(vd, 0, reg_max);
--#undef DO_LDFF1
-+    /* Skip to the first active element.  */
-+    reg_off = find_next_active(vg, 0, reg_max, esz);
-+    if (unlikely(reg_off == reg_max)) {
-+        /* The entire predicate was false; no load occurs.  */
-+        return;
-+    }
-+    mem_off = reg_off >> diffsz;
--DO_LDNF1(bb_r)
--DO_LDNF1(bhu_r)
--DO_LDNF1(bhs_r)
--DO_LDNF1(bsu_r)
--DO_LDNF1(bss_r)
--DO_LDNF1(bdu_r)
--DO_LDNF1(bds_r)
-+#ifdef CONFIG_USER_ONLY
-+    if (page_check_range(addr + mem_off, 1 << msz, PAGE_READ) == 0) {
-+        /* At least one load is valid; take the rest of the page.  */
-+        split = max_for_page(addr, mem_off + (1 << msz) - 1, mem_max);
-+        mem_off = host_fn(vd, vg, host, mem_off, split);
-+        reg_off = mem_off << diffsz;
-+    }
-+#else
-+    /*
-+     * If the address is not in the TLB, we have no way to bring the
-+     * entry into the TLB without also risking a fault.  Note that
-+     * the corollary is that we never load from an address not in RAM.
-+     *
-+     * This last is out of spec, in a weird corner case.
-+     * Per the MemNF/MemSingleNF pseudocode, a NF load from Device memory
-+     * must not actually hit the bus -- it returns UNKNOWN data instead.
-+     * But if you map non-RAM with Normal memory attributes and do a NF
-+     * load then it should access the bus.  (Nobody ought actually do this
-+     * in the real world, obviously.)
-+     *
-+     * Then there are the annoying special cases with watchpoints...
-+     *
-+     * TODO: Add a form of tlb_fill that does not raise an exception,
-+     * with a form of tlb_vaddr_to_host and a set of loads to match.
-+     * The non_fault_vaddr_to_host would handle everything, usually,
-+     * and the loads would handle the iomem path for watchpoints.
-+     */
-+    host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
-+    split = max_for_page(addr, mem_off, mem_max);
-+    if (host && split >= (1 << msz)) {
-+        mem_off = host_fn(vd, vg, host - mem_off, mem_off, split);
-+        reg_off = mem_off << diffsz;
-+    }
-+#endif
--DO_LDNF1(hh_r)
--DO_LDNF1(hsu_r)
--DO_LDNF1(hss_r)
--DO_LDNF1(hdu_r)
--DO_LDNF1(hds_r)
-+    record_fault(env, reg_off, reg_max);
-+}
--DO_LDNF1(ss_r)
--DO_LDNF1(sdu_r)
--DO_LDNF1(sds_r)
-+#define DO_LDFF1_LDNF1_1(PART, ESZ) \
-+void HELPER(sve_ldff1##PART##_r)(CPUARMState *env, void *vg,            \
-+                                 target_ulong addr, uint32_t desc)      \
-+{                                                                       \
-+    sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, 0,                   \
-+                sve_ld1##PART##_host, sve_ld1##PART##_tlb);             \
-+}                                                                       \
-+void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
-+                                 target_ulong addr, uint32_t desc)      \
-+{                                                                       \
-+    sve_ldnf1_r(env, vg, addr, desc, ESZ, 0, sve_ld1##PART##_host);     \
-+}
--DO_LDNF1(dd_r)
-+/* TODO: Propagate the endian check back to the translator.  */
-+#define DO_LDFF1_LDNF1_2(PART, ESZ, MSZ) \
-+void HELPER(sve_ldff1##PART##_r)(CPUARMState *env, void *vg,            \
-+                                 target_ulong addr, uint32_t desc)      \
-+{                                                                       \
-+    if (arm_cpu_data_is_big_endian(env)) {                              \
-+        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
-+                    sve_ld1##PART##_be_host, sve_ld1##PART##_be_tlb);   \
-+    } else {                                                            \
-+        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
-+                    sve_ld1##PART##_le_host, sve_ld1##PART##_le_tlb);   \
-+    }                                                                   \
-+}                                                                       \
-+void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
-+                                 target_ulong addr, uint32_t desc)      \
-+{                                                                       \
-+    if (arm_cpu_data_is_big_endian(env)) {                              \
-+        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
-+                    sve_ld1##PART##_be_host);                           \
-+    } else {                                                            \
-+        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
-+                    sve_ld1##PART##_le_host);                           \
-+    }                                                                   \
-+}
--#undef DO_LDNF1
-+DO_LDFF1_LDNF1_1(bb,  0)
-+DO_LDFF1_LDNF1_1(bhu, 1)
-+DO_LDFF1_LDNF1_1(bhs, 1)
-+DO_LDFF1_LDNF1_1(bsu, 2)
-+DO_LDFF1_LDNF1_1(bss, 2)
-+DO_LDFF1_LDNF1_1(bdu, 3)
-+DO_LDFF1_LDNF1_1(bds, 3)
-+
-+DO_LDFF1_LDNF1_2(hh,  1, 1)
-+DO_LDFF1_LDNF1_2(hsu, 2, 1)
-+DO_LDFF1_LDNF1_2(hss, 2, 1)
-+DO_LDFF1_LDNF1_2(hdu, 3, 1)
-+DO_LDFF1_LDNF1_2(hds, 3, 1)
-+
-+DO_LDFF1_LDNF1_2(ss,  2, 2)
-+DO_LDFF1_LDNF1_2(sdu, 3, 2)
-+DO_LDFF1_LDNF1_2(sds, 3, 2)
-+
-+DO_LDFF1_LDNF1_2(dd,  3, 3)
-+
-+#undef DO_LDFF1_LDNF1_1
-+#undef DO_LDFF1_LDNF1_2
- /*
-  * Store contiguous data, protected by a governing predicate.
 --
-.19.0
+.19.1

-New patch
+[Qemu-devel] [PULL 42/45] net: cadence_gem: Announce availability of priority queues
+From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+Announce the availability of the various priority queues.
+This fixes an issue where guest kernels would miss to
+configure secondary queues due to inproper feature bits.
+Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Message-id: 20181017213932.19973-2-edgar.iglesias@gmail.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/net/cadence_gem.c | 8 +++++++-
+file changed, 7 insertions(+), 1 deletion(-)
+diff --git a/hw/net/cadence_gem.c b/hw/net/cadence_gem.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/net/cadence_gem.c
++++ b/hw/net/cadence_gem.c
+@@ -XXX,XX +XXX,XX @@ static void gem_reset(DeviceState *d)
+     int i;
+     CadenceGEMState *s = CADENCE_GEM(d);
+     const uint8_t *a;
++    uint32_t queues_mask = 0;
+     DB_PRINT("\n");
+@@ -XXX,XX +XXX,XX @@ static void gem_reset(DeviceState *d)
+     s->regs[GEM_DESCONF] = 0x02500111;
+     s->regs[GEM_DESCONF2] = 0x2ab13fff;
+     s->regs[GEM_DESCONF5] = 0x002f2045;
+-    s->regs[GEM_DESCONF6] = 0x00000200;
++    s->regs[GEM_DESCONF6] = 0x0;
++
++    if (s->num_priority_queues > 1) {
++        queues_mask = MAKE_64BIT_MASK(1, s->num_priority_queues - 1);
++        s->regs[GEM_DESCONF6] |= queues_mask;
++    }
+     /* Set MAC address */
+     a = &s->conf.macaddr.a[0];
+--
+.19.1

-New patch
+[Qemu-devel] [PULL 43/45] net: cadence_gem: Announce 64bit addressing support
+From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
+Announce 64bit addressing support.
+Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Message-id: 20181017213932.19973-3-edgar.iglesias@gmail.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/net/cadence_gem.c | 3 ++-
+file changed, 2 insertions(+), 1 deletion(-)
+diff --git a/hw/net/cadence_gem.c b/hw/net/cadence_gem.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/net/cadence_gem.c
++++ b/hw/net/cadence_gem.c
+@@ -XXX,XX +XXX,XX @@
+ #define GEM_DESCONF4      (0x0000028C/4)
+ #define GEM_DESCONF5      (0x00000290/4)
+ #define GEM_DESCONF6      (0x00000294/4)
++#define GEM_DESCONF6_64B_MASK (1U << 23)
+ #define GEM_DESCONF7      (0x00000298/4)
+ #define GEM_INT_Q1_STATUS               (0x00000400 / 4)
+@@ -XXX,XX +XXX,XX @@ static void gem_reset(DeviceState *d)
+     s->regs[GEM_DESCONF] = 0x02500111;
+     s->regs[GEM_DESCONF2] = 0x2ab13fff;
+     s->regs[GEM_DESCONF5] = 0x002f2045;
+-    s->regs[GEM_DESCONF6] = 0x0;
++    s->regs[GEM_DESCONF6] = GEM_DESCONF6_64B_MASK;
+     if (s->num_priority_queues > 1) {
+         queues_mask = MAKE_64BIT_MASK(1, s->num_priority_queues - 1);
+--
+.19.1

-[Qemu-devel] [PULL 07/33] target/arm: Pass in current_el to fp and sve_exception_el
+[Qemu-devel] [PULL 44/45] target/arm: Remove writefn from TTBR0_EL3
 From: Richard Henderson <richard.henderson@linaro.org>
-We are going to want to determine whether sve is enabled
+The EL3 version of this register does not include an ASID,
-for EL other than current.
+and so the tlb_flush performed by vmsa_ttbr_write is not needed.
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Reviewed-by: Aaron Lindsay <aaron@os.amperecomputing.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181019015617.22583-2-richard.henderson@linaro.org
 Message-id: 20181005175350.30752-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 21 +++++++++------------
+ target/arm/helper.c | 2 +-
-file changed, 9 insertions(+), 12 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_lpae_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el3_cp_reginfo[] = {
-  * take care of raising that exception.
+       .fieldoffset = offsetof(CPUARMState, cp15.mvbar) },
-  * C.f. the ARM pseudocode function CheckSVEEnabled.
+     { .name = "TTBR0_EL3", .state = ARM_CP_STATE_AA64,
-  */
+       .opc0 = 3, .opc1 = 6, .crn = 2, .crm = 0, .opc2 = 0,
--static int sve_exception_el(CPUARMState *env)
+-      .access = PL3_RW, .writefn = vmsa_ttbr_write, .resetvalue = 0,
-+static int sve_exception_el(CPUARMState *env, int el)
++      .access = PL3_RW, .resetvalue = 0,
- {
+       .fieldoffset = offsetof(CPUARMState, cp15.ttbr0_el[3]) },
- #ifndef CONFIG_USER_ONLY
+     { .name = "TCR_EL3", .state = ARM_CP_STATE_AA64,
--    unsigned current_el = arm_current_el(env);
+       .opc0 = 3, .opc1 = 6, .crn = 2, .crm = 0, .opc2 = 2,
 -
 -    if (current_el <= 1) {
 +    if (el <= 1) {
          bool disabled = false;
          /* The CPACR.ZEN controls traps to EL1:
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env)
          if (!extract32(env->cp15.cpacr_el1, 16, 1)) {
              disabled = true;
          } else if (!extract32(env->cp15.cpacr_el1, 17, 1)) {
 -            disabled = current_el == 0;
 +            disabled = el == 0;
          }
          if (disabled) {
              /* route_to_el2 */
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env)
          if (!extract32(env->cp15.cpacr_el1, 20, 1)) {
              disabled = true;
          } else if (!extract32(env->cp15.cpacr_el1, 21, 1)) {
 -            disabled = current_el == 0;
 +            disabled = el == 0;
          }
          if (disabled) {
              return 0;
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env)
      /* CPTR_EL2.  Since TZ and TFP are positive,
       * they will be zero when EL2 is not present.
       */
 -    if (current_el <= 2 && !arm_is_secure_below_el3(env)) {
 +    if (el <= 2 && !arm_is_secure_below_el3(env)) {
          if (env->cp15.cptr_el[2] & CPTR_TZ) {
              return 2;
          }
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
  /* Return the exception level to which FP-disabled exceptions should
   * be taken, or 0 if FP is enabled.
   */
 -static inline int fp_exception_el(CPUARMState *env)
 +static int fp_exception_el(CPUARMState *env, int cur_el)
  {
  #ifndef CONFIG_USER_ONLY
      int fpen;
 -    int cur_el = arm_current_el(env);
      /* CPACR and the CPTR registers don't exist before v6, so FP is
       * always accessible
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                            target_ulong *cs_base, uint32_t *pflags)
  {
      ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
 -    int fp_el = fp_exception_el(env);
 +    int current_el = arm_current_el(env);
 +    int fp_el = fp_exception_el(env, current_el);
      uint32_t flags;
      if (is_a64(env)) {
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
          flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
          if (arm_feature(env, ARM_FEATURE_SVE)) {
 -            int sve_el = sve_exception_el(env);
 +            int sve_el = sve_exception_el(env, current_el);
              uint32_t zcr_len;
              /* If SVE is disabled, but FP is enabled,
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
              if (sve_el != 0 && fp_el == 0) {
                  zcr_len = 0;
              } else {
 -                int current_el = arm_current_el(env);
                  ARMCPU *cpu = arm_env_get_cpu(env);
                  zcr_len = cpu->sve_max_vq - 1;
 --
-.19.0
+.19.1

-[Qemu-devel] [PULL 06/33] target/arm: Adjust sve_exception_el
+[Qemu-devel] [PULL 45/45] target/arm: Only flush tlb if ASID changes
 From: Richard Henderson <richard.henderson@linaro.org>
-Check for EL3 before testing CPTR_EL3.EZ.  Return 0 when the exception
+Since QEMU does not implement ASIDs, changes to the ASID must flush the
-should be routed via AdvSIMDFPAccessTrap.  Mirror the structure of
+tlb.  However, if the ASID does not change there is no reason to flush.
 CheckSVEEnabled more closely.
-Fixes: 5be5e8eda78
+In testing a boot of the Ubuntu installer to the first menu, this reduces
 the number of flushes by 30%, or nearly 600k instances.
 Reviewed-by: Aaron Lindsay <aaron@os.amperecomputing.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20181019015617.22583-3-richard.henderson@linaro.org
 Message-id: 20181005175350.30752-3-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 96 ++++++++++++++++++++++-----------------------
+ target/arm/helper.c | 8 +++-----
-file changed, 46 insertions(+), 50 deletions(-)
+file changed, 3 insertions(+), 5 deletions(-)
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_lpae_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ static void vmsa_tcr_el1_write(CPUARMState *env, const ARMCPRegInfo *ri,
-     REGINFO_SENTINEL
+ static void vmsa_ttbr_write(CPUARMState *env, const ARMCPRegInfo *ri,
- };
+                             uint64_t value)
 -/* Return the exception level to which SVE-disabled exceptions should
 - * be taken, or 0 if SVE is enabled.
 +/* Return the exception level to which exceptions should be taken
 + * via SVEAccessTrap.  If an exception should be routed through
 + * AArch64.AdvSIMDFPAccessTrap, return 0; fp_exception_el should
 + * take care of raising that exception.
 + * C.f. the ARM pseudocode function CheckSVEEnabled.
   */
  static int sve_exception_el(CPUARMState *env)
  {
- #ifndef CONFIG_USER_ONLY
+-    /* 64 bit accesses to the TTBRs can change the ASID and so we
-     unsigned current_el = arm_current_el(env);
+-     * must flush the TLB.
+-     */
--    /* The CPACR.ZEN controls traps to EL1:
+-    if (cpreg_field_is_64bit(ri)) {
--     * 0, 2 : trap EL0 and EL1 accesses
++    /* If the ASID changes (with a 64-bit write), we must flush the TLB.  */
--     * 1    : trap only EL0 accesses
++    if (cpreg_field_is_64bit(ri) &&
--     * 3    : trap no accesses
++        extract64(raw_read(env, ri) ^ value, 48, 16) != 0) {
-+    if (current_el <= 1) {
+         ARMCPU *cpu = arm_env_get_cpu(env);
-+        bool disabled = false;
+-
-+
+         tlb_flush(CPU(cpu));
 +        /* The CPACR.ZEN controls traps to EL1:
 +         * 0, 2 : trap EL0 and EL1 accesses
 +         * 1    : trap only EL0 accesses
 +         * 3    : trap no accesses
 +         */
 +        if (!extract32(env->cp15.cpacr_el1, 16, 1)) {
 +            disabled = true;
 +        } else if (!extract32(env->cp15.cpacr_el1, 17, 1)) {
 +            disabled = current_el == 0;
 +        }
 +        if (disabled) {
 +            /* route_to_el2 */
 +            return (arm_feature(env, ARM_FEATURE_EL2)
 +                    && !arm_is_secure(env)
 +                    && (env->cp15.hcr_el2 & HCR_TGE) ? 2 : 1);
 +        }
 +
 +        /* Check CPACR.FPEN.  */
 +        if (!extract32(env->cp15.cpacr_el1, 20, 1)) {
 +            disabled = true;
 +        } else if (!extract32(env->cp15.cpacr_el1, 21, 1)) {
 +            disabled = current_el == 0;
 +        }
 +        if (disabled) {
 +            return 0;
 +        }
 +    }
 +
 +    /* CPTR_EL2.  Since TZ and TFP are positive,
 +     * they will be zero when EL2 is not present.
       */
 -    switch (extract32(env->cp15.cpacr_el1, 16, 2)) {
 -    default:
 -        if (current_el <= 1) {
 -            /* Trap to PL1, which might be EL1 or EL3 */
 -            if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
 -                return 3;
 -            }
 -            return 1;
 +    if (current_el <= 2 && !arm_is_secure_below_el3(env)) {
 +        if (env->cp15.cptr_el[2] & CPTR_TZ) {
 +            return 2;
          }
 -        break;
 -    case 1:
 -        if (current_el == 0) {
 -            return 1;
 +        if (env->cp15.cptr_el[2] & CPTR_TFP) {
 +            return 0;
          }
 -        break;
 -    case 3:
 -        break;
      }
+     raw_write(env, ri, value);
 -    /* Similarly for CPACR.FPEN, after having checked ZEN.  */
 -    switch (extract32(env->cp15.cpacr_el1, 20, 2)) {
 -    default:
 -        if (current_el <= 1) {
 -            if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
 -                return 3;
 -            }
 -            return 1;
 -        }
 -        break;
 -    case 1:
 -        if (current_el == 0) {
 -            return 1;
 -        }
 -        break;
 -    case 3:
 -        break;
 -    }
 -
 -    /* CPTR_EL2.  Check both TZ and TFP.  */
 -    if (current_el <= 2
 -        && (env->cp15.cptr_el[2] & (CPTR_TFP | CPTR_TZ))
 -        && !arm_is_secure_below_el3(env)) {
 -        return 2;
 -    }
 -
 -    /* CPTR_EL3.  Check both EZ and TFP.  */
 -    if (!(env->cp15.cptr_el[3] & CPTR_EZ)
 -        || (env->cp15.cptr_el[3] & CPTR_TFP)) {
 +    /* CPTR_EL3.  Since EZ is negative we must check for EL3.  */
 +    if (arm_feature(env, ARM_FEATURE_EL3)
 +        && !(env->cp15.cptr_el[3] & CPTR_EZ)) {
          return 3;
      }
  #endif
 --
-.19.0
+.19.1

target-arm queue: the big things in here are SVE in system
emulation mode, and v8M stack limit checking; there are
also a handful of smaller fixes.

thanks
-- PMM

The following changes since commit 079911cb6e26898e16f5bb56ef4f9d33cf92d32d:

Merge remote-tracking branch 'remotes/rth/tags/pull-fpu-20181005' into staging (2018-10-08 12:44:35 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20181008

for you to fetch changes up to 74e2e59b8d0a68be0956310fc349179c89fd7be0:

hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow (2018-10-08 14:55:05 +0100)

----------------------------------------------------------------
target-arm queue:
 * target/arm: fix error in a code comment
 * virt: Suppress external aborts on virt-2.10 and earlier
 * target/arm: Correct condition for v8M callee stack push
 * target/arm: Don't read r4 from v8M exception stackframe twice
 * target/arm: Support SVE in system emulation mode
 * target/arm: Implement v8M hardware stack limit checking
 * hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow

----------------------------------------------------------------
Dongjiu Geng (1):
      target/arm: fix code comments error

Peter Maydell (17):
      virt: Suppress external aborts on virt-2.10 and earlier
      target/arm: Correct condition for v8M callee stack push
      target/arm: Don't read r4 from v8M exception stackframe twice
      target/arm: Define new TBFLAG for v8M stack checking
      target/arm: Define new EXCP type for v8M stack overflows
      target/arm: Move v7m_using_psp() to internals.h
      target/arm: Add v8M stack checks on ADD/SUB/MOV of SP
      target/arm: Add some comments in Thumb decode
      target/arm: Add v8M stack checks on exception entry
      target/arm: Add v8M stack limit checks on NS function calls
      target/arm: Add v8M stack checks for LDRD/STRD (imm)
      target/arm: Add v8M stack checks for Thumb2 LDM/STM
      target/arm: Add v8M stack checks for T32 load/store single
      target/arm: Add v8M stack checks for Thumb push/pop
      target/arm: Add v8M stack checks for VLDM/VSTM
      target/arm: Add v8M stack checks for MSR to SP_NS
      hw/display/bcm2835_fb: Silence Coverity warning about multiply overflow

Richard Henderson (15):
      target/arm: Define ID_AA64ZFR0_EL1
      target/arm: Adjust sve_exception_el
      target/arm: Pass in current_el to fp and sve_exception_el
      target/arm: Handle SVE vector length changes in system mode
      target/arm: Adjust aarch64_cpu_dump_state for system mode SVE
      target/arm: Clear unused predicate bits for LD1RQ
      target/arm: Rewrite helper_sve_ld1*_r using pages
      target/arm: Rewrite helper_sve_ld[234]*_r
      target/arm: Rewrite helper_sve_st[1234]*_r
      target/arm: Split contiguous loads for endianness
      target/arm: Split contiguous stores for endianness
      target/arm: Rewrite vector gather loads
      target/arm: Rewrite vector gather stores
      target/arm: Rewrite vector gather first-fault loads
      target/arm: Pass TCGMemOpIdx to sve memory helpers

From: Dongjiu Geng <gengdongjiu@huawei.com>

The parameter of kvm_arm_init_cpreg_list() is ARMCPU instead of
CPUState, so correct the note to make it match the code.

Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Message-id: 1538069046-5757-1-git-send-email-gengdongjiu@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/kvm_arm.h | 4 ++--
 target/arm/kvm.c     | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm_arm.h
+++ b/target/arm/kvm_arm.h
@@ -XXX,XX +XXX,XX @@ void kvm_arm_register_device(MemoryRegion *mr, uint64_t devid, uint64_t group,
 
 /**
  * kvm_arm_init_cpreg_list:
- * @cs: CPUState
+ * @cpu: ARMCPU
  *
- * Initialize the CPUState's cpreg list according to the kernel's
+ * Initialize the ARMCPU cpreg list according to the kernel's
  * definition of what CPU registers it knows about (and throw away
  * the previous TCG-created cpreg list).
  *
diff --git a/target/arm/kvm.c b/target/arm/kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm.c
+++ b/target/arm/kvm.c
@@ -XXX,XX +XXX,XX @@ static int compare_u64(const void *a, const void *b)
     return 0;
 }
 
-/* Initialize the CPUState's cpreg list according to the kernel's
+/* Initialize the ARMCPU cpreg list according to the kernel's
  * definition of what CPU registers it knows about (and throw away
  * the previous TCG-created cpreg list).
  */
-- 
2.19.0

In commit c79c0a314c43b78 we enabled emulation of external aborts
when the guest attempts to access a physical address with no
mapped device. In commit 4672cbd7bed88dc6 we suppress this for
most legacy boards to prevent breakage of previously working
guests, but we didn't suppress it in the 'virt' board, with
the rationale "we know that guests won't try to prod devices
that we don't describe in the device tree or ACPI tables". This
is mostly true, but we've had a report of a Linux guest image
that this did break. The problem seems to be that the guest
is (incorrectly) configured with a DEBUG_UART_PHYS value that
tells it there is a uart at 0x10009000 (which is true for
vexpress but not for virt), so in early bootup the kernel
probes this bogus address.

This is a misconfigured guest, so we don't need to worry
about it too much, but we can arrange that guests that ran
on QEMU v2.10 (before c79c0a314c43b78) will still run on
the "virt-2.10" board model, by suppressing external aborts
only for that version and earlier. This seems a reasonable
compromise: "virt-2.10" is supposed to behave the same way
that "virt" did in the 2.10 release, and making it do that
provides a usable workaround for guests with bugs like this.

Cc: qemu-stable@nongnu.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20180925144127.31965-1-peter.maydell@linaro.org
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
---
 hw/arm/virt.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void virt_machine_2_10_options(MachineClass *mc)
 {
     virt_machine_2_11_options(mc);
     SET_MACHINE_COMPAT(mc, VIRT_COMPAT_2_10);
+    /* before 2.11 we never faulted accesses to bad addresses */
+    mc->ignore_memory_transaction_failures = true;
 }
 DEFINE_VIRT_MACHINE(2, 10)
 
-- 
2.19.0

In v7m_exception_taken() we were incorrectly using a
"LR bit EXCRET.ES is 1" check when it should be 0
(compare the pseudocode ExceptionTaken() function).
This meant we didn't stack the callee-saved registers
when tailchaining from a NonSecure to a Secure exception.

Cc: qemu-stable@nongnu.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002145940.30931-1-peter.maydell@linaro.org
---
 target/arm/helper.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void v7m_exception_taken(ARMCPU *cpu, uint32_t lr, bool dotailchain,
                  * not already saved.
                  */
                 if (lr & R_V7M_EXCRET_DCRS_MASK &&
-                    !(dotailchain && (lr & R_V7M_EXCRET_ES_MASK))) {
+                    !(dotailchain && !(lr & R_V7M_EXCRET_ES_MASK))) {
                     push_failed = v7m_push_callee_stack(cpu, lr, dotailchain,
                                                         ignore_stackfaults);
                 }
-- 
2.19.0

A cut-and-paste error meant we were reading r4 from the v8M
callee-saves exception stack frame twice. This is harmless
since it just meant we did two memory accesses to the same
location, but it's unnecessary. Delete it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002150304.2287-1-peter.maydell@linaro.org
---
 target/arm/helper.c | 1 -
 1 file changed, 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void do_v7m_exception_exit(ARMCPU *cpu)
             }
 
             pop_ok = pop_ok &&
-                v7m_stack_read(cpu, &env->regs[4], frameptr + 0x8, mmu_idx) &&
                 v7m_stack_read(cpu, &env->regs[4], frameptr + 0x8, mmu_idx) &&
                 v7m_stack_read(cpu, &env->regs[5], frameptr + 0xc, mmu_idx) &&
                 v7m_stack_read(cpu, &env->regs[6], frameptr + 0x10, mmu_idx) &&
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

Given that the only field defined for this new register may only
be 0, we don't actually need to change anything except the name.

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 3,
               .access = PL1_R, .type = ARM_CP_CONST,
               .resetvalue = 0 },
-            { .name = "ID_AA64PFR4_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
+            { .name = "ID_AA64ZFR0_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 4,
               .access = PL1_R, .type = ARM_CP_CONST,
+              /* At present, only SVEver == 0 is defined anyway.  */
               .resetvalue = 0 },
             { .name = "ID_AA64PFR5_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 5,
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

Check for EL3 before testing CPTR_EL3.EZ.  Return 0 when the exception
should be routed via AdvSIMDFPAccessTrap.  Mirror the structure of
CheckSVEEnabled more closely.

Fixes: 5be5e8eda78
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 96 ++++++++++++++++++++++-----------------------
 1 file changed, 46 insertions(+), 50 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_lpae_cp_reginfo[] = {
     REGINFO_SENTINEL
 };
 
-/* Return the exception level to which SVE-disabled exceptions should
- * be taken, or 0 if SVE is enabled.
+/* Return the exception level to which exceptions should be taken
+ * via SVEAccessTrap.  If an exception should be routed through
+ * AArch64.AdvSIMDFPAccessTrap, return 0; fp_exception_el should
+ * take care of raising that exception.
+ * C.f. the ARM pseudocode function CheckSVEEnabled.
  */
 static int sve_exception_el(CPUARMState *env)
 {
 #ifndef CONFIG_USER_ONLY
     unsigned current_el = arm_current_el(env);
 
-    /* The CPACR.ZEN controls traps to EL1:
-     * 0, 2 : trap EL0 and EL1 accesses
-     * 1    : trap only EL0 accesses
-     * 3    : trap no accesses
+    if (current_el <= 1) {
+        bool disabled = false;
+
+        /* The CPACR.ZEN controls traps to EL1:
+         * 0, 2 : trap EL0 and EL1 accesses
+         * 1    : trap only EL0 accesses
+         * 3    : trap no accesses
+         */
+        if (!extract32(env->cp15.cpacr_el1, 16, 1)) {
+            disabled = true;
+        } else if (!extract32(env->cp15.cpacr_el1, 17, 1)) {
+            disabled = current_el == 0;
+        }
+        if (disabled) {
+            /* route_to_el2 */
+            return (arm_feature(env, ARM_FEATURE_EL2)
+                    && !arm_is_secure(env)
+                    && (env->cp15.hcr_el2 & HCR_TGE) ? 2 : 1);
+        }
+
+        /* Check CPACR.FPEN.  */
+        if (!extract32(env->cp15.cpacr_el1, 20, 1)) {
+            disabled = true;
+        } else if (!extract32(env->cp15.cpacr_el1, 21, 1)) {
+            disabled = current_el == 0;
+        }
+        if (disabled) {
+            return 0;
+        }
+    }
+
+    /* CPTR_EL2.  Since TZ and TFP are positive,
+     * they will be zero when EL2 is not present.
      */
-    switch (extract32(env->cp15.cpacr_el1, 16, 2)) {
-    default:
-        if (current_el <= 1) {
-            /* Trap to PL1, which might be EL1 or EL3 */
-            if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
-                return 3;
-            }
-            return 1;
+    if (current_el <= 2 && !arm_is_secure_below_el3(env)) {
+        if (env->cp15.cptr_el[2] & CPTR_TZ) {
+            return 2;
         }
-        break;
-    case 1:
-        if (current_el == 0) {
-            return 1;
+        if (env->cp15.cptr_el[2] & CPTR_TFP) {
+            return 0;
         }
-        break;
-    case 3:
-        break;
     }
 
-    /* Similarly for CPACR.FPEN, after having checked ZEN.  */
-    switch (extract32(env->cp15.cpacr_el1, 20, 2)) {
-    default:
-        if (current_el <= 1) {
-            if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
-                return 3;
-            }
-            return 1;
-        }
-        break;
-    case 1:
-        if (current_el == 0) {
-            return 1;
-        }
-        break;
-    case 3:
-        break;
-    }
-
-    /* CPTR_EL2.  Check both TZ and TFP.  */
-    if (current_el <= 2
-        && (env->cp15.cptr_el[2] & (CPTR_TFP | CPTR_TZ))
-        && !arm_is_secure_below_el3(env)) {
-        return 2;
-    }
-
-    /* CPTR_EL3.  Check both EZ and TFP.  */
-    if (!(env->cp15.cptr_el[3] & CPTR_EZ)
-        || (env->cp15.cptr_el[3] & CPTR_TFP)) {
+    /* CPTR_EL3.  Since EZ is negative we must check for EL3.  */
+    if (arm_feature(env, ARM_FEATURE_EL3)
+        && !(env->cp15.cptr_el[3] & CPTR_EZ)) {
         return 3;
     }
 #endif
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

We are going to want to determine whether sve is enabled
for EL other than current.

Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 21 +++++++++------------
 1 file changed, 9 insertions(+), 12 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_lpae_cp_reginfo[] = {
  * take care of raising that exception.
  * C.f. the ARM pseudocode function CheckSVEEnabled.
  */
-static int sve_exception_el(CPUARMState *env)
+static int sve_exception_el(CPUARMState *env, int el)
 {
 #ifndef CONFIG_USER_ONLY
-    unsigned current_el = arm_current_el(env);
-
-    if (current_el <= 1) {
+    if (el <= 1) {
         bool disabled = false;
 
         /* The CPACR.ZEN controls traps to EL1:
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env)
         if (!extract32(env->cp15.cpacr_el1, 16, 1)) {
             disabled = true;
         } else if (!extract32(env->cp15.cpacr_el1, 17, 1)) {
-            disabled = current_el == 0;
+            disabled = el == 0;
         }
         if (disabled) {
             /* route_to_el2 */
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env)
         if (!extract32(env->cp15.cpacr_el1, 20, 1)) {
             disabled = true;
         } else if (!extract32(env->cp15.cpacr_el1, 21, 1)) {
-            disabled = current_el == 0;
+            disabled = el == 0;
         }
         if (disabled) {
             return 0;
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env)
     /* CPTR_EL2.  Since TZ and TFP are positive,
      * they will be zero when EL2 is not present.
      */
-    if (current_el <= 2 && !arm_is_secure_below_el3(env)) {
+    if (el <= 2 && !arm_is_secure_below_el3(env)) {
         if (env->cp15.cptr_el[2] & CPTR_TZ) {
             return 2;
         }
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
 /* Return the exception level to which FP-disabled exceptions should
  * be taken, or 0 if FP is enabled.
  */
-static inline int fp_exception_el(CPUARMState *env)
+static int fp_exception_el(CPUARMState *env, int cur_el)
 {
 #ifndef CONFIG_USER_ONLY
     int fpen;
-    int cur_el = arm_current_el(env);
 
     /* CPACR and the CPTR registers don't exist before v6, so FP is
      * always accessible
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                           target_ulong *cs_base, uint32_t *pflags)
 {
     ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
-    int fp_el = fp_exception_el(env);
+    int current_el = arm_current_el(env);
+    int fp_el = fp_exception_el(env, current_el);
     uint32_t flags;
 
     if (is_a64(env)) {
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
         flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
 
         if (arm_feature(env, ARM_FEATURE_SVE)) {
-            int sve_el = sve_exception_el(env);
+            int sve_el = sve_exception_el(env, current_el);
             uint32_t zcr_len;
 
             /* If SVE is disabled, but FP is enabled,
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
             if (sve_el != 0 && fp_el == 0) {
                 zcr_len = 0;
             } else {
-                int current_el = arm_current_el(env);
                 ARMCPU *cpu = arm_env_get_cpu(env);
 
                 zcr_len = cpu->sve_max_vq - 1;
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

SVE vector length can change when changing EL, or when writing
to one of the ZCR_ELn registers.

For correctness, our implementation requires that predicate bits
that are inaccessible are never set.  Which means noticing length
changes and zeroing the appropriate register bits.

Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-5-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h       |   4 ++
 target/arm/cpu64.c     |  42 -------------
 target/arm/helper.c    | 133 +++++++++++++++++++++++++++++++++++++----
 target/arm/op_helper.c |   1 +
 4 files changed, 125 insertions(+), 55 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ int arm_cpu_write_elf32_note(WriteCoreDumpFunction f, CPUState *cs,
 int aarch64_cpu_gdb_read_register(CPUState *cpu, uint8_t *buf, int reg);
 int aarch64_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq);
+void aarch64_sve_change_el(CPUARMState *env, int old_el, int new_el);
+#else
+static inline void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq) { }
+static inline void aarch64_sve_change_el(CPUARMState *env, int o, int n) { }
 #endif
 
 target_ulong do_arm_semihosting(CPUARMState *env);
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_cpu_register_types(void)
 }
 
 type_init(aarch64_cpu_register_types)
-
-/* The manual says that when SVE is enabled and VQ is widened the
- * implementation is allowed to zero the previously inaccessible
- * portion of the registers.  The corollary to that is that when
- * SVE is enabled and VQ is narrowed we are also allowed to zero
- * the now inaccessible portion of the registers.
- *
- * The intent of this is that no predicate bit beyond VQ is ever set.
- * Which means that some operations on predicate registers themselves
- * may operate on full uint64_t or even unrolled across the maximum
- * uint64_t[4].  Performing 4 bits of host arithmetic unconditionally
- * may well be cheaper than conditionals to restrict the operation
- * to the relevant portion of a uint16_t[16].
- *
- * TODO: Need to call this for changes to the real system registers
- * and EL state changes.
- */
-void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq)
-{
-    int i, j;
-    uint64_t pmask;
-
-    assert(vq >= 1 && vq <= ARM_MAX_VQ);
-    assert(vq <= arm_env_get_cpu(env)->sve_max_vq);
-
-    /* Zap the high bits of the zregs.  */
-    for (i = 0; i < 32; i++) {
-        memset(&env->vfp.zregs[i].d[2 * vq], 0, 16 * (ARM_MAX_VQ - vq));
-    }
-
-    /* Zap the high bits of the pregs and ffr.  */
-    pmask = 0;
-    if (vq & 3) {
-        pmask = ~(-1ULL << (16 * (vq & 3)));
-    }
-    for (j = vq / 4; j < ARM_MAX_VQ / 4; j++) {
-        for (i = 0; i < 17; ++i) {
-            env->vfp.pregs[i].p[j] &= pmask;
-        }
-        pmask = 0;
-    }
-}
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env, int el)
     return 0;
 }
 
+/*
+ * Given that SVE is enabled, return the vector length for EL.
+ */
+static uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
+{
+    ARMCPU *cpu = arm_env_get_cpu(env);
+    uint32_t zcr_len = cpu->sve_max_vq - 1;
+
+    if (el <= 1) {
+        zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[1]);
+    }
+    if (el < 2 && arm_feature(env, ARM_FEATURE_EL2)) {
+        zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[2]);
+    }
+    if (el < 3 && arm_feature(env, ARM_FEATURE_EL3)) {
+        zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[3]);
+    }
+    return zcr_len;
+}
+
 static void zcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                       uint64_t value)
 {
+    int cur_el = arm_current_el(env);
+    int old_len = sve_zcr_len_for_el(env, cur_el);
+    int new_len;
+
     /* Bits other than [3:0] are RAZ/WI.  */
     raw_write(env, ri, value & 0xf);
+
+    /*
+     * Because we arrived here, we know both FP and SVE are enabled;
+     * otherwise we would have trapped access to the ZCR_ELn register.
+     */
+    new_len = sve_zcr_len_for_el(env, cur_el);
+    if (new_len < old_len) {
+        aarch64_sve_narrow_vq(env, new_len + 1);
+    }
 }
 
 static const ARMCPRegInfo zcr_el1_reginfo = {
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch64(CPUState *cs)
     unsigned int new_el = env->exception.target_el;
     target_ulong addr = env->cp15.vbar_el[new_el];
     unsigned int new_mode = aarch64_pstate_mode(new_el, true);
+    unsigned int cur_el = arm_current_el(env);
 
-    if (arm_current_el(env) < new_el) {
+    aarch64_sve_change_el(env, cur_el, new_el);
+
+    if (cur_el < new_el) {
         /* Entry vector offset depends on whether the implemented EL
          * immediately lower than the target level is using AArch32 or AArch64
          */
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
             if (sve_el != 0 && fp_el == 0) {
                 zcr_len = 0;
             } else {
-                ARMCPU *cpu = arm_env_get_cpu(env);
-
-                zcr_len = cpu->sve_max_vq - 1;
-                if (current_el <= 1) {
-                    zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[1]);
-                }
-                if (current_el < 2 && arm_feature(env, ARM_FEATURE_EL2)) {
-                    zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[2]);
-                }
-                if (current_el < 3 && arm_feature(env, ARM_FEATURE_EL3)) {
-                    zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[3]);
-                }
+                zcr_len = sve_zcr_len_for_el(env, current_el);
             }
             flags |= sve_el << ARM_TBFLAG_SVEEXC_EL_SHIFT;
             flags |= zcr_len << ARM_TBFLAG_ZCR_LEN_SHIFT;
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
     *pflags = flags;
     *cs_base = 0;
 }
+
+#ifdef TARGET_AARCH64
+/*
+ * The manual says that when SVE is enabled and VQ is widened the
+ * implementation is allowed to zero the previously inaccessible
+ * portion of the registers.  The corollary to that is that when
+ * SVE is enabled and VQ is narrowed we are also allowed to zero
+ * the now inaccessible portion of the registers.
+ *
+ * The intent of this is that no predicate bit beyond VQ is ever set.
+ * Which means that some operations on predicate registers themselves
+ * may operate on full uint64_t or even unrolled across the maximum
+ * uint64_t[4].  Performing 4 bits of host arithmetic unconditionally
+ * may well be cheaper than conditionals to restrict the operation
+ * to the relevant portion of a uint16_t[16].
+ */
+void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq)
+{
+    int i, j;
+    uint64_t pmask;
+
+    assert(vq >= 1 && vq <= ARM_MAX_VQ);
+    assert(vq <= arm_env_get_cpu(env)->sve_max_vq);
+
+    /* Zap the high bits of the zregs.  */
+    for (i = 0; i < 32; i++) {
+        memset(&env->vfp.zregs[i].d[2 * vq], 0, 16 * (ARM_MAX_VQ - vq));
+    }
+
+    /* Zap the high bits of the pregs and ffr.  */
+    pmask = 0;
+    if (vq & 3) {
+        pmask = ~(-1ULL << (16 * (vq & 3)));
+    }
+    for (j = vq / 4; j < ARM_MAX_VQ / 4; j++) {
+        for (i = 0; i < 17; ++i) {
+            env->vfp.pregs[i].p[j] &= pmask;
+        }
+        pmask = 0;
+    }
+}
+
+/*
+ * Notice a change in SVE vector size when changing EL.
+ */
+void aarch64_sve_change_el(CPUARMState *env, int old_el, int new_el)
+{
+    int old_len, new_len;
+
+    /* Nothing to do if no SVE.  */
+    if (!arm_feature(env, ARM_FEATURE_SVE)) {
+        return;
+    }
+
+    /* Nothing to do if FP is disabled in either EL.  */
+    if (fp_exception_el(env, old_el) || fp_exception_el(env, new_el)) {
+        return;
+    }
+
+    /*
+     * DDI0584A.d sec 3.2: "If SVE instructions are disabled or trapped
+     * at ELx, or not available because the EL is in AArch32 state, then
+     * for all purposes other than a direct read, the ZCR_ELx.LEN field
+     * has an effective value of 0".
+     *
+     * Consider EL2 (aa64, vq=4) -> EL0 (aa32) -> EL1 (aa64, vq=0).
+     * If we ignore aa32 state, we would fail to see the vq4->vq0 transition
+     * from EL2->EL1.  Thus we go ahead and narrow when entering aa32 so that
+     * we already have the correct register contents when encountering the
+     * vq0->vq0 transition between EL0->EL1.
+     */
+    old_len = (arm_el_is_aa64(env, old_el) && !sve_exception_el(env, old_el)
+               ? sve_zcr_len_for_el(env, old_el) : 0);
+    new_len = (arm_el_is_aa64(env, new_el) && !sve_exception_el(env, new_el)
+               ? sve_zcr_len_for_el(env, new_el) : 0);
+
+    /* When changing vector length, clear inaccessible state.  */
+    if (new_len < old_len) {
+        aarch64_sve_narrow_vq(env, new_len + 1);
+    }
+}
+#endif
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env)
                       "AArch64 EL%d PC 0x%" PRIx64 "\n",
                       cur_el, new_el, env->pc);
     }
+    aarch64_sve_change_el(env, cur_el, new_el);
 
     qemu_mutex_lock_iothread();
     arm_call_el_change_hook(arm_env_get_cpu(env));
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

Use the existing helpers to determine if (1) the fpu is enabled,
(2) sve state is enabled, and (3) the current sve vector length.

Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           | 4 ++++
 target/arm/helper.c        | 6 +++---
 target/arm/translate-a64.c | 8 ++++++--
 3 files changed, 13 insertions(+), 5 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ target_ulong do_arm_semihosting(CPUARMState *env);
 void aarch64_sync_32_to_64(CPUARMState *env);
 void aarch64_sync_64_to_32(CPUARMState *env);
 
+int fp_exception_el(CPUARMState *env, int cur_el);
+int sve_exception_el(CPUARMState *env, int cur_el);
+uint32_t sve_zcr_len_for_el(CPUARMState *env, int el);
+
 static inline bool is_a64(CPUARMState *env)
 {
     return env->aarch64;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_lpae_cp_reginfo[] = {
  * take care of raising that exception.
  * C.f. the ARM pseudocode function CheckSVEEnabled.
  */
-static int sve_exception_el(CPUARMState *env, int el)
+int sve_exception_el(CPUARMState *env, int el)
 {
 #ifndef CONFIG_USER_ONLY
     if (el <= 1) {
@@ -XXX,XX +XXX,XX @@ static int sve_exception_el(CPUARMState *env, int el)
 /*
  * Given that SVE is enabled, return the vector length for EL.
  */
-static uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
+uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
 {
     ARMCPU *cpu = arm_env_get_cpu(env);
     uint32_t zcr_len = cpu->sve_max_vq - 1;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
 /* Return the exception level to which FP-disabled exceptions should
  * be taken, or 0 if FP is enabled.
  */
-static int fp_exception_el(CPUARMState *env, int cur_el)
+int fp_exception_el(CPUARMState *env, int cur_el)
 {
 #ifndef CONFIG_USER_ONLY
     int fpen;
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ void aarch64_cpu_dump_state(CPUState *cs, FILE *f,
         cpu_fprintf(f, "\n");
         return;
     }
+    if (fp_exception_el(env, el) != 0) {
+        cpu_fprintf(f, "    FPU disabled\n");
+        return;
+    }
     cpu_fprintf(f, "     FPCR=%08x FPSR=%08x\n",
                 vfp_get_fpcr(env), vfp_get_fpsr(env));
 
-    if (arm_feature(env, ARM_FEATURE_SVE)) {
-        int j, zcr_len = env->vfp.zcr_el[1] & 0xf; /* fix for system mode */
+    if (arm_feature(env, ARM_FEATURE_SVE) && sve_exception_el(env, el) == 0) {
+        int j, zcr_len = sve_zcr_len_for_el(env, el);
 
         for (i = 0; i <= FFR_PRED_NUM; i++) {
             bool eol;
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

The 16-byte load only uses 16 predicate bits.  But while
reusing the other load infrastructure, we find other bits
that are set and trigger an assert.  To avoid this and
retain the assert, zero-extend the predicate that we pass
to the LD1 helper.

Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-sve.c | 25 +++++++++++++++++++++++--
 1 file changed, 23 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
     unsigned vsz = vec_full_reg_size(s);
     TCGv_ptr t_pg;
     TCGv_i32 desc;
+    int poff;
 
     /* Load the first quadword using the normal predicated load helpers.  */
     desc = tcg_const_i32(simd_desc(16, 16, zt));
-    t_pg = tcg_temp_new_ptr();
 
-    tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
+    poff = pred_full_reg_offset(s, pg);
+    if (vsz > 16) {
+        /*
+         * Zero-extend the first 16 bits of the predicate into a temporary.
+         * This avoids triggering an assert making sure we don't have bits
+         * set within a predicate beyond VQ, but we have lowered VQ to 1
+         * for this load operation.
+         */
+        TCGv_i64 tmp = tcg_temp_new_i64();
+#ifdef HOST_WORDS_BIGENDIAN
+        poff += 6;
+#endif
+        tcg_gen_ld16u_i64(tmp, cpu_env, poff);
+
+        poff = offsetof(CPUARMState, vfp.preg_tmp);
+        tcg_gen_st_i64(tmp, cpu_env, poff);
+        tcg_temp_free_i64(tmp);
+    }
+
+    t_pg = tcg_temp_new_ptr();
+    tcg_gen_addi_ptr(t_pg, cpu_env, poff);
+
     fns[msz](cpu_env, t_pg, addr, desc);
 
     tcg_temp_free_ptr(t_pg);
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

Uses tlb_vaddr_to_host for correct operation with softmmu.
Optimize for accesses within a single page or pair of pages.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 731 +++++++++++++++++++++++++++++++---------
 1 file changed, 569 insertions(+), 162 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ static void swap_memmove(void *vd, void *vs, size_t n)
     }
 }
 
+/* Similarly for memset of 0.  */
+static void swap_memzero(void *vd, size_t n)
+{
+    uintptr_t d = (uintptr_t)vd;
+    uintptr_t o = (d | n) & 7;
+    size_t i;
+
+    /* Usually, the first bit of a predicate is set, so N is 0.  */
+    if (likely(n == 0)) {
+        return;
+    }
+
+#ifndef HOST_WORDS_BIGENDIAN
+    o = 0;
+#endif
+    switch (o) {
+    case 0:
+        memset(vd, 0, n);
+        break;
+
+    case 4:
+        for (i = 0; i < n; i += 4) {
+            *(uint32_t *)H1_4(d + i) = 0;
+        }
+        break;
+
+    case 2:
+    case 6:
+        for (i = 0; i < n; i += 2) {
+            *(uint16_t *)H1_2(d + i) = 0;
+        }
+        break;
+
+    default:
+        for (i = 0; i < n; i++) {
+            *(uint8_t *)H1(d + i) = 0;
+        }
+        break;
+    }
+}
+
 void HELPER(sve_ext)(void *vd, void *vn, void *vm, uint32_t desc)
 {
     intptr_t opr_sz = simd_oprsz(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcmla_zpzzz_d)(CPUARMState *env, void *vg, uint32_t desc)
 /*
  * Load contiguous data, protected by a governing predicate.
  */
-#define DO_LD1(NAME, FN, TYPEE, TYPEM, H)                  \
-static void do_##NAME(CPUARMState *env, void *vd, void *vg, \
-                      target_ulong addr, intptr_t oprsz,   \
-                      uintptr_t ra)                        \
-{                                                          \
-    intptr_t i = 0;                                        \
-    do {                                                   \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            TYPEM m = 0;                                   \
-            if (pg & 1) {                                  \
-                m = FN(env, addr, ra);                     \
-            }                                              \
-            *(TYPEE *)(vd + H(i)) = m;                     \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += sizeof(TYPEM);                         \
-        } while (i & 15);                                  \
-    } while (i < oprsz);                                   \
-}                                                          \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    do_##NAME(env, &env->vfp.zregs[simd_data(desc)], vg,   \
-              addr, simd_oprsz(desc), GETPC());            \
+
+/*
+ * Load elements into @vd, controlled by @vg, from @host + @mem_ofs.
+ * Memory is valid through @host + @mem_max.  The register element
+ * indicies are inferred from @mem_ofs, as modified by the types for
+ * which the helper is built.  Return the @mem_ofs of the first element
+ * not loaded (which is @mem_max if they are all loaded).
+ *
+ * For softmmu, we have fully validated the guest page.  For user-only,
+ * we cannot fully validate without taking the mmap lock, but since we
+ * know the access is within one host page, if any access is valid they
+ * all must be valid.  However, when @vg is all false, it may be that
+ * no access is valid.
+ */
+typedef intptr_t sve_ld1_host_fn(void *vd, void *vg, void *host,
+                                 intptr_t mem_ofs, intptr_t mem_max);
+
+/*
+ * Load one element into @vd + @reg_off from (@env, @vaddr, @ra).
+ * The controlling predicate is known to be true.
+ */
+typedef void sve_ld1_tlb_fn(CPUARMState *env, void *vd, intptr_t reg_off,
+                            target_ulong vaddr, int mmu_idx, uintptr_t ra);
+
+/*
+ * Generate the above primitives.
+ */
+
+#define DO_LD_HOST(NAME, H, TYPEE, TYPEM, HOST) \
+static intptr_t sve_##NAME##_host(void *vd, void *vg, void *host,           \
+                                  intptr_t mem_off, const intptr_t mem_max) \
+{                                                                           \
+    intptr_t reg_off = mem_off * (sizeof(TYPEE) / sizeof(TYPEM));           \
+    uint64_t *pg = vg;                                                      \
+    while (mem_off + sizeof(TYPEM) <= mem_max) {                            \
+        TYPEM val = 0;                                                      \
+        if (likely((pg[reg_off >> 6] >> (reg_off & 63)) & 1)) {             \
+            val = HOST(host + mem_off);                                     \
+        }                                                                   \
+        *(TYPEE *)(vd + H(reg_off)) = val;                                  \
+        mem_off += sizeof(TYPEM), reg_off += sizeof(TYPEE);                 \
+    }                                                                       \
+    return mem_off;                                                         \
 }
 
+#ifdef CONFIG_SOFTMMU
+#define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB) \
+static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
+                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+{                                                                           \
+    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
+    TYPEM val = TLB(env, addr, oi, ra);                                     \
+    *(TYPEE *)(vd + H(reg_off)) = val;                                      \
+}
+#else
+#define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB)                  \
+static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
+                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+{                                                                           \
+    TYPEM val = HOST(g2h(addr));                                            \
+    *(TYPEE *)(vd + H(reg_off)) = val;                                      \
+}
+#endif
+
+#define DO_LD_PRIM_1(NAME, H, TE, TM)                   \
+    DO_LD_HOST(NAME, H, TE, TM, ldub_p)                 \
+    DO_LD_TLB(NAME, H, TE, TM, ldub_p, 0, helper_ret_ldub_mmu)
+
+DO_LD_PRIM_1(ld1bb,  H1,   uint8_t,  uint8_t)
+DO_LD_PRIM_1(ld1bhu, H1_2, uint16_t, uint8_t)
+DO_LD_PRIM_1(ld1bhs, H1_2, uint16_t,  int8_t)
+DO_LD_PRIM_1(ld1bsu, H1_4, uint32_t, uint8_t)
+DO_LD_PRIM_1(ld1bss, H1_4, uint32_t,  int8_t)
+DO_LD_PRIM_1(ld1bdu,     , uint64_t, uint8_t)
+DO_LD_PRIM_1(ld1bds,     , uint64_t,  int8_t)
+
+#define DO_LD_PRIM_2(NAME, end, MOEND, H, TE, TM, PH, PT)  \
+    DO_LD_HOST(NAME##_##end, H, TE, TM, PH##_##end##_p)    \
+    DO_LD_TLB(NAME##_##end, H, TE, TM, PH##_##end##_p,     \
+              MOEND, helper_##end##_##PT##_mmu)
+
+DO_LD_PRIM_2(ld1hh,  le, MO_LE, H1_2, uint16_t, uint16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hsu, le, MO_LE, H1_4, uint32_t, uint16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hss, le, MO_LE, H1_4, uint32_t,  int16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hdu, le, MO_LE,     , uint64_t, uint16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hds, le, MO_LE,     , uint64_t,  int16_t, lduw, lduw)
+
+DO_LD_PRIM_2(ld1ss,  le, MO_LE, H1_4, uint32_t, uint32_t, ldl, ldul)
+DO_LD_PRIM_2(ld1sdu, le, MO_LE,     , uint64_t, uint32_t, ldl, ldul)
+DO_LD_PRIM_2(ld1sds, le, MO_LE,     , uint64_t,  int32_t, ldl, ldul)
+
+DO_LD_PRIM_2(ld1dd,  le, MO_LE,     , uint64_t, uint64_t, ldq, ldq)
+
+DO_LD_PRIM_2(ld1hh,  be, MO_BE, H1_2, uint16_t, uint16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hsu, be, MO_BE, H1_4, uint32_t, uint16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hss, be, MO_BE, H1_4, uint32_t,  int16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hdu, be, MO_BE,     , uint64_t, uint16_t, lduw, lduw)
+DO_LD_PRIM_2(ld1hds, be, MO_BE,     , uint64_t,  int16_t, lduw, lduw)
+
+DO_LD_PRIM_2(ld1ss,  be, MO_BE, H1_4, uint32_t, uint32_t, ldl, ldul)
+DO_LD_PRIM_2(ld1sdu, be, MO_BE,     , uint64_t, uint32_t, ldl, ldul)
+DO_LD_PRIM_2(ld1sds, be, MO_BE,     , uint64_t,  int32_t, ldl, ldul)
+
+DO_LD_PRIM_2(ld1dd,  be, MO_BE,     , uint64_t, uint64_t, ldq, ldq)
+
+#undef DO_LD_TLB
+#undef DO_LD_HOST
+#undef DO_LD_PRIM_1
+#undef DO_LD_PRIM_2
+
+/*
+ * Skip through a sequence of inactive elements in the guarding predicate @vg,
+ * beginning at @reg_off bounded by @reg_max.  Return the offset of the active
+ * element >= @reg_off, or @reg_max if there were no active elements at all.
+ */
+static intptr_t find_next_active(uint64_t *vg, intptr_t reg_off,
+                                 intptr_t reg_max, int esz)
+{
+    uint64_t pg_mask = pred_esz_masks[esz];
+    uint64_t pg = (vg[reg_off >> 6] & pg_mask) >> (reg_off & 63);
+
+    /* In normal usage, the first element is active.  */
+    if (likely(pg & 1)) {
+        return reg_off;
+    }
+
+    if (pg == 0) {
+        reg_off &= -64;
+        do {
+            reg_off += 64;
+            if (unlikely(reg_off >= reg_max)) {
+                /* The entire predicate was false.  */
+                return reg_max;
+            }
+            pg = vg[reg_off >> 6] & pg_mask;
+        } while (pg == 0);
+    }
+    reg_off += ctz64(pg);
+
+    /* We should never see an out of range predicate bit set.  */
+    tcg_debug_assert(reg_off < reg_max);
+    return reg_off;
+}
+
+/*
+ * Return the maximum offset <= @mem_max which is still within the page
+ * referenced by @base + @mem_off.
+ */
+static intptr_t max_for_page(target_ulong base, intptr_t mem_off,
+                             intptr_t mem_max)
+{
+    target_ulong addr = base + mem_off;
+    intptr_t split = -(intptr_t)(addr | TARGET_PAGE_MASK);
+    return MIN(split, mem_max - mem_off) + mem_off;
+}
+
+static inline void set_helper_retaddr(uintptr_t ra)
+{
+#ifdef CONFIG_USER_ONLY
+    helper_retaddr = ra;
+#endif
+}
+
+/*
+ * The result of tlb_vaddr_to_host for user-only is just g2h(x),
+ * which is always non-null.  Elide the useless test.
+ */
+static inline bool test_host_page(void *host)
+{
+#ifdef CONFIG_USER_ONLY
+    return true;
+#else
+    return likely(host != NULL);
+#endif
+}
+
+/*
+ * Common helper for all contiguous one-register predicated loads.
+ */
+static void sve_ld1_r(CPUARMState *env, void *vg, const target_ulong addr,
+                      uint32_t desc, const uintptr_t retaddr,
+                      const int esz, const int msz,
+                      sve_ld1_host_fn *host_fn,
+                      sve_ld1_tlb_fn *tlb_fn)
+{
+    void *vd = &env->vfp.zregs[simd_data(desc)];
+    const int diffsz = esz - msz;
+    const intptr_t reg_max = simd_oprsz(desc);
+    const intptr_t mem_max = reg_max >> diffsz;
+    const int mmu_idx = cpu_mmu_index(env, false);
+    ARMVectorReg scratch;
+    void *host;
+    intptr_t split, reg_off, mem_off;
+
+    /* Find the first active element.  */
+    reg_off = find_next_active(vg, 0, reg_max, esz);
+    if (unlikely(reg_off == reg_max)) {
+        /* The entire predicate was false; no load occurs.  */
+        memset(vd, 0, reg_max);
+        return;
+    }
+    mem_off = reg_off >> diffsz;
+    set_helper_retaddr(retaddr);
+
+    /*
+     * If the (remaining) load is entirely within a single page, then:
+     * For softmmu, and the tlb hits, then no faults will occur;
+     * For user-only, either the first load will fault or none will.
+     * We can thus perform the load directly to the destination and
+     * Vd will be unmodified on any exception path.
+     */
+    split = max_for_page(addr, mem_off, mem_max);
+    if (likely(split == mem_max)) {
+        host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
+        if (test_host_page(host)) {
+            mem_off = host_fn(vd, vg, host - mem_off, mem_off, mem_max);
+            tcg_debug_assert(mem_off == mem_max);
+            set_helper_retaddr(0);
+            /* After having taken any fault, zero leading inactive elements. */
+            swap_memzero(vd, reg_off);
+            return;
+        }
+    }
+
+    /*
+     * Perform the predicated read into a temporary, thus ensuring
+     * if the load of the last element faults, Vd is not modified.
+     */
+#ifdef CONFIG_USER_ONLY
+    swap_memzero(&scratch, reg_off);
+    host_fn(&scratch, vg, g2h(addr), mem_off, mem_max);
+#else
+    memset(&scratch, 0, reg_max);
+    goto start;
+    while (1) {
+        reg_off = find_next_active(vg, reg_off, reg_max, esz);
+        if (reg_off >= reg_max) {
+            break;
+        }
+        mem_off = reg_off >> diffsz;
+        split = max_for_page(addr, mem_off, mem_max);
+
+    start:
+        if (split - mem_off >= (1 << msz)) {
+            /* At least one whole element on this page.  */
+            host = tlb_vaddr_to_host(env, addr + mem_off,
+                                     MMU_DATA_LOAD, mmu_idx);
+            if (host) {
+                mem_off = host_fn(&scratch, vg, host - mem_off,
+                                  mem_off, split);
+                reg_off = mem_off << diffsz;
+                continue;
+            }
+        }
+
+        /*
+         * Perform one normal read.  This may fault, longjmping out to the
+         * main loop in order to raise an exception.  It may succeed, and
+         * as a side-effect load the TLB entry for the next round.  Finally,
+         * in the extremely unlikely case we're performing this operation
+         * on I/O memory, it may succeed but not bring in the TLB entry.
+         * But even then we have still made forward progress.
+         */
+        tlb_fn(env, &scratch, reg_off, addr + mem_off, mmu_idx, retaddr);
+        reg_off += 1 << esz;
+    }
+#endif
+
+    set_helper_retaddr(0);
+    memcpy(vd, &scratch, reg_max);
+}
+
+#define DO_LD1_1(NAME, ESZ) \
+void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
+                            target_ulong addr, uint32_t desc)  \
+{                                                              \
+    sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, 0,            \
+              sve_##NAME##_host, sve_##NAME##_tlb);            \
+}
+
+/* TODO: Propagate the endian check back to the translator.  */
+#define DO_LD1_2(NAME, ESZ, MSZ) \
+void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
+                            target_ulong addr, uint32_t desc)  \
+{                                                              \
+    if (arm_cpu_data_is_big_endian(env)) {                     \
+        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
+                  sve_##NAME##_be_host, sve_##NAME##_be_tlb);  \
+    } else {                                                   \
+        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
+                  sve_##NAME##_le_host, sve_##NAME##_le_tlb);  \
+    }                                                          \
+}
+
+DO_LD1_1(ld1bb,  0)
+DO_LD1_1(ld1bhu, 1)
+DO_LD1_1(ld1bhs, 1)
+DO_LD1_1(ld1bsu, 2)
+DO_LD1_1(ld1bss, 2)
+DO_LD1_1(ld1bdu, 3)
+DO_LD1_1(ld1bds, 3)
+
+DO_LD1_2(ld1hh,  1, 1)
+DO_LD1_2(ld1hsu, 2, 1)
+DO_LD1_2(ld1hss, 2, 1)
+DO_LD1_2(ld1hdu, 3, 1)
+DO_LD1_2(ld1hds, 3, 1)
+
+DO_LD1_2(ld1ss,  2, 2)
+DO_LD1_2(ld1sdu, 3, 2)
+DO_LD1_2(ld1sds, 3, 2)
+
+DO_LD1_2(ld1dd,  3, 3)
+
+#undef DO_LD1_1
+#undef DO_LD1_2
+
 #define DO_LD2(NAME, FN, TYPEE, TYPEM, H)                  \
 void HELPER(NAME)(CPUARMState *env, void *vg,              \
                   target_ulong addr, uint32_t desc)        \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(CPUARMState *env, void *vg,              \
     }                                                      \
 }
 
-DO_LD1(sve_ld1bhu_r, cpu_ldub_data_ra, uint16_t, uint8_t, H1_2)
-DO_LD1(sve_ld1bhs_r, cpu_ldsb_data_ra, uint16_t, int8_t, H1_2)
-DO_LD1(sve_ld1bsu_r, cpu_ldub_data_ra, uint32_t, uint8_t, H1_4)
-DO_LD1(sve_ld1bss_r, cpu_ldsb_data_ra, uint32_t, int8_t, H1_4)
-DO_LD1(sve_ld1bdu_r, cpu_ldub_data_ra, uint64_t, uint8_t, )
-DO_LD1(sve_ld1bds_r, cpu_ldsb_data_ra, uint64_t, int8_t, )
-
-DO_LD1(sve_ld1hsu_r, cpu_lduw_data_ra, uint32_t, uint16_t, H1_4)
-DO_LD1(sve_ld1hss_r, cpu_ldsw_data_ra, uint32_t, int16_t, H1_4)
-DO_LD1(sve_ld1hdu_r, cpu_lduw_data_ra, uint64_t, uint16_t, )
-DO_LD1(sve_ld1hds_r, cpu_ldsw_data_ra, uint64_t, int16_t, )
-
-DO_LD1(sve_ld1sdu_r, cpu_ldl_data_ra, uint64_t, uint32_t, )
-DO_LD1(sve_ld1sds_r, cpu_ldl_data_ra, uint64_t, int32_t, )
-
-DO_LD1(sve_ld1bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 DO_LD2(sve_ld2bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 DO_LD3(sve_ld3bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 DO_LD4(sve_ld4bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
 
-DO_LD1(sve_ld1hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 DO_LD2(sve_ld2hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 DO_LD3(sve_ld3hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 DO_LD4(sve_ld4hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
 
-DO_LD1(sve_ld1ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 DO_LD2(sve_ld2ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 DO_LD3(sve_ld3ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 DO_LD4(sve_ld4ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
 
-DO_LD1(sve_ld1dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 DO_LD2(sve_ld2dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 DO_LD3(sve_ld3dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 DO_LD4(sve_ld4dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
 
-#undef DO_LD1
 #undef DO_LD2
 #undef DO_LD3
 #undef DO_LD4
 
 /*
  * Load contiguous data, first-fault and no-fault.
+ *
+ * For user-only, one could argue that we should hold the mmap_lock during
+ * the operation so that there is no race between page_check_range and the
+ * load operation.  However, unmapping pages out from under a running thread
+ * is extraordinarily unlikely.  This theoretical race condition also affects
+ * linux-user/ in its get_user/put_user macros.
+ *
+ * TODO: Construct some helpers, written in assembly, that interact with
+ * handle_cpu_signal to produce memory ops which can properly report errors
+ * without racing.
  */
 
-#ifdef CONFIG_USER_ONLY
-
 /* Fault on byte I.  All bits in FFR from I are cleared.  The vector
  * result from I is CONSTRAINED UNPREDICTABLE; we choose the MERGE
  * option, which leaves subsequent data unchanged.
@@ -XXX,XX +XXX,XX @@ static void record_fault(CPUARMState *env, uintptr_t i, uintptr_t oprsz)
     }
 }
 
-/* Hold the mmap lock during the operation so that there is no race
- * between page_check_range and the load operation.  We expect the
- * usual case to have no faults at all, so we check the whole range
- * first and if successful defer to the normal load operation.
- *
- * TODO: Change mmap_lock to a rwlock so that multiple readers
- * can run simultaneously.  This will probably help other uses
- * within QEMU as well.
+/*
+ * Common helper for all contiguous first-fault loads.
  */
-#define DO_LDFF1(PART, FN, TYPEE, TYPEM, H)                             \
-static void do_sve_ldff1##PART(CPUARMState *env, void *vd, void *vg,    \
-                               target_ulong addr, intptr_t oprsz,       \
-                               bool first, uintptr_t ra)                \
-{                                                                       \
-    intptr_t i = 0;                                                     \
-    do {                                                                \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
-        do {                                                            \
-            TYPEM m = 0;                                                \
-            if (pg & 1) {                                               \
-                if (!first &&                                           \
-                    unlikely(page_check_range(addr, sizeof(TYPEM),      \
-                                              PAGE_READ))) {            \
-                    record_fault(env, i, oprsz);                        \
-                    return;                                             \
-                }                                                       \
-                m = FN(env, addr, ra);                                  \
-                first = false;                                          \
-            }                                                           \
-            *(TYPEE *)(vd + H(i)) = m;                                  \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);                   \
-            addr += sizeof(TYPEM);                                      \
-        } while (i & 15);                                               \
-    } while (i < oprsz);                                                \
-}                                                                       \
-void HELPER(sve_ldff1##PART)(CPUARMState *env, void *vg,                \
-                             target_ulong addr, uint32_t desc)          \
-{                                                                       \
-    intptr_t oprsz = simd_oprsz(desc);                                  \
-    unsigned rd = simd_data(desc);                                      \
-    void *vd = &env->vfp.zregs[rd];                                     \
-    mmap_lock();                                                        \
-    if (likely(page_check_range(addr, oprsz, PAGE_READ) == 0)) {        \
-        do_sve_ld1##PART(env, vd, vg, addr, oprsz, GETPC());            \
-    } else {                                                            \
-        do_sve_ldff1##PART(env, vd, vg, addr, oprsz, true, GETPC());    \
-    }                                                                   \
-    mmap_unlock();                                                      \
-}
+static void sve_ldff1_r(CPUARMState *env, void *vg, const target_ulong addr,
+                        uint32_t desc, const uintptr_t retaddr,
+                        const int esz, const int msz,
+                        sve_ld1_host_fn *host_fn,
+                        sve_ld1_tlb_fn *tlb_fn)
+{
+    void *vd = &env->vfp.zregs[simd_data(desc)];
+    const int diffsz = esz - msz;
+    const intptr_t reg_max = simd_oprsz(desc);
+    const intptr_t mem_max = reg_max >> diffsz;
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t split, reg_off, mem_off;
+    void *host;
 
-/* No-fault loads are like first-fault loads without the
- * first faulting special case.
- */
-#define DO_LDNF1(PART)                                                  \
-void HELPER(sve_ldnf1##PART)(CPUARMState *env, void *vg,                \
-                             target_ulong addr, uint32_t desc)          \
-{                                                                       \
-    intptr_t oprsz = simd_oprsz(desc);                                  \
-    unsigned rd = simd_data(desc);                                      \
-    void *vd = &env->vfp.zregs[rd];                                     \
-    mmap_lock();                                                        \
-    if (likely(page_check_range(addr, oprsz, PAGE_READ) == 0)) {        \
-        do_sve_ld1##PART(env, vd, vg, addr, oprsz, GETPC());            \
-    } else {                                                            \
-        do_sve_ldff1##PART(env, vd, vg, addr, oprsz, false, GETPC());   \
-    }                                                                   \
-    mmap_unlock();                                                      \
-}
+    /* Skip to the first active element.  */
+    reg_off = find_next_active(vg, 0, reg_max, esz);
+    if (unlikely(reg_off == reg_max)) {
+        /* The entire predicate was false; no load occurs.  */
+        memset(vd, 0, reg_max);
+        return;
+    }
+    mem_off = reg_off >> diffsz;
+    set_helper_retaddr(retaddr);
 
+    /*
+     * If the (remaining) load is entirely within a single page, then:
+     * For softmmu, and the tlb hits, then no faults will occur;
+     * For user-only, either the first load will fault or none will.
+     * We can thus perform the load directly to the destination and
+     * Vd will be unmodified on any exception path.
+     */
+    split = max_for_page(addr, mem_off, mem_max);
+    if (likely(split == mem_max)) {
+        host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
+        if (test_host_page(host)) {
+            mem_off = host_fn(vd, vg, host - mem_off, mem_off, mem_max);
+            tcg_debug_assert(mem_off == mem_max);
+            set_helper_retaddr(0);
+            /* After any fault, zero any leading inactive elements.  */
+            swap_memzero(vd, reg_off);
+            return;
+        }
+    }
+
+#ifdef CONFIG_USER_ONLY
+    /*
+     * The page(s) containing this first element at ADDR+MEM_OFF must
+     * be valid.  Considering that this first element may be misaligned
+     * and cross a page boundary itself, take the rest of the page from
+     * the last byte of the element.
+     */
+    split = max_for_page(addr, mem_off + (1 << msz) - 1, mem_max);
+    mem_off = host_fn(vd, vg, g2h(addr), mem_off, split);
+
+    /* After any fault, zero any leading inactive elements.  */
+    swap_memzero(vd, reg_off);
+    reg_off = mem_off << diffsz;
 #else
+    /*
+     * Perform one normal read, which will fault or not.
+     * But it is likely to bring the page into the tlb.
+     */
+    tlb_fn(env, vd, reg_off, addr + mem_off, mmu_idx, retaddr);
 
-/* TODO: System mode is not yet supported.
- * This would probably use tlb_vaddr_to_host.
- */
-#define DO_LDFF1(PART, FN, TYPEE, TYPEM, H)                     \
-void HELPER(sve_ldff1##PART)(CPUARMState *env, void *vg,        \
-                  target_ulong addr, uint32_t desc)             \
-{                                                               \
-    g_assert_not_reached();                                     \
-}
-
-#define DO_LDNF1(PART)                                          \
-void HELPER(sve_ldnf1##PART)(CPUARMState *env, void *vg,        \
-                  target_ulong addr, uint32_t desc)             \
-{                                                               \
-    g_assert_not_reached();                                     \
-}
+    /* After any fault, zero any leading predicated false elts.  */
+    swap_memzero(vd, reg_off);
+    mem_off += 1 << msz;
+    reg_off += 1 << esz;
 
+    /* Try again to read the balance of the page.  */
+    split = max_for_page(addr, mem_off - 1, mem_max);
+    if (split >= (1 << msz)) {
+        host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
+        if (host) {
+            mem_off = host_fn(vd, vg, host - mem_off, mem_off, split);
+            reg_off = mem_off << diffsz;
+        }
+    }
 #endif
 
-DO_LDFF1(bb_r,  cpu_ldub_data_ra, uint8_t, uint8_t, H1)
-DO_LDFF1(bhu_r, cpu_ldub_data_ra, uint16_t, uint8_t, H1_2)
-DO_LDFF1(bhs_r, cpu_ldsb_data_ra, uint16_t, int8_t, H1_2)
-DO_LDFF1(bsu_r, cpu_ldub_data_ra, uint32_t, uint8_t, H1_4)
-DO_LDFF1(bss_r, cpu_ldsb_data_ra, uint32_t, int8_t, H1_4)
-DO_LDFF1(bdu_r, cpu_ldub_data_ra, uint64_t, uint8_t, )
-DO_LDFF1(bds_r, cpu_ldsb_data_ra, uint64_t, int8_t, )
+    set_helper_retaddr(0);
+    record_fault(env, reg_off, reg_max);
+}
 
-DO_LDFF1(hh_r,  cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
-DO_LDFF1(hsu_r, cpu_lduw_data_ra, uint32_t, uint16_t, H1_4)
-DO_LDFF1(hss_r, cpu_ldsw_data_ra, uint32_t, int8_t, H1_4)
-DO_LDFF1(hdu_r, cpu_lduw_data_ra, uint64_t, uint16_t, )
-DO_LDFF1(hds_r, cpu_ldsw_data_ra, uint64_t, int16_t, )
+/*
+ * Common helper for all contiguous no-fault loads.
+ */
+static void sve_ldnf1_r(CPUARMState *env, void *vg, const target_ulong addr,
+                        uint32_t desc, const int esz, const int msz,
+                        sve_ld1_host_fn *host_fn)
+{
+    void *vd = &env->vfp.zregs[simd_data(desc)];
+    const int diffsz = esz - msz;
+    const intptr_t reg_max = simd_oprsz(desc);
+    const intptr_t mem_max = reg_max >> diffsz;
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t split, reg_off, mem_off;
+    void *host;
 
-DO_LDFF1(ss_r,  cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
-DO_LDFF1(sdu_r, cpu_ldl_data_ra, uint64_t, uint32_t, )
-DO_LDFF1(sds_r, cpu_ldl_data_ra, uint64_t, int32_t, )
+#ifdef CONFIG_USER_ONLY
+    host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD, mmu_idx);
+    if (likely(page_check_range(addr, mem_max, PAGE_READ) == 0)) {
+        /* The entire operation is valid and will not fault.  */
+        host_fn(vd, vg, host, 0, mem_max);
+        return;
+    }
+#endif
 
-DO_LDFF1(dd_r,  cpu_ldq_data_ra, uint64_t, uint64_t, )
+    /* There will be no fault, so we may modify in advance.  */
+    memset(vd, 0, reg_max);
 
-#undef DO_LDFF1
+    /* Skip to the first active element.  */
+    reg_off = find_next_active(vg, 0, reg_max, esz);
+    if (unlikely(reg_off == reg_max)) {
+        /* The entire predicate was false; no load occurs.  */
+        return;
+    }
+    mem_off = reg_off >> diffsz;
 
-DO_LDNF1(bb_r)
-DO_LDNF1(bhu_r)
-DO_LDNF1(bhs_r)
-DO_LDNF1(bsu_r)
-DO_LDNF1(bss_r)
-DO_LDNF1(bdu_r)
-DO_LDNF1(bds_r)
+#ifdef CONFIG_USER_ONLY
+    if (page_check_range(addr + mem_off, 1 << msz, PAGE_READ) == 0) {
+        /* At least one load is valid; take the rest of the page.  */
+        split = max_for_page(addr, mem_off + (1 << msz) - 1, mem_max);
+        mem_off = host_fn(vd, vg, host, mem_off, split);
+        reg_off = mem_off << diffsz;
+    }
+#else
+    /*
+     * If the address is not in the TLB, we have no way to bring the
+     * entry into the TLB without also risking a fault.  Note that
+     * the corollary is that we never load from an address not in RAM.
+     *
+     * This last is out of spec, in a weird corner case.
+     * Per the MemNF/MemSingleNF pseudocode, a NF load from Device memory
+     * must not actually hit the bus -- it returns UNKNOWN data instead.
+     * But if you map non-RAM with Normal memory attributes and do a NF
+     * load then it should access the bus.  (Nobody ought actually do this
+     * in the real world, obviously.)
+     *
+     * Then there are the annoying special cases with watchpoints...
+     *
+     * TODO: Add a form of tlb_fill that does not raise an exception,
+     * with a form of tlb_vaddr_to_host and a set of loads to match.
+     * The non_fault_vaddr_to_host would handle everything, usually,
+     * and the loads would handle the iomem path for watchpoints.
+     */
+    host = tlb_vaddr_to_host(env, addr + mem_off, MMU_DATA_LOAD, mmu_idx);
+    split = max_for_page(addr, mem_off, mem_max);
+    if (host && split >= (1 << msz)) {
+        mem_off = host_fn(vd, vg, host - mem_off, mem_off, split);
+        reg_off = mem_off << diffsz;
+    }
+#endif
 
-DO_LDNF1(hh_r)
-DO_LDNF1(hsu_r)
-DO_LDNF1(hss_r)
-DO_LDNF1(hdu_r)
-DO_LDNF1(hds_r)
+    record_fault(env, reg_off, reg_max);
+}
 
-DO_LDNF1(ss_r)
-DO_LDNF1(sdu_r)
-DO_LDNF1(sds_r)
+#define DO_LDFF1_LDNF1_1(PART, ESZ) \
+void HELPER(sve_ldff1##PART##_r)(CPUARMState *env, void *vg,            \
+                                 target_ulong addr, uint32_t desc)      \
+{                                                                       \
+    sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, 0,                   \
+                sve_ld1##PART##_host, sve_ld1##PART##_tlb);             \
+}                                                                       \
+void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
+                                 target_ulong addr, uint32_t desc)      \
+{                                                                       \
+    sve_ldnf1_r(env, vg, addr, desc, ESZ, 0, sve_ld1##PART##_host);     \
+}
 
-DO_LDNF1(dd_r)
+/* TODO: Propagate the endian check back to the translator.  */
+#define DO_LDFF1_LDNF1_2(PART, ESZ, MSZ) \
+void HELPER(sve_ldff1##PART##_r)(CPUARMState *env, void *vg,            \
+                                 target_ulong addr, uint32_t desc)      \
+{                                                                       \
+    if (arm_cpu_data_is_big_endian(env)) {                              \
+        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+                    sve_ld1##PART##_be_host, sve_ld1##PART##_be_tlb);   \
+    } else {                                                            \
+        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+                    sve_ld1##PART##_le_host, sve_ld1##PART##_le_tlb);   \
+    }                                                                   \
+}                                                                       \
+void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
+                                 target_ulong addr, uint32_t desc)      \
+{                                                                       \
+    if (arm_cpu_data_is_big_endian(env)) {                              \
+        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
+                    sve_ld1##PART##_be_host);                           \
+    } else {                                                            \
+        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
+                    sve_ld1##PART##_le_host);                           \
+    }                                                                   \
+}
 
-#undef DO_LDNF1
+DO_LDFF1_LDNF1_1(bb,  0)
+DO_LDFF1_LDNF1_1(bhu, 1)
+DO_LDFF1_LDNF1_1(bhs, 1)
+DO_LDFF1_LDNF1_1(bsu, 2)
+DO_LDFF1_LDNF1_1(bss, 2)
+DO_LDFF1_LDNF1_1(bdu, 3)
+DO_LDFF1_LDNF1_1(bds, 3)
+
+DO_LDFF1_LDNF1_2(hh,  1, 1)
+DO_LDFF1_LDNF1_2(hsu, 2, 1)
+DO_LDFF1_LDNF1_2(hss, 2, 1)
+DO_LDFF1_LDNF1_2(hdu, 3, 1)
+DO_LDFF1_LDNF1_2(hds, 3, 1)
+
+DO_LDFF1_LDNF1_2(ss,  2, 2)
+DO_LDFF1_LDNF1_2(sdu, 3, 2)
+DO_LDFF1_LDNF1_2(sds, 3, 2)
+
+DO_LDFF1_LDNF1_2(dd,  3, 3)
+
+#undef DO_LDFF1_LDNF1_1
+#undef DO_LDFF1_LDNF1_2
 
 /*
  * Store contiguous data, protected by a governing predicate.
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

Use the same *_tlb primitives as we use for ld1.

For linux-user, this hoists the set of helper_retaddr.  For softmmu,
hoists the computation of the current mmu_idx outside the loop,
fixes the endianness problem, and moves the main loop out of a
macro and into an inlined function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 210 ++++++++++++++++++++++------------------
 1 file changed, 117 insertions(+), 93 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_LD1_2(ld1dd,  3, 3)
 #undef DO_LD1_1
 #undef DO_LD1_2
 
-#define DO_LD2(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *d1 = &env->vfp.zregs[rd];                        \
-    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            TYPEM m1 = 0, m2 = 0;                          \
-            if (pg & 1) {                                  \
-                m1 = FN(env, addr, ra);                    \
-                m2 = FN(env, addr + sizeof(TYPEM), ra);    \
-            }                                              \
-            *(TYPEE *)(d1 + H(i)) = m1;                    \
-            *(TYPEE *)(d2 + H(i)) = m2;                    \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += 2 * sizeof(TYPEM);                     \
-        } while (i & 15);                                  \
-    }                                                      \
+/*
+ * Common helpers for all contiguous 2,3,4-register predicated loads.
+ */
+static void sve_ld2_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, int size, uintptr_t ra,
+                      sve_ld1_tlb_fn *tlb_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
+    unsigned rd = simd_data(desc);
+    ARMVectorReg scratch[2] = { };
+
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
+                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
+            }
+            i += size, pg >>= size;
+            addr += 2 * size;
+        } while (i & 15);
+    }
+    set_helper_retaddr(0);
+
+    /* Wait until all exceptions have been raised to write back.  */
+    memcpy(&env->vfp.zregs[rd], &scratch[0], oprsz);
+    memcpy(&env->vfp.zregs[(rd + 1) & 31], &scratch[1], oprsz);
 }
 
-#define DO_LD3(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *d1 = &env->vfp.zregs[rd];                        \
-    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
-    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            TYPEM m1 = 0, m2 = 0, m3 = 0;                  \
-            if (pg & 1) {                                  \
-                m1 = FN(env, addr, ra);                    \
-                m2 = FN(env, addr + sizeof(TYPEM), ra);    \
-                m3 = FN(env, addr + 2 * sizeof(TYPEM), ra); \
-            }                                              \
-            *(TYPEE *)(d1 + H(i)) = m1;                    \
-            *(TYPEE *)(d2 + H(i)) = m2;                    \
-            *(TYPEE *)(d3 + H(i)) = m3;                    \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += 3 * sizeof(TYPEM);                     \
-        } while (i & 15);                                  \
-    }                                                      \
+static void sve_ld3_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, int size, uintptr_t ra,
+                      sve_ld1_tlb_fn *tlb_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
+    unsigned rd = simd_data(desc);
+    ARMVectorReg scratch[3] = { };
+
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
+                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
+                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
+            }
+            i += size, pg >>= size;
+            addr += 3 * size;
+        } while (i & 15);
+    }
+    set_helper_retaddr(0);
+
+    /* Wait until all exceptions have been raised to write back.  */
+    memcpy(&env->vfp.zregs[rd], &scratch[0], oprsz);
+    memcpy(&env->vfp.zregs[(rd + 1) & 31], &scratch[1], oprsz);
+    memcpy(&env->vfp.zregs[(rd + 2) & 31], &scratch[2], oprsz);
 }
 
-#define DO_LD4(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *d1 = &env->vfp.zregs[rd];                        \
-    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
-    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
-    void *d4 = &env->vfp.zregs[(rd + 3) & 31];             \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            TYPEM m1 = 0, m2 = 0, m3 = 0, m4 = 0;          \
-            if (pg & 1) {                                  \
-                m1 = FN(env, addr, ra);                    \
-                m2 = FN(env, addr + sizeof(TYPEM), ra);    \
-                m3 = FN(env, addr + 2 * sizeof(TYPEM), ra); \
-                m4 = FN(env, addr + 3 * sizeof(TYPEM), ra); \
-            }                                              \
-            *(TYPEE *)(d1 + H(i)) = m1;                    \
-            *(TYPEE *)(d2 + H(i)) = m2;                    \
-            *(TYPEE *)(d3 + H(i)) = m3;                    \
-            *(TYPEE *)(d4 + H(i)) = m4;                    \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += 4 * sizeof(TYPEM);                     \
-        } while (i & 15);                                  \
-    }                                                      \
+static void sve_ld4_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, int size, uintptr_t ra,
+                      sve_ld1_tlb_fn *tlb_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
+    unsigned rd = simd_data(desc);
+    ARMVectorReg scratch[4] = { };
+
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
+                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
+                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
+                tlb_fn(env, &scratch[3], i, addr + 3 * size, mmu_idx, ra);
+            }
+            i += size, pg >>= size;
+            addr += 4 * size;
+        } while (i & 15);
+    }
+    set_helper_retaddr(0);
+
+    /* Wait until all exceptions have been raised to write back.  */
+    memcpy(&env->vfp.zregs[rd], &scratch[0], oprsz);
+    memcpy(&env->vfp.zregs[(rd + 1) & 31], &scratch[1], oprsz);
+    memcpy(&env->vfp.zregs[(rd + 2) & 31], &scratch[2], oprsz);
+    memcpy(&env->vfp.zregs[(rd + 3) & 31], &scratch[3], oprsz);
 }
 
-DO_LD2(sve_ld2bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
-DO_LD3(sve_ld3bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
-DO_LD4(sve_ld4bb_r, cpu_ldub_data_ra, uint8_t, uint8_t, H1)
+#define DO_LDN_1(N) \
+void __attribute__((flatten)) HELPER(sve_ld##N##bb_r)               \
+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)  \
+{                                                                   \
+    sve_ld##N##_r(env, vg, addr, desc, 1, GETPC(), sve_ld1bb_tlb);  \
+}
 
-DO_LD2(sve_ld2hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
-DO_LD3(sve_ld3hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
-DO_LD4(sve_ld4hh_r, cpu_lduw_data_ra, uint16_t, uint16_t, H1_2)
+#define DO_LDN_2(N, SUFF, SIZE)                                       \
+void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_r)             \
+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+{                                                                     \
+    sve_ld##N##_r(env, vg, addr, desc, SIZE, GETPC(),                 \
+                  arm_cpu_data_is_big_endian(env)                     \
+                  ? sve_ld1##SUFF##_be_tlb : sve_ld1##SUFF##_le_tlb); \
+}
 
-DO_LD2(sve_ld2ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
-DO_LD3(sve_ld3ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
-DO_LD4(sve_ld4ss_r, cpu_ldl_data_ra, uint32_t, uint32_t, H1_4)
+DO_LDN_1(2)
+DO_LDN_1(3)
+DO_LDN_1(4)
 
-DO_LD2(sve_ld2dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
-DO_LD3(sve_ld3dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
-DO_LD4(sve_ld4dd_r, cpu_ldq_data_ra, uint64_t, uint64_t, )
+DO_LDN_2(2, hh, 2)
+DO_LDN_2(3, hh, 2)
+DO_LDN_2(4, hh, 2)
 
-#undef DO_LD2
-#undef DO_LD3
-#undef DO_LD4
+DO_LDN_2(2, ss, 4)
+DO_LDN_2(3, ss, 4)
+DO_LDN_2(4, ss, 4)
+
+DO_LDN_2(2, dd, 8)
+DO_LDN_2(3, dd, 8)
+DO_LDN_2(4, dd, 8)
+
+#undef DO_LDN_1
+#undef DO_LDN_2
 
 /*
  * Load contiguous data, first-fault and no-fault.
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

This fixes the endianness problem for softmmu, and moves the
main loop out of a macro and into an inlined function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/sve_helper.c | 351 ++++++++++++++++++++--------------------
 1 file changed, 172 insertions(+), 179 deletions(-)

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ typedef intptr_t sve_ld1_host_fn(void *vd, void *vg, void *host,
  */
 typedef void sve_ld1_tlb_fn(CPUARMState *env, void *vd, intptr_t reg_off,
                             target_ulong vaddr, int mmu_idx, uintptr_t ra);
+typedef sve_ld1_tlb_fn sve_st1_tlb_fn;
 
 /*
  * Generate the above primitives.
@@ -XXX,XX +XXX,XX @@ DO_LDFF1_LDNF1_2(dd,  3, 3)
 /*
  * Store contiguous data, protected by a governing predicate.
  */
-#define DO_ST1(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *vd = &env->vfp.zregs[rd];                        \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            if (pg & 1) {                                  \
-                TYPEM m = *(TYPEE *)(vd + H(i));           \
-                FN(env, addr, m, ra);                      \
-            }                                              \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += sizeof(TYPEM);                         \
-        } while (i & 15);                                  \
-    }                                                      \
+
+#ifdef CONFIG_SOFTMMU
+#define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
+static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
+                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+{                                                                           \
+    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
+    TLB(env, addr, *(TYPEM *)(vd + H(reg_off)), oi, ra);                    \
 }
-
-#define DO_ST1_D(NAME, FN, TYPEM)                          \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc) / 8;              \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    uint64_t *d = &env->vfp.zregs[rd].d[0];                \
-    uint8_t *pg = vg;                                      \
-    for (i = 0; i < oprsz; i += 1) {                       \
-        if (pg[H1(i)] & 1) {                               \
-            FN(env, addr, d[i], ra);                       \
-        }                                                  \
-        addr += sizeof(TYPEM);                             \
-    }                                                      \
+#else
+#define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
+static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
+                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+{                                                                           \
+    HOST(g2h(addr), *(TYPEM *)(vd + H(reg_off)));                           \
 }
+#endif
 
-#define DO_ST2(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *d1 = &env->vfp.zregs[rd];                        \
-    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            if (pg & 1) {                                  \
-                TYPEM m1 = *(TYPEE *)(d1 + H(i));          \
-                TYPEM m2 = *(TYPEE *)(d2 + H(i));          \
-                FN(env, addr, m1, ra);                     \
-                FN(env, addr + sizeof(TYPEM), m2, ra);     \
-            }                                              \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += 2 * sizeof(TYPEM);                     \
-        } while (i & 15);                                  \
-    }                                                      \
-}
+DO_ST_TLB(st1bb,   H1,  uint8_t, stb_p, 0, helper_ret_stb_mmu)
+DO_ST_TLB(st1bh, H1_2, uint16_t, stb_p, 0, helper_ret_stb_mmu)
+DO_ST_TLB(st1bs, H1_4, uint32_t, stb_p, 0, helper_ret_stb_mmu)
+DO_ST_TLB(st1bd,     , uint64_t, stb_p, 0, helper_ret_stb_mmu)
 
-#define DO_ST3(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *d1 = &env->vfp.zregs[rd];                        \
-    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
-    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            if (pg & 1) {                                  \
-                TYPEM m1 = *(TYPEE *)(d1 + H(i));          \
-                TYPEM m2 = *(TYPEE *)(d2 + H(i));          \
-                TYPEM m3 = *(TYPEE *)(d3 + H(i));          \
-                FN(env, addr, m1, ra);                     \
-                FN(env, addr + sizeof(TYPEM), m2, ra);     \
-                FN(env, addr + 2 * sizeof(TYPEM), m3, ra); \
-            }                                              \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += 3 * sizeof(TYPEM);                     \
-        } while (i & 15);                                  \
-    }                                                      \
-}
+DO_ST_TLB(st1hh_le, H1_2, uint16_t, stw_le_p, MO_LE, helper_le_stw_mmu)
+DO_ST_TLB(st1hs_le, H1_4, uint32_t, stw_le_p, MO_LE, helper_le_stw_mmu)
+DO_ST_TLB(st1hd_le,     , uint64_t, stw_le_p, MO_LE, helper_le_stw_mmu)
 
-#define DO_ST4(NAME, FN, TYPEE, TYPEM, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vg,              \
-                  target_ulong addr, uint32_t desc)        \
-{                                                          \
-    intptr_t i, oprsz = simd_oprsz(desc);                  \
-    intptr_t ra = GETPC();                                 \
-    unsigned rd = simd_data(desc);                         \
-    void *d1 = &env->vfp.zregs[rd];                        \
-    void *d2 = &env->vfp.zregs[(rd + 1) & 31];             \
-    void *d3 = &env->vfp.zregs[(rd + 2) & 31];             \
-    void *d4 = &env->vfp.zregs[(rd + 3) & 31];             \
-    for (i = 0; i < oprsz; ) {                             \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));    \
-        do {                                               \
-            if (pg & 1) {                                  \
-                TYPEM m1 = *(TYPEE *)(d1 + H(i));          \
-                TYPEM m2 = *(TYPEE *)(d2 + H(i));          \
-                TYPEM m3 = *(TYPEE *)(d3 + H(i));          \
-                TYPEM m4 = *(TYPEE *)(d4 + H(i));          \
-                FN(env, addr, m1, ra);                     \
-                FN(env, addr + sizeof(TYPEM), m2, ra);     \
-                FN(env, addr + 2 * sizeof(TYPEM), m3, ra); \
-                FN(env, addr + 3 * sizeof(TYPEM), m4, ra); \
-            }                                              \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);      \
-            addr += 4 * sizeof(TYPEM);                     \
-        } while (i & 15);                                  \
-    }                                                      \
-}
+DO_ST_TLB(st1ss_le, H1_4, uint32_t, stl_le_p, MO_LE, helper_le_stl_mmu)
+DO_ST_TLB(st1sd_le,     , uint64_t, stl_le_p, MO_LE, helper_le_stl_mmu)
 
-DO_ST1(sve_st1bh_r, cpu_stb_data_ra, uint16_t, uint8_t, H1_2)
-DO_ST1(sve_st1bs_r, cpu_stb_data_ra, uint32_t, uint8_t, H1_4)
-DO_ST1_D(sve_st1bd_r, cpu_stb_data_ra, uint8_t)
+DO_ST_TLB(st1dd_le,     , uint64_t, stq_le_p, MO_LE, helper_le_stq_mmu)
 
-DO_ST1(sve_st1hs_r, cpu_stw_data_ra, uint32_t, uint16_t, H1_4)
-DO_ST1_D(sve_st1hd_r, cpu_stw_data_ra, uint16_t)
+DO_ST_TLB(st1hh_be, H1_2, uint16_t, stw_be_p, MO_BE, helper_be_stw_mmu)
+DO_ST_TLB(st1hs_be, H1_4, uint32_t, stw_be_p, MO_BE, helper_be_stw_mmu)
+DO_ST_TLB(st1hd_be,     , uint64_t, stw_be_p, MO_BE, helper_be_stw_mmu)
 
-DO_ST1_D(sve_st1sd_r, cpu_stl_data_ra, uint32_t)
+DO_ST_TLB(st1ss_be, H1_4, uint32_t, stl_be_p, MO_BE, helper_be_stl_mmu)
+DO_ST_TLB(st1sd_be,     , uint64_t, stl_be_p, MO_BE, helper_be_stl_mmu)
 
-DO_ST1(sve_st1bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
-DO_ST2(sve_st2bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
-DO_ST3(sve_st3bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
-DO_ST4(sve_st4bb_r, cpu_stb_data_ra, uint8_t, uint8_t, H1)
+DO_ST_TLB(st1dd_be,     , uint64_t, stq_be_p, MO_BE, helper_be_stq_mmu)
 
-DO_ST1(sve_st1hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
-DO_ST2(sve_st2hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
-DO_ST3(sve_st3hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
-DO_ST4(sve_st4hh_r, cpu_stw_data_ra, uint16_t, uint16_t, H1_2)
+#undef DO_ST_TLB
 
-DO_ST1(sve_st1ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
-DO_ST2(sve_st2ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
-DO_ST3(sve_st3ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
-DO_ST4(sve_st4ss_r, cpu_stl_data_ra, uint32_t, uint32_t, H1_4)
-
-DO_ST1_D(sve_st1dd_r, cpu_stq_data_ra, uint64_t)
-
-void HELPER(sve_st2dd_r)(CPUARMState *env, void *vg,
-                         target_ulong addr, uint32_t desc)
+/*
+ * Common helpers for all contiguous 1,2,3,4-register predicated stores.
+ */
+static void sve_st1_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, const uintptr_t ra,
+                      const int esize, const int msize,
+                      sve_st1_tlb_fn *tlb_fn)
 {
-    intptr_t i, oprsz = simd_oprsz(desc) / 8;
-    intptr_t ra = GETPC();
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
     unsigned rd = simd_data(desc);
-    uint64_t *d1 = &env->vfp.zregs[rd].d[0];
-    uint64_t *d2 = &env->vfp.zregs[(rd + 1) & 31].d[0];
-    uint8_t *pg = vg;
+    void *vd = &env->vfp.zregs[rd];
 
-    for (i = 0; i < oprsz; i += 1) {
-        if (pg[H1(i)] & 1) {
-            cpu_stq_data_ra(env, addr, d1[i], ra);
-            cpu_stq_data_ra(env, addr + 8, d2[i], ra);
-        }
-        addr += 2 * 8;
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, vd, i, addr, mmu_idx, ra);
+            }
+            i += esize, pg >>= esize;
+            addr += msize;
+        } while (i & 15);
     }
+    set_helper_retaddr(0);
 }
 
-void HELPER(sve_st3dd_r)(CPUARMState *env, void *vg,
-                         target_ulong addr, uint32_t desc)
+static void sve_st2_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, const uintptr_t ra,
+                      const int esize, const int msize,
+                      sve_st1_tlb_fn *tlb_fn)
 {
-    intptr_t i, oprsz = simd_oprsz(desc) / 8;
-    intptr_t ra = GETPC();
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
     unsigned rd = simd_data(desc);
-    uint64_t *d1 = &env->vfp.zregs[rd].d[0];
-    uint64_t *d2 = &env->vfp.zregs[(rd + 1) & 31].d[0];
-    uint64_t *d3 = &env->vfp.zregs[(rd + 2) & 31].d[0];
-    uint8_t *pg = vg;
+    void *d1 = &env->vfp.zregs[rd];
+    void *d2 = &env->vfp.zregs[(rd + 1) & 31];
 
-    for (i = 0; i < oprsz; i += 1) {
-        if (pg[H1(i)] & 1) {
-            cpu_stq_data_ra(env, addr, d1[i], ra);
-            cpu_stq_data_ra(env, addr + 8, d2[i], ra);
-            cpu_stq_data_ra(env, addr + 16, d3[i], ra);
-        }
-        addr += 3 * 8;
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, d1, i, addr, mmu_idx, ra);
+                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
+            }
+            i += esize, pg >>= esize;
+            addr += 2 * msize;
+        } while (i & 15);
     }
+    set_helper_retaddr(0);
 }
 
-void HELPER(sve_st4dd_r)(CPUARMState *env, void *vg,
-                         target_ulong addr, uint32_t desc)
+static void sve_st3_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, const uintptr_t ra,
+                      const int esize, const int msize,
+                      sve_st1_tlb_fn *tlb_fn)
 {
-    intptr_t i, oprsz = simd_oprsz(desc) / 8;
-    intptr_t ra = GETPC();
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
     unsigned rd = simd_data(desc);
-    uint64_t *d1 = &env->vfp.zregs[rd].d[0];
-    uint64_t *d2 = &env->vfp.zregs[(rd + 1) & 31].d[0];
-    uint64_t *d3 = &env->vfp.zregs[(rd + 2) & 31].d[0];
-    uint64_t *d4 = &env->vfp.zregs[(rd + 3) & 31].d[0];
-    uint8_t *pg = vg;
+    void *d1 = &env->vfp.zregs[rd];
+    void *d2 = &env->vfp.zregs[(rd + 1) & 31];
+    void *d3 = &env->vfp.zregs[(rd + 2) & 31];
 
-    for (i = 0; i < oprsz; i += 1) {
-        if (pg[H1(i)] & 1) {
-            cpu_stq_data_ra(env, addr, d1[i], ra);
-            cpu_stq_data_ra(env, addr + 8, d2[i], ra);
-            cpu_stq_data_ra(env, addr + 16, d3[i], ra);
-            cpu_stq_data_ra(env, addr + 24, d4[i], ra);
-        }
-        addr += 4 * 8;
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, d1, i, addr, mmu_idx, ra);
+                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
+                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
+            }
+            i += esize, pg >>= esize;
+            addr += 3 * msize;
+        } while (i & 15);
     }
+    set_helper_retaddr(0);
 }
 
+static void sve_st4_r(CPUARMState *env, void *vg, target_ulong addr,
+                      uint32_t desc, const uintptr_t ra,
+                      const int esize, const int msize,
+                      sve_st1_tlb_fn *tlb_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
+    unsigned rd = simd_data(desc);
+    void *d1 = &env->vfp.zregs[rd];
+    void *d2 = &env->vfp.zregs[(rd + 1) & 31];
+    void *d3 = &env->vfp.zregs[(rd + 2) & 31];
+    void *d4 = &env->vfp.zregs[(rd + 3) & 31];
+
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (pg & 1) {
+                tlb_fn(env, d1, i, addr, mmu_idx, ra);
+                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
+                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
+                tlb_fn(env, d4, i, addr + 3 * msize, mmu_idx, ra);
+            }
+            i += esize, pg >>= esize;
+            addr += 4 * msize;
+        } while (i & 15);
+    }
+    set_helper_retaddr(0);
+}
+
+#define DO_STN_1(N, NAME, ESIZE) \
+void __attribute__((flatten)) HELPER(sve_st##N##NAME##_r)           \
+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)  \
+{                                                                   \
+    sve_st##N##_r(env, vg, addr, desc, GETPC(), ESIZE, 1,           \
+                  sve_st1##NAME##_tlb);                             \
+}
+
+#define DO_STN_2(N, NAME, ESIZE, MSIZE) \
+void __attribute__((flatten)) HELPER(sve_st##N##NAME##_r)             \
+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+{                                                                     \
+    sve_st##N##_r(env, vg, addr, desc, GETPC(), ESIZE, MSIZE,         \
+                  arm_cpu_data_is_big_endian(env)                     \
+                  ? sve_st1##NAME##_be_tlb : sve_st1##NAME##_le_tlb); \
+}
+
+DO_STN_1(1, bb, 1)
+DO_STN_1(1, bh, 2)
+DO_STN_1(1, bs, 4)
+DO_STN_1(1, bd, 8)
+DO_STN_1(2, bb, 1)
+DO_STN_1(3, bb, 1)
+DO_STN_1(4, bb, 1)
+
+DO_STN_2(1, hh, 2, 2)
+DO_STN_2(1, hs, 4, 2)
+DO_STN_2(1, hd, 8, 2)
+DO_STN_2(2, hh, 2, 2)
+DO_STN_2(3, hh, 2, 2)
+DO_STN_2(4, hh, 2, 2)
+
+DO_STN_2(1, ss, 4, 4)
+DO_STN_2(1, sd, 8, 4)
+DO_STN_2(2, ss, 4, 4)
+DO_STN_2(3, ss, 4, 4)
+DO_STN_2(4, ss, 4, 4)
+
+DO_STN_2(1, dd, 8, 8)
+DO_STN_2(2, dd, 8, 8)
+DO_STN_2(3, dd, 8, 8)
+DO_STN_2(4, dd, 8, 8)
+
+#undef DO_STN_1
+#undef DO_STN_2
+
 /* Loads with a vector index.  */
 
 #define DO_LD1_ZPZ_S(NAME, TYPEI, TYPEM, FN)                            \
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

We can choose the endianness at translation time, rather than
re-computing it at execution time.

Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-sve.h    | 117 +++++++++++++++-------
 target/arm/sve_helper.c    |  70 ++++++-------
 target/arm/translate-sve.c | 196 +++++++++++++++++++++++++------------
 3 files changed, 252 insertions(+), 131 deletions(-)

diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-sve.h
+++ b/target/arm/helper-sve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ld2bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ld3bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ld4bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ld1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld2hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld3hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld4hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld2hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld3hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld4hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ld1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld2ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld3ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld4ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld2hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld3hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld4hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ld1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld2dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld3dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld4dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld2ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld3ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld4ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ld1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld2ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld3ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld4ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ld1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld2dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld3dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld4dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ld1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld2dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld3dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld4dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_4(sve_ld1bhu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ld1bsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ld1bhs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ld1bss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ld1bds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ld1hsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld1hdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld1hss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld1hds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hsu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ld1sdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ld1sds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hsu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1hds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ld1sdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1sds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ld1sdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ld1sds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_4(sve_ldff1bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ldff1bhu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ldff1bhs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ldff1bss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ldff1bds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ldff1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldff1hsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldff1hdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldff1hss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldff1hds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hsu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ldff1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldff1sdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldff1sds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hsu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1hds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ldff1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1sdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1sds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ldff1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1sdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1sds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ldff1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldff1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_4(sve_ldnf1bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ldnf1bhu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_ldnf1bhs_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ldnf1bss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_ldnf1bds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ldnf1hh_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldnf1hsu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldnf1hdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldnf1hss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldnf1hds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hh_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hsu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ldnf1ss_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldnf1sdu_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
-DEF_HELPER_FLAGS_4(sve_ldnf1sds_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hh_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hsu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1hds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
-DEF_HELPER_FLAGS_4(sve_ldnf1dd_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1ss_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1sdu_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1sds_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ldnf1ss_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1sdu_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1sds_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+
+DEF_HELPER_FLAGS_4(sve_ldnf1dd_le_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
+DEF_HELPER_FLAGS_4(sve_ldnf1dd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_4(sve_st1bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 DEF_HELPER_FLAGS_4(sve_st2bb_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
               sve_##NAME##_host, sve_##NAME##_tlb);            \
 }
 
-/* TODO: Propagate the endian check back to the translator.  */
 #define DO_LD1_2(NAME, ESZ, MSZ) \
-void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,        \
-                            target_ulong addr, uint32_t desc)  \
-{                                                              \
-    if (arm_cpu_data_is_big_endian(env)) {                     \
-        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
-                  sve_##NAME##_be_host, sve_##NAME##_be_tlb);  \
-    } else {                                                   \
-        sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,      \
-                  sve_##NAME##_le_host, sve_##NAME##_le_tlb);  \
-    }                                                          \
+void HELPER(sve_##NAME##_le_r)(CPUARMState *env, void *vg,        \
+                               target_ulong addr, uint32_t desc)  \
+{                                                                 \
+    sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+              sve_##NAME##_le_host, sve_##NAME##_le_tlb);         \
+}                                                                 \
+void HELPER(sve_##NAME##_be_r)(CPUARMState *env, void *vg,        \
+                               target_ulong addr, uint32_t desc)  \
+{                                                                 \
+    sve_ld1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
+              sve_##NAME##_be_host, sve_##NAME##_be_tlb);         \
 }
 
 DO_LD1_1(ld1bb,  0)
@@ -XXX,XX +XXX,XX @@ void __attribute__((flatten)) HELPER(sve_ld##N##bb_r)               \
 }
 
 #define DO_LDN_2(N, SUFF, SIZE)                                       \
-void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_r)             \
+void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_le_r)          \
     (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
 {                                                                     \
     sve_ld##N##_r(env, vg, addr, desc, SIZE, GETPC(),                 \
-                  arm_cpu_data_is_big_endian(env)                     \
-                  ? sve_ld1##SUFF##_be_tlb : sve_ld1##SUFF##_le_tlb); \
+                  sve_ld1##SUFF##_le_tlb);                            \
+}                                                                     \
+void __attribute__((flatten)) HELPER(sve_ld##N##SUFF##_be_r)          \
+    (CPUARMState *env, void *vg, target_ulong addr, uint32_t desc)    \
+{                                                                     \
+    sve_ld##N##_r(env, vg, addr, desc, SIZE, GETPC(),                 \
+                  sve_ld1##SUFF##_be_tlb);                            \
 }
 
 DO_LDN_1(2)
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
     sve_ldnf1_r(env, vg, addr, desc, ESZ, 0, sve_ld1##PART##_host);     \
 }
 
-/* TODO: Propagate the endian check back to the translator.  */
 #define DO_LDFF1_LDNF1_2(PART, ESZ, MSZ) \
-void HELPER(sve_ldff1##PART##_r)(CPUARMState *env, void *vg,            \
-                                 target_ulong addr, uint32_t desc)      \
+void HELPER(sve_ldff1##PART##_le_r)(CPUARMState *env, void *vg,         \
+                                    target_ulong addr, uint32_t desc)   \
 {                                                                       \
-    if (arm_cpu_data_is_big_endian(env)) {                              \
-        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
-                    sve_ld1##PART##_be_host, sve_ld1##PART##_be_tlb);   \
-    } else {                                                            \
-        sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,             \
-                    sve_ld1##PART##_le_host, sve_ld1##PART##_le_tlb);   \
-    }                                                                   \
+    sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,                 \
+                sve_ld1##PART##_le_host, sve_ld1##PART##_le_tlb);       \
 }                                                                       \
-void HELPER(sve_ldnf1##PART##_r)(CPUARMState *env, void *vg,            \
-                                 target_ulong addr, uint32_t desc)      \
+void HELPER(sve_ldnf1##PART##_le_r)(CPUARMState *env, void *vg,         \
+                                    target_ulong addr, uint32_t desc)   \
 {                                                                       \
-    if (arm_cpu_data_is_big_endian(env)) {                              \
-        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
-                    sve_ld1##PART##_be_host);                           \
-    } else {                                                            \
-        sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ,                      \
-                    sve_ld1##PART##_le_host);                           \
-    }                                                                   \
+    sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ, sve_ld1##PART##_le_host); \
+}                                                                       \
+void HELPER(sve_ldff1##PART##_be_r)(CPUARMState *env, void *vg,         \
+                                    target_ulong addr, uint32_t desc)   \
+{                                                                       \
+    sve_ldff1_r(env, vg, addr, desc, GETPC(), ESZ, MSZ,                 \
+                sve_ld1##PART##_be_host, sve_ld1##PART##_be_tlb);       \
+}                                                                       \
+void HELPER(sve_ldnf1##PART##_be_r)(CPUARMState *env, void *vg,         \
+                                    target_ulong addr, uint32_t desc)   \
+{                                                                       \
+    sve_ldnf1_r(env, vg, addr, desc, ESZ, MSZ, sve_ld1##PART##_be_host); \
 }
 
 DO_LDFF1_LDNF1_1(bb,  0)
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
 static void do_ld_zpa(DisasContext *s, int zt, int pg,
                       TCGv_i64 addr, int dtype, int nreg)
 {
-    static gen_helper_gvec_mem * const fns[16][4] = {
-        { gen_helper_sve_ld1bb_r, gen_helper_sve_ld2bb_r,
-          gen_helper_sve_ld3bb_r, gen_helper_sve_ld4bb_r },
-        { gen_helper_sve_ld1bhu_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1bsu_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1bdu_r, NULL, NULL, NULL },
+    static gen_helper_gvec_mem * const fns[2][16][4] = {
+        /* Little-endian */
+        { { gen_helper_sve_ld1bb_r, gen_helper_sve_ld2bb_r,
+            gen_helper_sve_ld3bb_r, gen_helper_sve_ld4bb_r },
+          { gen_helper_sve_ld1bhu_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bsu_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bdu_r, NULL, NULL, NULL },
 
-        { gen_helper_sve_ld1sds_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1hh_r, gen_helper_sve_ld2hh_r,
-          gen_helper_sve_ld3hh_r, gen_helper_sve_ld4hh_r },
-        { gen_helper_sve_ld1hsu_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1hdu_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1sds_le_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hh_le_r, gen_helper_sve_ld2hh_le_r,
+            gen_helper_sve_ld3hh_le_r, gen_helper_sve_ld4hh_le_r },
+          { gen_helper_sve_ld1hsu_le_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hdu_le_r, NULL, NULL, NULL },
 
-        { gen_helper_sve_ld1hds_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1hss_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1ss_r, gen_helper_sve_ld2ss_r,
-          gen_helper_sve_ld3ss_r, gen_helper_sve_ld4ss_r },
-        { gen_helper_sve_ld1sdu_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hds_le_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hss_le_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1ss_le_r, gen_helper_sve_ld2ss_le_r,
+            gen_helper_sve_ld3ss_le_r, gen_helper_sve_ld4ss_le_r },
+          { gen_helper_sve_ld1sdu_le_r, NULL, NULL, NULL },
 
-        { gen_helper_sve_ld1bds_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1bss_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1bhs_r, NULL, NULL, NULL },
-        { gen_helper_sve_ld1dd_r, gen_helper_sve_ld2dd_r,
-          gen_helper_sve_ld3dd_r, gen_helper_sve_ld4dd_r },
+          { gen_helper_sve_ld1bds_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bss_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bhs_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1dd_le_r, gen_helper_sve_ld2dd_le_r,
+            gen_helper_sve_ld3dd_le_r, gen_helper_sve_ld4dd_le_r } },
+
+        /* Big-endian */
+        { { gen_helper_sve_ld1bb_r, gen_helper_sve_ld2bb_r,
+            gen_helper_sve_ld3bb_r, gen_helper_sve_ld4bb_r },
+          { gen_helper_sve_ld1bhu_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bsu_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bdu_r, NULL, NULL, NULL },
+
+          { gen_helper_sve_ld1sds_be_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hh_be_r, gen_helper_sve_ld2hh_be_r,
+            gen_helper_sve_ld3hh_be_r, gen_helper_sve_ld4hh_be_r },
+          { gen_helper_sve_ld1hsu_be_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hdu_be_r, NULL, NULL, NULL },
+
+          { gen_helper_sve_ld1hds_be_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1hss_be_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1ss_be_r, gen_helper_sve_ld2ss_be_r,
+            gen_helper_sve_ld3ss_be_r, gen_helper_sve_ld4ss_be_r },
+          { gen_helper_sve_ld1sdu_be_r, NULL, NULL, NULL },
+
+          { gen_helper_sve_ld1bds_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bss_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1bhs_r, NULL, NULL, NULL },
+          { gen_helper_sve_ld1dd_be_r, gen_helper_sve_ld2dd_be_r,
+            gen_helper_sve_ld3dd_be_r, gen_helper_sve_ld4dd_be_r } }
     };
-    gen_helper_gvec_mem *fn = fns[dtype][nreg];
+    gen_helper_gvec_mem *fn = fns[s->be_data == MO_BE][dtype][nreg];
 
     /* While there are holes in the table, they are not
      * accessible via the instruction encoding.
@@ -XXX,XX +XXX,XX @@ static bool trans_LD_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
 
 static bool trans_LDFF1_zprr(DisasContext *s, arg_rprr_load *a, uint32_t insn)
 {
-    static gen_helper_gvec_mem * const fns[16] = {
-        gen_helper_sve_ldff1bb_r,
-        gen_helper_sve_ldff1bhu_r,
-        gen_helper_sve_ldff1bsu_r,
-        gen_helper_sve_ldff1bdu_r,
+    static gen_helper_gvec_mem * const fns[2][16] = {
+        /* Little-endian */
+        { gen_helper_sve_ldff1bb_r,
+          gen_helper_sve_ldff1bhu_r,
+          gen_helper_sve_ldff1bsu_r,
+          gen_helper_sve_ldff1bdu_r,
 
-        gen_helper_sve_ldff1sds_r,
-        gen_helper_sve_ldff1hh_r,
-        gen_helper_sve_ldff1hsu_r,
-        gen_helper_sve_ldff1hdu_r,
+          gen_helper_sve_ldff1sds_le_r,
+          gen_helper_sve_ldff1hh_le_r,
+          gen_helper_sve_ldff1hsu_le_r,
+          gen_helper_sve_ldff1hdu_le_r,
 
-        gen_helper_sve_ldff1hds_r,
-        gen_helper_sve_ldff1hss_r,
-        gen_helper_sve_ldff1ss_r,
-        gen_helper_sve_ldff1sdu_r,
+          gen_helper_sve_ldff1hds_le_r,
+          gen_helper_sve_ldff1hss_le_r,
+          gen_helper_sve_ldff1ss_le_r,
+          gen_helper_sve_ldff1sdu_le_r,
 
-        gen_helper_sve_ldff1bds_r,
-        gen_helper_sve_ldff1bss_r,
-        gen_helper_sve_ldff1bhs_r,
-        gen_helper_sve_ldff1dd_r,
+          gen_helper_sve_ldff1bds_r,
+          gen_helper_sve_ldff1bss_r,
+          gen_helper_sve_ldff1bhs_r,
+          gen_helper_sve_ldff1dd_le_r },
+
+        /* Big-endian */
+        { gen_helper_sve_ldff1bb_r,
+          gen_helper_sve_ldff1bhu_r,
+          gen_helper_sve_ldff1bsu_r,
+          gen_helper_sve_ldff1bdu_r,
+
+          gen_helper_sve_ldff1sds_be_r,
+          gen_helper_sve_ldff1hh_be_r,
+          gen_helper_sve_ldff1hsu_be_r,
+          gen_helper_sve_ldff1hdu_be_r,
+
+          gen_helper_sve_ldff1hds_be_r,
+          gen_helper_sve_ldff1hss_be_r,
+          gen_helper_sve_ldff1ss_be_r,
+          gen_helper_sve_ldff1sdu_be_r,
+
+          gen_helper_sve_ldff1bds_r,
+          gen_helper_sve_ldff1bss_r,
+          gen_helper_sve_ldff1bhs_r,
+          gen_helper_sve_ldff1dd_be_r },
     };
 
     if (sve_access_check(s)) {
         TCGv_i64 addr = new_tmp_a64(s);
         tcg_gen_shli_i64(addr, cpu_reg(s, a->rm), dtype_msz(a->dtype));
         tcg_gen_add_i64(addr, addr, cpu_reg_sp(s, a->rn));
-        do_mem_zpa(s, a->rd, a->pg, addr, fns[a->dtype]);
+        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
     }
     return true;
 }
 
 static bool trans_LDNF1_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
 {
-    static gen_helper_gvec_mem * const fns[16] = {
-        gen_helper_sve_ldnf1bb_r,
-        gen_helper_sve_ldnf1bhu_r,
-        gen_helper_sve_ldnf1bsu_r,
-        gen_helper_sve_ldnf1bdu_r,
+    static gen_helper_gvec_mem * const fns[2][16] = {
+        /* Little-endian */
+        { gen_helper_sve_ldnf1bb_r,
+          gen_helper_sve_ldnf1bhu_r,
+          gen_helper_sve_ldnf1bsu_r,
+          gen_helper_sve_ldnf1bdu_r,
 
-        gen_helper_sve_ldnf1sds_r,
-        gen_helper_sve_ldnf1hh_r,
-        gen_helper_sve_ldnf1hsu_r,
-        gen_helper_sve_ldnf1hdu_r,
+          gen_helper_sve_ldnf1sds_le_r,
+          gen_helper_sve_ldnf1hh_le_r,
+          gen_helper_sve_ldnf1hsu_le_r,
+          gen_helper_sve_ldnf1hdu_le_r,
 
-        gen_helper_sve_ldnf1hds_r,
-        gen_helper_sve_ldnf1hss_r,
-        gen_helper_sve_ldnf1ss_r,
-        gen_helper_sve_ldnf1sdu_r,
+          gen_helper_sve_ldnf1hds_le_r,
+          gen_helper_sve_ldnf1hss_le_r,
+          gen_helper_sve_ldnf1ss_le_r,
+          gen_helper_sve_ldnf1sdu_le_r,
 
-        gen_helper_sve_ldnf1bds_r,
-        gen_helper_sve_ldnf1bss_r,
-        gen_helper_sve_ldnf1bhs_r,
-        gen_helper_sve_ldnf1dd_r,
+          gen_helper_sve_ldnf1bds_r,
+          gen_helper_sve_ldnf1bss_r,
+          gen_helper_sve_ldnf1bhs_r,
+          gen_helper_sve_ldnf1dd_le_r },
+
+        /* Big-endian */
+        { gen_helper_sve_ldnf1bb_r,
+          gen_helper_sve_ldnf1bhu_r,
+          gen_helper_sve_ldnf1bsu_r,
+          gen_helper_sve_ldnf1bdu_r,
+
+          gen_helper_sve_ldnf1sds_be_r,
+          gen_helper_sve_ldnf1hh_be_r,
+          gen_helper_sve_ldnf1hsu_be_r,
+          gen_helper_sve_ldnf1hdu_be_r,
+
+          gen_helper_sve_ldnf1hds_be_r,
+          gen_helper_sve_ldnf1hss_be_r,
+          gen_helper_sve_ldnf1ss_be_r,
+          gen_helper_sve_ldnf1sdu_be_r,
+
+          gen_helper_sve_ldnf1bds_r,
+          gen_helper_sve_ldnf1bss_r,
+          gen_helper_sve_ldnf1bhs_r,
+          gen_helper_sve_ldnf1dd_be_r },
     };
 
     if (sve_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_LDNF1_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
         TCGv_i64 addr = new_tmp_a64(s);
 
         tcg_gen_addi_i64(addr, cpu_reg_sp(s, a->rn), off);
-        do_mem_zpa(s, a->rd, a->pg, addr, fns[a->dtype]);
+        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
     }
     return true;
 }
 
 static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
 {
-    static gen_helper_gvec_mem * const fns[4] = {
-        gen_helper_sve_ld1bb_r, gen_helper_sve_ld1hh_r,
-        gen_helper_sve_ld1ss_r, gen_helper_sve_ld1dd_r,
+    static gen_helper_gvec_mem * const fns[2][4] = {
+        { gen_helper_sve_ld1bb_r,    gen_helper_sve_ld1hh_le_r,
+          gen_helper_sve_ld1ss_le_r, gen_helper_sve_ld1dd_le_r },
+        { gen_helper_sve_ld1bb_r,    gen_helper_sve_ld1hh_be_r,
+          gen_helper_sve_ld1ss_be_r, gen_helper_sve_ld1dd_be_r },
     };
     unsigned vsz = vec_full_reg_size(s);
     TCGv_ptr t_pg;
@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
     t_pg = tcg_temp_new_ptr();
     tcg_gen_addi_ptr(t_pg, cpu_env, poff);
 
-    fns[msz](cpu_env, t_pg, addr, desc);
+    fns[s->be_data == MO_BE][msz](cpu_env, t_pg, addr, desc);
 
     tcg_temp_free_ptr(t_pg);
     tcg_temp_free_i32(desc);
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

We can choose the endianness at translation time, rather than
re-computing it at execution time.

Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-sve.h    | 48 +++++++++++++++++--------
 target/arm/sve_helper.c    | 11 ++++--
 target/arm/translate-sve.c | 72 +++++++++++++++++++++++++++++---------
 3 files changed, 96 insertions(+), 35 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This fixes the endianness problem for softmmu, and moves
the main loop out of a macro and into an inlined function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-sve.h    |  84 +++++++++----
 target/arm/sve_helper.c    | 225 ++++++++++++++++++++++++----------
 target/arm/translate-sve.c | 244 +++++++++++++++++++++++++------------
 3 files changed, 386 insertions(+), 167 deletions(-)

diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-sve.h
+++ b/target/arm/helper-sve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_st1sd_be_r, TCG_CALL_NO_WG, void, env, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldbsu_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhsu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhsu_le_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldssu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhsu_be_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldss_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldss_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldbss_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhss_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhss_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldhss_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldbsu_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhsu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhsu_le_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldssu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhsu_be_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldss_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldss_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldbss_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhss_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhss_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldhss_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldbdu_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhdu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhdu_le_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldsdu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhdu_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldddu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldsdu_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsdu_be_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_lddd_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_lddd_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldbds_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhds_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhds_le_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldsds_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhds_be_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsds_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsds_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldbdu_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhdu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhdu_le_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldsdu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhdu_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldddu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldsdu_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsdu_be_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_lddd_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_lddd_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldbds_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhds_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhds_le_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldsds_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhds_be_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsds_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsds_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldbdu_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhdu_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhdu_le_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldsdu_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhdu_be_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldddu_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldsdu_le_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsdu_be_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_lddd_le_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_lddd_be_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldbds_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldhds_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhds_le_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldsds_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldhds_be_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsds_le_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldsds_be_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldffbsu_zsu, TCG_CALL_NO_WG,
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_STN_2(4, dd, 8, 8)
 #undef DO_STN_1
 #undef DO_STN_2
 
-/* Loads with a vector index.  */
+/*
+ * Loads with a vector index.
+ */
 
-#define DO_LD1_ZPZ_S(NAME, TYPEI, TYPEM, FN)                            \
-void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
-                  target_ulong base, uint32_t desc)                     \
-{                                                                       \
-    intptr_t i, oprsz = simd_oprsz(desc);                               \
-    unsigned scale = simd_data(desc);                                   \
-    uintptr_t ra = GETPC();                                             \
-    for (i = 0; i < oprsz; ) {                                          \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
-        do {                                                            \
-            TYPEM m = 0;                                                \
-            if (pg & 1) {                                               \
-                target_ulong off = *(TYPEI *)(vm + H1_4(i));            \
-                m = FN(env, base + (off << scale), ra);                 \
-            }                                                           \
-            *(uint32_t *)(vd + H1_4(i)) = m;                            \
-            i += 4, pg >>= 4;                                           \
-        } while (i & 15);                                               \
-    }                                                                   \
+/*
+ * Load the element at @reg + @reg_ofs, sign or zero-extend as needed.
+ */
+typedef target_ulong zreg_off_fn(void *reg, intptr_t reg_ofs);
+
+static target_ulong off_zsu_s(void *reg, intptr_t reg_ofs)
+{
+    return *(uint32_t *)(reg + H1_4(reg_ofs));
 }
 
-#define DO_LD1_ZPZ_D(NAME, TYPEI, TYPEM, FN)                            \
-void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
-                  target_ulong base, uint32_t desc)                     \
-{                                                                       \
-    intptr_t i, oprsz = simd_oprsz(desc) / 8;                           \
-    unsigned scale = simd_data(desc);                                   \
-    uintptr_t ra = GETPC();                                             \
-    uint64_t *d = vd, *m = vm; uint8_t *pg = vg;                        \
-    for (i = 0; i < oprsz; i++) {                                       \
-        TYPEM mm = 0;                                                   \
-        if (pg[H1(i)] & 1) {                                            \
-            target_ulong off = (TYPEI)m[i];                             \
-            mm = FN(env, base + (off << scale), ra);                    \
-        }                                                               \
-        d[i] = mm;                                                      \
-    }                                                                   \
+static target_ulong off_zss_s(void *reg, intptr_t reg_ofs)
+{
+    return *(int32_t *)(reg + H1_4(reg_ofs));
 }
 
-DO_LD1_ZPZ_S(sve_ldbsu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LD1_ZPZ_S(sve_ldhsu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
-DO_LD1_ZPZ_S(sve_ldssu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
-DO_LD1_ZPZ_S(sve_ldbss_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
-DO_LD1_ZPZ_S(sve_ldhss_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
+static target_ulong off_zsu_d(void *reg, intptr_t reg_ofs)
+{
+    return (uint32_t)*(uint64_t *)(reg + reg_ofs);
+}
 
-DO_LD1_ZPZ_S(sve_ldbsu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LD1_ZPZ_S(sve_ldhsu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
-DO_LD1_ZPZ_S(sve_ldssu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
-DO_LD1_ZPZ_S(sve_ldbss_zss, int32_t, int8_t,   cpu_ldub_data_ra)
-DO_LD1_ZPZ_S(sve_ldhss_zss, int32_t, int16_t,  cpu_lduw_data_ra)
+static target_ulong off_zss_d(void *reg, intptr_t reg_ofs)
+{
+    return (int32_t)*(uint64_t *)(reg + reg_ofs);
+}
 
-DO_LD1_ZPZ_D(sve_ldbdu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LD1_ZPZ_D(sve_ldhdu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
-DO_LD1_ZPZ_D(sve_ldsdu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
-DO_LD1_ZPZ_D(sve_ldddu_zsu, uint32_t, uint64_t, cpu_ldq_data_ra)
-DO_LD1_ZPZ_D(sve_ldbds_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
-DO_LD1_ZPZ_D(sve_ldhds_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
-DO_LD1_ZPZ_D(sve_ldsds_zsu, uint32_t, int32_t,  cpu_ldl_data_ra)
+static target_ulong off_zd_d(void *reg, intptr_t reg_ofs)
+{
+    return *(uint64_t *)(reg + reg_ofs);
+}
 
-DO_LD1_ZPZ_D(sve_ldbdu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LD1_ZPZ_D(sve_ldhdu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
-DO_LD1_ZPZ_D(sve_ldsdu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
-DO_LD1_ZPZ_D(sve_ldddu_zss, int32_t, uint64_t, cpu_ldq_data_ra)
-DO_LD1_ZPZ_D(sve_ldbds_zss, int32_t, int8_t,   cpu_ldub_data_ra)
-DO_LD1_ZPZ_D(sve_ldhds_zss, int32_t, int16_t,  cpu_lduw_data_ra)
-DO_LD1_ZPZ_D(sve_ldsds_zss, int32_t, int32_t,  cpu_ldl_data_ra)
+static void sve_ld1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
+                       target_ulong base, uint32_t desc, uintptr_t ra,
+                       zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc);
+    unsigned scale = simd_data(desc);
+    ARMVectorReg scratch = { };
 
-DO_LD1_ZPZ_D(sve_ldbdu_zd, uint64_t, uint8_t,  cpu_ldub_data_ra)
-DO_LD1_ZPZ_D(sve_ldhdu_zd, uint64_t, uint16_t, cpu_lduw_data_ra)
-DO_LD1_ZPZ_D(sve_ldsdu_zd, uint64_t, uint32_t, cpu_ldl_data_ra)
-DO_LD1_ZPZ_D(sve_ldddu_zd, uint64_t, uint64_t, cpu_ldq_data_ra)
-DO_LD1_ZPZ_D(sve_ldbds_zd, uint64_t, int8_t,   cpu_ldub_data_ra)
-DO_LD1_ZPZ_D(sve_ldhds_zd, uint64_t, int16_t,  cpu_lduw_data_ra)
-DO_LD1_ZPZ_D(sve_ldsds_zd, uint64_t, int32_t,  cpu_ldl_data_ra)
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; ) {
+        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
+        do {
+            if (likely(pg & 1)) {
+                target_ulong off = off_fn(vm, i);
+                tlb_fn(env, &scratch, i, base + (off << scale), mmu_idx, ra);
+            }
+            i += 4, pg >>= 4;
+        } while (i & 15);
+    }
+    set_helper_retaddr(0);
+
+    /* Wait until all exceptions have been raised to write back.  */
+    memcpy(vd, &scratch, oprsz);
+}
+
+static void sve_ld1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
+                       target_ulong base, uint32_t desc, uintptr_t ra,
+                       zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t i, oprsz = simd_oprsz(desc) / 8;
+    unsigned scale = simd_data(desc);
+    ARMVectorReg scratch = { };
+
+    set_helper_retaddr(ra);
+    for (i = 0; i < oprsz; i++) {
+        uint8_t pg = *(uint8_t *)(vg + H1(i));
+        if (likely(pg & 1)) {
+            target_ulong off = off_fn(vm, i * 8);
+            tlb_fn(env, &scratch, i * 8, base + (off << scale), mmu_idx, ra);
+        }
+    }
+    set_helper_retaddr(0);
+
+    /* Wait until all exceptions have been raised to write back.  */
+    memcpy(vd, &scratch, oprsz * 8);
+}
+
+#define DO_LD1_ZPZ_S(MEM, OFS) \
+void __attribute__((flatten)) HELPER(sve_ld##MEM##_##OFS)    \
+    (CPUARMState *env, void *vd, void *vg, void *vm,         \
+     target_ulong base, uint32_t desc)                       \
+{                                                            \
+    sve_ld1_zs(env, vd, vg, vm, base, desc, GETPC(),         \
+              off_##OFS##_s, sve_ld1##MEM##_tlb);            \
+}
+
+#define DO_LD1_ZPZ_D(MEM, OFS) \
+void __attribute__((flatten)) HELPER(sve_ld##MEM##_##OFS)    \
+    (CPUARMState *env, void *vd, void *vg, void *vm,         \
+     target_ulong base, uint32_t desc)                       \
+{                                                            \
+    sve_ld1_zd(env, vd, vg, vm, base, desc, GETPC(),         \
+               off_##OFS##_d, sve_ld1##MEM##_tlb);           \
+}
+
+DO_LD1_ZPZ_S(bsu, zsu)
+DO_LD1_ZPZ_S(bsu, zss)
+DO_LD1_ZPZ_D(bdu, zsu)
+DO_LD1_ZPZ_D(bdu, zss)
+DO_LD1_ZPZ_D(bdu, zd)
+
+DO_LD1_ZPZ_S(bss, zsu)
+DO_LD1_ZPZ_S(bss, zss)
+DO_LD1_ZPZ_D(bds, zsu)
+DO_LD1_ZPZ_D(bds, zss)
+DO_LD1_ZPZ_D(bds, zd)
+
+DO_LD1_ZPZ_S(hsu_le, zsu)
+DO_LD1_ZPZ_S(hsu_le, zss)
+DO_LD1_ZPZ_D(hdu_le, zsu)
+DO_LD1_ZPZ_D(hdu_le, zss)
+DO_LD1_ZPZ_D(hdu_le, zd)
+
+DO_LD1_ZPZ_S(hsu_be, zsu)
+DO_LD1_ZPZ_S(hsu_be, zss)
+DO_LD1_ZPZ_D(hdu_be, zsu)
+DO_LD1_ZPZ_D(hdu_be, zss)
+DO_LD1_ZPZ_D(hdu_be, zd)
+
+DO_LD1_ZPZ_S(hss_le, zsu)
+DO_LD1_ZPZ_S(hss_le, zss)
+DO_LD1_ZPZ_D(hds_le, zsu)
+DO_LD1_ZPZ_D(hds_le, zss)
+DO_LD1_ZPZ_D(hds_le, zd)
+
+DO_LD1_ZPZ_S(hss_be, zsu)
+DO_LD1_ZPZ_S(hss_be, zss)
+DO_LD1_ZPZ_D(hds_be, zsu)
+DO_LD1_ZPZ_D(hds_be, zss)
+DO_LD1_ZPZ_D(hds_be, zd)
+
+DO_LD1_ZPZ_S(ss_le, zsu)
+DO_LD1_ZPZ_S(ss_le, zss)
+DO_LD1_ZPZ_D(sdu_le, zsu)
+DO_LD1_ZPZ_D(sdu_le, zss)
+DO_LD1_ZPZ_D(sdu_le, zd)
+
+DO_LD1_ZPZ_S(ss_be, zsu)
+DO_LD1_ZPZ_S(ss_be, zss)
+DO_LD1_ZPZ_D(sdu_be, zsu)
+DO_LD1_ZPZ_D(sdu_be, zss)
+DO_LD1_ZPZ_D(sdu_be, zd)
+
+DO_LD1_ZPZ_D(sds_le, zsu)
+DO_LD1_ZPZ_D(sds_le, zss)
+DO_LD1_ZPZ_D(sds_le, zd)
+
+DO_LD1_ZPZ_D(sds_be, zsu)
+DO_LD1_ZPZ_D(sds_be, zss)
+DO_LD1_ZPZ_D(sds_be, zd)
+
+DO_LD1_ZPZ_D(dd_le, zsu)
+DO_LD1_ZPZ_D(dd_le, zss)
+DO_LD1_ZPZ_D(dd_le, zd)
+
+DO_LD1_ZPZ_D(dd_be, zsu)
+DO_LD1_ZPZ_D(dd_be, zss)
+DO_LD1_ZPZ_D(dd_be, zd)
+
+#undef DO_LD1_ZPZ_S
+#undef DO_LD1_ZPZ_D
 
 /* First fault loads with a vector index.  */
 
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm, int scale,
     tcg_temp_free_i32(desc);
 }
 
-/* Indexed by [ff][xs][u][msz].  */
-static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][3] = {
-    { { { gen_helper_sve_ldbss_zsu,
-          gen_helper_sve_ldhss_zsu,
-          NULL, },
-        { gen_helper_sve_ldbsu_zsu,
-          gen_helper_sve_ldhsu_zsu,
-          gen_helper_sve_ldssu_zsu, } },
-      { { gen_helper_sve_ldbss_zss,
-          gen_helper_sve_ldhss_zss,
-          NULL, },
-        { gen_helper_sve_ldbsu_zss,
-          gen_helper_sve_ldhsu_zss,
-          gen_helper_sve_ldssu_zss, } } },
+/* Indexed by [be][ff][xs][u][msz].  */
+static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][2][3] = {
+    /* Little-endian */
+    { { { { gen_helper_sve_ldbss_zsu,
+            gen_helper_sve_ldhss_le_zsu,
+            NULL, },
+          { gen_helper_sve_ldbsu_zsu,
+            gen_helper_sve_ldhsu_le_zsu,
+            gen_helper_sve_ldss_le_zsu, } },
+        { { gen_helper_sve_ldbss_zss,
+            gen_helper_sve_ldhss_le_zss,
+            NULL, },
+          { gen_helper_sve_ldbsu_zss,
+            gen_helper_sve_ldhsu_le_zss,
+            gen_helper_sve_ldss_le_zss, } } },
 
-    { { { gen_helper_sve_ldffbss_zsu,
-          gen_helper_sve_ldffhss_zsu,
-          NULL, },
-        { gen_helper_sve_ldffbsu_zsu,
-          gen_helper_sve_ldffhsu_zsu,
-          gen_helper_sve_ldffssu_zsu, } },
-      { { gen_helper_sve_ldffbss_zss,
-          gen_helper_sve_ldffhss_zss,
-          NULL, },
-        { gen_helper_sve_ldffbsu_zss,
-          gen_helper_sve_ldffhsu_zss,
-          gen_helper_sve_ldffssu_zss, } } }
+      /* First-fault */
+      { { { gen_helper_sve_ldffbss_zsu,
+            gen_helper_sve_ldffhss_zsu,
+            NULL, },
+          { gen_helper_sve_ldffbsu_zsu,
+            gen_helper_sve_ldffhsu_zsu,
+            gen_helper_sve_ldffssu_zsu, } },
+        { { gen_helper_sve_ldffbss_zss,
+            gen_helper_sve_ldffhss_zss,
+            NULL, },
+          { gen_helper_sve_ldffbsu_zss,
+            gen_helper_sve_ldffhsu_zss,
+            gen_helper_sve_ldffssu_zss, } } } },
+
+    /* Big-endian */
+    { { { { gen_helper_sve_ldbss_zsu,
+            gen_helper_sve_ldhss_be_zsu,
+            NULL, },
+          { gen_helper_sve_ldbsu_zsu,
+            gen_helper_sve_ldhsu_be_zsu,
+            gen_helper_sve_ldss_be_zsu, } },
+        { { gen_helper_sve_ldbss_zss,
+            gen_helper_sve_ldhss_be_zss,
+            NULL, },
+          { gen_helper_sve_ldbsu_zss,
+            gen_helper_sve_ldhsu_be_zss,
+            gen_helper_sve_ldss_be_zss, } } },
+
+      /* First-fault */
+      { { { gen_helper_sve_ldffbss_zsu,
+            gen_helper_sve_ldffhss_zsu,
+            NULL, },
+          { gen_helper_sve_ldffbsu_zsu,
+            gen_helper_sve_ldffhsu_zsu,
+            gen_helper_sve_ldffssu_zsu, } },
+        { { gen_helper_sve_ldffbss_zss,
+            gen_helper_sve_ldffhss_zss,
+            NULL, },
+          { gen_helper_sve_ldffbsu_zss,
+            gen_helper_sve_ldffhsu_zss,
+            gen_helper_sve_ldffssu_zss, } } } },
 };
 
 /* Note that we overload xs=2 to indicate 64-bit offset.  */
-static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][3][2][4] = {
-    { { { gen_helper_sve_ldbds_zsu,
-          gen_helper_sve_ldhds_zsu,
-          gen_helper_sve_ldsds_zsu,
-          NULL, },
-        { gen_helper_sve_ldbdu_zsu,
-          gen_helper_sve_ldhdu_zsu,
-          gen_helper_sve_ldsdu_zsu,
-          gen_helper_sve_ldddu_zsu, } },
-      { { gen_helper_sve_ldbds_zss,
-          gen_helper_sve_ldhds_zss,
-          gen_helper_sve_ldsds_zss,
-          NULL, },
-        { gen_helper_sve_ldbdu_zss,
-          gen_helper_sve_ldhdu_zss,
-          gen_helper_sve_ldsdu_zss,
-          gen_helper_sve_ldddu_zss, } },
-      { { gen_helper_sve_ldbds_zd,
-          gen_helper_sve_ldhds_zd,
-          gen_helper_sve_ldsds_zd,
-          NULL, },
-        { gen_helper_sve_ldbdu_zd,
-          gen_helper_sve_ldhdu_zd,
-          gen_helper_sve_ldsdu_zd,
-          gen_helper_sve_ldddu_zd, } } },
+static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][2][3][2][4] = {
+    /* Little-endian */
+    { { { { gen_helper_sve_ldbds_zsu,
+            gen_helper_sve_ldhds_le_zsu,
+            gen_helper_sve_ldsds_le_zsu,
+            NULL, },
+          { gen_helper_sve_ldbdu_zsu,
+            gen_helper_sve_ldhdu_le_zsu,
+            gen_helper_sve_ldsdu_le_zsu,
+            gen_helper_sve_lddd_le_zsu, } },
+        { { gen_helper_sve_ldbds_zss,
+            gen_helper_sve_ldhds_le_zss,
+            gen_helper_sve_ldsds_le_zss,
+            NULL, },
+          { gen_helper_sve_ldbdu_zss,
+            gen_helper_sve_ldhdu_le_zss,
+            gen_helper_sve_ldsdu_le_zss,
+            gen_helper_sve_lddd_le_zss, } },
+        { { gen_helper_sve_ldbds_zd,
+            gen_helper_sve_ldhds_le_zd,
+            gen_helper_sve_ldsds_le_zd,
+            NULL, },
+          { gen_helper_sve_ldbdu_zd,
+            gen_helper_sve_ldhdu_le_zd,
+            gen_helper_sve_ldsdu_le_zd,
+            gen_helper_sve_lddd_le_zd, } } },
 
-    { { { gen_helper_sve_ldffbds_zsu,
-          gen_helper_sve_ldffhds_zsu,
-          gen_helper_sve_ldffsds_zsu,
-          NULL, },
-        { gen_helper_sve_ldffbdu_zsu,
-          gen_helper_sve_ldffhdu_zsu,
-          gen_helper_sve_ldffsdu_zsu,
-          gen_helper_sve_ldffddu_zsu, } },
-      { { gen_helper_sve_ldffbds_zss,
-          gen_helper_sve_ldffhds_zss,
-          gen_helper_sve_ldffsds_zss,
-          NULL, },
-        { gen_helper_sve_ldffbdu_zss,
-          gen_helper_sve_ldffhdu_zss,
-          gen_helper_sve_ldffsdu_zss,
-          gen_helper_sve_ldffddu_zss, } },
-      { { gen_helper_sve_ldffbds_zd,
-          gen_helper_sve_ldffhds_zd,
-          gen_helper_sve_ldffsds_zd,
-          NULL, },
-        { gen_helper_sve_ldffbdu_zd,
-          gen_helper_sve_ldffhdu_zd,
-          gen_helper_sve_ldffsdu_zd,
-          gen_helper_sve_ldffddu_zd, } } }
+      /* First-fault */
+      { { { gen_helper_sve_ldffbds_zsu,
+            gen_helper_sve_ldffhds_zsu,
+            gen_helper_sve_ldffsds_zsu,
+            NULL, },
+          { gen_helper_sve_ldffbdu_zsu,
+            gen_helper_sve_ldffhdu_zsu,
+            gen_helper_sve_ldffsdu_zsu,
+            gen_helper_sve_ldffddu_zsu, } },
+        { { gen_helper_sve_ldffbds_zss,
+            gen_helper_sve_ldffhds_zss,
+            gen_helper_sve_ldffsds_zss,
+            NULL, },
+          { gen_helper_sve_ldffbdu_zss,
+            gen_helper_sve_ldffhdu_zss,
+            gen_helper_sve_ldffsdu_zss,
+            gen_helper_sve_ldffddu_zss, } },
+        { { gen_helper_sve_ldffbds_zd,
+            gen_helper_sve_ldffhds_zd,
+            gen_helper_sve_ldffsds_zd,
+            NULL, },
+          { gen_helper_sve_ldffbdu_zd,
+            gen_helper_sve_ldffhdu_zd,
+            gen_helper_sve_ldffsdu_zd,
+            gen_helper_sve_ldffddu_zd, } } } },
+
+    /* Big-endian */
+    { { { { gen_helper_sve_ldbds_zsu,
+            gen_helper_sve_ldhds_be_zsu,
+            gen_helper_sve_ldsds_be_zsu,
+            NULL, },
+          { gen_helper_sve_ldbdu_zsu,
+            gen_helper_sve_ldhdu_be_zsu,
+            gen_helper_sve_ldsdu_be_zsu,
+            gen_helper_sve_lddd_be_zsu, } },
+        { { gen_helper_sve_ldbds_zss,
+            gen_helper_sve_ldhds_be_zss,
+            gen_helper_sve_ldsds_be_zss,
+            NULL, },
+          { gen_helper_sve_ldbdu_zss,
+            gen_helper_sve_ldhdu_be_zss,
+            gen_helper_sve_ldsdu_be_zss,
+            gen_helper_sve_lddd_be_zss, } },
+        { { gen_helper_sve_ldbds_zd,
+            gen_helper_sve_ldhds_be_zd,
+            gen_helper_sve_ldsds_be_zd,
+            NULL, },
+          { gen_helper_sve_ldbdu_zd,
+            gen_helper_sve_ldhdu_be_zd,
+            gen_helper_sve_ldsdu_be_zd,
+            gen_helper_sve_lddd_be_zd, } } },
+
+      /* First-fault */
+      { { { gen_helper_sve_ldffbds_zsu,
+            gen_helper_sve_ldffhds_zsu,
+            gen_helper_sve_ldffsds_zsu,
+            NULL, },
+          { gen_helper_sve_ldffbdu_zsu,
+            gen_helper_sve_ldffhdu_zsu,
+            gen_helper_sve_ldffsdu_zsu,
+            gen_helper_sve_ldffddu_zsu, } },
+        { { gen_helper_sve_ldffbds_zss,
+            gen_helper_sve_ldffhds_zss,
+            gen_helper_sve_ldffsds_zss,
+            NULL, },
+          { gen_helper_sve_ldffbdu_zss,
+            gen_helper_sve_ldffhdu_zss,
+            gen_helper_sve_ldffsdu_zss,
+            gen_helper_sve_ldffddu_zss, } },
+        { { gen_helper_sve_ldffbds_zd,
+            gen_helper_sve_ldffhds_zd,
+            gen_helper_sve_ldffsds_zd,
+            NULL, },
+          { gen_helper_sve_ldffbdu_zd,
+            gen_helper_sve_ldffhdu_zd,
+            gen_helper_sve_ldffsdu_zd,
+            gen_helper_sve_ldffddu_zd, } } } },
 };
 
 static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
 {
     gen_helper_gvec_mem_scatter *fn = NULL;
+    int be = s->be_data == MO_BE;
 
     if (!sve_access_check(s)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
 
     switch (a->esz) {
     case MO_32:
-        fn = gather_load_fn32[a->ff][a->xs][a->u][a->msz];
+        fn = gather_load_fn32[be][a->ff][a->xs][a->u][a->msz];
         break;
     case MO_64:
-        fn = gather_load_fn64[a->ff][a->xs][a->u][a->msz];
+        fn = gather_load_fn64[be][a->ff][a->xs][a->u][a->msz];
         break;
     }
     assert(fn != NULL);
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
 static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
 {
     gen_helper_gvec_mem_scatter *fn = NULL;
+    int be = s->be_data == MO_BE;
     TCGv_i64 imm;
 
     if (a->esz < a->msz || (a->esz == a->msz && !a->u)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
 
     switch (a->esz) {
     case MO_32:
-        fn = gather_load_fn32[a->ff][0][a->u][a->msz];
+        fn = gather_load_fn32[be][a->ff][0][a->u][a->msz];
         break;
     case MO_64:
-        fn = gather_load_fn64[a->ff][2][a->u][a->msz];
+        fn = gather_load_fn64[be][a->ff][2][a->u][a->msz];
         break;
     }
     assert(fn != NULL);
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

This fixes the endianness problem for softmmu, and moves
the main loop out of a macro and into an inlined function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-sve.h    |  52 ++++++++++----
 target/arm/sve_helper.c    | 139 ++++++++++++++++++++++++-------------
 target/arm/translate-sve.c |  74 +++++++++++++-------
 3 files changed, 177 insertions(+), 88 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This implements the feature for softmmu, and moves the
main loop out of a macro and into a function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-sve.h    |  84 ++++++++---
 target/arm/sve_helper.c    | 290 +++++++++++++++++++++++++++----------
 target/arm/translate-sve.c |  84 +++++------
 3 files changed, 321 insertions(+), 137 deletions(-)

diff --git a/target/arm/helper-sve.h b/target/arm/helper-sve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-sve.h
+++ b/target/arm/helper-sve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(sve_ldsds_be_zd, TCG_CALL_NO_WG,
 
 DEF_HELPER_FLAGS_6(sve_ldffbsu_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhsu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhsu_le_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffssu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhsu_be_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffss_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffss_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldffbss_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhss_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhss_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffhss_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldffbsu_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhsu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhsu_le_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffssu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhsu_be_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffss_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffss_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldffbss_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhss_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhss_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffhss_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldffbdu_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhdu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhdu_le_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffsdu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhdu_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffddu_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffsdu_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsdu_be_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffdd_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffdd_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldffbds_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhds_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhds_le_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffsds_zsu, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhds_be_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsds_le_zsu, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsds_be_zsu, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldffbdu_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhdu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhdu_le_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffsdu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhdu_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffddu_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffsdu_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsdu_be_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffdd_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffdd_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldffbds_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhds_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhds_le_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffsds_zss, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhds_be_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsds_le_zss, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsds_be_zss, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_ldffbdu_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhdu_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhdu_le_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffsdu_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhdu_be_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffddu_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffsdu_le_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsdu_be_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffdd_le_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffdd_be_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 DEF_HELPER_FLAGS_6(sve_ldffbds_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffhds_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhds_le_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
-DEF_HELPER_FLAGS_6(sve_ldffsds_zd, TCG_CALL_NO_WG,
+DEF_HELPER_FLAGS_6(sve_ldffhds_be_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsds_le_zd, TCG_CALL_NO_WG,
+                   void, env, ptr, ptr, ptr, tl, i32)
+DEF_HELPER_FLAGS_6(sve_ldffsds_be_zd, TCG_CALL_NO_WG,
                    void, env, ptr, ptr, ptr, tl, i32)
 
 DEF_HELPER_FLAGS_6(sve_stbs_zsu, TCG_CALL_NO_WG,
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_LD1_ZPZ_D(dd_be, zd)
 
 /* First fault loads with a vector index.  */
 
-#ifdef CONFIG_USER_ONLY
+/* Load one element into VD+REG_OFF from (ENV,VADDR) without faulting.
+ * The controlling predicate is known to be true.  Return true if the
+ * load was successful.
+ */
+typedef bool sve_ld1_nf_fn(CPUARMState *env, void *vd, intptr_t reg_off,
+                           target_ulong vaddr, int mmu_idx);
 
-#define DO_LDFF1_ZPZ(NAME, TYPEE, TYPEI, TYPEM, FN, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
-                  target_ulong base, uint32_t desc)                     \
-{                                                                       \
-    intptr_t i, oprsz = simd_oprsz(desc);                               \
-    unsigned scale = simd_data(desc);                                   \
-    uintptr_t ra = GETPC();                                             \
-    bool first = true;                                                  \
-    mmap_lock();                                                        \
-    for (i = 0; i < oprsz; ) {                                          \
-        uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));                 \
-        do {                                                            \
-            TYPEM m = 0;                                                \
-            if (pg & 1) {                                               \
-                target_ulong off = *(TYPEI *)(vm + H(i));               \
-                target_ulong addr = base + (off << scale);              \
-                if (!first &&                                           \
-                    page_check_range(addr, sizeof(TYPEM), PAGE_READ)) { \
-                    record_fault(env, i, oprsz);                        \
-                    goto exit;                                          \
-                }                                                       \
-                m = FN(env, addr, ra);                                  \
-                first = false;                                          \
-            }                                                           \
-            *(TYPEE *)(vd + H(i)) = m;                                  \
-            i += sizeof(TYPEE), pg >>= sizeof(TYPEE);                   \
-        } while (i & 15);                                               \
-    }                                                                   \
- exit:                                                                  \
-    mmap_unlock();                                                      \
+#ifdef CONFIG_SOFTMMU
+#define DO_LD_NF(NAME, H, TYPEE, TYPEM, HOST) \
+static bool sve_ld##NAME##_nf(CPUARMState *env, void *vd, intptr_t reg_off, \
+                            target_ulong addr, int mmu_idx)                 \
+{                                                                           \
+    target_ulong next_page = -(addr | TARGET_PAGE_MASK);                    \
+    if (likely(next_page - addr >= sizeof(TYPEM))) {                        \
+        void *host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD, mmu_idx);  \
+        if (likely(host)) {                                                 \
+            TYPEM val = HOST(host);                                         \
+            *(TYPEE *)(vd + H(reg_off)) = val;                              \
+            return true;                                                    \
+        }                                                                   \
+    }                                                                       \
+    return false;                                                           \
 }
-
 #else
-
-#define DO_LDFF1_ZPZ(NAME, TYPEE, TYPEI, TYPEM, FN, H)                  \
-void HELPER(NAME)(CPUARMState *env, void *vd, void *vg, void *vm,       \
-                  target_ulong base, uint32_t desc)                     \
-{                                                                       \
-    g_assert_not_reached();                                             \
+#define DO_LD_NF(NAME, H, TYPEE, TYPEM, HOST) \
+static bool sve_ld##NAME##_nf(CPUARMState *env, void *vd, intptr_t reg_off, \
+                            target_ulong addr, int mmu_idx)                 \
+{                                                                           \
+    if (likely(page_check_range(addr, sizeof(TYPEM), PAGE_READ))) {         \
+        TYPEM val = HOST(g2h(addr));                                        \
+        *(TYPEE *)(vd + H(reg_off)) = val;                                  \
+        return true;                                                        \
+    }                                                                       \
+    return false;                                                           \
 }
-
 #endif
 
-#define DO_LDFF1_ZPZ_S(NAME, TYPEI, TYPEM, FN) \
-    DO_LDFF1_ZPZ(NAME, uint32_t, TYPEI, TYPEM, FN, H1_4)
-#define DO_LDFF1_ZPZ_D(NAME, TYPEI, TYPEM, FN) \
-    DO_LDFF1_ZPZ(NAME, uint64_t, TYPEI, TYPEM, FN, )
+DO_LD_NF(bsu, H1_4, uint32_t, uint8_t, ldub_p)
+DO_LD_NF(bss, H1_4, uint32_t,  int8_t, ldsb_p)
+DO_LD_NF(bdu,     , uint64_t, uint8_t, ldub_p)
+DO_LD_NF(bds,     , uint64_t,  int8_t, ldsb_p)
 
-DO_LDFF1_ZPZ_S(sve_ldffbsu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffhsu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffssu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffbss_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffhss_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
+DO_LD_NF(hsu_le, H1_4, uint32_t, uint16_t, lduw_le_p)
+DO_LD_NF(hss_le, H1_4, uint32_t,  int16_t, ldsw_le_p)
+DO_LD_NF(hsu_be, H1_4, uint32_t, uint16_t, lduw_be_p)
+DO_LD_NF(hss_be, H1_4, uint32_t,  int16_t, ldsw_be_p)
+DO_LD_NF(hdu_le,     , uint64_t, uint16_t, lduw_le_p)
+DO_LD_NF(hds_le,     , uint64_t,  int16_t, ldsw_le_p)
+DO_LD_NF(hdu_be,     , uint64_t, uint16_t, lduw_be_p)
+DO_LD_NF(hds_be,     , uint64_t,  int16_t, ldsw_be_p)
 
-DO_LDFF1_ZPZ_S(sve_ldffbsu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffhsu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffssu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffbss_zss, int32_t, int8_t,   cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_S(sve_ldffhss_zss, int32_t, int16_t,  cpu_lduw_data_ra)
+DO_LD_NF(ss_le,  H1_4, uint32_t, uint32_t, ldl_le_p)
+DO_LD_NF(ss_be,  H1_4, uint32_t, uint32_t, ldl_be_p)
+DO_LD_NF(sdu_le,     , uint64_t, uint32_t, ldl_le_p)
+DO_LD_NF(sds_le,     , uint64_t,  int32_t, ldl_le_p)
+DO_LD_NF(sdu_be,     , uint64_t, uint32_t, ldl_be_p)
+DO_LD_NF(sds_be,     , uint64_t,  int32_t, ldl_be_p)
 
-DO_LDFF1_ZPZ_D(sve_ldffbdu_zsu, uint32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffhdu_zsu, uint32_t, uint16_t, cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffsdu_zsu, uint32_t, uint32_t, cpu_ldl_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffddu_zsu, uint32_t, uint64_t, cpu_ldq_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffbds_zsu, uint32_t, int8_t,   cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffhds_zsu, uint32_t, int16_t,  cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffsds_zsu, uint32_t, int32_t,  cpu_ldl_data_ra)
+DO_LD_NF(dd_le,      , uint64_t, uint64_t, ldq_le_p)
+DO_LD_NF(dd_be,      , uint64_t, uint64_t, ldq_be_p)
 
-DO_LDFF1_ZPZ_D(sve_ldffbdu_zss, int32_t, uint8_t,  cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffhdu_zss, int32_t, uint16_t, cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffsdu_zss, int32_t, uint32_t, cpu_ldl_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffddu_zss, int32_t, uint64_t, cpu_ldq_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffbds_zss, int32_t, int8_t,   cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffhds_zss, int32_t, int16_t,  cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffsds_zss, int32_t, int32_t,  cpu_ldl_data_ra)
+/*
+ * Common helper for all gather first-faulting loads.
+ */
+static inline void sve_ldff1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
+                                target_ulong base, uint32_t desc, uintptr_t ra,
+                                zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
+                                sve_ld1_nf_fn *nonfault_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t reg_off, reg_max = simd_oprsz(desc);
+    unsigned scale = simd_data(desc);
+    target_ulong addr;
 
-DO_LDFF1_ZPZ_D(sve_ldffbdu_zd, uint64_t, uint8_t,  cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffhdu_zd, uint64_t, uint16_t, cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffsdu_zd, uint64_t, uint32_t, cpu_ldl_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffddu_zd, uint64_t, uint64_t, cpu_ldq_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffbds_zd, uint64_t, int8_t,   cpu_ldub_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffhds_zd, uint64_t, int16_t,  cpu_lduw_data_ra)
-DO_LDFF1_ZPZ_D(sve_ldffsds_zd, uint64_t, int32_t,  cpu_ldl_data_ra)
+    /* Skip to the first true predicate.  */
+    reg_off = find_next_active(vg, 0, reg_max, MO_32);
+    if (likely(reg_off < reg_max)) {
+        /* Perform one normal read, which will fault or not.  */
+        set_helper_retaddr(ra);
+        addr = off_fn(vm, reg_off);
+        addr = base + (addr << scale);
+        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
+
+        /* The rest of the reads will be non-faulting.  */
+        set_helper_retaddr(0);
+    }
+
+    /* After any fault, zero the leading predicated false elements.  */
+    swap_memzero(vd, reg_off);
+
+    while (likely((reg_off += 4) < reg_max)) {
+        uint64_t pg = *(uint64_t *)(vg + (reg_off >> 6) * 8);
+        if (likely((pg >> (reg_off & 63)) & 1)) {
+            addr = off_fn(vm, reg_off);
+            addr = base + (addr << scale);
+            if (!nonfault_fn(env, vd, reg_off, addr, mmu_idx)) {
+                record_fault(env, reg_off, reg_max);
+                break;
+            }
+        } else {
+            *(uint32_t *)(vd + H1_4(reg_off)) = 0;
+        }
+    }
+}
+
+static inline void sve_ldff1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
+                                target_ulong base, uint32_t desc, uintptr_t ra,
+                                zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
+                                sve_ld1_nf_fn *nonfault_fn)
+{
+    const int mmu_idx = cpu_mmu_index(env, false);
+    intptr_t reg_off, reg_max = simd_oprsz(desc);
+    unsigned scale = simd_data(desc);
+    target_ulong addr;
+
+    /* Skip to the first true predicate.  */
+    reg_off = find_next_active(vg, 0, reg_max, MO_64);
+    if (likely(reg_off < reg_max)) {
+        /* Perform one normal read, which will fault or not.  */
+        set_helper_retaddr(ra);
+        addr = off_fn(vm, reg_off);
+        addr = base + (addr << scale);
+        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
+
+        /* The rest of the reads will be non-faulting.  */
+        set_helper_retaddr(0);
+    }
+
+    /* After any fault, zero the leading predicated false elements.  */
+    swap_memzero(vd, reg_off);
+
+    while (likely((reg_off += 8) < reg_max)) {
+        uint8_t pg = *(uint8_t *)(vg + H1(reg_off >> 3));
+        if (likely(pg & 1)) {
+            addr = off_fn(vm, reg_off);
+            addr = base + (addr << scale);
+            if (!nonfault_fn(env, vd, reg_off, addr, mmu_idx)) {
+                record_fault(env, reg_off, reg_max);
+                break;
+            }
+        } else {
+            *(uint64_t *)(vd + reg_off) = 0;
+        }
+    }
+}
+
+#define DO_LDFF1_ZPZ_S(MEM, OFS) \
+void HELPER(sve_ldff##MEM##_##OFS)                                      \
+    (CPUARMState *env, void *vd, void *vg, void *vm,                    \
+     target_ulong base, uint32_t desc)                                  \
+{                                                                       \
+    sve_ldff1_zs(env, vd, vg, vm, base, desc, GETPC(),                  \
+                 off_##OFS##_s, sve_ld1##MEM##_tlb, sve_ld##MEM##_nf);  \
+}
+
+#define DO_LDFF1_ZPZ_D(MEM, OFS) \
+void HELPER(sve_ldff##MEM##_##OFS)                                      \
+    (CPUARMState *env, void *vd, void *vg, void *vm,                    \
+     target_ulong base, uint32_t desc)                                  \
+{                                                                       \
+    sve_ldff1_zd(env, vd, vg, vm, base, desc, GETPC(),                  \
+                 off_##OFS##_d, sve_ld1##MEM##_tlb, sve_ld##MEM##_nf);  \
+}
+
+DO_LDFF1_ZPZ_S(bsu, zsu)
+DO_LDFF1_ZPZ_S(bsu, zss)
+DO_LDFF1_ZPZ_D(bdu, zsu)
+DO_LDFF1_ZPZ_D(bdu, zss)
+DO_LDFF1_ZPZ_D(bdu, zd)
+
+DO_LDFF1_ZPZ_S(bss, zsu)
+DO_LDFF1_ZPZ_S(bss, zss)
+DO_LDFF1_ZPZ_D(bds, zsu)
+DO_LDFF1_ZPZ_D(bds, zss)
+DO_LDFF1_ZPZ_D(bds, zd)
+
+DO_LDFF1_ZPZ_S(hsu_le, zsu)
+DO_LDFF1_ZPZ_S(hsu_le, zss)
+DO_LDFF1_ZPZ_D(hdu_le, zsu)
+DO_LDFF1_ZPZ_D(hdu_le, zss)
+DO_LDFF1_ZPZ_D(hdu_le, zd)
+
+DO_LDFF1_ZPZ_S(hsu_be, zsu)
+DO_LDFF1_ZPZ_S(hsu_be, zss)
+DO_LDFF1_ZPZ_D(hdu_be, zsu)
+DO_LDFF1_ZPZ_D(hdu_be, zss)
+DO_LDFF1_ZPZ_D(hdu_be, zd)
+
+DO_LDFF1_ZPZ_S(hss_le, zsu)
+DO_LDFF1_ZPZ_S(hss_le, zss)
+DO_LDFF1_ZPZ_D(hds_le, zsu)
+DO_LDFF1_ZPZ_D(hds_le, zss)
+DO_LDFF1_ZPZ_D(hds_le, zd)
+
+DO_LDFF1_ZPZ_S(hss_be, zsu)
+DO_LDFF1_ZPZ_S(hss_be, zss)
+DO_LDFF1_ZPZ_D(hds_be, zsu)
+DO_LDFF1_ZPZ_D(hds_be, zss)
+DO_LDFF1_ZPZ_D(hds_be, zd)
+
+DO_LDFF1_ZPZ_S(ss_le,  zsu)
+DO_LDFF1_ZPZ_S(ss_le,  zss)
+DO_LDFF1_ZPZ_D(sdu_le, zsu)
+DO_LDFF1_ZPZ_D(sdu_le, zss)
+DO_LDFF1_ZPZ_D(sdu_le, zd)
+
+DO_LDFF1_ZPZ_S(ss_be,  zsu)
+DO_LDFF1_ZPZ_S(ss_be,  zss)
+DO_LDFF1_ZPZ_D(sdu_be, zsu)
+DO_LDFF1_ZPZ_D(sdu_be, zss)
+DO_LDFF1_ZPZ_D(sdu_be, zd)
+
+DO_LDFF1_ZPZ_D(sds_le, zsu)
+DO_LDFF1_ZPZ_D(sds_le, zss)
+DO_LDFF1_ZPZ_D(sds_le, zd)
+
+DO_LDFF1_ZPZ_D(sds_be, zsu)
+DO_LDFF1_ZPZ_D(sds_be, zss)
+DO_LDFF1_ZPZ_D(sds_be, zd)
+
+DO_LDFF1_ZPZ_D(dd_le, zsu)
+DO_LDFF1_ZPZ_D(dd_le, zss)
+DO_LDFF1_ZPZ_D(dd_le, zd)
+
+DO_LDFF1_ZPZ_D(dd_be, zsu)
+DO_LDFF1_ZPZ_D(dd_be, zss)
+DO_LDFF1_ZPZ_D(dd_be, zd)
 
 /* Stores with a vector index.  */
 
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][2][3] = {
 
       /* First-fault */
       { { { gen_helper_sve_ldffbss_zsu,
-            gen_helper_sve_ldffhss_zsu,
+            gen_helper_sve_ldffhss_le_zsu,
             NULL, },
           { gen_helper_sve_ldffbsu_zsu,
-            gen_helper_sve_ldffhsu_zsu,
-            gen_helper_sve_ldffssu_zsu, } },
+            gen_helper_sve_ldffhsu_le_zsu,
+            gen_helper_sve_ldffss_le_zsu, } },
         { { gen_helper_sve_ldffbss_zss,
-            gen_helper_sve_ldffhss_zss,
+            gen_helper_sve_ldffhss_le_zss,
             NULL, },
           { gen_helper_sve_ldffbsu_zss,
-            gen_helper_sve_ldffhsu_zss,
-            gen_helper_sve_ldffssu_zss, } } } },
+            gen_helper_sve_ldffhsu_le_zss,
+            gen_helper_sve_ldffss_le_zss, } } } },
 
     /* Big-endian */
     { { { { gen_helper_sve_ldbss_zsu,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn32[2][2][2][2][3] = {
 
       /* First-fault */
       { { { gen_helper_sve_ldffbss_zsu,
-            gen_helper_sve_ldffhss_zsu,
+            gen_helper_sve_ldffhss_be_zsu,
             NULL, },
           { gen_helper_sve_ldffbsu_zsu,
-            gen_helper_sve_ldffhsu_zsu,
-            gen_helper_sve_ldffssu_zsu, } },
+            gen_helper_sve_ldffhsu_be_zsu,
+            gen_helper_sve_ldffss_be_zsu, } },
         { { gen_helper_sve_ldffbss_zss,
-            gen_helper_sve_ldffhss_zss,
+            gen_helper_sve_ldffhss_be_zss,
             NULL, },
           { gen_helper_sve_ldffbsu_zss,
-            gen_helper_sve_ldffhsu_zss,
-            gen_helper_sve_ldffssu_zss, } } } },
+            gen_helper_sve_ldffhsu_be_zss,
+            gen_helper_sve_ldffss_be_zss, } } } },
 };
 
 /* Note that we overload xs=2 to indicate 64-bit offset.  */
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][2][3][2][4] = {
 
       /* First-fault */
       { { { gen_helper_sve_ldffbds_zsu,
-            gen_helper_sve_ldffhds_zsu,
-            gen_helper_sve_ldffsds_zsu,
+            gen_helper_sve_ldffhds_le_zsu,
+            gen_helper_sve_ldffsds_le_zsu,
             NULL, },
           { gen_helper_sve_ldffbdu_zsu,
-            gen_helper_sve_ldffhdu_zsu,
-            gen_helper_sve_ldffsdu_zsu,
-            gen_helper_sve_ldffddu_zsu, } },
+            gen_helper_sve_ldffhdu_le_zsu,
+            gen_helper_sve_ldffsdu_le_zsu,
+            gen_helper_sve_ldffdd_le_zsu, } },
         { { gen_helper_sve_ldffbds_zss,
-            gen_helper_sve_ldffhds_zss,
-            gen_helper_sve_ldffsds_zss,
+            gen_helper_sve_ldffhds_le_zss,
+            gen_helper_sve_ldffsds_le_zss,
             NULL, },
           { gen_helper_sve_ldffbdu_zss,
-            gen_helper_sve_ldffhdu_zss,
-            gen_helper_sve_ldffsdu_zss,
-            gen_helper_sve_ldffddu_zss, } },
+            gen_helper_sve_ldffhdu_le_zss,
+            gen_helper_sve_ldffsdu_le_zss,
+            gen_helper_sve_ldffdd_le_zss, } },
         { { gen_helper_sve_ldffbds_zd,
-            gen_helper_sve_ldffhds_zd,
-            gen_helper_sve_ldffsds_zd,
+            gen_helper_sve_ldffhds_le_zd,
+            gen_helper_sve_ldffsds_le_zd,
             NULL, },
           { gen_helper_sve_ldffbdu_zd,
-            gen_helper_sve_ldffhdu_zd,
-            gen_helper_sve_ldffsdu_zd,
-            gen_helper_sve_ldffddu_zd, } } } },
+            gen_helper_sve_ldffhdu_le_zd,
+            gen_helper_sve_ldffsdu_le_zd,
+            gen_helper_sve_ldffdd_le_zd, } } } },
 
     /* Big-endian */
     { { { { gen_helper_sve_ldbds_zsu,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_mem_scatter * const gather_load_fn64[2][2][3][2][4] = {
 
       /* First-fault */
       { { { gen_helper_sve_ldffbds_zsu,
-            gen_helper_sve_ldffhds_zsu,
-            gen_helper_sve_ldffsds_zsu,
+            gen_helper_sve_ldffhds_be_zsu,
+            gen_helper_sve_ldffsds_be_zsu,
             NULL, },
           { gen_helper_sve_ldffbdu_zsu,
-            gen_helper_sve_ldffhdu_zsu,
-            gen_helper_sve_ldffsdu_zsu,
-            gen_helper_sve_ldffddu_zsu, } },
+            gen_helper_sve_ldffhdu_be_zsu,
+            gen_helper_sve_ldffsdu_be_zsu,
+            gen_helper_sve_ldffdd_be_zsu, } },
         { { gen_helper_sve_ldffbds_zss,
-            gen_helper_sve_ldffhds_zss,
-            gen_helper_sve_ldffsds_zss,
+            gen_helper_sve_ldffhds_be_zss,
+            gen_helper_sve_ldffsds_be_zss,
             NULL, },
           { gen_helper_sve_ldffbdu_zss,
-            gen_helper_sve_ldffhdu_zss,
-            gen_helper_sve_ldffsdu_zss,
-            gen_helper_sve_ldffddu_zss, } },
+            gen_helper_sve_ldffhdu_be_zss,
+            gen_helper_sve_ldffsdu_be_zss,
+            gen_helper_sve_ldffdd_be_zss, } },
         { { gen_helper_sve_ldffbds_zd,
-            gen_helper_sve_ldffhds_zd,
-            gen_helper_sve_ldffsds_zd,
+            gen_helper_sve_ldffhds_be_zd,
+            gen_helper_sve_ldffsds_be_zd,
             NULL, },
           { gen_helper_sve_ldffbdu_zd,
-            gen_helper_sve_ldffhdu_zd,
-            gen_helper_sve_ldffsdu_zd,
-            gen_helper_sve_ldffddu_zd, } } } },
+            gen_helper_sve_ldffhdu_be_zd,
+            gen_helper_sve_ldffsdu_be_zd,
+            gen_helper_sve_ldffdd_be_zd, } } } },
 };
 
 static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
-- 
2.19.0

From: Richard Henderson <richard.henderson@linaro.org>

There is quite a lot of code required to compute cpu_mem_index,
or even put together the full TCGMemOpIdx.  This can easily be
done at translation time.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Tested-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181005175350.30752-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h     |   5 ++
 target/arm/sve_helper.c    | 138 +++++++++++++++++++------------------
 target/arm/translate-sve.c |  67 +++++++++++-------
 3 files changed, 121 insertions(+), 89 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t arm_debug_exception_fsr(CPUARMState *env)
     }
 }
 
+/* Note make_memop_idx reserves 4 bits for mmu_idx, and MO_BSWAP is bit 3.
+ * Thus a TCGMemOpIdx, without any MO_ALIGN bits, fits in 8 bits.
+ */
+#define MEMOPIDX_SHIFT  8
+
 #endif
diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -XXX,XX +XXX,XX @@
 
 #include "qemu/osdep.h"
 #include "cpu.h"
+#include "internals.h"
 #include "exec/exec-all.h"
 #include "exec/cpu_ldst.h"
 #include "exec/helper-proto.h"
@@ -XXX,XX +XXX,XX @@ typedef intptr_t sve_ld1_host_fn(void *vd, void *vg, void *host,
  * The controlling predicate is known to be true.
  */
 typedef void sve_ld1_tlb_fn(CPUARMState *env, void *vd, intptr_t reg_off,
-                            target_ulong vaddr, int mmu_idx, uintptr_t ra);
+                            target_ulong vaddr, TCGMemOpIdx oi, uintptr_t ra);
 typedef sve_ld1_tlb_fn sve_st1_tlb_fn;
 
 /*
@@ -XXX,XX +XXX,XX @@ static intptr_t sve_##NAME##_host(void *vd, void *vg, void *host,           \
 #ifdef CONFIG_SOFTMMU
 #define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB) \
 static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
-                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra)  \
 {                                                                           \
-    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
     TYPEM val = TLB(env, addr, oi, ra);                                     \
     *(TYPEE *)(vd + H(reg_off)) = val;                                      \
 }
 #else
 #define DO_LD_TLB(NAME, H, TYPEE, TYPEM, HOST, MOEND, TLB)                  \
 static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
-                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra)  \
 {                                                                           \
     TYPEM val = HOST(g2h(addr));                                            \
     *(TYPEE *)(vd + H(reg_off)) = val;                                      \
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_r(CPUARMState *env, void *vg, const target_ulong addr,
                       sve_ld1_host_fn *host_fn,
                       sve_ld1_tlb_fn *tlb_fn)
 {
-    void *vd = &env->vfp.zregs[simd_data(desc)];
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int mmu_idx = get_mmuidx(oi);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
+    void *vd = &env->vfp.zregs[rd];
     const int diffsz = esz - msz;
     const intptr_t reg_max = simd_oprsz(desc);
     const intptr_t mem_max = reg_max >> diffsz;
-    const int mmu_idx = cpu_mmu_index(env, false);
     ARMVectorReg scratch;
     void *host;
     intptr_t split, reg_off, mem_off;
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_r(CPUARMState *env, void *vg, const target_ulong addr,
          * on I/O memory, it may succeed but not bring in the TLB entry.
          * But even then we have still made forward progress.
          */
-        tlb_fn(env, &scratch, reg_off, addr + mem_off, mmu_idx, retaddr);
+        tlb_fn(env, &scratch, reg_off, addr + mem_off, oi, retaddr);
         reg_off += 1 << esz;
     }
 #endif
@@ -XXX,XX +XXX,XX @@ static void sve_ld2_r(CPUARMState *env, void *vg, target_ulong addr,
                       uint32_t desc, int size, uintptr_t ra,
                       sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     ARMVectorReg scratch[2] = { };
 
     set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld2_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
-                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
+                tlb_fn(env, &scratch[0], i, addr, oi, ra);
+                tlb_fn(env, &scratch[1], i, addr + size, oi, ra);
             }
             i += size, pg >>= size;
             addr += 2 * size;
@@ -XXX,XX +XXX,XX @@ static void sve_ld3_r(CPUARMState *env, void *vg, target_ulong addr,
                       uint32_t desc, int size, uintptr_t ra,
                       sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     ARMVectorReg scratch[3] = { };
 
     set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld3_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
-                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
-                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
+                tlb_fn(env, &scratch[0], i, addr, oi, ra);
+                tlb_fn(env, &scratch[1], i, addr + size, oi, ra);
+                tlb_fn(env, &scratch[2], i, addr + 2 * size, oi, ra);
             }
             i += size, pg >>= size;
             addr += 3 * size;
@@ -XXX,XX +XXX,XX @@ static void sve_ld4_r(CPUARMState *env, void *vg, target_ulong addr,
                       uint32_t desc, int size, uintptr_t ra,
                       sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     ARMVectorReg scratch[4] = { };
 
     set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld4_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, &scratch[0], i, addr, mmu_idx, ra);
-                tlb_fn(env, &scratch[1], i, addr + size, mmu_idx, ra);
-                tlb_fn(env, &scratch[2], i, addr + 2 * size, mmu_idx, ra);
-                tlb_fn(env, &scratch[3], i, addr + 3 * size, mmu_idx, ra);
+                tlb_fn(env, &scratch[0], i, addr, oi, ra);
+                tlb_fn(env, &scratch[1], i, addr + size, oi, ra);
+                tlb_fn(env, &scratch[2], i, addr + 2 * size, oi, ra);
+                tlb_fn(env, &scratch[3], i, addr + 3 * size, oi, ra);
             }
             i += size, pg >>= size;
             addr += 4 * size;
@@ -XXX,XX +XXX,XX @@ static void sve_ldff1_r(CPUARMState *env, void *vg, const target_ulong addr,
                         sve_ld1_host_fn *host_fn,
                         sve_ld1_tlb_fn *tlb_fn)
 {
-    void *vd = &env->vfp.zregs[simd_data(desc)];
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int mmu_idx = get_mmuidx(oi);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
+    void *vd = &env->vfp.zregs[rd];
     const int diffsz = esz - msz;
     const intptr_t reg_max = simd_oprsz(desc);
     const intptr_t mem_max = reg_max >> diffsz;
-    const int mmu_idx = cpu_mmu_index(env, false);
     intptr_t split, reg_off, mem_off;
     void *host;
 
@@ -XXX,XX +XXX,XX @@ static void sve_ldff1_r(CPUARMState *env, void *vg, const target_ulong addr,
      * Perform one normal read, which will fault or not.
      * But it is likely to bring the page into the tlb.
      */
-    tlb_fn(env, vd, reg_off, addr + mem_off, mmu_idx, retaddr);
+    tlb_fn(env, vd, reg_off, addr + mem_off, oi, retaddr);
 
     /* After any fault, zero any leading predicated false elts.  */
     swap_memzero(vd, reg_off);
@@ -XXX,XX +XXX,XX @@ static void sve_ldnf1_r(CPUARMState *env, void *vg, const target_ulong addr,
                         uint32_t desc, const int esz, const int msz,
                         sve_ld1_host_fn *host_fn)
 {
-    void *vd = &env->vfp.zregs[simd_data(desc)];
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
+    void *vd = &env->vfp.zregs[rd];
     const int diffsz = esz - msz;
     const intptr_t reg_max = simd_oprsz(desc);
     const intptr_t mem_max = reg_max >> diffsz;
@@ -XXX,XX +XXX,XX @@ DO_LDFF1_LDNF1_2(dd,  3, 3)
 #ifdef CONFIG_SOFTMMU
 #define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
 static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
-                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra) \
 {                                                                           \
-    TCGMemOpIdx oi = make_memop_idx(ctz32(sizeof(TYPEM)) | MOEND, mmu_idx); \
     TLB(env, addr, *(TYPEM *)(vd + H(reg_off)), oi, ra);                    \
 }
 #else
 #define DO_ST_TLB(NAME, H, TYPEM, HOST, MOEND, TLB) \
 static void sve_##NAME##_tlb(CPUARMState *env, void *vd, intptr_t reg_off,  \
-                             target_ulong addr, int mmu_idx, uintptr_t ra)  \
+                             target_ulong addr, TCGMemOpIdx oi, uintptr_t ra) \
 {                                                                           \
     HOST(g2h(addr), *(TYPEM *)(vd + H(reg_off)));                           \
 }
@@ -XXX,XX +XXX,XX @@ static void sve_st1_r(CPUARMState *env, void *vg, target_ulong addr,
                       const int esize, const int msize,
                       sve_st1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     void *vd = &env->vfp.zregs[rd];
 
     set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_st1_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, vd, i, addr, mmu_idx, ra);
+                tlb_fn(env, vd, i, addr, oi, ra);
             }
             i += esize, pg >>= esize;
             addr += msize;
@@ -XXX,XX +XXX,XX @@ static void sve_st2_r(CPUARMState *env, void *vg, target_ulong addr,
                       const int esize, const int msize,
                       sve_st1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     void *d1 = &env->vfp.zregs[rd];
     void *d2 = &env->vfp.zregs[(rd + 1) & 31];
 
@@ -XXX,XX +XXX,XX @@ static void sve_st2_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, d1, i, addr, mmu_idx, ra);
-                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
+                tlb_fn(env, d1, i, addr, oi, ra);
+                tlb_fn(env, d2, i, addr + msize, oi, ra);
             }
             i += esize, pg >>= esize;
             addr += 2 * msize;
@@ -XXX,XX +XXX,XX @@ static void sve_st3_r(CPUARMState *env, void *vg, target_ulong addr,
                       const int esize, const int msize,
                       sve_st1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     void *d1 = &env->vfp.zregs[rd];
     void *d2 = &env->vfp.zregs[(rd + 1) & 31];
     void *d3 = &env->vfp.zregs[(rd + 2) & 31];
@@ -XXX,XX +XXX,XX @@ static void sve_st3_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, d1, i, addr, mmu_idx, ra);
-                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
-                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
+                tlb_fn(env, d1, i, addr, oi, ra);
+                tlb_fn(env, d2, i, addr + msize, oi, ra);
+                tlb_fn(env, d3, i, addr + 2 * msize, oi, ra);
             }
             i += esize, pg >>= esize;
             addr += 3 * msize;
@@ -XXX,XX +XXX,XX @@ static void sve_st4_r(CPUARMState *env, void *vg, target_ulong addr,
                       const int esize, const int msize,
                       sve_st1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const unsigned rd = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 5);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned rd = simd_data(desc);
     void *d1 = &env->vfp.zregs[rd];
     void *d2 = &env->vfp.zregs[(rd + 1) & 31];
     void *d3 = &env->vfp.zregs[(rd + 2) & 31];
@@ -XXX,XX +XXX,XX @@ static void sve_st4_r(CPUARMState *env, void *vg, target_ulong addr,
         uint16_t pg = *(uint16_t *)(vg + H1_2(i >> 3));
         do {
             if (pg & 1) {
-                tlb_fn(env, d1, i, addr, mmu_idx, ra);
-                tlb_fn(env, d2, i, addr + msize, mmu_idx, ra);
-                tlb_fn(env, d3, i, addr + 2 * msize, mmu_idx, ra);
-                tlb_fn(env, d4, i, addr + 3 * msize, mmu_idx, ra);
+                tlb_fn(env, d1, i, addr, oi, ra);
+                tlb_fn(env, d2, i, addr + msize, oi, ra);
+                tlb_fn(env, d3, i, addr + 2 * msize, oi, ra);
+                tlb_fn(env, d4, i, addr + 3 * msize, oi, ra);
             }
             i += esize, pg >>= esize;
             addr += 4 * msize;
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
                        target_ulong base, uint32_t desc, uintptr_t ra,
                        zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned scale = simd_data(desc);
     ARMVectorReg scratch = { };
 
     set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
         do {
             if (likely(pg & 1)) {
                 target_ulong off = off_fn(vm, i);
-                tlb_fn(env, &scratch, i, base + (off << scale), mmu_idx, ra);
+                tlb_fn(env, &scratch, i, base + (off << scale), oi, ra);
             }
             i += 4, pg >>= 4;
         } while (i & 15);
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
                        target_ulong base, uint32_t desc, uintptr_t ra,
                        zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
     intptr_t i, oprsz = simd_oprsz(desc) / 8;
-    unsigned scale = simd_data(desc);
     ARMVectorReg scratch = { };
 
     set_helper_retaddr(ra);
@@ -XXX,XX +XXX,XX @@ static void sve_ld1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
         uint8_t pg = *(uint8_t *)(vg + H1(i));
         if (likely(pg & 1)) {
             target_ulong off = off_fn(vm, i * 8);
-            tlb_fn(env, &scratch, i * 8, base + (off << scale), mmu_idx, ra);
+            tlb_fn(env, &scratch, i * 8, base + (off << scale), oi, ra);
         }
     }
     set_helper_retaddr(0);
@@ -XXX,XX +XXX,XX @@ typedef bool sve_ld1_nf_fn(CPUARMState *env, void *vd, intptr_t reg_off,
 #ifdef CONFIG_SOFTMMU
 #define DO_LD_NF(NAME, H, TYPEE, TYPEM, HOST) \
 static bool sve_ld##NAME##_nf(CPUARMState *env, void *vd, intptr_t reg_off, \
-                            target_ulong addr, int mmu_idx)                 \
+                              target_ulong addr, int mmu_idx)               \
 {                                                                           \
     target_ulong next_page = -(addr | TARGET_PAGE_MASK);                    \
     if (likely(next_page - addr >= sizeof(TYPEM))) {                        \
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
                                 zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
                                 sve_ld1_nf_fn *nonfault_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int mmu_idx = get_mmuidx(oi);
+    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
     intptr_t reg_off, reg_max = simd_oprsz(desc);
-    unsigned scale = simd_data(desc);
     target_ulong addr;
 
     /* Skip to the first true predicate.  */
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
         set_helper_retaddr(ra);
         addr = off_fn(vm, reg_off);
         addr = base + (addr << scale);
-        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
+        tlb_fn(env, vd, reg_off, addr, oi, ra);
 
         /* The rest of the reads will be non-faulting.  */
         set_helper_retaddr(0);
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
                                 zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn,
                                 sve_ld1_nf_fn *nonfault_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int mmu_idx = get_mmuidx(oi);
+    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
     intptr_t reg_off, reg_max = simd_oprsz(desc);
-    unsigned scale = simd_data(desc);
     target_ulong addr;
 
     /* Skip to the first true predicate.  */
@@ -XXX,XX +XXX,XX @@ static inline void sve_ldff1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
         set_helper_retaddr(ra);
         addr = off_fn(vm, reg_off);
         addr = base + (addr << scale);
-        tlb_fn(env, vd, reg_off, addr, mmu_idx, ra);
+        tlb_fn(env, vd, reg_off, addr, oi, ra);
 
         /* The rest of the reads will be non-faulting.  */
         set_helper_retaddr(0);
@@ -XXX,XX +XXX,XX @@ static void sve_st1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
                        target_ulong base, uint32_t desc, uintptr_t ra,
                        zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
     intptr_t i, oprsz = simd_oprsz(desc);
-    unsigned scale = simd_data(desc);
 
     set_helper_retaddr(ra);
     for (i = 0; i < oprsz; ) {
@@ -XXX,XX +XXX,XX @@ static void sve_st1_zs(CPUARMState *env, void *vd, void *vg, void *vm,
         do {
             if (likely(pg & 1)) {
                 target_ulong off = off_fn(vm, i);
-                tlb_fn(env, vd, i, base + (off << scale), mmu_idx, ra);
+                tlb_fn(env, vd, i, base + (off << scale), oi, ra);
             }
             i += 4, pg >>= 4;
         } while (i & 15);
@@ -XXX,XX +XXX,XX @@ static void sve_st1_zd(CPUARMState *env, void *vd, void *vg, void *vm,
                        target_ulong base, uint32_t desc, uintptr_t ra,
                        zreg_off_fn *off_fn, sve_ld1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const TCGMemOpIdx oi = extract32(desc, SIMD_DATA_SHIFT, MEMOPIDX_SHIFT);
+    const int scale = extract32(desc, SIMD_DATA_SHIFT + MEMOPIDX_SHIFT, 2);
     intptr_t i, oprsz = simd_oprsz(desc) / 8;
-    unsigned scale = simd_data(desc);
 
     set_helper_retaddr(ra);
     for (i = 0; i < oprsz; i++) {
         uint8_t pg = *(uint8_t *)(vg + H1(i));
         if (likely(pg & 1)) {
             target_ulong off = off_fn(vm, i * 8);
-            tlb_fn(env, vd, i * 8, base + (off << scale), mmu_idx, ra);
+            tlb_fn(env, vd, i * 8, base + (off << scale), oi, ra);
         }
     }
     set_helper_retaddr(0);
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t dtype_esz[16] = {
     3, 2, 1, 3
 };
 
+static TCGMemOpIdx sve_memopidx(DisasContext *s, int dtype)
+{
+    return make_memop_idx(s->be_data | dtype_mop[dtype], get_mem_index(s));
+}
+
 static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
-                       gen_helper_gvec_mem *fn)
+                       int dtype, gen_helper_gvec_mem *fn)
 {
     unsigned vsz = vec_full_reg_size(s);
     TCGv_ptr t_pg;
-    TCGv_i32 desc;
+    TCGv_i32 t_desc;
+    int desc;
 
     /* For e.g. LD4, there are not enough arguments to pass all 4
      * registers as pointers, so encode the regno into the data field.
      * For consistency, do this even for LD1.
      */
-    desc = tcg_const_i32(simd_desc(vsz, vsz, zt));
+    desc = sve_memopidx(s, dtype);
+    desc |= zt << MEMOPIDX_SHIFT;
+    desc = simd_desc(vsz, vsz, desc);
+    t_desc = tcg_const_i32(desc);
     t_pg = tcg_temp_new_ptr();
 
     tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
-    fn(cpu_env, t_pg, addr, desc);
+    fn(cpu_env, t_pg, addr, t_desc);
 
     tcg_temp_free_ptr(t_pg);
-    tcg_temp_free_i32(desc);
+    tcg_temp_free_i32(t_desc);
 }
 
 static void do_ld_zpa(DisasContext *s, int zt, int pg,
@@ -XXX,XX +XXX,XX @@ static void do_ld_zpa(DisasContext *s, int zt, int pg,
      * accessible via the instruction encoding.
      */
     assert(fn != NULL);
-    do_mem_zpa(s, zt, pg, addr, fn);
+    do_mem_zpa(s, zt, pg, addr, dtype, fn);
 }
 
 static bool trans_LD_zprr(DisasContext *s, arg_rprr_load *a, uint32_t insn)
@@ -XXX,XX +XXX,XX @@ static bool trans_LDFF1_zprr(DisasContext *s, arg_rprr_load *a, uint32_t insn)
         TCGv_i64 addr = new_tmp_a64(s);
         tcg_gen_shli_i64(addr, cpu_reg(s, a->rm), dtype_msz(a->dtype));
         tcg_gen_add_i64(addr, addr, cpu_reg_sp(s, a->rn));
-        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
+        do_mem_zpa(s, a->rd, a->pg, addr, a->dtype,
+                   fns[s->be_data == MO_BE][a->dtype]);
     }
     return true;
 }
@@ -XXX,XX +XXX,XX @@ static bool trans_LDNF1_zpri(DisasContext *s, arg_rpri_load *a, uint32_t insn)
         TCGv_i64 addr = new_tmp_a64(s);
 
         tcg_gen_addi_i64(addr, cpu_reg_sp(s, a->rn), off);
-        do_mem_zpa(s, a->rd, a->pg, addr, fns[s->be_data == MO_BE][a->dtype]);
+        do_mem_zpa(s, a->rd, a->pg, addr, a->dtype,
+                   fns[s->be_data == MO_BE][a->dtype]);
     }
     return true;
 }
@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
     };
     unsigned vsz = vec_full_reg_size(s);
     TCGv_ptr t_pg;
-    TCGv_i32 desc;
-    int poff;
+    TCGv_i32 t_desc;
+    int desc, poff;
 
     /* Load the first quadword using the normal predicated load helpers.  */
-    desc = tcg_const_i32(simd_desc(16, 16, zt));
+    desc = sve_memopidx(s, msz_dtype(msz));
+    desc |= zt << MEMOPIDX_SHIFT;
+    desc = simd_desc(16, 16, desc);
+    t_desc = tcg_const_i32(desc);
 
     poff = pred_full_reg_offset(s, pg);
     if (vsz > 16) {
@@ -XXX,XX +XXX,XX @@ static void do_ldrq(DisasContext *s, int zt, int pg, TCGv_i64 addr, int msz)
     t_pg = tcg_temp_new_ptr();
     tcg_gen_addi_ptr(t_pg, cpu_env, poff);
 
-    fns[s->be_data == MO_BE][msz](cpu_env, t_pg, addr, desc);
+    fns[s->be_data == MO_BE][msz](cpu_env, t_pg, addr, t_desc);
 
     tcg_temp_free_ptr(t_pg);
-    tcg_temp_free_i32(desc);
+    tcg_temp_free_i32(t_desc);
 
     /* Replicate that first quadword.  */
     if (vsz > 16) {
@@ -XXX,XX +XXX,XX @@ static void do_st_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
         fn = fn_multiple[be][nreg - 1][msz];
     }
     assert(fn != NULL);
-    do_mem_zpa(s, zt, pg, addr, fn);
+    do_mem_zpa(s, zt, pg, addr, msz_dtype(msz), fn);
 }
 
 static bool trans_ST_zprr(DisasContext *s, arg_rprr_store *a, uint32_t insn)
@@ -XXX,XX +XXX,XX @@ static bool trans_ST_zpri(DisasContext *s, arg_rpri_store *a, uint32_t insn)
  *** SVE gather loads / scatter stores
  */
 
-static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm, int scale,
-                       TCGv_i64 scalar, gen_helper_gvec_mem_scatter *fn)
+static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm,
+                       int scale, TCGv_i64 scalar, int msz,
+                       gen_helper_gvec_mem_scatter *fn)
 {
     unsigned vsz = vec_full_reg_size(s);
-    TCGv_i32 desc = tcg_const_i32(simd_desc(vsz, vsz, scale));
     TCGv_ptr t_zm = tcg_temp_new_ptr();
     TCGv_ptr t_pg = tcg_temp_new_ptr();
     TCGv_ptr t_zt = tcg_temp_new_ptr();
+    TCGv_i32 t_desc;
+    int desc;
+
+    desc = sve_memopidx(s, msz_dtype(msz));
+    desc |= scale << MEMOPIDX_SHIFT;
+    desc = simd_desc(vsz, vsz, desc);
+    t_desc = tcg_const_i32(desc);
 
     tcg_gen_addi_ptr(t_pg, cpu_env, pred_full_reg_offset(s, pg));
     tcg_gen_addi_ptr(t_zm, cpu_env, vec_full_reg_offset(s, zm));
     tcg_gen_addi_ptr(t_zt, cpu_env, vec_full_reg_offset(s, zt));
-    fn(cpu_env, t_zt, t_pg, t_zm, scalar, desc);
+    fn(cpu_env, t_zt, t_pg, t_zm, scalar, t_desc);
 
     tcg_temp_free_ptr(t_zt);
     tcg_temp_free_ptr(t_zm);
     tcg_temp_free_ptr(t_pg);
-    tcg_temp_free_i32(desc);
+    tcg_temp_free_i32(t_desc);
 }
 
 /* Indexed by [be][ff][xs][u][msz].  */
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zprz(DisasContext *s, arg_LD1_zprz *a, uint32_t insn)
     assert(fn != NULL);
 
     do_mem_zpz(s, a->rd, a->pg, a->rm, a->scale * a->msz,
-               cpu_reg_sp(s, a->rn), fn);
+               cpu_reg_sp(s, a->rn), a->msz, fn);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_LD1_zpiz(DisasContext *s, arg_LD1_zpiz *a, uint32_t insn)
      * by loading the immediate into the scalar parameter.
      */
     imm = tcg_const_i64(a->imm << a->msz);
-    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, fn);
+    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, a->msz, fn);
     tcg_temp_free_i64(imm);
     return true;
 }
@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zprz(DisasContext *s, arg_ST1_zprz *a, uint32_t insn)
         g_assert_not_reached();
     }
     do_mem_zpz(s, a->rd, a->pg, a->rm, a->scale * a->msz,
-               cpu_reg_sp(s, a->rn), fn);
+               cpu_reg_sp(s, a->rn), a->msz, fn);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_ST1_zpiz(DisasContext *s, arg_ST1_zpiz *a, uint32_t insn)
      * by loading the immediate into the scalar parameter.
      */
     imm = tcg_const_i64(a->imm << a->msz);
-    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, fn);
+    do_mem_zpz(s, a->rd, a->pg, a->rn, 0, imm, a->msz, fn);
     tcg_temp_free_i64(imm);
     return true;
 }
-- 
2.19.0

The Arm v8M architecture includes hardware stack limit checking.
When certain instructions update the stack pointer, if the new
value of SP is below the limit set in the associated limit register
then an exception is taken. Add a TB flag that tracks whether
the limit-checking code needs to be emitted.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20181002163556.10279-2-peter.maydell@linaro.org
---
 target/arm/cpu.h       |  7 +++++++
 target/arm/translate.h |  1 +
 target/arm/helper.c    | 10 ++++++++++
 target/arm/translate.c |  1 +
 4 files changed, 19 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(V7M_CCR, UNALIGN_TRP, 3, 1)
 FIELD(V7M_CCR, DIV_0_TRP, 4, 1)
 FIELD(V7M_CCR, BFHFNMIGN, 8, 1)
 FIELD(V7M_CCR, STKALIGN, 9, 1)
+FIELD(V7M_CCR, STKOFHFNMIGN, 10, 1)
 FIELD(V7M_CCR, DC, 16, 1)
 FIELD(V7M_CCR, IC, 17, 1)
+FIELD(V7M_CCR, BP, 18, 1)
 
 /* V7M SCR bits */
 FIELD(V7M_SCR, SLEEPONEXIT, 1, 1)
@@ -XXX,XX +XXX,XX @@ static inline bool arm_cpu_data_is_big_endian(CPUARMState *env)
 /* For M profile only, Handler (ie not Thread) mode */
 #define ARM_TBFLAG_HANDLER_SHIFT    21
 #define ARM_TBFLAG_HANDLER_MASK     (1 << ARM_TBFLAG_HANDLER_SHIFT)
+/* For M profile only, whether we should generate stack-limit checks */
+#define ARM_TBFLAG_STACKCHECK_SHIFT 22
+#define ARM_TBFLAG_STACKCHECK_MASK  (1 << ARM_TBFLAG_STACKCHECK_SHIFT)
 
 /* Bit usage when in AArch64 state */
 #define ARM_TBFLAG_TBI0_SHIFT 0        /* TBI0 for EL0/1 or TBI for EL2/3 */
@@ -XXX,XX +XXX,XX @@ static inline bool arm_cpu_data_is_big_endian(CPUARMState *env)
     (((F) & ARM_TBFLAG_BE_DATA_MASK) >> ARM_TBFLAG_BE_DATA_SHIFT)
 #define ARM_TBFLAG_HANDLER(F) \
     (((F) & ARM_TBFLAG_HANDLER_MASK) >> ARM_TBFLAG_HANDLER_SHIFT)
+#define ARM_TBFLAG_STACKCHECK(F) \
+    (((F) & ARM_TBFLAG_STACKCHECK_MASK) >> ARM_TBFLAG_STACKCHECK_SHIFT)
 #define ARM_TBFLAG_TBI0(F) \
     (((F) & ARM_TBFLAG_TBI0_MASK) >> ARM_TBFLAG_TBI0_SHIFT)
 #define ARM_TBFLAG_TBI1(F) \
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     int vec_stride;
     bool v7m_handler_mode;
     bool v8m_secure; /* true if v8M and we're in Secure mode */
+    bool v8m_stackcheck; /* true if we need to perform v8M stack limit checks */
     /* Immediate value in AArch32 SVC insn; must be set if is_jmp == DISAS_SWI
      * so that top level loop can generate correct syndrome information.
      */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
         flags |= ARM_TBFLAG_HANDLER_MASK;
     }
 
+    /* v8M always applies stack limit checks unless CCR.STKOFHFNMIGN is
+     * suppressing them because the requested execution priority is less than 0.
+     */
+    if (arm_feature(env, ARM_FEATURE_V8) &&
+        arm_feature(env, ARM_FEATURE_M) &&
+        !((mmu_idx  & ARM_MMU_IDX_M_NEGPRI) &&
+          (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
+        flags |= ARM_TBFLAG_STACKCHECK_MASK;
+    }
+
     *pflags = flags;
     *cs_base = 0;
 }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->v7m_handler_mode = ARM_TBFLAG_HANDLER(dc->base.tb->flags);
     dc->v8m_secure = arm_feature(env, ARM_FEATURE_M_SECURITY) &&
         regime_is_secure(env, dc->mmu_idx);
+    dc->v8m_stackcheck = ARM_TBFLAG_STACKCHECK(dc->base.tb->flags);
     dc->cp_regs = cpu->cp_regs;
     dc->features = env->features;
 
-- 
2.19.0

Define EXCP_STKOF, and arrange for it to cause us to take
a UsageFault with CFSR.STKOF set.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-3-peter.maydell@linaro.org
---
 target/arm/cpu.h    | 2 ++
 target/arm/helper.c | 5 +++++
 2 files changed, 7 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@
 #define EXCP_SEMIHOST       16   /* semihosting call */
 #define EXCP_NOCP           17   /* v7M NOCP UsageFault */
 #define EXCP_INVSTATE       18   /* v7M INVSTATE UsageFault */
+#define EXCP_STKOF          19   /* v8M STKOF UsageFault */
 /* NB: add new EXCP_ defines to the array in arm_log_exception() too */
 
 #define ARMV7M_EXCP_RESET   1
@@ -XXX,XX +XXX,XX @@ FIELD(V7M_CFSR, UNDEFINSTR, 16 + 0, 1)
 FIELD(V7M_CFSR, INVSTATE, 16 + 1, 1)
 FIELD(V7M_CFSR, INVPC, 16 + 2, 1)
 FIELD(V7M_CFSR, NOCP, 16 + 3, 1)
+FIELD(V7M_CFSR, STKOF, 16 + 4, 1)
 FIELD(V7M_CFSR, UNALIGNED, 16 + 8, 1)
 FIELD(V7M_CFSR, DIVBYZERO, 16 + 9, 1)
 
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void arm_log_exception(int idx)
             [EXCP_SEMIHOST] = "Semihosting call",
             [EXCP_NOCP] = "v7M NOCP UsageFault",
             [EXCP_INVSTATE] = "v7M INVSTATE UsageFault",
+            [EXCP_STKOF] = "v8M STKOF UsageFault",
         };
 
         if (idx >= 0 && idx < ARRAY_SIZE(excnames)) {
@@ -XXX,XX +XXX,XX @@ void arm_v7m_cpu_do_interrupt(CPUState *cs)
         armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE, env->v7m.secure);
         env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_INVSTATE_MASK;
         break;
+    case EXCP_STKOF:
+        armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE, env->v7m.secure);
+        env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_STKOF_MASK;
+        break;
     case EXCP_SWI:
         /* The PC already points to the next instruction.  */
         armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_SVC, env->v7m.secure);
-- 
2.19.0

We're going to want v7m_using_psp() in op_helper.c in the
next patch, so move it from helper.c to internals.h.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-4-peter.maydell@linaro.org
---
 target/arm/internals.h | 16 ++++++++++++++++
 target/arm/helper.c    | 12 ------------
 2 files changed, 16 insertions(+), 12 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t arm_debug_exception_fsr(CPUARMState *env)
  */
 #define MEMOPIDX_SHIFT  8
 
+/**
+ * v7m_using_psp: Return true if using process stack pointer
+ * Return true if the CPU is currently using the process stack
+ * pointer, or false if it is using the main stack pointer.
+ */
+static inline bool v7m_using_psp(CPUARMState *env)
+{
+    /* Handler mode always uses the main stack; for thread mode
+     * the CONTROL.SPSEL bit determines the answer.
+     * Note that in v7M it is not possible to be in Handler mode with
+     * CONTROL.SPSEL non-zero, but in v8M it is, so we must check both.
+     */
+    return !arm_v7m_is_handler_mode(env) &&
+        env->v7m.control[env->v7m.secure] & R_V7M_CONTROL_SPSEL_MASK;
+}
+
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ pend_fault:
     return false;
 }
 
-/* Return true if we're using the process stack pointer (not the MSP) */
-static bool v7m_using_psp(CPUARMState *env)
-{
-    /* Handler mode always uses the main stack; for thread mode
-     * the CONTROL.SPSEL bit determines the answer.
-     * Note that in v7M it is not possible to be in Handler mode with
-     * CONTROL.SPSEL non-zero, but in v8M it is, so we must check both.
-     */
-    return !arm_v7m_is_handler_mode(env) &&
-        env->v7m.control[env->v7m.secure] & R_V7M_CONTROL_SPSEL_MASK;
-}
-
 /* Write to v7M CONTROL.SPSEL bit for the specified security bank.
  * This may change the current stack pointer between Main and Process
  * stack pointers if it is done for the CONTROL register for the current
-- 
2.19.0

Add code to insert calls to a helper function to do the stack
limit checking when we handle these forms of instruction
that write to SP:
 * ADD (SP plus immediate)
 * ADD (SP plus register)
 * SUB (SP minus immediate)
 * SUB (SP minus register)
 * MOV (register)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-5-peter.maydell@linaro.org
---
 target/arm/helper.h    |  2 ++
 target/arm/internals.h | 14 ++++++++
 target/arm/op_helper.c | 19 ++++++++++
 target/arm/translate.c | 80 +++++++++++++++++++++++++++++++++++++-----
 4 files changed, 106 insertions(+), 9 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(v7m_blxns, void, env, i32)
 
 DEF_HELPER_3(v7m_tt, i32, env, i32, i32)
 
+DEF_HELPER_2(v8m_stackcheck, void, env, i32)
+
 DEF_HELPER_4(access_check_cp_reg, void, env, ptr, i32, i32)
 DEF_HELPER_3(set_cp_reg, void, env, ptr, i32)
 DEF_HELPER_2(get_cp_reg, i32, env, ptr)
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline bool v7m_using_psp(CPUARMState *env)
         env->v7m.control[env->v7m.secure] & R_V7M_CONTROL_SPSEL_MASK;
 }
 
+/**
+ * v7m_sp_limit: Return SP limit for current CPU state
+ * Return the SP limit value for the current CPU security state
+ * and stack pointer.
+ */
+static inline uint32_t v7m_sp_limit(CPUARMState *env)
+{
+    if (v7m_using_psp(env)) {
+        return env->v7m.psplim[env->v7m.secure];
+    } else {
+        return env->v7m.msplim[env->v7m.secure];
+    }
+}
+
 #endif
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void arm_cpu_do_transaction_failed(CPUState *cs, hwaddr physaddr,
 
 #endif /* !defined(CONFIG_USER_ONLY) */
 
+void HELPER(v8m_stackcheck)(CPUARMState *env, uint32_t newvalue)
+{
+    /*
+     * Perform the v8M stack limit check for SP updates from translated code,
+     * raising an exception if the limit is breached.
+     */
+    if (newvalue < v7m_sp_limit(env)) {
+        CPUState *cs = CPU(arm_env_get_cpu(env));
+
+        /*
+         * Stack limit exceptions are a rare case, so rather than syncing
+         * PC/condbits before the call, we use cpu_restore_state() to
+         * get them right before raising the exception.
+         */
+        cpu_restore_state(cs, GETPC(), true);
+        raise_exception(env, EXCP_STKOF, 0, 1);
+    }
+}
+
 uint32_t HELPER(add_setq)(CPUARMState *env, uint32_t a, uint32_t b)
 {
     uint32_t res = a + b;
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void store_reg(DisasContext *s, int reg, TCGv_i32 var)
     tcg_temp_free_i32(var);
 }
 
+/*
+ * Variant of store_reg which applies v8M stack-limit checks before updating
+ * SP. If the check fails this will result in an exception being taken.
+ * We disable the stack checks for CONFIG_USER_ONLY because we have
+ * no idea what the stack limits should be in that case.
+ * If stack checking is not being done this just acts like store_reg().
+ */
+static void store_sp_checked(DisasContext *s, TCGv_i32 var)
+{
+#ifndef CONFIG_USER_ONLY
+    if (s->v8m_stackcheck) {
+        gen_helper_v8m_stackcheck(cpu_env, var);
+    }
+#endif
+    store_reg(s, 13, var);
+}
+
 /* Value extensions.  */
 #define gen_uxtb(var) tcg_gen_ext8u_i32(var, var)
 #define gen_uxth(var) tcg_gen_ext16u_i32(var, var)
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
             if (gen_thumb2_data_op(s, op, conds, 0, tmp, tmp2))
                 goto illegal_op;
             tcg_temp_free_i32(tmp2);
-            if (rd != 15) {
+            if (rd == 13 &&
+                ((op == 2 && rn == 15) ||
+                 (op == 8 && rn == 13) ||
+                 (op == 13 && rn == 13))) {
+                /* MOV SP, ... or ADD SP, SP, ... or SUB SP, SP, ... */
+                store_sp_checked(s, tmp);
+            } else if (rd != 15) {
                 store_reg(s, rd, tmp);
             } else {
                 tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                 gen_jmp(s, s->pc + offset);
             }
         } else {
-            /* Data processing immediate.  */
+            /*
+             * 0b1111_0xxx_xxxx_0xxx_xxxx_xxxx
+             *  - Data-processing (modified immediate, plain binary immediate)
+             */
             if (insn & (1 << 25)) {
+                /*
+                 * 0b1111_0x1x_xxxx_0xxx_xxxx_xxxx
+                 *  - Data-processing (plain binary immediate)
+                 */
                 if (insn & (1 << 24)) {
                     if (insn & (1 << 20))
                         goto illegal_op;
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                             tmp = tcg_temp_new_i32();
                             tcg_gen_movi_i32(tmp, imm);
                         }
+                        store_reg(s, rd, tmp);
                     } else {
                         /* Add/sub 12-bit immediate.  */
                         if (rn == 15) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                                 offset += imm;
                             tmp = tcg_temp_new_i32();
                             tcg_gen_movi_i32(tmp, offset);
+                            store_reg(s, rd, tmp);
                         } else {
                             tmp = load_reg(s, rn);
                             if (insn & (1 << 23))
                                 tcg_gen_subi_i32(tmp, tmp, imm);
                             else
                                 tcg_gen_addi_i32(tmp, tmp, imm);
+                            if (rn == 13 && rd == 13) {
+                                /* ADD SP, SP, imm or SUB SP, SP, imm */
+                                store_sp_checked(s, tmp);
+                            } else {
+                                store_reg(s, rd, tmp);
+                            }
                         }
                     }
-                    store_reg(s, rd, tmp);
                 }
             } else {
+                /*
+                 * 0b1111_0x0x_xxxx_0xxx_xxxx_xxxx
+                 *  - Data-processing (modified immediate)
+                 */
                 int shifter_out = 0;
                 /* modified 12-bit immediate.  */
                 shift = ((insn & 0x04000000) >> 23) | ((insn & 0x7000) >> 12);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                     goto illegal_op;
                 tcg_temp_free_i32(tmp2);
                 rd = (insn >> 8) & 0xf;
-                if (rd != 15) {
+                if (rd == 13 && rn == 13
+                    && (op == 8 || op == 13)) {
+                    /* ADD(S) SP, SP, imm or SUB(S) SP, SP, imm */
+                    store_sp_checked(s, tmp);
+                } else if (rd != 15) {
                     store_reg(s, rd, tmp);
                 } else {
                     tcg_temp_free_i32(tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
                 tmp2 = load_reg(s, rm);
                 tcg_gen_add_i32(tmp, tmp, tmp2);
                 tcg_temp_free_i32(tmp2);
-                store_reg(s, rd, tmp);
+                if (rd == 13) {
+                    /* ADD SP, SP, reg */
+                    store_sp_checked(s, tmp);
+                } else {
+                    store_reg(s, rd, tmp);
+                }
                 break;
             case 1: /* cmp */
                 tmp = load_reg(s, rd);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
                 break;
             case 2: /* mov/cpy */
                 tmp = load_reg(s, rm);
-                store_reg(s, rd, tmp);
+                if (rd == 13) {
+                    /* MOV SP, reg */
+                    store_sp_checked(s, tmp);
+                } else {
+                    store_reg(s, rd, tmp);
+                }
                 break;
             case 3:
             {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
         break;
 
     case 10:
-        /* add to high reg */
+        /*
+         * 0b1010_xxxx_xxxx_xxxx
+         *  - Add PC/SP (immediate)
+         */
         rd = (insn >> 8) & 7;
         if (insn & (1 << 11)) {
             /* SP */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
         op = (insn >> 8) & 0xf;
         switch (op) {
         case 0:
-            /* adjust stack pointer */
+            /*
+             * 0b1011_0000_xxxx_xxxx
+             *  - ADD (SP plus immediate)
+             *  - SUB (SP minus immediate)
+             */
             tmp = load_reg(s, 13);
             val = (insn & 0x7f) * 4;
             if (insn & (1 << 7))
                 val = -(int32_t)val;
             tcg_gen_addi_i32(tmp, tmp, val);
-            store_reg(s, 13, tmp);
+            store_sp_checked(s, tmp);
             break;
 
         case 2: /* sign/zero extend.  */
-- 
2.19.0

Add some comments to the Thumb decoder indicating what bits
of the instruction have been decoded at various points in
the code.

This is not an exhaustive set of comments; we're gradually
adding comments as we work with particular bits of the code.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-6-peter.maydell@linaro.org
---
 target/arm/translate.c | 20 +++++++++++++++++---
 1 file changed, 17 insertions(+), 3 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
             tmp2 = load_reg(s, rm);
             if ((insn & 0x70) != 0)
                 goto illegal_op;
+            /*
+             * 0b1111_1010_0xxx_xxxx_1111_xxxx_0000_xxxx:
+             *  - MOV, MOVS (register-shifted register), flagsetting
+             */
             op = (insn >> 21) & 3;
             logic_cc = (insn & (1 << 20)) != 0;
             gen_arm_shift_reg(tmp, op, tmp2, logic_cc);
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
         rd = insn & 7;
         op = (insn >> 11) & 3;
         if (op == 3) {
-            /* add/subtract */
+            /*
+             * 0b0001_1xxx_xxxx_xxxx
+             *  - Add, subtract (three low registers)
+             *  - Add, subtract (two low registers and immediate)
+             */
             rn = (insn >> 3) & 7;
             tmp = load_reg(s, rn);
             if (insn & (1 << 10)) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
         }
         break;
     case 2: case 3:
-        /* arithmetic large immediate */
+        /*
+         * 0b001x_xxxx_xxxx_xxxx
+         *  - Add, subtract, compare, move (one low register and immediate)
+         */
         op = (insn >> 11) & 3;
         rd = (insn >> 8) & 0x7;
         if (op == 0) { /* mov */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
             break;
         }
 
-        /* data processing register */
+        /*
+         * 0b0100_00xx_xxxx_xxxx
+         *  - Data-processing (two low registers)
+         */
         rd = insn & 7;
         rm = (insn >> 3) & 7;
         op = (insn >> 6) & 0xf;
-- 
2.19.0

Add checks for breaches of the v8M stack limit when the
stack pointer is decremented to push the exception frame
for exception entry.

Note that the exception-entry case is unique in that the
stack pointer is updated to be the limit value if the limit
is hit (per rule R_ZLZG).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-7-peter.maydell@linaro.org
---
 target/arm/helper.c | 54 ++++++++++++++++++++++++++++++++++++++-------
 1 file changed, 46 insertions(+), 8 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
     uint32_t frameptr;
     ARMMMUIdx mmu_idx;
     bool stacked_ok;
+    uint32_t limit;
+    bool want_psp;
 
     if (dotailchain) {
         bool mode = lr & R_V7M_EXCRET_MODE_MASK;
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
         mmu_idx = arm_v7m_mmu_idx_for_secstate_and_priv(env, M_REG_S, priv);
         frame_sp_p = get_v7m_sp_ptr(env, M_REG_S, mode,
                                     lr & R_V7M_EXCRET_SPSEL_MASK);
+        want_psp = mode && (lr & R_V7M_EXCRET_SPSEL_MASK);
+        if (want_psp) {
+            limit = env->v7m.psplim[M_REG_S];
+        } else {
+            limit = env->v7m.msplim[M_REG_S];
+        }
     } else {
         mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
         frame_sp_p = &env->regs[13];
+        limit = v7m_sp_limit(env);
     }
 
     frameptr = *frame_sp_p - 0x28;
+    if (frameptr < limit) {
+        /*
+         * Stack limit failure: set SP to the limit value, and generate
+         * STKOF UsageFault. Stack pushes below the limit must not be
+         * performed. It is IMPDEF whether pushes above the limit are
+         * performed; we choose not to.
+         */
+        qemu_log_mask(CPU_LOG_INT,
+                      "...STKOF during callee-saves register stacking\n");
+        env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_STKOF_MASK;
+        armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE,
+                                env->v7m.secure);
+        *frame_sp_p = limit;
+        return true;
+    }
 
     /* Write as much of the stack frame as we can. A write failure may
      * cause us to pend a derived exception.
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
         v7m_stack_write(cpu, frameptr + 0x24, env->regs[11], mmu_idx,
                         ignore_faults);
 
-    /* Update SP regardless of whether any of the stack accesses failed.
-     * When we implement v8M stack limit checking then this attempt to
-     * update SP might also fail and result in a derived exception.
-     */
+    /* Update SP regardless of whether any of the stack accesses failed. */
     *frame_sp_p = frameptr;
 
     return !stacked_ok;
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_stack(ARMCPU *cpu)
 
     frameptr -= 0x20;
 
+    if (arm_feature(env, ARM_FEATURE_V8)) {
+        uint32_t limit = v7m_sp_limit(env);
+
+        if (frameptr < limit) {
+            /*
+             * Stack limit failure: set SP to the limit value, and generate
+             * STKOF UsageFault. Stack pushes below the limit must not be
+             * performed. It is IMPDEF whether pushes above the limit are
+             * performed; we choose not to.
+             */
+            qemu_log_mask(CPU_LOG_INT,
+                          "...STKOF during stacking\n");
+            env->v7m.cfsr[env->v7m.secure] |= R_V7M_CFSR_STKOF_MASK;
+            armv7m_nvic_set_pending(env->nvic, ARMV7M_EXCP_USAGE,
+                                    env->v7m.secure);
+            env->regs[13] = limit;
+            return true;
+        }
+    }
+
     /* Write as much of the stack frame as we can. If we fail a stack
      * write this will result in a derived exception being pended
      * (which may be taken in preference to the one we started with
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_stack(ARMCPU *cpu)
         v7m_stack_write(cpu, frameptr + 24, env->regs[15], mmu_idx, false) &&
         v7m_stack_write(cpu, frameptr + 28, xpsr, mmu_idx, false);
 
-    /* Update SP regardless of whether any of the stack accesses failed.
-     * When we implement v8M stack limit checking then this attempt to
-     * update SP might also fail and result in a derived exception.
-     */
+    /* Update SP regardless of whether any of the stack accesses failed. */
     env->regs[13] = frameptr;
 
     return !stacked_ok;
-- 
2.19.0

Check the v8M stack limits when pushing the frame for a
non-secure function call via BLXNS.

In order to be able to generate the exception we need to
promote raise_exception() from being local to op_helper.c
so we can call it from helper.c.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-8-peter.maydell@linaro.org
---
 target/arm/internals.h | 9 +++++++++
 target/arm/helper.c    | 4 ++++
 target/arm/op_helper.c | 4 ++--
 3 files changed, 15 insertions(+), 2 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ FIELD(V7M_EXCRET, RES1, 7, 25) /* including the must-be-1 prefix */
 #define M_FAKE_FSR_NSC_EXEC 0xf /* NS executing in S&NSC memory */
 #define M_FAKE_FSR_SFAULT 0xe /* SecureFault INVTRAN, INVEP or AUVIOL */
 
+/**
+ * raise_exception: Raise the specified exception.
+ * Raise a guest exception with the specified value, syndrome register
+ * and target exception level. This should be called from helper functions,
+ * and never returns because we will longjump back up to the CPU main loop.
+ */
+void QEMU_NORETURN raise_exception(CPUARMState *env, uint32_t excp,
+                                   uint32_t syndrome, uint32_t target_el);
+
 /*
  * For AArch64, map a given EL to an index in the banked_spsr array.
  * Note that this mapping and the AArch32 mapping defined in bank_number()
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(v7m_blxns)(CPUARMState *env, uint32_t dest)
                       "BLXNS with misaligned SP is UNPREDICTABLE\n");
     }
 
+    if (sp < v7m_sp_limit(env)) {
+        raise_exception(env, EXCP_STKOF, 0, 1);
+    }
+
     saved_psr = env->v7m.exception;
     if (env->v7m.control[M_REG_S] & R_V7M_CONTROL_SFPA_MASK) {
         saved_psr |= XPSR_SFPA;
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@
 #define SIGNBIT (uint32_t)0x80000000
 #define SIGNBIT64 ((uint64_t)1 << 63)
 
-static void raise_exception(CPUARMState *env, uint32_t excp,
-                            uint32_t syndrome, uint32_t target_el)
+void raise_exception(CPUARMState *env, uint32_t excp,
+                     uint32_t syndrome, uint32_t target_el)
 {
     CPUState *cs = CPU(arm_env_get_cpu(env));
 
-- 
2.19.0

Add the v8M stack checks for:
 * LDRD (immediate)
 * STRD (immediate)

Loads and stores are more complicated than ADD/SUB/MOV, because we
must ensure that memory accesses below the stack limit are not
performed, so we can't simply do the check when we actually update
SP.

For these instructions, if the stack limit check triggers
we must not:
 * perform any memory access below the SP limit
 * update PC, SP or the load/store base register
but it is IMPDEF whether we:
 * perform any accesses above or equal to the SP limit
 * update destination registers for loads

For QEMU we choose to always check the limit before doing any other
part of the load or store, so we won't update any registers or
perform any memory accesses.

It is UNKNOWN whether the limit check triggers for a load or store
where the initial SP value is below the limit and one of the stores
would be below the limit, but the writeback moves SP to above the
limit.  For QEMU we choose to trigger the check in this situation.

Note that limit checks happen only for loads and stores which update
SP via writeback; they do not happen for loads and stores which
simply use SP as a base register.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-9-peter.maydell@linaro.org
---
 target/arm/translate.c | 27 +++++++++++++++++++++++++--
 1 file changed, 25 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                  * 0b1111_1001_x11x_xxxx_xxxx_xxxx_xxxx_xxxx
                  *  - load/store dual (pre-indexed)
                  */
+                bool wback = extract32(insn, 21, 1);
+
                 if (rn == 15) {
                     if (insn & (1 << 21)) {
                         /* UNPREDICTABLE */
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                     addr = load_reg(s, rn);
                 }
                 offset = (insn & 0xff) * 4;
-                if ((insn & (1 << 23)) == 0)
+                if ((insn & (1 << 23)) == 0) {
                     offset = -offset;
+                }
+
+                if (s->v8m_stackcheck && rn == 13 && wback) {
+                    /*
+                     * Here 'addr' is the current SP; if offset is +ve we're
+                     * moving SP up, else down. It is UNKNOWN whether the limit
+                     * check triggers when SP starts below the limit and ends
+                     * up above it; check whichever of the current and final
+                     * SP is lower, so QEMU will trigger in that situation.
+                     */
+                    if ((int32_t)offset < 0) {
+                        TCGv_i32 newsp = tcg_temp_new_i32();
+
+                        tcg_gen_addi_i32(newsp, addr, offset);
+                        gen_helper_v8m_stackcheck(cpu_env, newsp);
+                        tcg_temp_free_i32(newsp);
+                    } else {
+                        gen_helper_v8m_stackcheck(cpu_env, addr);
+                    }
+                }
+
                 if (insn & (1 << 24)) {
                     tcg_gen_addi_i32(addr, addr, offset);
                     offset = 0;
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                     gen_aa32_st32(s, tmp, addr, get_mem_index(s));
                     tcg_temp_free_i32(tmp);
                 }
-                if (insn & (1 << 21)) {
+                if (wback) {
                     /* Base writeback.  */
                     tcg_gen_addi_i32(addr, addr, offset - 4);
                     store_reg(s, rn, addr);
-- 
2.19.0

Add the v8M stack checks for:
 * LDM (T2 encoding)
 * STM (T2 encoding)

This includes the 32-bit encodings of the instructions listed
in v8M ARM ARM rule R_YVWT as
 * LDM, LDMIA, LDMFD
 * LDMDB, LDMEA
 * POP (multiple registers)
 * PUSH (muliple registers)
 * STM, STMIA, STMEA
 * STMDB, STMFD

We perform the stack limit before doing any other part
of the load or store.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-10-peter.maydell@linaro.org
---
 target/arm/translate.c | 19 ++++++++++++++++++-
 1 file changed, 18 insertions(+), 1 deletion(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
             } else {
                 int i, loaded_base = 0;
                 TCGv_i32 loaded_var;
+                bool wback = extract32(insn, 21, 1);
                 /* Load/store multiple.  */
                 addr = load_reg(s, rn);
                 offset = 0;
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                     if (insn & (1 << i))
                         offset += 4;
                 }
+
                 if (insn & (1 << 24)) {
                     tcg_gen_addi_i32(addr, addr, -offset);
                 }
 
+                if (s->v8m_stackcheck && rn == 13 && wback) {
+                    /*
+                     * If the writeback is incrementing SP rather than
+                     * decrementing it, and the initial SP is below the
+                     * stack limit but the final written-back SP would
+                     * be above, then then we must not perform any memory
+                     * accesses, but it is IMPDEF whether we generate
+                     * an exception. We choose to do so in this case.
+                     * At this point 'addr' is the lowest address, so
+                     * either the original SP (if incrementing) or our
+                     * final SP (if decrementing), so that's what we check.
+                     */
+                    gen_helper_v8m_stackcheck(cpu_env, addr);
+                }
+
                 loaded_var = NULL;
                 for (i = 0; i < 16; i++) {
                     if ((insn & (1 << i)) == 0)
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                 if (loaded_base) {
                     store_reg(s, rn, loaded_var);
                 }
-                if (insn & (1 << 21)) {
+                if (wback) {
                     /* Base register writeback.  */
                     if (insn & (1 << 24)) {
                         tcg_gen_addi_i32(addr, addr, -offset);
-- 
2.19.0

Add v8M stack checks for the instructions in the T32
"load/store single" encoding class: these are the
"immediate pre-indexed" and "immediate, post-indexed"
LDR and STR instructions.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-11-peter.maydell@linaro.org
---
 target/arm/translate.c | 23 ++++++++++++++++++++++-
 1 file changed, 22 insertions(+), 1 deletion(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                     imm = -imm;
                     /* Fall through.  */
                 case 0xf: /* Pre-increment.  */
-                    tcg_gen_addi_i32(addr, addr, imm);
                     writeback = 1;
                     break;
                 default:
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
 
         issinfo = writeback ? ISSInvalid : rs;
 
+        if (s->v8m_stackcheck && rn == 13 && writeback) {
+            /*
+             * Stackcheck. Here we know 'addr' is the current SP;
+             * if imm is +ve we're moving SP up, else down. It is
+             * UNKNOWN whether the limit check triggers when SP starts
+             * below the limit and ends up above it; we chose to do so.
+             */
+            if ((int32_t)imm < 0) {
+                TCGv_i32 newsp = tcg_temp_new_i32();
+
+                tcg_gen_addi_i32(newsp, addr, imm);
+                gen_helper_v8m_stackcheck(cpu_env, newsp);
+                tcg_temp_free_i32(newsp);
+            } else {
+                gen_helper_v8m_stackcheck(cpu_env, addr);
+            }
+        }
+
+        if (writeback && !postinc) {
+            tcg_gen_addi_i32(addr, addr, imm);
+        }
+
         if (insn & (1 << 20)) {
             /* Load.  */
             tmp = tcg_temp_new_i32();
-- 
2.19.0

Add v8M stack checks for the 16-bit Thumb push/pop
encodings: STMDB, STMFD, LDM, LDMIA, LDMFD.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-12-peter.maydell@linaro.org
---
 target/arm/translate.c | 16 +++++++++++++++-
 1 file changed, 15 insertions(+), 1 deletion(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
             store_reg(s, rd, tmp);
             break;
         case 4: case 5: case 0xc: case 0xd:
-            /* push/pop */
+            /*
+             * 0b1011_x10x_xxxx_xxxx
+             *  - push/pop
+             */
             addr = load_reg(s, 13);
             if (insn & (1 << 8))
                 offset = 4;
@@ -XXX,XX +XXX,XX @@ static void disas_thumb_insn(DisasContext *s, uint32_t insn)
             if ((insn & (1 << 11)) == 0) {
                 tcg_gen_addi_i32(addr, addr, -offset);
             }
+
+            if (s->v8m_stackcheck) {
+                /*
+                 * Here 'addr' is the lower of "old SP" and "new SP";
+                 * if this is a pop that starts below the limit and ends
+                 * above it, it is UNKNOWN whether the limit check triggers;
+                 * we choose to trigger.
+                 */
+                gen_helper_v8m_stackcheck(cpu_env, addr);
+            }
+
             for (i = 0; i < 8; i++) {
                 if (insn & (1 << i)) {
                     if (insn & (1 << 11)) {
-- 
2.19.0

Add the v8M stack checks for the VLDM/VSTM
(aka VPUSH/VPOP) instructions. This code is currently
unreachable because we haven't yet implemented M profile
floating point support, but since the change is simple,
we add it now because otherwise we're likely to forget to
do it later.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-13-peter.maydell@linaro.org
---
 target/arm/translate.c | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_vfp_insn(DisasContext *s, uint32_t insn)
                 if (insn & (1 << 24)) /* pre-decrement */
                     tcg_gen_addi_i32(addr, addr, -((insn & 0xff) << 2));
 
+                if (s->v8m_stackcheck && rn == 13 && w) {
+                    /*
+                     * Here 'addr' is the lowest address we will store to,
+                     * and is either the old SP (if post-increment) or
+                     * the new SP (if pre-decrement). For post-increment
+                     * where the old value is below the limit and the new
+                     * value is above, it is UNKNOWN whether the limit check
+                     * triggers; we choose to trigger.
+                     */
+                    gen_helper_v8m_stackcheck(cpu_env, addr);
+                }
+
                 if (dp)
                     offset = 8;
                 else
-- 
2.19.0

Updating the NS stack pointer via MSR to SP_NS should include
a check whether the new SP value is below the stack limit.
No other kinds of update to the various stack pointer and
limit registers via MSR should perform a check.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181002163556.10279-14-peter.maydell@linaro.org
---
 target/arm/helper.c | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(v7m_msr)(CPUARMState *env, uint32_t maskreg, uint32_t val)
              * currently in handler mode or not, using the NS CONTROL.SPSEL.
              */
             bool spsel = env->v7m.control[M_REG_NS] & R_V7M_CONTROL_SPSEL_MASK;
+            bool is_psp = !arm_v7m_is_handler_mode(env) && spsel;
+            uint32_t limit;
 
             if (!env->v7m.secure) {
                 return;
             }
-            if (!arm_v7m_is_handler_mode(env) && spsel) {
+
+            limit = is_psp ? env->v7m.psplim[false] : env->v7m.msplim[false];
+
+            if (val < limit) {
+                CPUState *cs = CPU(arm_env_get_cpu(env));
+
+                cpu_restore_state(cs, GETPC(), true);
+                raise_exception(env, EXCP_STKOF, 0, 1);
+            }
+
+            if (is_psp) {
                 env->v7m.other_ss_psp = val;
             } else {
                 env->v7m.other_ss_msp = val;
-- 
2.19.0

Coverity complains (CID 1395628) that the multiply in the calculation
of the framebuffer base is performed as 32x32 but then used in a
context that takes a 64-bit hwaddr. This can't actually ever
overflow the 32-bit result, because of the constraints placed on
the s->config values in bcm2835_fb_validate_config(). But we
can placate Coverity anyway, by explicitly casting one of the
inputs to a hwaddr, so the whole expression is calculated with
64-bit arithmetic.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
Message-id: 20181005133012.26490-1-peter.maydell@linaro.org
---
 hw/display/bcm2835_fb.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/display/bcm2835_fb.c b/hw/display/bcm2835_fb.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/display/bcm2835_fb.c
+++ b/hw/display/bcm2835_fb.c
@@ -XXX,XX +XXX,XX @@ static void fb_update_display(void *opaque)
     }
 
     if (s->invalidate) {
-        hwaddr base = s->config.base + xoff + yoff * src_width;
+        hwaddr base = s->config.base + xoff + (hwaddr)yoff * src_width;
         framebuffer_update_memory_section(&s->fbsection, s->dma_mr,
                                           base,
                                           s->config.yres, src_width);
-- 
2.19.0

As promised, another pullreq... This one's mostly RTH's patches.

thanks
-- PMM

The following changes since commit 784c2e4f232adf5ef47a84a262ec72a07d068d6a:

Merge remote-tracking branch 'remotes/jasowang/tags/net-pull-request' into staging (2018-10-19 15:30:40 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20181019

for you to fetch changes up to 88c9add25e7120e8622796c81ad3f3fb7f8d40e7:

target/arm: Only flush tlb if ASID changes (2018-10-19 17:38:48 +0100)

----------------------------------------------------------------
target-arm queue:
 * ssi-sd: Make devices picking up backends unavailable with -device
 * Add support for VCPU event states
 * Move towards making ID registers the source of truth for
   whether a guest CPU implements a feature, rather than having
   parallel ID registers and feature bit flags
 * Implement various HCR hypervisor trap/config bits
 * Get IL bit correct for v7 syndrome values
 * Report correct syndrome for FP/SIMD traps to Hyp mode
 * hw/arm/boot: Increase compliance with kernel arm64 boot protocol
 * Refactor A32 Neon to use generic vector infrastructure
 * Fix a bug in A32 VLD2 "(multiple 2-element structures)" insn
 * net: cadence_gem: Report features correctly in ID register
 * Avoid some unnecessary TLB flushes on TTBR register writes

----------------------------------------------------------------
Dongjiu Geng (1):
      target/arm: Add support for VCPU event states

Edgar E. Iglesias (2):
      net: cadence_gem: Announce availability of priority queues
      net: cadence_gem: Announce 64bit addressing support

Markus Armbruster (1):
      ssi-sd: Make devices picking up backends unavailable with -device

Peter Maydell (10):
      target/arm: Improve debug logging of AArch32 exception return
      target/arm: Make switch_mode() file-local
      target/arm: Implement HCR.FB
      target/arm: Implement HCR.DC
      target/arm: ISR_EL1 bits track virtual interrupts if IMO/FMO set
      target/arm: Implement HCR.VI and VF
      target/arm: Implement HCR.PTW
      target/arm: New utility function to extract EC from syndrome
      target/arm: Get IL bit correct for v7 syndrome values
      target/arm: Report correct syndrome for FP/SIMD traps to Hyp mode

Richard Henderson (30):
      target/arm: Move some system registers into a substructure
      target/arm: V8M should not imply V7VE
      target/arm: Convert v8 extensions from feature bits to isar tests
      target/arm: Convert division from feature bits to isar0 tests
      target/arm: Convert jazelle from feature bit to isar1 test
      target/arm: Convert t32ee from feature bit to isar3 test
      target/arm: Convert sve from feature bit to aa64pfr0 test
      target/arm: Convert v8.2-fp16 from feature bit to aa64pfr0 test
      target/arm: Hoist address increment for vector memory ops
      target/arm: Don't call tcg_clear_temp_count
      target/arm: Use tcg_gen_gvec_dup_i64 for LD[1-4]R
      target/arm: Promote consecutive memory ops for aa64
      target/arm: Mark some arrays const
      target/arm: Use gvec for NEON VDUP
      target/arm: Use gvec for NEON VMOV, VMVN, VBIC & VORR (immediate)
      target/arm: Use gvec for NEON_3R_LOGIC insns
      target/arm: Use gvec for NEON_3R_VADD_VSUB insns
      target/arm: Use gvec for NEON_2RM_VMN, NEON_2RM_VNEG
      target/arm: Use gvec for NEON_3R_VMUL
      target/arm: Use gvec for VSHR, VSHL
      target/arm: Use gvec for VSRA
      target/arm: Use gvec for VSRI, VSLI
      target/arm: Use gvec for NEON_3R_VML
      target/arm: Use gvec for NEON_3R_VTST_VCEQ, NEON_3R_VCGT, NEON_3R_VCGE
      target/arm: Use gvec for NEON VLD all lanes
      target/arm: Reorg NEON VLD/VST all elements
      target/arm: Promote consecutive memory ops for aa32
      target/arm: Reorg NEON VLD/VST single element to one lane
      target/arm: Remove writefn from TTBR0_EL3
      target/arm: Only flush tlb if ASID changes

Stewart Hildebrand (1):
      hw/arm/boot: Increase compliance with kernel arm64 boot protocol

From: Markus Armbruster <armbru@redhat.com>

Device models aren't supposed to go on fishing expeditions for
backends.  They should expose suitable properties for the user to set.
For onboard devices, board code sets them.

Device ssi-sd picks up its block backend in its init() method with
drive_get_next() instead.  This mistake is already marked FIXME since
commit af9e40a.

Unset user_creatable to remove the mistake from our external
interface.  Since the SSI bus doesn't support hotplug, only -device
can be affected.  Only certain ARM machines have ssi-sd and provide an
SSI bus for it; this patch breaks -device ssi-sd for these machines.
No actual use of -device ssi-sd is known.

Signed-off-by: Markus Armbruster <armbru@redhat.com>
Acked-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Acked-by: Thomas Huth <thuth@redhat.com>
Message-id: 20181009060835.4608-1-armbru@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/sd/ssi-sd.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/hw/sd/ssi-sd.c b/hw/sd/ssi-sd.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/sd/ssi-sd.c
+++ b/hw/sd/ssi-sd.c
@@ -XXX,XX +XXX,XX @@ static void ssi_sd_class_init(ObjectClass *klass, void *data)
     k->cs_polarity = SSI_CS_LOW;
     dc->vmsd = &vmstate_ssi_sd;
     dc->reset = ssi_sd_reset;
+    /* Reason: init() method uses drive_get_next() */
+    dc->user_creatable = false;
 }
 
 static const TypeInfo ssi_sd_info = {
-- 
2.19.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

This patch extends the qemu-kvm state sync logic with support for
KVM_GET/SET_VCPU_EVENTS, giving access to yet missing SError exception.
And also it can support the exception state migration.

The SError exception states include SError pending state and ESR value,
the kvm_put/get_vcpu_events() will be called when set or get system
registers. When do migration, if source machine has SError pending,
QEMU will do this migration regardless whether the target machine supports
to specify guest ESR value, because if target machine does not support that,
it can also inject the SError with zero ESR value.

Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Reviewed-by: Andrew Jones <drjones@redhat.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 1538067351-23931-3-git-send-email-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h     |  7 ++++++
 target/arm/kvm_arm.h | 24 ++++++++++++++++++
 target/arm/kvm.c     | 60 ++++++++++++++++++++++++++++++++++++++++++++
 target/arm/kvm32.c   | 13 ++++++++++
 target/arm/kvm64.c   | 13 ++++++++++
 target/arm/machine.c | 22 ++++++++++++++++
 6 files changed, 139 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
          */
     } exception;
 
+    /* Information associated with an SError */
+    struct {
+        uint8_t pending;
+        uint8_t has_esr;
+        uint64_t esr;
+    } serror;
+
     /* Thumb-2 EE state.  */
     uint32_t teecr;
     uint32_t teehbr;
diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm_arm.h
+++ b/target/arm/kvm_arm.h
@@ -XXX,XX +XXX,XX @@ bool write_kvmstate_to_list(ARMCPU *cpu);
  */
 void kvm_arm_reset_vcpu(ARMCPU *cpu);
 
+/**
+ * kvm_arm_init_serror_injection:
+ * @cs: CPUState
+ *
+ * Check whether KVM can set guest SError syndrome.
+ */
+void kvm_arm_init_serror_injection(CPUState *cs);
+
+/**
+ * kvm_get_vcpu_events:
+ * @cpu: ARMCPU
+ *
+ * Get VCPU related state from kvm.
+ */
+int kvm_get_vcpu_events(ARMCPU *cpu);
+
+/**
+ * kvm_put_vcpu_events:
+ * @cpu: ARMCPU
+ *
+ * Put VCPU related state to kvm.
+ */
+int kvm_put_vcpu_events(ARMCPU *cpu);
+
 #ifdef CONFIG_KVM
 /**
  * kvm_arm_create_scratch_host_vcpu:
diff --git a/target/arm/kvm.c b/target/arm/kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm.c
+++ b/target/arm/kvm.c
@@ -XXX,XX +XXX,XX @@ const KVMCapabilityInfo kvm_arch_required_capabilities[] = {
 };
 
 static bool cap_has_mp_state;
+static bool cap_has_inject_serror_esr;
 
 static ARMHostCPUFeatures arm_host_cpu_features;
 
@@ -XXX,XX +XXX,XX @@ int kvm_arm_vcpu_init(CPUState *cs)
     return kvm_vcpu_ioctl(cs, KVM_ARM_VCPU_INIT, &init);
 }
 
+void kvm_arm_init_serror_injection(CPUState *cs)
+{
+    cap_has_inject_serror_esr = kvm_check_extension(cs->kvm_state,
+                                    KVM_CAP_ARM_INJECT_SERROR_ESR);
+}
+
 bool kvm_arm_create_scratch_host_vcpu(const uint32_t *cpus_to_try,
                                       int *fdarray,
                                       struct kvm_vcpu_init *init)
@@ -XXX,XX +XXX,XX @@ int kvm_arm_sync_mpstate_to_qemu(ARMCPU *cpu)
     return 0;
 }
 
+int kvm_put_vcpu_events(ARMCPU *cpu)
+{
+    CPUARMState *env = &cpu->env;
+    struct kvm_vcpu_events events;
+    int ret;
+
+    if (!kvm_has_vcpu_events()) {
+        return 0;
+    }
+
+    memset(&events, 0, sizeof(events));
+    events.exception.serror_pending = env->serror.pending;
+
+    /* Inject SError to guest with specified syndrome if host kernel
+     * supports it, otherwise inject SError without syndrome.
+     */
+    if (cap_has_inject_serror_esr) {
+        events.exception.serror_has_esr = env->serror.has_esr;
+        events.exception.serror_esr = env->serror.esr;
+    }
+
+    ret = kvm_vcpu_ioctl(CPU(cpu), KVM_SET_VCPU_EVENTS, &events);
+    if (ret) {
+        error_report("failed to put vcpu events");
+    }
+
+    return ret;
+}
+
+int kvm_get_vcpu_events(ARMCPU *cpu)
+{
+    CPUARMState *env = &cpu->env;
+    struct kvm_vcpu_events events;
+    int ret;
+
+    if (!kvm_has_vcpu_events()) {
+        return 0;
+    }
+
+    memset(&events, 0, sizeof(events));
+    ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_VCPU_EVENTS, &events);
+    if (ret) {
+        error_report("failed to get vcpu events");
+        return ret;
+    }
+
+    env->serror.pending = events.exception.serror_pending;
+    env->serror.has_esr = events.exception.serror_has_esr;
+    env->serror.esr = events.exception.serror_esr;
+
+    return 0;
+}
+
 void kvm_arch_pre_run(CPUState *cs, struct kvm_run *run)
 {
 }
diff --git a/target/arm/kvm32.c b/target/arm/kvm32.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm32.c
+++ b/target/arm/kvm32.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_init_vcpu(CPUState *cs)
     }
     cpu->mp_affinity = mpidr & ARM32_AFFINITY_MASK;
 
+    /* Check whether userspace can specify guest syndrome value */
+    kvm_arm_init_serror_injection(cs);
+
     return kvm_arm_init_cpreg_list(cpu);
 }
 
@@ -XXX,XX +XXX,XX @@ int kvm_arch_put_registers(CPUState *cs, int level)
         return ret;
     }
 
+    ret = kvm_put_vcpu_events(cpu);
+    if (ret) {
+        return ret;
+    }
+
     /* Note that we do not call write_cpustate_to_list()
      * here, so we are only writing the tuple list back to
      * KVM. This is safe because nothing can change the
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
     }
     vfp_set_fpscr(env, fpscr);
 
+    ret = kvm_get_vcpu_events(cpu);
+    if (ret) {
+        return ret;
+    }
+
     if (!write_kvmstate_to_list(cpu)) {
         return EINVAL;
     }
diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_init_vcpu(CPUState *cs)
 
     kvm_arm_init_debug(cs);
 
+    /* Check whether user space can specify guest syndrome value */
+    kvm_arm_init_serror_injection(cs);
+
     return kvm_arm_init_cpreg_list(cpu);
 }
 
@@ -XXX,XX +XXX,XX @@ int kvm_arch_put_registers(CPUState *cs, int level)
         return ret;
     }
 
+    ret = kvm_put_vcpu_events(cpu);
+    if (ret) {
+        return ret;
+    }
+
     if (!write_list_to_kvmstate(cpu, level)) {
         return EINVAL;
     }
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
     }
     vfp_set_fpcr(env, fpr);
 
+    ret = kvm_get_vcpu_events(cpu);
+    if (ret) {
+        return ret;
+    }
+
     if (!write_kvmstate_to_list(cpu)) {
         return EINVAL;
     }
diff --git a/target/arm/machine.c b/target/arm/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/machine.c
+++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_sve = {
 };
 #endif /* AARCH64 */
 
+static bool serror_needed(void *opaque)
+{
+    ARMCPU *cpu = opaque;
+    CPUARMState *env = &cpu->env;
+
+    return env->serror.pending != 0;
+}
+
+static const VMStateDescription vmstate_serror = {
+    .name = "cpu/serror",
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .needed = serror_needed,
+    .fields = (VMStateField[]) {
+        VMSTATE_UINT8(env.serror.pending, ARMCPU),
+        VMSTATE_UINT8(env.serror.has_esr, ARMCPU),
+        VMSTATE_UINT64(env.serror.esr, ARMCPU),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
 static bool m_needed(void *opaque)
 {
     ARMCPU *cpu = opaque;
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_arm_cpu = {
 #ifdef TARGET_AARCH64
         &vmstate_sve,
 #endif
+        &vmstate_serror,
         NULL
     }
 };
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Create struct ARMISARegisters, to be accessed during translation.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-2-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h      |  32 ++++----
 hw/intc/armv7m_nvic.c |  12 +--
 target/arm/cpu.c      | 178 +++++++++++++++++++++---------------------
 target/arm/cpu64.c    |  70 ++++++++---------
 target/arm/helper.c   |  28 +++----
 5 files changed, 162 insertions(+), 158 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
      * ARMv7AR ARM Architecture Reference Manual. A reset_ prefix
      * is used for reset values of non-constant registers; no reset_
      * prefix means a constant register.
+     * Some of these registers are split out into a substructure that
+     * is shared with the translators to control the ISA.
      */
+    struct ARMISARegisters {
+        uint32_t id_isar0;
+        uint32_t id_isar1;
+        uint32_t id_isar2;
+        uint32_t id_isar3;
+        uint32_t id_isar4;
+        uint32_t id_isar5;
+        uint32_t id_isar6;
+        uint32_t mvfr0;
+        uint32_t mvfr1;
+        uint32_t mvfr2;
+        uint64_t id_aa64isar0;
+        uint64_t id_aa64isar1;
+        uint64_t id_aa64pfr0;
+        uint64_t id_aa64pfr1;
+    } isar;
     uint32_t midr;
     uint32_t revidr;
     uint32_t reset_fpsid;
-    uint32_t mvfr0;
-    uint32_t mvfr1;
-    uint32_t mvfr2;
     uint32_t ctr;
     uint32_t reset_sctlr;
     uint32_t id_pfr0;
@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
     uint32_t id_mmfr2;
     uint32_t id_mmfr3;
     uint32_t id_mmfr4;
-    uint32_t id_isar0;
-    uint32_t id_isar1;
-    uint32_t id_isar2;
-    uint32_t id_isar3;
-    uint32_t id_isar4;
-    uint32_t id_isar5;
-    uint32_t id_isar6;
-    uint64_t id_aa64pfr0;
-    uint64_t id_aa64pfr1;
     uint64_t id_aa64dfr0;
     uint64_t id_aa64dfr1;
     uint64_t id_aa64afr0;
     uint64_t id_aa64afr1;
-    uint64_t id_aa64isar0;
-    uint64_t id_aa64isar1;
     uint64_t id_aa64mmfr0;
     uint64_t id_aa64mmfr1;
     uint32_t dbgdidr;
diff --git a/hw/intc/armv7m_nvic.c b/hw/intc/armv7m_nvic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/armv7m_nvic.c
+++ b/hw/intc/armv7m_nvic.c
@@ -XXX,XX +XXX,XX @@ static uint32_t nvic_readl(NVICState *s, uint32_t offset, MemTxAttrs attrs)
     case 0xd5c: /* MMFR3.  */
         return cpu->id_mmfr3;
     case 0xd60: /* ISAR0.  */
-        return cpu->id_isar0;
+        return cpu->isar.id_isar0;
     case 0xd64: /* ISAR1.  */
-        return cpu->id_isar1;
+        return cpu->isar.id_isar1;
     case 0xd68: /* ISAR2.  */
-        return cpu->id_isar2;
+        return cpu->isar.id_isar2;
     case 0xd6c: /* ISAR3.  */
-        return cpu->id_isar3;
+        return cpu->isar.id_isar3;
     case 0xd70: /* ISAR4.  */
-        return cpu->id_isar4;
+        return cpu->isar.id_isar4;
     case 0xd74: /* ISAR5.  */
-        return cpu->id_isar5;
+        return cpu->isar.id_isar5;
     case 0xd78: /* CLIDR */
         return cpu->clidr;
     case 0xd7c: /* CTR */
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(CPUState *s)
     g_hash_table_foreach(cpu->cp_regs, cp_reg_check_reset, cpu);
 
     env->vfp.xregs[ARM_VFP_FPSID] = cpu->reset_fpsid;
-    env->vfp.xregs[ARM_VFP_MVFR0] = cpu->mvfr0;
-    env->vfp.xregs[ARM_VFP_MVFR1] = cpu->mvfr1;
-    env->vfp.xregs[ARM_VFP_MVFR2] = cpu->mvfr2;
+    env->vfp.xregs[ARM_VFP_MVFR0] = cpu->isar.mvfr0;
+    env->vfp.xregs[ARM_VFP_MVFR1] = cpu->isar.mvfr1;
+    env->vfp.xregs[ARM_VFP_MVFR2] = cpu->isar.mvfr2;
 
     cpu->power_state = cpu->start_powered_off ? PSCI_OFF : PSCI_ON;
     s->halted = cpu->start_powered_off;
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
          * registers as well. These are id_pfr1[7:4] and id_aa64pfr0[15:12].
          */
         cpu->id_pfr1 &= ~0xf0;
-        cpu->id_aa64pfr0 &= ~0xf000;
+        cpu->isar.id_aa64pfr0 &= ~0xf000;
     }
 
     if (!cpu->has_el2) {
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
          * registers if we don't have EL2. These are id_pfr1[15:12] and
          * id_aa64pfr0_el1[11:8].
          */
-        cpu->id_aa64pfr0 &= ~0xf00;
+        cpu->isar.id_aa64pfr0 &= ~0xf00;
         cpu->id_pfr1 &= ~0xf000;
     }
 
@@ -XXX,XX +XXX,XX @@ static void arm1136_r2_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_CACHE_BLOCK_OPS);
     cpu->midr = 0x4107b362;
     cpu->reset_fpsid = 0x410120b4;
-    cpu->mvfr0 = 0x11111111;
-    cpu->mvfr1 = 0x00000000;
+    cpu->isar.mvfr0 = 0x11111111;
+    cpu->isar.mvfr1 = 0x00000000;
     cpu->ctr = 0x1dd20d2;
     cpu->reset_sctlr = 0x00050078;
     cpu->id_pfr0 = 0x111;
@@ -XXX,XX +XXX,XX @@ static void arm1136_r2_initfn(Object *obj)
     cpu->id_mmfr0 = 0x01130003;
     cpu->id_mmfr1 = 0x10030302;
     cpu->id_mmfr2 = 0x01222110;
-    cpu->id_isar0 = 0x00140011;
-    cpu->id_isar1 = 0x12002111;
-    cpu->id_isar2 = 0x11231111;
-    cpu->id_isar3 = 0x01102131;
-    cpu->id_isar4 = 0x141;
+    cpu->isar.id_isar0 = 0x00140011;
+    cpu->isar.id_isar1 = 0x12002111;
+    cpu->isar.id_isar2 = 0x11231111;
+    cpu->isar.id_isar3 = 0x01102131;
+    cpu->isar.id_isar4 = 0x141;
     cpu->reset_auxcr = 7;
 }
 
@@ -XXX,XX +XXX,XX @@ static void arm1136_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_CACHE_BLOCK_OPS);
     cpu->midr = 0x4117b363;
     cpu->reset_fpsid = 0x410120b4;
-    cpu->mvfr0 = 0x11111111;
-    cpu->mvfr1 = 0x00000000;
+    cpu->isar.mvfr0 = 0x11111111;
+    cpu->isar.mvfr1 = 0x00000000;
     cpu->ctr = 0x1dd20d2;
     cpu->reset_sctlr = 0x00050078;
     cpu->id_pfr0 = 0x111;
@@ -XXX,XX +XXX,XX @@ static void arm1136_initfn(Object *obj)
     cpu->id_mmfr0 = 0x01130003;
     cpu->id_mmfr1 = 0x10030302;
     cpu->id_mmfr2 = 0x01222110;
-    cpu->id_isar0 = 0x00140011;
-    cpu->id_isar1 = 0x12002111;
-    cpu->id_isar2 = 0x11231111;
-    cpu->id_isar3 = 0x01102131;
-    cpu->id_isar4 = 0x141;
+    cpu->isar.id_isar0 = 0x00140011;
+    cpu->isar.id_isar1 = 0x12002111;
+    cpu->isar.id_isar2 = 0x11231111;
+    cpu->isar.id_isar3 = 0x01102131;
+    cpu->isar.id_isar4 = 0x141;
     cpu->reset_auxcr = 7;
 }
 
@@ -XXX,XX +XXX,XX @@ static void arm1176_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     cpu->midr = 0x410fb767;
     cpu->reset_fpsid = 0x410120b5;
-    cpu->mvfr0 = 0x11111111;
-    cpu->mvfr1 = 0x00000000;
+    cpu->isar.mvfr0 = 0x11111111;
+    cpu->isar.mvfr1 = 0x00000000;
     cpu->ctr = 0x1dd20d2;
     cpu->reset_sctlr = 0x00050078;
     cpu->id_pfr0 = 0x111;
@@ -XXX,XX +XXX,XX @@ static void arm1176_initfn(Object *obj)
     cpu->id_mmfr0 = 0x01130003;
     cpu->id_mmfr1 = 0x10030302;
     cpu->id_mmfr2 = 0x01222100;
-    cpu->id_isar0 = 0x0140011;
-    cpu->id_isar1 = 0x12002111;
-    cpu->id_isar2 = 0x11231121;
-    cpu->id_isar3 = 0x01102131;
-    cpu->id_isar4 = 0x01141;
+    cpu->isar.id_isar0 = 0x0140011;
+    cpu->isar.id_isar1 = 0x12002111;
+    cpu->isar.id_isar2 = 0x11231121;
+    cpu->isar.id_isar3 = 0x01102131;
+    cpu->isar.id_isar4 = 0x01141;
     cpu->reset_auxcr = 7;
 }
 
@@ -XXX,XX +XXX,XX @@ static void arm11mpcore_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
     cpu->midr = 0x410fb022;
     cpu->reset_fpsid = 0x410120b4;
-    cpu->mvfr0 = 0x11111111;
-    cpu->mvfr1 = 0x00000000;
+    cpu->isar.mvfr0 = 0x11111111;
+    cpu->isar.mvfr1 = 0x00000000;
     cpu->ctr = 0x1d192992; /* 32K icache 32K dcache */
     cpu->id_pfr0 = 0x111;
     cpu->id_pfr1 = 0x1;
@@ -XXX,XX +XXX,XX @@ static void arm11mpcore_initfn(Object *obj)
     cpu->id_mmfr0 = 0x01100103;
     cpu->id_mmfr1 = 0x10020302;
     cpu->id_mmfr2 = 0x01222000;
-    cpu->id_isar0 = 0x00100011;
-    cpu->id_isar1 = 0x12002111;
-    cpu->id_isar2 = 0x11221011;
-    cpu->id_isar3 = 0x01102131;
-    cpu->id_isar4 = 0x141;
+    cpu->isar.id_isar0 = 0x00100011;
+    cpu->isar.id_isar1 = 0x12002111;
+    cpu->isar.id_isar2 = 0x11221011;
+    cpu->isar.id_isar3 = 0x01102131;
+    cpu->isar.id_isar4 = 0x141;
     cpu->reset_auxcr = 1;
 }
 
@@ -XXX,XX +XXX,XX @@ static void cortex_m3_initfn(Object *obj)
     cpu->id_mmfr1 = 0x00000000;
     cpu->id_mmfr2 = 0x00000000;
     cpu->id_mmfr3 = 0x00000000;
-    cpu->id_isar0 = 0x01141110;
-    cpu->id_isar1 = 0x02111000;
-    cpu->id_isar2 = 0x21112231;
-    cpu->id_isar3 = 0x01111110;
-    cpu->id_isar4 = 0x01310102;
-    cpu->id_isar5 = 0x00000000;
-    cpu->id_isar6 = 0x00000000;
+    cpu->isar.id_isar0 = 0x01141110;
+    cpu->isar.id_isar1 = 0x02111000;
+    cpu->isar.id_isar2 = 0x21112231;
+    cpu->isar.id_isar3 = 0x01111110;
+    cpu->isar.id_isar4 = 0x01310102;
+    cpu->isar.id_isar5 = 0x00000000;
+    cpu->isar.id_isar6 = 0x00000000;
 }
 
 static void cortex_m4_initfn(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void cortex_m4_initfn(Object *obj)
     cpu->id_mmfr1 = 0x00000000;
     cpu->id_mmfr2 = 0x00000000;
     cpu->id_mmfr3 = 0x00000000;
-    cpu->id_isar0 = 0x01141110;
-    cpu->id_isar1 = 0x02111000;
-    cpu->id_isar2 = 0x21112231;
-    cpu->id_isar3 = 0x01111110;
-    cpu->id_isar4 = 0x01310102;
-    cpu->id_isar5 = 0x00000000;
-    cpu->id_isar6 = 0x00000000;
+    cpu->isar.id_isar0 = 0x01141110;
+    cpu->isar.id_isar1 = 0x02111000;
+    cpu->isar.id_isar2 = 0x21112231;
+    cpu->isar.id_isar3 = 0x01111110;
+    cpu->isar.id_isar4 = 0x01310102;
+    cpu->isar.id_isar5 = 0x00000000;
+    cpu->isar.id_isar6 = 0x00000000;
 }
 
 static void cortex_m33_initfn(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void cortex_m33_initfn(Object *obj)
     cpu->id_mmfr1 = 0x00000000;
     cpu->id_mmfr2 = 0x01000000;
     cpu->id_mmfr3 = 0x00000000;
-    cpu->id_isar0 = 0x01101110;
-    cpu->id_isar1 = 0x02212000;
-    cpu->id_isar2 = 0x20232232;
-    cpu->id_isar3 = 0x01111131;
-    cpu->id_isar4 = 0x01310132;
-    cpu->id_isar5 = 0x00000000;
-    cpu->id_isar6 = 0x00000000;
+    cpu->isar.id_isar0 = 0x01101110;
+    cpu->isar.id_isar1 = 0x02212000;
+    cpu->isar.id_isar2 = 0x20232232;
+    cpu->isar.id_isar3 = 0x01111131;
+    cpu->isar.id_isar4 = 0x01310132;
+    cpu->isar.id_isar5 = 0x00000000;
+    cpu->isar.id_isar6 = 0x00000000;
     cpu->clidr = 0x00000000;
     cpu->ctr = 0x8000c000;
 }
@@ -XXX,XX +XXX,XX @@ static void cortex_r5_initfn(Object *obj)
     cpu->id_mmfr1 = 0x00000000;
     cpu->id_mmfr2 = 0x01200000;
     cpu->id_mmfr3 = 0x0211;
-    cpu->id_isar0 = 0x02101111;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232141;
-    cpu->id_isar3 = 0x01112131;
-    cpu->id_isar4 = 0x0010142;
-    cpu->id_isar5 = 0x0;
-    cpu->id_isar6 = 0x0;
+    cpu->isar.id_isar0 = 0x02101111;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232141;
+    cpu->isar.id_isar3 = 0x01112131;
+    cpu->isar.id_isar4 = 0x0010142;
+    cpu->isar.id_isar5 = 0x0;
+    cpu->isar.id_isar6 = 0x0;
     cpu->mp_is_up = true;
     cpu->pmsav7_dregion = 16;
     define_arm_cp_regs(cpu, cortexr5_cp_reginfo);
@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     cpu->midr = 0x410fc080;
     cpu->reset_fpsid = 0x410330c0;
-    cpu->mvfr0 = 0x11110222;
-    cpu->mvfr1 = 0x00011111;
+    cpu->isar.mvfr0 = 0x11110222;
+    cpu->isar.mvfr1 = 0x00011111;
     cpu->ctr = 0x82048004;
     cpu->reset_sctlr = 0x00c50078;
     cpu->id_pfr0 = 0x1031;
@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
     cpu->id_mmfr1 = 0x20000000;
     cpu->id_mmfr2 = 0x01202000;
     cpu->id_mmfr3 = 0x11;
-    cpu->id_isar0 = 0x00101111;
-    cpu->id_isar1 = 0x12112111;
-    cpu->id_isar2 = 0x21232031;
-    cpu->id_isar3 = 0x11112131;
-    cpu->id_isar4 = 0x00111142;
+    cpu->isar.id_isar0 = 0x00101111;
+    cpu->isar.id_isar1 = 0x12112111;
+    cpu->isar.id_isar2 = 0x21232031;
+    cpu->isar.id_isar3 = 0x11112131;
+    cpu->isar.id_isar4 = 0x00111142;
     cpu->dbgdidr = 0x15141000;
     cpu->clidr = (1 << 27) | (2 << 24) | 3;
     cpu->ccsidr[0] = 0xe007e01a; /* 16k L1 dcache. */
@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_CBAR);
     cpu->midr = 0x410fc090;
     cpu->reset_fpsid = 0x41033090;
-    cpu->mvfr0 = 0x11110222;
-    cpu->mvfr1 = 0x01111111;
+    cpu->isar.mvfr0 = 0x11110222;
+    cpu->isar.mvfr1 = 0x01111111;
     cpu->ctr = 0x80038003;
     cpu->reset_sctlr = 0x00c50078;
     cpu->id_pfr0 = 0x1031;
@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
     cpu->id_mmfr1 = 0x20000000;
     cpu->id_mmfr2 = 0x01230000;
     cpu->id_mmfr3 = 0x00002111;
-    cpu->id_isar0 = 0x00101111;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232041;
-    cpu->id_isar3 = 0x11112131;
-    cpu->id_isar4 = 0x00111142;
+    cpu->isar.id_isar0 = 0x00101111;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232041;
+    cpu->isar.id_isar3 = 0x11112131;
+    cpu->isar.id_isar4 = 0x00111142;
     cpu->dbgdidr = 0x35141000;
     cpu->clidr = (1 << 27) | (1 << 24) | 3;
     cpu->ccsidr[0] = 0xe00fe019; /* 16k L1 dcache. */
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
     cpu->kvm_target = QEMU_KVM_ARM_TARGET_CORTEX_A7;
     cpu->midr = 0x410fc075;
     cpu->reset_fpsid = 0x41023075;
-    cpu->mvfr0 = 0x10110222;
-    cpu->mvfr1 = 0x11111111;
+    cpu->isar.mvfr0 = 0x10110222;
+    cpu->isar.mvfr1 = 0x11111111;
     cpu->ctr = 0x84448003;
     cpu->reset_sctlr = 0x00c50078;
     cpu->id_pfr0 = 0x00001131;
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
     /* a7_mpcore_r0p5_trm, page 4-4 gives 0x01101110; but
      * table 4-41 gives 0x02101110, which includes the arm div insns.
      */
-    cpu->id_isar0 = 0x02101110;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232041;
-    cpu->id_isar3 = 0x11112131;
-    cpu->id_isar4 = 0x10011142;
+    cpu->isar.id_isar0 = 0x02101110;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232041;
+    cpu->isar.id_isar3 = 0x11112131;
+    cpu->isar.id_isar4 = 0x10011142;
     cpu->dbgdidr = 0x3515f005;
     cpu->clidr = 0x0a200023;
     cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
     cpu->kvm_target = QEMU_KVM_ARM_TARGET_CORTEX_A15;
     cpu->midr = 0x412fc0f1;
     cpu->reset_fpsid = 0x410430f0;
-    cpu->mvfr0 = 0x10110222;
-    cpu->mvfr1 = 0x11111111;
+    cpu->isar.mvfr0 = 0x10110222;
+    cpu->isar.mvfr1 = 0x11111111;
     cpu->ctr = 0x8444c004;
     cpu->reset_sctlr = 0x00c50078;
     cpu->id_pfr0 = 0x00001131;
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
     cpu->id_mmfr1 = 0x20000000;
     cpu->id_mmfr2 = 0x01240000;
     cpu->id_mmfr3 = 0x02102211;
-    cpu->id_isar0 = 0x02101110;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232041;
-    cpu->id_isar3 = 0x11112131;
-    cpu->id_isar4 = 0x10011142;
+    cpu->isar.id_isar0 = 0x02101110;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232041;
+    cpu->isar.id_isar3 = 0x11112131;
+    cpu->isar.id_isar4 = 0x10011142;
     cpu->dbgdidr = 0x3515f021;
     cpu->clidr = 0x0a200023;
     cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
     cpu->midr = 0x411fd070;
     cpu->revidr = 0x00000000;
     cpu->reset_fpsid = 0x41034070;
-    cpu->mvfr0 = 0x10110222;
-    cpu->mvfr1 = 0x12111111;
-    cpu->mvfr2 = 0x00000043;
+    cpu->isar.mvfr0 = 0x10110222;
+    cpu->isar.mvfr1 = 0x12111111;
+    cpu->isar.mvfr2 = 0x00000043;
     cpu->ctr = 0x8444c004;
     cpu->reset_sctlr = 0x00c50838;
     cpu->id_pfr0 = 0x00000131;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
     cpu->id_mmfr1 = 0x40000000;
     cpu->id_mmfr2 = 0x01260000;
     cpu->id_mmfr3 = 0x02102211;
-    cpu->id_isar0 = 0x02101110;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232042;
-    cpu->id_isar3 = 0x01112131;
-    cpu->id_isar4 = 0x00011142;
-    cpu->id_isar5 = 0x00011121;
-    cpu->id_isar6 = 0;
-    cpu->id_aa64pfr0 = 0x00002222;
+    cpu->isar.id_isar0 = 0x02101110;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232042;
+    cpu->isar.id_isar3 = 0x01112131;
+    cpu->isar.id_isar4 = 0x00011142;
+    cpu->isar.id_isar5 = 0x00011121;
+    cpu->isar.id_isar6 = 0;
+    cpu->isar.id_aa64pfr0 = 0x00002222;
     cpu->id_aa64dfr0 = 0x10305106;
     cpu->pmceid0 = 0x00000000;
     cpu->pmceid1 = 0x00000000;
-    cpu->id_aa64isar0 = 0x00011120;
+    cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->id_aa64mmfr0 = 0x00001124;
     cpu->dbgdidr = 0x3516d000;
     cpu->clidr = 0x0a200023;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
     cpu->midr = 0x410fd034;
     cpu->revidr = 0x00000000;
     cpu->reset_fpsid = 0x41034070;
-    cpu->mvfr0 = 0x10110222;
-    cpu->mvfr1 = 0x12111111;
-    cpu->mvfr2 = 0x00000043;
+    cpu->isar.mvfr0 = 0x10110222;
+    cpu->isar.mvfr1 = 0x12111111;
+    cpu->isar.mvfr2 = 0x00000043;
     cpu->ctr = 0x84448004; /* L1Ip = VIPT */
     cpu->reset_sctlr = 0x00c50838;
     cpu->id_pfr0 = 0x00000131;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
     cpu->id_mmfr1 = 0x40000000;
     cpu->id_mmfr2 = 0x01260000;
     cpu->id_mmfr3 = 0x02102211;
-    cpu->id_isar0 = 0x02101110;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232042;
-    cpu->id_isar3 = 0x01112131;
-    cpu->id_isar4 = 0x00011142;
-    cpu->id_isar5 = 0x00011121;
-    cpu->id_isar6 = 0;
-    cpu->id_aa64pfr0 = 0x00002222;
+    cpu->isar.id_isar0 = 0x02101110;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232042;
+    cpu->isar.id_isar3 = 0x01112131;
+    cpu->isar.id_isar4 = 0x00011142;
+    cpu->isar.id_isar5 = 0x00011121;
+    cpu->isar.id_isar6 = 0;
+    cpu->isar.id_aa64pfr0 = 0x00002222;
     cpu->id_aa64dfr0 = 0x10305106;
-    cpu->id_aa64isar0 = 0x00011120;
+    cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->id_aa64mmfr0 = 0x00001122; /* 40 bit physical addr */
     cpu->dbgdidr = 0x3516d000;
     cpu->clidr = 0x0a200023;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
     cpu->midr = 0x410fd083;
     cpu->revidr = 0x00000000;
     cpu->reset_fpsid = 0x41034080;
-    cpu->mvfr0 = 0x10110222;
-    cpu->mvfr1 = 0x12111111;
-    cpu->mvfr2 = 0x00000043;
+    cpu->isar.mvfr0 = 0x10110222;
+    cpu->isar.mvfr1 = 0x12111111;
+    cpu->isar.mvfr2 = 0x00000043;
     cpu->ctr = 0x8444c004;
     cpu->reset_sctlr = 0x00c50838;
     cpu->id_pfr0 = 0x00000131;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
     cpu->id_mmfr1 = 0x40000000;
     cpu->id_mmfr2 = 0x01260000;
     cpu->id_mmfr3 = 0x02102211;
-    cpu->id_isar0 = 0x02101110;
-    cpu->id_isar1 = 0x13112111;
-    cpu->id_isar2 = 0x21232042;
-    cpu->id_isar3 = 0x01112131;
-    cpu->id_isar4 = 0x00011142;
-    cpu->id_isar5 = 0x00011121;
-    cpu->id_aa64pfr0 = 0x00002222;
+    cpu->isar.id_isar0 = 0x02101110;
+    cpu->isar.id_isar1 = 0x13112111;
+    cpu->isar.id_isar2 = 0x21232042;
+    cpu->isar.id_isar3 = 0x01112131;
+    cpu->isar.id_isar4 = 0x00011142;
+    cpu->isar.id_isar5 = 0x00011121;
+    cpu->isar.id_aa64pfr0 = 0x00002222;
     cpu->id_aa64dfr0 = 0x10305106;
     cpu->pmceid0 = 0x00000000;
     cpu->pmceid1 = 0x00000000;
-    cpu->id_aa64isar0 = 0x00011120;
+    cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->id_aa64mmfr0 = 0x00001124;
     cpu->dbgdidr = 0x3516d000;
     cpu->clidr = 0x0a200023;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t id_pfr1_read(CPUARMState *env, const ARMCPRegInfo *ri)
 static uint64_t id_aa64pfr0_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
     ARMCPU *cpu = arm_env_get_cpu(env);
-    uint64_t pfr0 = cpu->id_aa64pfr0;
+    uint64_t pfr0 = cpu->isar.id_aa64pfr0;
 
     if (env->gicv3state) {
         pfr0 |= 1 << 24;
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "ID_ISAR0", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 0,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar0 },
+              .resetvalue = cpu->isar.id_isar0 },
             { .name = "ID_ISAR1", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 1,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar1 },
+              .resetvalue = cpu->isar.id_isar1 },
             { .name = "ID_ISAR2", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 2,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar2 },
+              .resetvalue = cpu->isar.id_isar2 },
             { .name = "ID_ISAR3", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 3,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar3 },
+              .resetvalue = cpu->isar.id_isar3 },
             { .name = "ID_ISAR4", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 4,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar4 },
+              .resetvalue = cpu->isar.id_isar4 },
             { .name = "ID_ISAR5", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 5,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar5 },
+              .resetvalue = cpu->isar.id_isar5 },
             { .name = "ID_MMFR4", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 6,
               .access = PL1_R, .type = ARM_CP_CONST,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "ID_ISAR6", .state = ARM_CP_STATE_BOTH,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 2, .opc2 = 7,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_isar6 },
+              .resetvalue = cpu->isar.id_isar6 },
             REGINFO_SENTINEL
         };
         define_arm_cp_regs(cpu, v6_idregs);
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "ID_AA64PFR1_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 1,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_aa64pfr1},
+              .resetvalue = cpu->isar.id_aa64pfr1},
             { .name = "ID_AA64PFR2_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 4, .opc2 = 2,
               .access = PL1_R, .type = ARM_CP_CONST,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "ID_AA64ISAR0_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 6, .opc2 = 0,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_aa64isar0 },
+              .resetvalue = cpu->isar.id_aa64isar0 },
             { .name = "ID_AA64ISAR1_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 6, .opc2 = 1,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->id_aa64isar1 },
+              .resetvalue = cpu->isar.id_aa64isar1 },
             { .name = "ID_AA64ISAR2_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 6, .opc2 = 2,
               .access = PL1_R, .type = ARM_CP_CONST,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "MVFR0_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 0,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->mvfr0 },
+              .resetvalue = cpu->isar.mvfr0 },
             { .name = "MVFR1_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 1,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->mvfr1 },
+              .resetvalue = cpu->isar.mvfr1 },
             { .name = "MVFR2_EL1", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 2,
               .access = PL1_R, .type = ARM_CP_CONST,
-              .resetvalue = cpu->mvfr2 },
+              .resetvalue = cpu->isar.mvfr2 },
             { .name = "MVFR3_EL1_RESERVED", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 3,
               .access = PL1_R, .type = ARM_CP_CONST,
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Instantiating mps2-an505 (cortex-m33) will fail make check when
V7VE asserts that ID_ISAR0.Divide includes ARM division.  It is
also wrong to include ARM_FEATURE_LPAE.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-3-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.c | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
 
     /* Some features automatically imply others: */
     if (arm_feature(env, ARM_FEATURE_V8)) {
-        set_feature(env, ARM_FEATURE_V7VE);
+        if (arm_feature(env, ARM_FEATURE_M)) {
+            set_feature(env, ARM_FEATURE_V7);
+        } else {
+            set_feature(env, ARM_FEATURE_V7VE);
+        }
     }
     if (arm_feature(env, ARM_FEATURE_V7VE)) {
         /* v7 Virtualization Extensions. In real hardware this implies
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Most of the v8 extensions are self-contained within the ISAR
registers and are not implied by other feature bits, which
makes them the easiest to convert.

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-4-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           | 131 +++++++++++++++++++++++++++++++++----
 target/arm/translate.h     |   7 ++
 linux-user/elfload.c       |  46 ++++++++-----
 target/arm/cpu.c           |  27 +++++---
 target/arm/cpu64.c         |  57 +++++++++-------
 target/arm/translate-a64.c | 101 ++++++++++++++--------------
 target/arm/translate.c     |  36 +++++-----
 7 files changed, 273 insertions(+), 132 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef enum ARMPSCIState {
     PSCI_ON_PENDING = 2
 } ARMPSCIState;
 
+typedef struct ARMISARegisters ARMISARegisters;
+
 /**
  * ARMCPU:
  * @env: #CPUARMState
@@ -XXX,XX +XXX,XX @@ enum arm_features {
     ARM_FEATURE_LPAE, /* has Large Physical Address Extension */
     ARM_FEATURE_V8,
     ARM_FEATURE_AARCH64, /* supports 64 bit mode */
-    ARM_FEATURE_V8_AES, /* implements AES part of v8 Crypto Extensions */
     ARM_FEATURE_CBAR, /* has cp15 CBAR */
     ARM_FEATURE_CRC, /* ARMv8 CRC instructions */
     ARM_FEATURE_CBAR_RO, /* has cp15 CBAR and it is read-only */
     ARM_FEATURE_EL2, /* has EL2 Virtualization support */
     ARM_FEATURE_EL3, /* has EL3 Secure monitor support */
-    ARM_FEATURE_V8_SHA1, /* implements SHA1 part of v8 Crypto Extensions */
-    ARM_FEATURE_V8_SHA256, /* implements SHA256 part of v8 Crypto Extensions */
-    ARM_FEATURE_V8_PMULL, /* implements PMULL part of v8 Crypto Extensions */
     ARM_FEATURE_THUMB_DSP, /* DSP insns supported in the Thumb encodings */
     ARM_FEATURE_PMU, /* has PMU support */
     ARM_FEATURE_VBAR, /* has cp15 VBAR */
     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
     ARM_FEATURE_JAZELLE, /* has (trivial) Jazelle implementation */
     ARM_FEATURE_SVE, /* has Scalable Vector Extension */
-    ARM_FEATURE_V8_SHA512, /* implements SHA512 part of v8 Crypto Extensions */
-    ARM_FEATURE_V8_SHA3, /* implements SHA3 part of v8 Crypto Extensions */
-    ARM_FEATURE_V8_SM3, /* implements SM3 part of v8 Crypto Extensions */
-    ARM_FEATURE_V8_SM4, /* implements SM4 part of v8 Crypto Extensions */
-    ARM_FEATURE_V8_ATOMICS, /* ARMv8.1-Atomics feature */
-    ARM_FEATURE_V8_RDM, /* implements v8.1 simd round multiply */
-    ARM_FEATURE_V8_DOTPROD, /* implements v8.2 simd dot product */
     ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
-    ARM_FEATURE_V8_FCMA, /* has complex number part of v8.3 extensions.  */
     ARM_FEATURE_M_MAIN, /* M profile Main Extension */
 };
 
@@ -XXX,XX +XXX,XX @@ static inline uint64_t *aa64_vfp_qreg(CPUARMState *env, unsigned regno)
 /* Shared between translate-sve.c and sve_helper.c.  */
 extern const uint64_t pred_esz_masks[4];
 
+/*
+ * 32-bit feature tests via id registers.
+ */
+static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
+}
+
+static inline bool isar_feature_aa32_pmull(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) > 1;
+}
+
+static inline bool isar_feature_aa32_sha1(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, SHA1) != 0;
+}
+
+static inline bool isar_feature_aa32_sha2(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, SHA2) != 0;
+}
+
+static inline bool isar_feature_aa32_crc32(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, CRC32) != 0;
+}
+
+static inline bool isar_feature_aa32_rdm(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, RDM) != 0;
+}
+
+static inline bool isar_feature_aa32_vcma(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar5, ID_ISAR5, VCMA) != 0;
+}
+
+static inline bool isar_feature_aa32_dp(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar6, ID_ISAR6, DP) != 0;
+}
+
+/*
+ * 64-bit feature tests via id registers.
+ */
+static inline bool isar_feature_aa64_aes(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, AES) != 0;
+}
+
+static inline bool isar_feature_aa64_pmull(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, AES) > 1;
+}
+
+static inline bool isar_feature_aa64_sha1(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA1) != 0;
+}
+
+static inline bool isar_feature_aa64_sha256(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA2) != 0;
+}
+
+static inline bool isar_feature_aa64_sha512(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA2) > 1;
+}
+
+static inline bool isar_feature_aa64_crc32(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, CRC32) != 0;
+}
+
+static inline bool isar_feature_aa64_atomics(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, ATOMIC) != 0;
+}
+
+static inline bool isar_feature_aa64_rdm(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, RDM) != 0;
+}
+
+static inline bool isar_feature_aa64_sha3(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SHA3) != 0;
+}
+
+static inline bool isar_feature_aa64_sm3(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SM3) != 0;
+}
+
+static inline bool isar_feature_aa64_sm4(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, SM4) != 0;
+}
+
+static inline bool isar_feature_aa64_dp(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar0, ID_AA64ISAR0, DP) != 0;
+}
+
+static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
+}
+
+/*
+ * Forward to the above feature tests given an ARMCPU pointer.
+ */
+#define cpu_isar_feature(name, cpu) \
+    ({ ARMCPU *cpu_ = (cpu); isar_feature_##name(&cpu_->isar); })
+
 #endif
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@
 /* internal defines */
 typedef struct DisasContext {
     DisasContextBase base;
+    const ARMISARegisters *isar;
 
     target_ulong pc;
     target_ulong page_start;
@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 get_ahp_flag(void)
     return ret;
 }
 
+/*
+ * Forward to the isar_feature_* tests given a DisasContext pointer.
+ */
+#define dc_isar_feature(name, ctx) \
+    ({ DisasContext *ctx_ = (ctx); isar_feature_##name(ctx_->isar); })
+
 #endif /* TARGET_ARM_TRANSLATE_H */
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     /* probe for the extra features */
 #define GET_FEATURE(feat, hwcap) \
     do { if (arm_feature(&cpu->env, feat)) { hwcaps |= hwcap; } } while (0)
+
+#define GET_FEATURE_ID(feat, hwcap) \
+    do { if (cpu_isar_feature(feat, cpu)) { hwcaps |= hwcap; } } while (0)
+
     /* EDSP is in v5TE and above, but all our v5 CPUs are v5TE */
     GET_FEATURE(ARM_FEATURE_V5, ARM_HWCAP_ARM_EDSP);
     GET_FEATURE(ARM_FEATURE_VFP, ARM_HWCAP_ARM_VFP);
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap2(void)
     ARMCPU *cpu = ARM_CPU(thread_cpu);
     uint32_t hwcaps = 0;
 
-    GET_FEATURE(ARM_FEATURE_V8_AES, ARM_HWCAP2_ARM_AES);
-    GET_FEATURE(ARM_FEATURE_V8_PMULL, ARM_HWCAP2_ARM_PMULL);
-    GET_FEATURE(ARM_FEATURE_V8_SHA1, ARM_HWCAP2_ARM_SHA1);
-    GET_FEATURE(ARM_FEATURE_V8_SHA256, ARM_HWCAP2_ARM_SHA2);
-    GET_FEATURE(ARM_FEATURE_CRC, ARM_HWCAP2_ARM_CRC32);
+    GET_FEATURE_ID(aa32_aes, ARM_HWCAP2_ARM_AES);
+    GET_FEATURE_ID(aa32_pmull, ARM_HWCAP2_ARM_PMULL);
+    GET_FEATURE_ID(aa32_sha1, ARM_HWCAP2_ARM_SHA1);
+    GET_FEATURE_ID(aa32_sha2, ARM_HWCAP2_ARM_SHA2);
+    GET_FEATURE_ID(aa32_crc32, ARM_HWCAP2_ARM_CRC32);
     return hwcaps;
 }
 
 #undef GET_FEATURE
+#undef GET_FEATURE_ID
 
 #else
 /* 64 bit ARM definitions */
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     /* probe for the extra features */
 #define GET_FEATURE(feat, hwcap) \
     do { if (arm_feature(&cpu->env, feat)) { hwcaps |= hwcap; } } while (0)
-    GET_FEATURE(ARM_FEATURE_V8_AES, ARM_HWCAP_A64_AES);
-    GET_FEATURE(ARM_FEATURE_V8_PMULL, ARM_HWCAP_A64_PMULL);
-    GET_FEATURE(ARM_FEATURE_V8_SHA1, ARM_HWCAP_A64_SHA1);
-    GET_FEATURE(ARM_FEATURE_V8_SHA256, ARM_HWCAP_A64_SHA2);
-    GET_FEATURE(ARM_FEATURE_CRC, ARM_HWCAP_A64_CRC32);
-    GET_FEATURE(ARM_FEATURE_V8_SHA3, ARM_HWCAP_A64_SHA3);
-    GET_FEATURE(ARM_FEATURE_V8_SM3, ARM_HWCAP_A64_SM3);
-    GET_FEATURE(ARM_FEATURE_V8_SM4, ARM_HWCAP_A64_SM4);
-    GET_FEATURE(ARM_FEATURE_V8_SHA512, ARM_HWCAP_A64_SHA512);
+#define GET_FEATURE_ID(feat, hwcap) \
+    do { if (cpu_isar_feature(feat, cpu)) { hwcaps |= hwcap; } } while (0)
+
+    GET_FEATURE_ID(aa64_aes, ARM_HWCAP_A64_AES);
+    GET_FEATURE_ID(aa64_pmull, ARM_HWCAP_A64_PMULL);
+    GET_FEATURE_ID(aa64_sha1, ARM_HWCAP_A64_SHA1);
+    GET_FEATURE_ID(aa64_sha256, ARM_HWCAP_A64_SHA2);
+    GET_FEATURE_ID(aa64_sha512, ARM_HWCAP_A64_SHA512);
+    GET_FEATURE_ID(aa64_crc32, ARM_HWCAP_A64_CRC32);
+    GET_FEATURE_ID(aa64_sha3, ARM_HWCAP_A64_SHA3);
+    GET_FEATURE_ID(aa64_sm3, ARM_HWCAP_A64_SM3);
+    GET_FEATURE_ID(aa64_sm4, ARM_HWCAP_A64_SM4);
     GET_FEATURE(ARM_FEATURE_V8_FP16,
                 ARM_HWCAP_A64_FPHP | ARM_HWCAP_A64_ASIMDHP);
-    GET_FEATURE(ARM_FEATURE_V8_ATOMICS, ARM_HWCAP_A64_ATOMICS);
-    GET_FEATURE(ARM_FEATURE_V8_RDM, ARM_HWCAP_A64_ASIMDRDM);
-    GET_FEATURE(ARM_FEATURE_V8_DOTPROD, ARM_HWCAP_A64_ASIMDDP);
-    GET_FEATURE(ARM_FEATURE_V8_FCMA, ARM_HWCAP_A64_FCMA);
+    GET_FEATURE_ID(aa64_atomics, ARM_HWCAP_A64_ATOMICS);
+    GET_FEATURE_ID(aa64_rdm, ARM_HWCAP_A64_ASIMDRDM);
+    GET_FEATURE_ID(aa64_dp, ARM_HWCAP_A64_ASIMDDP);
+    GET_FEATURE_ID(aa64_fcma, ARM_HWCAP_A64_FCMA);
     GET_FEATURE(ARM_FEATURE_SVE, ARM_HWCAP_A64_SVE);
+
 #undef GET_FEATURE
+#undef GET_FEATURE_ID
 
     return hwcaps;
 }
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
         cortex_a15_initfn(obj);
 #ifdef CONFIG_USER_ONLY
         /* We don't set these in system emulation mode for the moment,
-         * since we don't correctly set the ID registers to advertise them,
+         * since we don't correctly set (all of) the ID registers to
+         * advertise them.
          */
         set_feature(&cpu->env, ARM_FEATURE_V8);
-        set_feature(&cpu->env, ARM_FEATURE_V8_AES);
-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
-        set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
-        set_feature(&cpu->env, ARM_FEATURE_CRC);
-        set_feature(&cpu->env, ARM_FEATURE_V8_RDM);
-        set_feature(&cpu->env, ARM_FEATURE_V8_DOTPROD);
-        set_feature(&cpu->env, ARM_FEATURE_V8_FCMA);
+        {
+            uint32_t t;
+
+            t = cpu->isar.id_isar5;
+            t = FIELD_DP32(t, ID_ISAR5, AES, 2);
+            t = FIELD_DP32(t, ID_ISAR5, SHA1, 1);
+            t = FIELD_DP32(t, ID_ISAR5, SHA2, 1);
+            t = FIELD_DP32(t, ID_ISAR5, CRC32, 1);
+            t = FIELD_DP32(t, ID_ISAR5, RDM, 1);
+            t = FIELD_DP32(t, ID_ISAR5, VCMA, 1);
+            cpu->isar.id_isar5 = t;
+
+            t = cpu->isar.id_isar6;
+            t = FIELD_DP32(t, ID_ISAR6, DP, 1);
+            cpu->isar.id_isar6 = t;
+        }
 #endif
     }
 }
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
     set_feature(&cpu->env, ARM_FEATURE_AARCH64);
     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
-    set_feature(&cpu->env, ARM_FEATURE_V8_AES);
-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
-    set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
-    set_feature(&cpu->env, ARM_FEATURE_CRC);
     set_feature(&cpu->env, ARM_FEATURE_EL2);
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     set_feature(&cpu->env, ARM_FEATURE_PMU);
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
     set_feature(&cpu->env, ARM_FEATURE_AARCH64);
     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
-    set_feature(&cpu->env, ARM_FEATURE_V8_AES);
-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
-    set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
-    set_feature(&cpu->env, ARM_FEATURE_CRC);
     set_feature(&cpu->env, ARM_FEATURE_EL2);
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     set_feature(&cpu->env, ARM_FEATURE_PMU);
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
     set_feature(&cpu->env, ARM_FEATURE_AARCH64);
     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
-    set_feature(&cpu->env, ARM_FEATURE_V8_AES);
-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA1);
-    set_feature(&cpu->env, ARM_FEATURE_V8_SHA256);
-    set_feature(&cpu->env, ARM_FEATURE_V8_PMULL);
-    set_feature(&cpu->env, ARM_FEATURE_CRC);
     set_feature(&cpu->env, ARM_FEATURE_EL2);
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     set_feature(&cpu->env, ARM_FEATURE_PMU);
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
     if (kvm_enabled()) {
         kvm_arm_set_cpu_features_from_host(cpu);
     } else {
+        uint64_t t;
+        uint32_t u;
         aarch64_a57_initfn(obj);
+
+        t = cpu->isar.id_aa64isar0;
+        t = FIELD_DP64(t, ID_AA64ISAR0, AES, 2); /* AES + PMULL */
+        t = FIELD_DP64(t, ID_AA64ISAR0, SHA1, 1);
+        t = FIELD_DP64(t, ID_AA64ISAR0, SHA2, 2); /* SHA512 */
+        t = FIELD_DP64(t, ID_AA64ISAR0, CRC32, 1);
+        t = FIELD_DP64(t, ID_AA64ISAR0, ATOMIC, 2);
+        t = FIELD_DP64(t, ID_AA64ISAR0, RDM, 1);
+        t = FIELD_DP64(t, ID_AA64ISAR0, SHA3, 1);
+        t = FIELD_DP64(t, ID_AA64ISAR0, SM3, 1);
+        t = FIELD_DP64(t, ID_AA64ISAR0, SM4, 1);
+        t = FIELD_DP64(t, ID_AA64ISAR0, DP, 1);
+        cpu->isar.id_aa64isar0 = t;
+
+        t = cpu->isar.id_aa64isar1;
+        t = FIELD_DP64(t, ID_AA64ISAR1, FCMA, 1);
+        cpu->isar.id_aa64isar1 = t;
+
+        /* Replicate the same data to the 32-bit id registers.  */
+        u = cpu->isar.id_isar5;
+        u = FIELD_DP32(u, ID_ISAR5, AES, 2); /* AES + PMULL */
+        u = FIELD_DP32(u, ID_ISAR5, SHA1, 1);
+        u = FIELD_DP32(u, ID_ISAR5, SHA2, 1);
+        u = FIELD_DP32(u, ID_ISAR5, CRC32, 1);
+        u = FIELD_DP32(u, ID_ISAR5, RDM, 1);
+        u = FIELD_DP32(u, ID_ISAR5, VCMA, 1);
+        cpu->isar.id_isar5 = u;
+
+        u = cpu->isar.id_isar6;
+        u = FIELD_DP32(u, ID_ISAR6, DP, 1);
+        cpu->isar.id_isar6 = u;
+
 #ifdef CONFIG_USER_ONLY
         /* We don't set these in system emulation mode for the moment,
          * since we don't correctly set the ID registers to advertise them,
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          * whereas the architecture requires them to be present in both if
          * present in either.
          */
-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA512);
-        set_feature(&cpu->env, ARM_FEATURE_V8_SHA3);
-        set_feature(&cpu->env, ARM_FEATURE_V8_SM3);
-        set_feature(&cpu->env, ARM_FEATURE_V8_SM4);
-        set_feature(&cpu->env, ARM_FEATURE_V8_ATOMICS);
-        set_feature(&cpu->env, ARM_FEATURE_V8_RDM);
-        set_feature(&cpu->env, ARM_FEATURE_V8_DOTPROD);
         set_feature(&cpu->env, ARM_FEATURE_V8_FP16);
-        set_feature(&cpu->env, ARM_FEATURE_V8_FCMA);
         set_feature(&cpu->env, ARM_FEATURE_SVE);
         /* For usermode -cpu max we can use a larger and more efficient DCZ
          * blocksize since we don't have to follow what the hardware does.
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
         }
         if (rt2 == 31
             && ((rt | rs) & 1) == 0
-            && arm_dc_feature(s, ARM_FEATURE_V8_ATOMICS)) {
+            && dc_isar_feature(aa64_atomics, s)) {
             /* CASP / CASPL */
             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
             return;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
         }
         if (rt2 == 31
             && ((rt | rs) & 1) == 0
-            && arm_dc_feature(s, ARM_FEATURE_V8_ATOMICS)) {
+            && dc_isar_feature(aa64_atomics, s)) {
             /* CASPA / CASPAL */
             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
             return;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
     case 0xb: /* CASL */
     case 0xe: /* CASA */
     case 0xf: /* CASAL */
-        if (rt2 == 31 && arm_dc_feature(s, ARM_FEATURE_V8_ATOMICS)) {
+        if (rt2 == 31 && dc_isar_feature(aa64_atomics, s)) {
             gen_compare_and_swap(s, rs, rt, rn, size);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
     int rs = extract32(insn, 16, 5);
     int rn = extract32(insn, 5, 5);
     int o3_opc = extract32(insn, 12, 4);
-    int feature = ARM_FEATURE_V8_ATOMICS;
     TCGv_i64 tcg_rn, tcg_rs;
     AtomicThreeOpFn *fn;
 
-    if (is_vector) {
+    if (is_vector || !dc_isar_feature(aa64_atomics, s)) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
         unallocated_encoding(s);
         return;
     }
-    if (!arm_dc_feature(s, feature)) {
-        unallocated_encoding(s);
-        return;
-    }
 
     if (rn == 31) {
         gen_check_sp_alignment(s);
@@ -XXX,XX +XXX,XX @@ static void handle_crc32(DisasContext *s,
     TCGv_i64 tcg_acc, tcg_val;
     TCGv_i32 tcg_bytes;
 
-    if (!arm_dc_feature(s, ARM_FEATURE_CRC)
+    if (!dc_isar_feature(aa64_crc32, s)
         || (sf == 1 && sz != 3)
         || (sf == 0 && sz == 3)) {
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_extra(DisasContext *s,
     bool u = extract32(insn, 29, 1);
     TCGv_i32 ele1, ele2, ele3;
     TCGv_i64 res;
-    int feature;
+    bool feature;
 
     switch (u * 16 + opcode) {
     case 0x10: /* SQRDMLAH (vector) */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_extra(DisasContext *s,
             unallocated_encoding(s);
             return;
         }
-        feature = ARM_FEATURE_V8_RDM;
+        feature = dc_isar_feature(aa64_rdm, s);
         break;
     default:
         unallocated_encoding(s);
         return;
     }
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
             return;
         }
         if (size == 3) {
-            if (!arm_dc_feature(s, ARM_FEATURE_V8_PMULL)) {
+            if (!dc_isar_feature(aa64_pmull, s)) {
                 unallocated_encoding(s);
                 return;
             }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
     int size = extract32(insn, 22, 2);
     bool u = extract32(insn, 29, 1);
     bool is_q = extract32(insn, 30, 1);
-    int feature, rot;
+    bool feature;
+    int rot;
 
     switch (u * 16 + opcode) {
     case 0x10: /* SQRDMLAH (vector) */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
             unallocated_encoding(s);
             return;
         }
-        feature = ARM_FEATURE_V8_RDM;
+        feature = dc_isar_feature(aa64_rdm, s);
         break;
     case 0x02: /* SDOT (vector) */
     case 0x12: /* UDOT (vector) */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
             unallocated_encoding(s);
             return;
         }
-        feature = ARM_FEATURE_V8_DOTPROD;
+        feature = dc_isar_feature(aa64_dp, s);
         break;
     case 0x18: /* FCMLA, #0 */
     case 0x19: /* FCMLA, #90 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
             unallocated_encoding(s);
             return;
         }
-        feature = ARM_FEATURE_V8_FCMA;
+        feature = dc_isar_feature(aa64_fcma, s);
         break;
     default:
         unallocated_encoding(s);
         return;
     }
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         break;
     case 0x1d: /* SQRDMLAH */
     case 0x1f: /* SQRDMLSH */
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_RDM)) {
+        if (!dc_isar_feature(aa64_rdm, s)) {
             unallocated_encoding(s);
             return;
         }
         break;
     case 0x0e: /* SDOT */
     case 0x1e: /* UDOT */
-        if (size != MO_32 || !arm_dc_feature(s, ARM_FEATURE_V8_DOTPROD)) {
+        if (size != MO_32 || !dc_isar_feature(aa64_dp, s)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x13: /* FCMLA #90 */
     case 0x15: /* FCMLA #180 */
     case 0x17: /* FCMLA #270 */
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)) {
+        if (!dc_isar_feature(aa64_fcma, s)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_aes(DisasContext *s, uint32_t insn)
     TCGv_i32 tcg_decrypt;
     CryptoThreeOpIntFn *genfn;
 
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_AES)
-        || size != 0) {
+    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
     int rd = extract32(insn, 0, 5);
     CryptoThreeOpFn *genfn;
     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr, tcg_rm_ptr;
-    int feature = ARM_FEATURE_V8_SHA256;
+    bool feature;
 
     if (size != 0) {
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
     case 2: /* SHA1M */
     case 3: /* SHA1SU0 */
         genfn = NULL;
-        feature = ARM_FEATURE_V8_SHA1;
+        feature = dc_isar_feature(aa64_sha1, s);
         break;
     case 4: /* SHA256H */
         genfn = gen_helper_crypto_sha256h;
+        feature = dc_isar_feature(aa64_sha256, s);
         break;
     case 5: /* SHA256H2 */
         genfn = gen_helper_crypto_sha256h2;
+        feature = dc_isar_feature(aa64_sha256, s);
         break;
     case 6: /* SHA256SU1 */
         genfn = gen_helper_crypto_sha256su1;
+        feature = dc_isar_feature(aa64_sha256, s);
         break;
     default:
         unallocated_encoding(s);
         return;
     }
 
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
     CryptoTwoOpFn *genfn;
-    int feature;
+    bool feature;
     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr;
 
     if (size != 0) {
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
 
     switch (opcode) {
     case 0: /* SHA1H */
-        feature = ARM_FEATURE_V8_SHA1;
+        feature = dc_isar_feature(aa64_sha1, s);
         genfn = gen_helper_crypto_sha1h;
         break;
     case 1: /* SHA1SU1 */
-        feature = ARM_FEATURE_V8_SHA1;
+        feature = dc_isar_feature(aa64_sha1, s);
         genfn = gen_helper_crypto_sha1su1;
         break;
     case 2: /* SHA256SU0 */
-        feature = ARM_FEATURE_V8_SHA256;
+        feature = dc_isar_feature(aa64_sha256, s);
         genfn = gen_helper_crypto_sha256su0;
         break;
     default:
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
         return;
     }
 
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
     int rm = extract32(insn, 16, 5);
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
-    int feature;
+    bool feature;
     CryptoThreeOpFn *genfn;
 
     if (o == 0) {
         switch (opcode) {
         case 0: /* SHA512H */
-            feature = ARM_FEATURE_V8_SHA512;
+            feature = dc_isar_feature(aa64_sha512, s);
             genfn = gen_helper_crypto_sha512h;
             break;
         case 1: /* SHA512H2 */
-            feature = ARM_FEATURE_V8_SHA512;
+            feature = dc_isar_feature(aa64_sha512, s);
             genfn = gen_helper_crypto_sha512h2;
             break;
         case 2: /* SHA512SU1 */
-            feature = ARM_FEATURE_V8_SHA512;
+            feature = dc_isar_feature(aa64_sha512, s);
             genfn = gen_helper_crypto_sha512su1;
             break;
         case 3: /* RAX1 */
-            feature = ARM_FEATURE_V8_SHA3;
+            feature = dc_isar_feature(aa64_sha3, s);
             genfn = NULL;
             break;
         }
     } else {
         switch (opcode) {
         case 0: /* SM3PARTW1 */
-            feature = ARM_FEATURE_V8_SM3;
+            feature = dc_isar_feature(aa64_sm3, s);
             genfn = gen_helper_crypto_sm3partw1;
             break;
         case 1: /* SM3PARTW2 */
-            feature = ARM_FEATURE_V8_SM3;
+            feature = dc_isar_feature(aa64_sm3, s);
             genfn = gen_helper_crypto_sm3partw2;
             break;
         case 2: /* SM4EKEY */
-            feature = ARM_FEATURE_V8_SM4;
+            feature = dc_isar_feature(aa64_sm4, s);
             genfn = gen_helper_crypto_sm4ekey;
             break;
         default:
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
         }
     }
 
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr;
-    int feature;
+    bool feature;
     CryptoTwoOpFn *genfn;
 
     switch (opcode) {
     case 0: /* SHA512SU0 */
-        feature = ARM_FEATURE_V8_SHA512;
+        feature = dc_isar_feature(aa64_sha512, s);
         genfn = gen_helper_crypto_sha512su0;
         break;
     case 1: /* SM4E */
-        feature = ARM_FEATURE_V8_SM4;
+        feature = dc_isar_feature(aa64_sm4, s);
         genfn = gen_helper_crypto_sm4e;
         break;
     default:
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
         return;
     }
 
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
     int ra = extract32(insn, 10, 5);
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
-    int feature;
+    bool feature;
 
     switch (op0) {
     case 0: /* EOR3 */
     case 1: /* BCAX */
-        feature = ARM_FEATURE_V8_SHA3;
+        feature = dc_isar_feature(aa64_sha3, s);
         break;
     case 2: /* SM3SS1 */
-        feature = ARM_FEATURE_V8_SM3;
+        feature = dc_isar_feature(aa64_sm3, s);
         break;
     default:
         unallocated_encoding(s);
         return;
     }
 
-    if (!arm_dc_feature(s, feature)) {
+    if (!feature) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_xar(DisasContext *s, uint32_t insn)
     TCGv_i64 tcg_op1, tcg_op2, tcg_res[2];
     int pass;
 
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA3)) {
+    if (!dc_isar_feature(aa64_sha3, s)) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
     TCGv_ptr tcg_rd_ptr, tcg_rn_ptr, tcg_rm_ptr;
     TCGv_i32 tcg_imm2, tcg_opcode;
 
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_SM3)) {
+    if (!dc_isar_feature(aa64_sm3, s)) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     ARMCPU *arm_cpu = arm_env_get_cpu(env);
     int bound;
 
+    dc->isar = &arm_cpu->isar;
     dc->pc = dc->base.pc_first;
     dc->condjmp = 0;
 
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
 static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
                          int q, int rd, int rn, int rm)
 {
-    if (arm_dc_feature(s, ARM_FEATURE_V8_RDM)) {
+    if (dc_isar_feature(aa32_rdm, s)) {
         int opr_sz = (1 + q) * 8;
         tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd),
                            vfp_reg_offset(1, rn),
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 return 1;
             }
             if (!u) { /* SHA-1 */
-                if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)) {
+                if (!dc_isar_feature(aa32_sha1, s)) {
                     return 1;
                 }
                 ptr1 = vfp_reg_ptr(true, rd);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp4);
                 tcg_temp_free_i32(tmp4);
             } else { /* SHA-256 */
-                if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA256) || size == 3) {
+                if (!dc_isar_feature(aa32_sha2, s) || size == 3) {
                     return 1;
                 }
                 ptr1 = vfp_reg_ptr(true, rd);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 if (op == 14 && size == 2) {
                     TCGv_i64 tcg_rn, tcg_rm, tcg_rd;
 
-                    if (!arm_dc_feature(s, ARM_FEATURE_V8_PMULL)) {
+                    if (!dc_isar_feature(aa32_pmull, s)) {
                         return 1;
                     }
                     tcg_rn = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     {
                         NeonGenThreeOpEnvFn *fn;
 
-                        if (!arm_dc_feature(s, ARM_FEATURE_V8_RDM)) {
+                        if (!dc_isar_feature(aa32_rdm, s)) {
                             return 1;
                         }
                         if (u && ((rd | rn) & 1)) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     break;
                 }
                 case NEON_2RM_AESE: case NEON_2RM_AESMC:
-                    if (!arm_dc_feature(s, ARM_FEATURE_V8_AES)
-                        || ((rm | rd) & 1)) {
+                    if (!dc_isar_feature(aa32_aes, s) || ((rm | rd) & 1)) {
                         return 1;
                     }
                     ptr1 = vfp_reg_ptr(true, rd);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     tcg_temp_free_i32(tmp3);
                     break;
                 case NEON_2RM_SHA1H:
-                    if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)
-                        || ((rm | rd) & 1)) {
+                    if (!dc_isar_feature(aa32_sha1, s) || ((rm | rd) & 1)) {
                         return 1;
                     }
                     ptr1 = vfp_reg_ptr(true, rd);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     }
                     /* bit 6 (q): set -> SHA256SU0, cleared -> SHA1SU1 */
                     if (q) {
-                        if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA256)) {
+                        if (!dc_isar_feature(aa32_sha2, s)) {
                             return 1;
                         }
-                    } else if (!arm_dc_feature(s, ARM_FEATURE_V8_SHA1)) {
+                    } else if (!dc_isar_feature(aa32_sha1, s)) {
                         return 1;
                     }
                     ptr1 = vfp_reg_ptr(true, rd);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
         /* VCMLA -- 1111 110R R.1S .... .... 1000 ...0 .... */
         int size = extract32(insn, 20, 1);
         data = extract32(insn, 23, 2); /* rot */
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)
+        if (!dc_isar_feature(aa32_vcma, s)
             || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
         /* VCADD -- 1111 110R 1.0S .... .... 1000 ...0 .... */
         int size = extract32(insn, 20, 1);
         data = extract32(insn, 24, 1); /* rot */
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)
+        if (!dc_isar_feature(aa32_vcma, s)
             || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
     } else if ((insn & 0xfeb00f00) == 0xfc200d00) {
         /* V[US]DOT -- 1111 1100 0.10 .... .... 1101 .Q.U .... */
         bool u = extract32(insn, 4, 1);
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_DOTPROD)) {
+        if (!dc_isar_feature(aa32_dp, s)) {
             return 1;
         }
         fn_gvec = u ? gen_helper_gvec_udot_b : gen_helper_gvec_sdot_b;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
         int size = extract32(insn, 23, 1);
         int index;
 
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FCMA)) {
+        if (!dc_isar_feature(aa32_vcma, s)) {
             return 1;
         }
         if (size == 0) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
     } else if ((insn & 0xffb00f00) == 0xfe200d00) {
         /* V[US]DOT -- 1111 1110 0.10 .... .... 1101 .Q.U .... */
         int u = extract32(insn, 4, 1);
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_DOTPROD)) {
+        if (!dc_isar_feature(aa32_dp, s)) {
             return 1;
         }
         fn_gvec = u ? gen_helper_gvec_udot_idx_b : gen_helper_gvec_sdot_idx_b;
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
              * op1 == 3 is UNPREDICTABLE but handle as UNDEFINED.
              * Bits 8, 10 and 11 should be zero.
              */
-            if (!arm_dc_feature(s, ARM_FEATURE_CRC) || op1 == 0x3 ||
-                (c & 0xd) != 0) {
+            if (!dc_isar_feature(aa32_crc32, s) || op1 == 0x3 || (c & 0xd) != 0) {
                 goto illegal_op;
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
                 case 0x28:
                 case 0x29:
                 case 0x2a:
-                    if (!arm_dc_feature(s, ARM_FEATURE_CRC)) {
+                    if (!dc_isar_feature(aa32_crc32, s)) {
                         goto illegal_op;
                     }
                     break;
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     CPUARMState *env = cs->env_ptr;
     ARMCPU *cpu = arm_env_get_cpu(env);
 
+    dc->isar = &cpu->isar;
     dc->pc = dc->base.pc_first;
     dc->condjmp = 0;
 
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Both arm and thumb2 division are controlled by the same ISAR field,
which takes care of the arm implies thumb case.  Having M imply
thumb2 division was wrong for cortex-m0, which is v6m and does not
have thumb2 at all, much less thumb2 division.

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-5-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h       | 12 ++++++++++--
 linux-user/elfload.c   |  4 ++--
 target/arm/cpu.c       | 10 +---------
 target/arm/translate.c |  4 ++--
 4 files changed, 15 insertions(+), 15 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ enum arm_features {
     ARM_FEATURE_VFP3,
     ARM_FEATURE_VFP_FP16,
     ARM_FEATURE_NEON,
-    ARM_FEATURE_THUMB_DIV, /* divide supported in Thumb encoding */
     ARM_FEATURE_M, /* Microcontroller profile.  */
     ARM_FEATURE_OMAPCP, /* OMAP specific CP15 ops handling.  */
     ARM_FEATURE_THUMB2EE,
@@ -XXX,XX +XXX,XX @@ enum arm_features {
     ARM_FEATURE_V5,
     ARM_FEATURE_STRONGARM,
     ARM_FEATURE_VAPA, /* cp15 VA to PA lookups */
-    ARM_FEATURE_ARM_DIV, /* divide supported in ARM encoding */
     ARM_FEATURE_VFP4, /* VFPv4 (implies that NEON is v2) */
     ARM_FEATURE_GENERIC_TIMER,
     ARM_FEATURE_MVFR, /* Media and VFP Feature Registers 0 and 1 */
@@ -XXX,XX +XXX,XX @@ extern const uint64_t pred_esz_masks[4];
 /*
  * 32-bit feature tests via id registers.
  */
+static inline bool isar_feature_thumb_div(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar0, ID_ISAR0, DIVIDE) != 0;
+}
+
+static inline bool isar_feature_arm_div(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar0, ID_ISAR0, DIVIDE) > 1;
+}
+
 static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
 {
     return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     GET_FEATURE(ARM_FEATURE_VFP3, ARM_HWCAP_ARM_VFPv3);
     GET_FEATURE(ARM_FEATURE_V6K, ARM_HWCAP_ARM_TLS);
     GET_FEATURE(ARM_FEATURE_VFP4, ARM_HWCAP_ARM_VFPv4);
-    GET_FEATURE(ARM_FEATURE_ARM_DIV, ARM_HWCAP_ARM_IDIVA);
-    GET_FEATURE(ARM_FEATURE_THUMB_DIV, ARM_HWCAP_ARM_IDIVT);
+    GET_FEATURE_ID(arm_div, ARM_HWCAP_ARM_IDIVA);
+    GET_FEATURE_ID(thumb_div, ARM_HWCAP_ARM_IDIVT);
     /* All QEMU's VFPv3 CPUs have 32 registers, see VFP_DREG in translate.c.
      * Note that the ARM_HWCAP_ARM_VFPv3D16 bit is always the inverse of
      * ARM_HWCAP_ARM_VFPD32 (and so always clear for QEMU); it is unrelated
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
          * Presence of EL2 itself is ARM_FEATURE_EL2, and of the
          * Security Extensions is ARM_FEATURE_EL3.
          */
-        set_feature(env, ARM_FEATURE_ARM_DIV);
+        assert(cpu_isar_feature(arm_div, cpu));
         set_feature(env, ARM_FEATURE_LPAE);
         set_feature(env, ARM_FEATURE_V7);
     }
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
     if (arm_feature(env, ARM_FEATURE_V5)) {
         set_feature(env, ARM_FEATURE_V4T);
     }
-    if (arm_feature(env, ARM_FEATURE_M)) {
-        set_feature(env, ARM_FEATURE_THUMB_DIV);
-    }
-    if (arm_feature(env, ARM_FEATURE_ARM_DIV)) {
-        set_feature(env, ARM_FEATURE_THUMB_DIV);
-    }
     if (arm_feature(env, ARM_FEATURE_VFP4)) {
         set_feature(env, ARM_FEATURE_VFP3);
         set_feature(env, ARM_FEATURE_VFP_FP16);
@@ -XXX,XX +XXX,XX @@ static void cortex_r5_initfn(Object *obj)
     ARMCPU *cpu = ARM_CPU(obj);
 
     set_feature(&cpu->env, ARM_FEATURE_V7);
-    set_feature(&cpu->env, ARM_FEATURE_THUMB_DIV);
-    set_feature(&cpu->env, ARM_FEATURE_ARM_DIV);
     set_feature(&cpu->env, ARM_FEATURE_V7MP);
     set_feature(&cpu->env, ARM_FEATURE_PMSA);
     cpu->midr = 0x411fc153; /* r1p3 */
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
                     case 1:
                     case 3:
                         /* SDIV, UDIV */
-                        if (!arm_dc_feature(s, ARM_FEATURE_ARM_DIV)) {
+                        if (!dc_isar_feature(arm_div, s)) {
                             goto illegal_op;
                         }
                         if (((insn >> 5) & 7) || (rd != 15)) {
@@ -XXX,XX +XXX,XX @@ static void disas_thumb2_insn(DisasContext *s, uint32_t insn)
             tmp2 = load_reg(s, rm);
             if ((op & 0x50) == 0x10) {
                 /* sdiv, udiv */
-                if (!arm_dc_feature(s, ARM_FEATURE_THUMB_DIV)) {
+                if (!dc_isar_feature(thumb_div, s)) {
                     goto illegal_op;
                 }
                 if (op & 0x20)
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Having V6 alone imply jazelle was wrong for cortex-m0.
Change to an assertion for V6 & !M.

This was harmless, because the only place we tested ARM_FEATURE_JAZELLE
was for 'bxj' in disas_arm(), which is unreachable for M-profile cores.

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-6-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h       |  6 +++++-
 target/arm/cpu.c       | 17 ++++++++++++++---
 target/arm/translate.c |  2 +-
 3 files changed, 20 insertions(+), 5 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-7-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h     | 6 +++++-
 linux-user/elfload.c | 2 +-
 target/arm/cpu.c     | 4 ----
 target/arm/helper.c  | 2 +-
 target/arm/machine.c | 3 +--
 5 files changed, 8 insertions(+), 9 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ enum arm_features {
     ARM_FEATURE_NEON,
     ARM_FEATURE_M, /* Microcontroller profile.  */
     ARM_FEATURE_OMAPCP, /* OMAP specific CP15 ops handling.  */
-    ARM_FEATURE_THUMB2EE,
     ARM_FEATURE_V7MP,    /* v7 Multiprocessing Extensions */
     ARM_FEATURE_V7VE, /* v7 Virtualization Extensions (non-EL2 parts) */
     ARM_FEATURE_V4T,
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_jazelle(const ARMISARegisters *id)
     return FIELD_EX32(id->id_isar1, ID_ISAR1, JAZELLE) != 0;
 }
 
+static inline bool isar_feature_t32ee(const ARMISARegisters *id)
+{
+    return FIELD_EX32(id->id_isar3, ID_ISAR3, T32EE) != 0;
+}
+
 static inline bool isar_feature_aa32_aes(const ARMISARegisters *id)
 {
     return FIELD_EX32(id->id_isar5, ID_ISAR5, AES) != 0;
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     GET_FEATURE(ARM_FEATURE_V5, ARM_HWCAP_ARM_EDSP);
     GET_FEATURE(ARM_FEATURE_VFP, ARM_HWCAP_ARM_VFP);
     GET_FEATURE(ARM_FEATURE_IWMMXT, ARM_HWCAP_ARM_IWMMXT);
-    GET_FEATURE(ARM_FEATURE_THUMB2EE, ARM_HWCAP_ARM_THUMBEE);
+    GET_FEATURE_ID(t32ee, ARM_HWCAP_ARM_THUMBEE);
     GET_FEATURE(ARM_FEATURE_NEON, ARM_HWCAP_ARM_NEON);
     GET_FEATURE(ARM_FEATURE_VFP3, ARM_HWCAP_ARM_VFPv3);
     GET_FEATURE(ARM_FEATURE_V6K, ARM_HWCAP_ARM_TLS);
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_V7);
     set_feature(&cpu->env, ARM_FEATURE_VFP3);
     set_feature(&cpu->env, ARM_FEATURE_NEON);
-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     cpu->midr = 0x410fc080;
@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_VFP3);
     set_feature(&cpu->env, ARM_FEATURE_VFP_FP16);
     set_feature(&cpu->env, ARM_FEATURE_NEON);
-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
     set_feature(&cpu->env, ARM_FEATURE_EL3);
     /* Note that A9 supports the MP extensions even for
      * A9UP and single-core A9MP (which are both different
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_V7VE);
     set_feature(&cpu->env, ARM_FEATURE_VFP4);
     set_feature(&cpu->env, ARM_FEATURE_NEON);
-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
     set_feature(&cpu->env, ARM_FEATURE_V7VE);
     set_feature(&cpu->env, ARM_FEATURE_VFP4);
     set_feature(&cpu->env, ARM_FEATURE_NEON);
-    set_feature(&cpu->env, ARM_FEATURE_THUMB2EE);
     set_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER);
     set_feature(&cpu->env, ARM_FEATURE_DUMMY_C15_REGS);
     set_feature(&cpu->env, ARM_FEATURE_CBAR_RO);
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
         define_arm_cp_regs(cpu, vmsa_pmsa_cp_reginfo);
         define_arm_cp_regs(cpu, vmsa_cp_reginfo);
     }
-    if (arm_feature(env, ARM_FEATURE_THUMB2EE)) {
+    if (cpu_isar_feature(t32ee, cpu)) {
         define_arm_cp_regs(cpu, t2ee_cp_reginfo);
     }
     if (arm_feature(env, ARM_FEATURE_GENERIC_TIMER)) {
diff --git a/target/arm/machine.c b/target/arm/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/machine.c
+++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_m = {
 static bool thumb2ee_needed(void *opaque)
 {
     ARMCPU *cpu = opaque;
-    CPUARMState *env = &cpu->env;
 
-    return arm_feature(env, ARM_FEATURE_THUMB2EE);
+    return cpu_isar_feature(t32ee, cpu);
 }
 
 static const VMStateDescription vmstate_thumb2ee = {
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-8-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h            | 16 +++++++++++++++-
 linux-user/aarch64/signal.c |  4 ++--
 linux-user/elfload.c        |  2 +-
 linux-user/syscall.c        | 10 ++++++----
 target/arm/cpu64.c          |  5 ++++-
 target/arm/helper.c         |  9 ++++++---
 target/arm/machine.c        |  3 +--
 target/arm/translate-a64.c  |  4 ++--
 8 files changed, 37 insertions(+), 16 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(ID_AA64ISAR1, FRINTTS, 32, 4)
 FIELD(ID_AA64ISAR1, SB, 36, 4)
 FIELD(ID_AA64ISAR1, SPECRES, 40, 4)
 
+FIELD(ID_AA64PFR0, EL0, 0, 4)
+FIELD(ID_AA64PFR0, EL1, 4, 4)
+FIELD(ID_AA64PFR0, EL2, 8, 4)
+FIELD(ID_AA64PFR0, EL3, 12, 4)
+FIELD(ID_AA64PFR0, FP, 16, 4)
+FIELD(ID_AA64PFR0, ADVSIMD, 20, 4)
+FIELD(ID_AA64PFR0, GIC, 24, 4)
+FIELD(ID_AA64PFR0, RAS, 28, 4)
+FIELD(ID_AA64PFR0, SVE, 32, 4)
+
 QEMU_BUILD_BUG_ON(ARRAY_SIZE(((ARMCPU *)0)->ccsidr) <= R_V7M_CSSELR_INDEX_MASK);
 
 /* If adding a feature bit which corresponds to a Linux ELF
@@ -XXX,XX +XXX,XX @@ enum arm_features {
     ARM_FEATURE_PMU, /* has PMU support */
     ARM_FEATURE_VBAR, /* has cp15 VBAR */
     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
-    ARM_FEATURE_SVE, /* has Scalable Vector Extension */
     ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
     ARM_FEATURE_M_MAIN, /* M profile Main Extension */
 };
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
 }
 
+static inline bool isar_feature_aa64_sve(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, SVE) != 0;
+}
+
 /*
  * Forward to the above feature tests given an ARMCPU pointer.
  */
diff --git a/linux-user/aarch64/signal.c b/linux-user/aarch64/signal.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/aarch64/signal.c
+++ b/linux-user/aarch64/signal.c
@@ -XXX,XX +XXX,XX @@ static int target_restore_sigframe(CPUARMState *env,
             break;
 
         case TARGET_SVE_MAGIC:
-            if (arm_feature(env, ARM_FEATURE_SVE)) {
+            if (cpu_isar_feature(aa64_sve, arm_env_get_cpu(env))) {
                 vq = (env->vfp.zcr_el[1] & 0xf) + 1;
                 sve_size = QEMU_ALIGN_UP(TARGET_SVE_SIG_CONTEXT_SIZE(vq), 16);
                 if (!sve && size == sve_size) {
@@ -XXX,XX +XXX,XX @@ static void target_setup_frame(int usig, struct target_sigaction *ka,
                                       &layout);
 
     /* SVE state needs saving only if it exists.  */
-    if (arm_feature(env, ARM_FEATURE_SVE)) {
+    if (cpu_isar_feature(aa64_sve, arm_env_get_cpu(env))) {
         vq = (env->vfp.zcr_el[1] & 0xf) + 1;
         sve_size = QEMU_ALIGN_UP(TARGET_SVE_SIG_CONTEXT_SIZE(vq), 16);
         sve_ofs = alloc_sigframe_space(sve_size, &layout);
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     GET_FEATURE_ID(aa64_rdm, ARM_HWCAP_A64_ASIMDRDM);
     GET_FEATURE_ID(aa64_dp, ARM_HWCAP_A64_ASIMDDP);
     GET_FEATURE_ID(aa64_fcma, ARM_HWCAP_A64_FCMA);
-    GET_FEATURE(ARM_FEATURE_SVE, ARM_HWCAP_A64_SVE);
+    GET_FEATURE_ID(aa64_sve, ARM_HWCAP_A64_SVE);
 
 #undef GET_FEATURE
 #undef GET_FEATURE_ID
diff --git a/linux-user/syscall.c b/linux-user/syscall.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/syscall.c
+++ b/linux-user/syscall.c
@@ -XXX,XX +XXX,XX @@ static abi_long do_syscall1(void *cpu_env, int num, abi_long arg1,
              * even though the current architectural maximum is VQ=16.
              */
             ret = -TARGET_EINVAL;
-            if (arm_feature(cpu_env, ARM_FEATURE_SVE)
+            if (cpu_isar_feature(aa64_sve, arm_env_get_cpu(cpu_env))
                 && arg2 >= 0 && arg2 <= 512 * 16 && !(arg2 & 15)) {
                 CPUARMState *env = cpu_env;
                 ARMCPU *cpu = arm_env_get_cpu(env);
@@ -XXX,XX +XXX,XX @@ static abi_long do_syscall1(void *cpu_env, int num, abi_long arg1,
             return ret;
         case TARGET_PR_SVE_GET_VL:
             ret = -TARGET_EINVAL;
-            if (arm_feature(cpu_env, ARM_FEATURE_SVE)) {
-                CPUARMState *env = cpu_env;
-                ret = ((env->vfp.zcr_el[1] & 0xf) + 1) * 16;
+            {
+                ARMCPU *cpu = arm_env_get_cpu(cpu_env);
+                if (cpu_isar_feature(aa64_sve, cpu)) {
+                    ret = ((cpu->env.vfp.zcr_el[1] & 0xf) + 1) * 16;
+                }
             }
             return ret;
 #endif /* AARCH64 */
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
         t = FIELD_DP64(t, ID_AA64ISAR1, FCMA, 1);
         cpu->isar.id_aa64isar1 = t;
 
+        t = cpu->isar.id_aa64pfr0;
+        t = FIELD_DP64(t, ID_AA64PFR0, SVE, 1);
+        cpu->isar.id_aa64pfr0 = t;
+
         /* Replicate the same data to the 32-bit id registers.  */
         u = cpu->isar.id_isar5;
         u = FIELD_DP32(u, ID_ISAR5, AES, 2); /* AES + PMULL */
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          * present in either.
          */
         set_feature(&cpu->env, ARM_FEATURE_V8_FP16);
-        set_feature(&cpu->env, ARM_FEATURE_SVE);
         /* For usermode -cpu max we can use a larger and more efficient DCZ
          * blocksize since we don't have to follow what the hardware does.
          */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
         define_one_arm_cp_reg(cpu, &sctlr);
     }
 
-    if (arm_feature(env, ARM_FEATURE_SVE)) {
+    if (cpu_isar_feature(aa64_sve, cpu)) {
         define_one_arm_cp_reg(cpu, &zcr_el1_reginfo);
         if (arm_feature(env, ARM_FEATURE_EL2)) {
             define_one_arm_cp_reg(cpu, &zcr_el2_reginfo);
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
     uint32_t flags;
 
     if (is_a64(env)) {
+        ARMCPU *cpu = arm_env_get_cpu(env);
+
         *pc = env->pc;
         flags = ARM_TBFLAG_AARCH64_STATE_MASK;
         /* Get control bits for tagged addresses */
         flags |= (arm_regime_tbi0(env, mmu_idx) << ARM_TBFLAG_TBI0_SHIFT);
         flags |= (arm_regime_tbi1(env, mmu_idx) << ARM_TBFLAG_TBI1_SHIFT);
 
-        if (arm_feature(env, ARM_FEATURE_SVE)) {
+        if (cpu_isar_feature(aa64_sve, cpu)) {
             int sve_el = sve_exception_el(env, current_el);
             uint32_t zcr_len;
 
@@ -XXX,XX +XXX,XX @@ void aarch64_sve_narrow_vq(CPUARMState *env, unsigned vq)
 void aarch64_sve_change_el(CPUARMState *env, int old_el,
                            int new_el, bool el0_a64)
 {
+    ARMCPU *cpu = arm_env_get_cpu(env);
     int old_len, new_len;
     bool old_a64, new_a64;
 
     /* Nothing to do if no SVE.  */
-    if (!arm_feature(env, ARM_FEATURE_SVE)) {
+    if (!cpu_isar_feature(aa64_sve, cpu)) {
         return;
     }
 
diff --git a/target/arm/machine.c b/target/arm/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/machine.c
+++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_iwmmxt = {
 static bool sve_needed(void *opaque)
 {
     ARMCPU *cpu = opaque;
-    CPUARMState *env = &cpu->env;
 
-    return arm_feature(env, ARM_FEATURE_SVE);
+    return cpu_isar_feature(aa64_sve, cpu);
 }
 
 /* The first two words of each Zreg is stored in VFP state.  */
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ void aarch64_cpu_dump_state(CPUState *cs, FILE *f,
     cpu_fprintf(f, "     FPCR=%08x FPSR=%08x\n",
                 vfp_get_fpcr(env), vfp_get_fpsr(env));
 
-    if (arm_feature(env, ARM_FEATURE_SVE) && sve_exception_el(env, el) == 0) {
+    if (cpu_isar_feature(aa64_sve, cpu) && sve_exception_el(env, el) == 0) {
         int j, zcr_len = sve_zcr_len_for_el(env, el);
 
         for (i = 0; i <= FFR_PRED_NUM; i++) {
@@ -XXX,XX +XXX,XX @@ static void disas_a64_insn(CPUARMState *env, DisasContext *s)
         unallocated_encoding(s);
         break;
     case 0x2:
-        if (!arm_dc_feature(s, ARM_FEATURE_SVE) || !disas_sve(s, insn)) {
+        if (!dc_isar_feature(aa64_sve, s) || !disas_sve(s, insn)) {
             unallocated_encoding(s);
         }
         break;
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181016223115.24100-9-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           | 17 +++++++++++++++-
 linux-user/elfload.c       |  6 +-----
 target/arm/cpu64.c         | 16 ++++++++-------
 target/arm/helper.c        |  2 +-
 target/arm/translate-a64.c | 40 +++++++++++++++++++-------------------
 target/arm/translate.c     |  6 +++---
 6 files changed, 50 insertions(+), 37 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ enum arm_features {
     ARM_FEATURE_PMU, /* has PMU support */
     ARM_FEATURE_VBAR, /* has cp15 VBAR */
     ARM_FEATURE_M_SECURITY, /* M profile Security Extension */
-    ARM_FEATURE_V8_FP16, /* implements v8.2 half-precision float */
     ARM_FEATURE_M_MAIN, /* M profile Main Extension */
 };
 
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa32_dp(const ARMISARegisters *id)
     return FIELD_EX32(id->id_isar6, ID_ISAR6, DP) != 0;
 }
 
+static inline bool isar_feature_aa32_fp16_arith(const ARMISARegisters *id)
+{
+    /*
+     * This is a placeholder for use by VCMA until the rest of
+     * the ARMv8.2-FP16 extension is implemented for aa32 mode.
+     * At which point we can properly set and check MVFR1.FPHP.
+     */
+    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, FP) == 1;
+}
+
 /*
  * 64-bit feature tests via id registers.
  */
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
 }
 
+static inline bool isar_feature_aa64_fp16(const ARMISARegisters *id)
+{
+    /* We always set the AdvSIMD and FP fields identically wrt FP16.  */
+    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, FP) == 1;
+}
+
 static inline bool isar_feature_aa64_sve(const ARMISARegisters *id)
 {
     return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, SVE) != 0;
diff --git a/linux-user/elfload.c b/linux-user/elfload.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/elfload.c
+++ b/linux-user/elfload.c
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     hwcaps |= ARM_HWCAP_A64_ASIMD;
 
     /* probe for the extra features */
-#define GET_FEATURE(feat, hwcap) \
-    do { if (arm_feature(&cpu->env, feat)) { hwcaps |= hwcap; } } while (0)
 #define GET_FEATURE_ID(feat, hwcap) \
     do { if (cpu_isar_feature(feat, cpu)) { hwcaps |= hwcap; } } while (0)
 
@@ -XXX,XX +XXX,XX @@ static uint32_t get_elf_hwcap(void)
     GET_FEATURE_ID(aa64_sha3, ARM_HWCAP_A64_SHA3);
     GET_FEATURE_ID(aa64_sm3, ARM_HWCAP_A64_SM3);
     GET_FEATURE_ID(aa64_sm4, ARM_HWCAP_A64_SM4);
-    GET_FEATURE(ARM_FEATURE_V8_FP16,
-                ARM_HWCAP_A64_FPHP | ARM_HWCAP_A64_ASIMDHP);
+    GET_FEATURE_ID(aa64_fp16, ARM_HWCAP_A64_FPHP | ARM_HWCAP_A64_ASIMDHP);
     GET_FEATURE_ID(aa64_atomics, ARM_HWCAP_A64_ATOMICS);
     GET_FEATURE_ID(aa64_rdm, ARM_HWCAP_A64_ASIMDRDM);
     GET_FEATURE_ID(aa64_dp, ARM_HWCAP_A64_ASIMDDP);
     GET_FEATURE_ID(aa64_fcma, ARM_HWCAP_A64_FCMA);
     GET_FEATURE_ID(aa64_sve, ARM_HWCAP_A64_SVE);
 
-#undef GET_FEATURE
 #undef GET_FEATURE_ID
 
     return hwcaps;
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
 
         t = cpu->isar.id_aa64pfr0;
         t = FIELD_DP64(t, ID_AA64PFR0, SVE, 1);
+        t = FIELD_DP64(t, ID_AA64PFR0, FP, 1);
+        t = FIELD_DP64(t, ID_AA64PFR0, ADVSIMD, 1);
         cpu->isar.id_aa64pfr0 = t;
 
         /* Replicate the same data to the 32-bit id registers.  */
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
         u = FIELD_DP32(u, ID_ISAR6, DP, 1);
         cpu->isar.id_isar6 = u;
 
-#ifdef CONFIG_USER_ONLY
-        /* We don't set these in system emulation mode for the moment,
-         * since we don't correctly set the ID registers to advertise them,
-         * and in some cases they're only available in AArch64 and not AArch32,
-         * whereas the architecture requires them to be present in both if
-         * present in either.
+        /*
+         * FIXME: We do not yet support ARMv8.2-fp16 for AArch32 yet,
+         * so do not set MVFR1.FPHP.  Strictly speaking this is not legal,
+         * but it is also not legal to enable SVE without support for FP16,
+         * and enabling SVE in system mode is more useful in the short term.
          */
-        set_feature(&cpu->env, ARM_FEATURE_V8_FP16);
+
+#ifdef CONFIG_USER_ONLY
         /* For usermode -cpu max we can use a larger and more efficient DCZ
          * blocksize since we don't have to follow what the hardware does.
          */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(vfp_set_fpscr)(CPUARMState *env, uint32_t val)
     uint32_t changed;
 
     /* When ARMv8.2-FP16 is not supported, FZ16 is RES0.  */
-    if (!arm_feature(env, ARM_FEATURE_V8_FP16)) {
+    if (!cpu_isar_feature(aa64_fp16, arm_env_get_cpu(env))) {
         val &= ~FPCR_FZ16;
     }
 
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_fp_compare(DisasContext *s, uint32_t insn)
         break;
     case 3:
         size = MO_16;
-        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (dc_isar_feature(aa64_fp16, s)) {
             break;
         }
         /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_ccomp(DisasContext *s, uint32_t insn)
         break;
     case 3:
         size = MO_16;
-        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (dc_isar_feature(aa64_fp16, s)) {
             break;
         }
         /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_csel(DisasContext *s, uint32_t insn)
         break;
     case 3:
         sz = MO_16;
-        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (dc_isar_feature(aa64_fp16, s)) {
             break;
         }
         /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
             handle_fp_1src_double(s, opcode, rd, rn);
             break;
         case 3:
-            if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+            if (!dc_isar_feature(aa64_fp16, s)) {
                 unallocated_encoding(s);
                 return;
             }
@@ -XXX,XX +XXX,XX @@ static void disas_fp_2src(DisasContext *s, uint32_t insn)
         handle_fp_2src_double(s, opcode, rd, rn, rm);
         break;
     case 3:
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (!dc_isar_feature(aa64_fp16, s)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_fp_3src(DisasContext *s, uint32_t insn)
         handle_fp_3src_double(s, o0, o1, rd, rn, rm, ra);
         break;
     case 3:
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (!dc_isar_feature(aa64_fp16, s)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_fp_imm(DisasContext *s, uint32_t insn)
         break;
     case 3:
         sz = MO_16;
-        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (dc_isar_feature(aa64_fp16, s)) {
             break;
         }
         /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_fixed_conv(DisasContext *s, uint32_t insn)
     case 1: /* float64 */
         break;
     case 3: /* float16 */
-        if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (dc_isar_feature(aa64_fp16, s)) {
             break;
         }
         /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
             break;
         case 0x6: /* 16-bit float, 32-bit int */
         case 0xe: /* 16-bit float, 64-bit int */
-            if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+            if (dc_isar_feature(aa64_fp16, s)) {
                 break;
             }
             /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
         case 1: /* float64 */
             break;
         case 3: /* float16 */
-            if (arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+            if (dc_isar_feature(aa64_fp16, s)) {
                 break;
             }
             /* fallthru */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
          */
         is_min = extract32(size, 1, 1);
         is_fp = true;
-        if (!is_u && arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (!is_u && dc_isar_feature(aa64_fp16, s)) {
             size = 1;
         } else if (!is_u || !is_q || extract32(size, 0, 1)) {
             unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
 
     if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
         /* Check for FMOV (vector, immediate) - half-precision */
-        if (!(arm_dc_feature(s, ARM_FEATURE_V8_FP16) && o2 && cmode == 0xf)) {
+        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
     case 0x2f: /* FMINP */
         /* FP op, size[0] is 32 or 64 bit*/
         if (!u) {
-            if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+            if (!dc_isar_feature(aa64_fp16, s)) {
                 unallocated_encoding(s);
                 return;
             } else {
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_intfp_conv(DisasContext *s, bool is_scalar,
         size = MO_32;
     } else if (immh & 2) {
         size = MO_16;
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (!dc_isar_feature(aa64_fp16, s)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
         size = MO_32;
     } else if (immh & 0x2) {
         size = MO_16;
-        if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+        if (!dc_isar_feature(aa64_fp16, s)) {
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
         return;
     }
 
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+    if (!dc_isar_feature(aa64_fp16, s)) {
         unallocated_encoding(s);
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     TCGv_ptr fpst;
     bool pairwise = false;
 
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+    if (!dc_isar_feature(aa64_fp16, s)) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
     case 0x1c: /* FCADD, #90 */
     case 0x1e: /* FCADD, #270 */
         if (size == 0
-            || (size == 1 && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))
+            || (size == 1 && !dc_isar_feature(aa64_fp16, s))
             || (size == 3 && !is_q)) {
             unallocated_encoding(s);
             return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
     bool need_fpst = true;
     int rmode;
 
-    if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+    if (!dc_isar_feature(aa64_fp16, s)) {
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         }
         break;
     }
-    if (is_fp16 && !arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+    if (is_fp16 && !dc_isar_feature(aa64_fp16, s)) {
         unallocated_encoding(s);
         return;
     }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
         int size = extract32(insn, 20, 1);
         data = extract32(insn, 23, 2); /* rot */
         if (!dc_isar_feature(aa32_vcma, s)
-            || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
+            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
             return 1;
         }
         fn_gvec_ptr = size ? gen_helper_gvec_fcmlas : gen_helper_gvec_fcmlah;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
         int size = extract32(insn, 20, 1);
         data = extract32(insn, 24, 1); /* rot */
         if (!dc_isar_feature(aa32_vcma, s)
-            || (!size && !arm_dc_feature(s, ARM_FEATURE_V8_FP16))) {
+            || (!size && !dc_isar_feature(aa32_fp16_arith, s))) {
             return 1;
         }
         fn_gvec_ptr = size ? gen_helper_gvec_fcadds : gen_helper_gvec_fcaddh;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
             return 1;
         }
         if (size == 0) {
-            if (!arm_dc_feature(s, ARM_FEATURE_V8_FP16)) {
+            if (!dc_isar_feature(aa32_fp16_arith, s)) {
                 return 1;
             }
             /* For fp16, rm is just Vm, and index is M.  */
-- 
2.19.1

For AArch32, exception return happens through certain kinds
of CPSR write. We don't currently have any CPU_LOG_INT logging
of these events (unlike AArch64, where we log in the ERET
instruction). Add some suitable logging.

This will log exception returns like this:
Exception return from AArch32 hyp to usr PC 0x80100374

paralleling the existing logging in the exception_return
helper for AArch64 exception returns:
Exception return from AArch64 EL2 to AArch64 EL0 PC 0x8003045c
Exception return from AArch64 EL2 to AArch32 EL0 PC 0x8003045c

(Note that an AArch32 exception return can only be
AArch32->AArch32, never to AArch64.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-2-peter.maydell@linaro.org
---
 target/arm/internals.h | 18 ++++++++++++++++++
 target/arm/helper.c    | 10 ++++++++++
 target/arm/translate.c |  7 +------
 3 files changed, 29 insertions(+), 6 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t v7m_sp_limit(CPUARMState *env)
     }
 }
 
+/**
+ * aarch32_mode_name(): Return name of the AArch32 CPU mode
+ * @psr: Program Status Register indicating CPU mode
+ *
+ * Returns, for debug logging purposes, a printable representation
+ * of the AArch32 CPU mode ("svc", "usr", etc) as indicated by
+ * the low bits of the specified PSR.
+ */
+static inline const char *aarch32_mode_name(uint32_t psr)
+{
+    static const char cpu_mode_names[16][4] = {
+        "usr", "fiq", "irq", "svc", "???", "???", "mon", "abt",
+        "???", "???", "hyp", "und", "???", "???", "???", "sys"
+    };
+
+    return cpu_mode_names[psr & 0xf];
+}
+
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpsr_write(CPUARMState *env, uint32_t val, uint32_t mask,
                 mask |= CPSR_IL;
                 val |= CPSR_IL;
             }
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "Illegal AArch32 mode switch attempt from %s to %s\n",
+                          aarch32_mode_name(env->uncached_cpsr),
+                          aarch32_mode_name(val));
         } else {
+            qemu_log_mask(CPU_LOG_INT, "%s %s to %s PC 0x%" PRIx32 "\n",
+                          write_type == CPSRWriteExceptionReturn ?
+                          "Exception return from AArch32" :
+                          "AArch32 mode switch from",
+                          aarch32_mode_name(env->uncached_cpsr),
+                          aarch32_mode_name(val), env->regs[15]);
             switch_mode(env, val & CPSR_M);
         }
     }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb)
     translator_loop(ops, &dc.base, cpu, tb);
 }
 
-static const char *cpu_mode_names[16] = {
-  "usr", "fiq", "irq", "svc", "???", "???", "mon", "abt",
-  "???", "???", "hyp", "und", "???", "???", "???", "sys"
-};
-
 void arm_cpu_dump_state(CPUState *cs, FILE *f, fprintf_function cpu_fprintf,
                         int flags)
 {
@@ -XXX,XX +XXX,XX @@ void arm_cpu_dump_state(CPUState *cs, FILE *f, fprintf_function cpu_fprintf,
                     psr & CPSR_V ? 'V' : '-',
                     psr & CPSR_T ? 'T' : 'A',
                     ns_status,
-                    cpu_mode_names[psr & 0xf], (psr & 0x10) ? 32 : 26);
+                    aarch32_mode_name(psr), (psr & 0x10) ? 32 : 26);
     }
 
     if (flags & CPU_DUMP_FPU) {
-- 
2.19.1

The switch_mode() function is defined in target/arm/helper.c and used
only in that file and nowhere else, so we can make it file-local
rather than global.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-3-peter.maydell@linaro.org
---
 target/arm/internals.h | 1 -
 target/arm/helper.c    | 6 ++++--
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline int bank_number(int mode)
     g_assert_not_reached();
 }
 
-void switch_mode(CPUARMState *, int);
 void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
 void arm_translate_init(void);
 
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void v8m_security_lookup(CPUARMState *env, uint32_t address,
                                 V8M_SAttributes *sattrs);
 #endif
 
+static void switch_mode(CPUARMState *env, int mode);
+
 static int vfp_gdb_get_reg(CPUARMState *env, uint8_t *buf, int reg)
 {
     int nregs;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(v7m_tt)(CPUARMState *env, uint32_t addr, uint32_t op)
     return 0;
 }
 
-void switch_mode(CPUARMState *env, int mode)
+static void switch_mode(CPUARMState *env, int mode)
 {
     ARMCPU *cpu = arm_env_get_cpu(env);
 
@@ -XXX,XX +XXX,XX @@ void aarch64_sync_64_to_32(CPUARMState *env)
 
 #else
 
-void switch_mode(CPUARMState *env, int mode)
+static void switch_mode(CPUARMState *env, int mode)
 {
     int old_mode;
     int i;
-- 
2.19.1

The HCR.FB virtualization configuration register bit requests that
TLB maintenance, branch predictor invalidate-all and icache
invalidate-all operations performed in NS EL1 should be upgraded
from "local CPU only to "broadcast within Inner Shareable domain".
For QEMU we NOP the branch predictor and icache operations, so
we only need to upgrade the TLB invalidates:
 AArch32 TLBIALL, TLBIMVA, TLBIASID, DTLBIALL, DTLBIMVA, DTLBIASID,
         ITLBIALL, ITLBIMVA, ITLBIASID, TLBIMVAA, TLBIMVAL, TLBIMVAAL
 AArch64 TLBI VMALLE1, TLBI VAE1, TLBI ASIDE1, TLBI VAAE1,
         TLBI VALE1, TLBI VAALE1

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-4-peter.maydell@linaro.org
---
 target/arm/helper.c | 191 +++++++++++++++++++++++++++-----------------
 1 file changed, 116 insertions(+), 75 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void contextidr_write(CPUARMState *env, const ARMCPRegInfo *ri,
     raw_write(env, ri, value);
 }
 
-static void tlbiall_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                          uint64_t value)
-{
-    /* Invalidate all (TLBIALL) */
-    ARMCPU *cpu = arm_env_get_cpu(env);
-
-    tlb_flush(CPU(cpu));
-}
-
-static void tlbimva_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                          uint64_t value)
-{
-    /* Invalidate single TLB entry by MVA and ASID (TLBIMVA) */
-    ARMCPU *cpu = arm_env_get_cpu(env);
-
-    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
-}
-
-static void tlbiasid_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                           uint64_t value)
-{
-    /* Invalidate by ASID (TLBIASID) */
-    ARMCPU *cpu = arm_env_get_cpu(env);
-
-    tlb_flush(CPU(cpu));
-}
-
-static void tlbimvaa_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                           uint64_t value)
-{
-    /* Invalidate single entry by MVA, all ASIDs (TLBIMVAA) */
-    ARMCPU *cpu = arm_env_get_cpu(env);
-
-    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
-}
-
 /* IS variants of TLB operations must affect all cores */
 static void tlbiall_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                              uint64_t value)
@@ -XXX,XX +XXX,XX @@ static void tlbimvaa_is_write(CPUARMState *env, const ARMCPRegInfo *ri,
     tlb_flush_page_all_cpus_synced(cs, value & TARGET_PAGE_MASK);
 }
 
+/*
+ * Non-IS variants of TLB operations are upgraded to
+ * IS versions if we are at NS EL1 and HCR_EL2.FB is set to
+ * force broadcast of these operations.
+ */
+static bool tlb_force_broadcast(CPUARMState *env)
+{
+    return (env->cp15.hcr_el2 & HCR_FB) &&
+        arm_current_el(env) == 1 && arm_is_secure_below_el3(env);
+}
+
+static void tlbiall_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                          uint64_t value)
+{
+    /* Invalidate all (TLBIALL) */
+    ARMCPU *cpu = arm_env_get_cpu(env);
+
+    if (tlb_force_broadcast(env)) {
+        tlbiall_is_write(env, NULL, value);
+        return;
+    }
+
+    tlb_flush(CPU(cpu));
+}
+
+static void tlbimva_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                          uint64_t value)
+{
+    /* Invalidate single TLB entry by MVA and ASID (TLBIMVA) */
+    ARMCPU *cpu = arm_env_get_cpu(env);
+
+    if (tlb_force_broadcast(env)) {
+        tlbimva_is_write(env, NULL, value);
+        return;
+    }
+
+    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
+}
+
+static void tlbiasid_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                           uint64_t value)
+{
+    /* Invalidate by ASID (TLBIASID) */
+    ARMCPU *cpu = arm_env_get_cpu(env);
+
+    if (tlb_force_broadcast(env)) {
+        tlbiasid_is_write(env, NULL, value);
+        return;
+    }
+
+    tlb_flush(CPU(cpu));
+}
+
+static void tlbimvaa_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                           uint64_t value)
+{
+    /* Invalidate single entry by MVA, all ASIDs (TLBIMVAA) */
+    ARMCPU *cpu = arm_env_get_cpu(env);
+
+    if (tlb_force_broadcast(env)) {
+        tlbimvaa_is_write(env, NULL, value);
+        return;
+    }
+
+    tlb_flush_page(CPU(cpu), value & TARGET_PAGE_MASK);
+}
+
 static void tlbiall_nsnh_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static CPAccessResult aa64_cacheop_access(CPUARMState *env,
  * Page D4-1736 (DDI0487A.b)
  */
 
-static void tlbi_aa64_vmalle1_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                                    uint64_t value)
-{
-    CPUState *cs = ENV_GET_CPU(env);
-
-    if (arm_is_secure_below_el3(env)) {
-        tlb_flush_by_mmuidx(cs,
-                            ARMMMUIdxBit_S1SE1 |
-                            ARMMMUIdxBit_S1SE0);
-    } else {
-        tlb_flush_by_mmuidx(cs,
-                            ARMMMUIdxBit_S12NSE1 |
-                            ARMMMUIdxBit_S12NSE0);
-    }
-}
-
 static void tlbi_aa64_vmalle1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                       uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_vmalle1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
     }
 }
 
+static void tlbi_aa64_vmalle1_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                                    uint64_t value)
+{
+    CPUState *cs = ENV_GET_CPU(env);
+
+    if (tlb_force_broadcast(env)) {
+        tlbi_aa64_vmalle1_write(env, NULL, value);
+        return;
+    }
+
+    if (arm_is_secure_below_el3(env)) {
+        tlb_flush_by_mmuidx(cs,
+                            ARMMMUIdxBit_S1SE1 |
+                            ARMMMUIdxBit_S1SE0);
+    } else {
+        tlb_flush_by_mmuidx(cs,
+                            ARMMMUIdxBit_S12NSE1 |
+                            ARMMMUIdxBit_S12NSE0);
+    }
+}
+
 static void tlbi_aa64_alle1_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                   uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_alle3is_write(CPUARMState *env, const ARMCPRegInfo *ri,
     tlb_flush_by_mmuidx_all_cpus_synced(cs, ARMMMUIdxBit_S1E3);
 }
 
-static void tlbi_aa64_vae1_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                                 uint64_t value)
-{
-    /* Invalidate by VA, EL1&0 (AArch64 version).
-     * Currently handles all of VAE1, VAAE1, VAALE1 and VALE1,
-     * since we don't support flush-for-specific-ASID-only or
-     * flush-last-level-only.
-     */
-    ARMCPU *cpu = arm_env_get_cpu(env);
-    CPUState *cs = CPU(cpu);
-    uint64_t pageaddr = sextract64(value << 12, 0, 56);
-
-    if (arm_is_secure_below_el3(env)) {
-        tlb_flush_page_by_mmuidx(cs, pageaddr,
-                                 ARMMMUIdxBit_S1SE1 |
-                                 ARMMMUIdxBit_S1SE0);
-    } else {
-        tlb_flush_page_by_mmuidx(cs, pageaddr,
-                                 ARMMMUIdxBit_S12NSE1 |
-                                 ARMMMUIdxBit_S12NSE0);
-    }
-}
-
 static void tlbi_aa64_vae2_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                  uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_vae1is_write(CPUARMState *env, const ARMCPRegInfo *ri,
     }
 }
 
+static void tlbi_aa64_vae1_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                                 uint64_t value)
+{
+    /* Invalidate by VA, EL1&0 (AArch64 version).
+     * Currently handles all of VAE1, VAAE1, VAALE1 and VALE1,
+     * since we don't support flush-for-specific-ASID-only or
+     * flush-last-level-only.
+     */
+    ARMCPU *cpu = arm_env_get_cpu(env);
+    CPUState *cs = CPU(cpu);
+    uint64_t pageaddr = sextract64(value << 12, 0, 56);
+
+    if (tlb_force_broadcast(env)) {
+        tlbi_aa64_vae1is_write(env, NULL, value);
+        return;
+    }
+
+    if (arm_is_secure_below_el3(env)) {
+        tlb_flush_page_by_mmuidx(cs, pageaddr,
+                                 ARMMMUIdxBit_S1SE1 |
+                                 ARMMMUIdxBit_S1SE0);
+    } else {
+        tlb_flush_page_by_mmuidx(cs, pageaddr,
+                                 ARMMMUIdxBit_S12NSE1 |
+                                 ARMMMUIdxBit_S12NSE0);
+    }
+}
+
 static void tlbi_aa64_vae2is_write(CPUARMState *env, const ARMCPRegInfo *ri,
                                    uint64_t value)
 {
-- 
2.19.1

The HCR.DC virtualization configuration register bit has the
following effects:
 * SCTLR.M behaves as if it is 0 for all purposes except
   direct reads of the bit
 * HCR.VM behaves as if it is 1 for all purposes except
   direct reads of the bit
 * the memory type produced by the first stage of the EL1&EL0
   translation regime is Normal Non-Shareable,
   Inner Write-Back Read-Allocate Write-Allocate,
   Outer Write-Back Read-Allocate Write-Allocate.

Implement this behaviour.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-5-peter.maydell@linaro.org
---
 target/arm/helper.c | 23 +++++++++++++++++++++--
 1 file changed, 21 insertions(+), 2 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
          * * The Non-secure TTBCR.EAE bit is set to 1
          * * The implementation includes EL2, and the value of HCR.VM is 1
          *
+         * (Note that HCR.DC makes HCR.VM behave as if it is 1.)
+         *
          * ATS1Hx always uses the 64bit format (not supported yet).
          */
         format64 = arm_s1_regime_using_lpae_format(env, mmu_idx);
 
         if (arm_feature(env, ARM_FEATURE_EL2)) {
             if (mmu_idx == ARMMMUIdx_S12NSE0 || mmu_idx == ARMMMUIdx_S12NSE1) {
-                format64 |= env->cp15.hcr_el2 & HCR_VM;
+                format64 |= env->cp15.hcr_el2 & (HCR_VM | HCR_DC);
             } else {
                 format64 |= arm_current_el(env) == 2;
             }
@@ -XXX,XX +XXX,XX @@ static inline bool regime_translation_disabled(CPUARMState *env,
     }
 
     if (mmu_idx == ARMMMUIdx_S2NS) {
-        return (env->cp15.hcr_el2 & HCR_VM) == 0;
+        /* HCR.DC means HCR.VM behaves as 1 */
+        return (env->cp15.hcr_el2 & (HCR_DC | HCR_VM)) == 0;
     }
 
     if (env->cp15.hcr_el2 & HCR_TGE) {
@@ -XXX,XX +XXX,XX @@ static inline bool regime_translation_disabled(CPUARMState *env,
         }
     }
 
+    if ((env->cp15.hcr_el2 & HCR_DC) &&
+        (mmu_idx == ARMMMUIdx_S1NSE0 || mmu_idx == ARMMMUIdx_S1NSE1)) {
+        /* HCR.DC means SCTLR_EL1.M behaves as 0 */
+        return true;
+    }
+
     return (regime_sctlr(env, mmu_idx) & SCTLR_M) == 0;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr(CPUARMState *env, target_ulong address,
 
             /* Combine the S1 and S2 cache attributes, if needed */
             if (!ret && cacheattrs != NULL) {
+                if (env->cp15.hcr_el2 & HCR_DC) {
+                    /*
+                     * HCR.DC forces the first stage attributes to
+                     *  Normal Non-Shareable,
+                     *  Inner Write-Back Read-Allocate Write-Allocate,
+                     *  Outer Write-Back Read-Allocate Write-Allocate.
+                     */
+                    cacheattrs->attrs = 0xff;
+                    cacheattrs->shareability = 0;
+                }
                 *cacheattrs = combine_cacheattrs(*cacheattrs, cacheattrs2);
             }
 
-- 
2.19.1

The A/I/F bits in ISR_EL1 should track the virtual interrupt
status, not the physical interrupt status, if the associated
HCR_EL2.AMO/IMO/FMO bit is set. Implement this, rather than
always showing the physical interrupt status.

We don't currently implement anything to do with external
aborts, so this applies only to the I and F bits (though it
ought to be possible for the outer guest to present a virtual
external abort to the inner guest, even if QEMU doesn't
emulate physical external aborts, so there is missing
functionality in this area).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-6-peter.maydell@linaro.org
---
 target/arm/helper.c | 22 ++++++++++++++++++----
 1 file changed, 18 insertions(+), 4 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t isr_read(CPUARMState *env, const ARMCPRegInfo *ri)
     CPUState *cs = ENV_GET_CPU(env);
     uint64_t ret = 0;
 
-    if (cs->interrupt_request & CPU_INTERRUPT_HARD) {
-        ret |= CPSR_I;
+    if (arm_hcr_el2_imo(env)) {
+        if (cs->interrupt_request & CPU_INTERRUPT_VIRQ) {
+            ret |= CPSR_I;
+        }
+    } else {
+        if (cs->interrupt_request & CPU_INTERRUPT_HARD) {
+            ret |= CPSR_I;
+        }
     }
-    if (cs->interrupt_request & CPU_INTERRUPT_FIQ) {
-        ret |= CPSR_F;
+
+    if (arm_hcr_el2_fmo(env)) {
+        if (cs->interrupt_request & CPU_INTERRUPT_VFIQ) {
+            ret |= CPSR_F;
+        }
+    } else {
+        if (cs->interrupt_request & CPU_INTERRUPT_FIQ) {
+            ret |= CPSR_F;
+        }
     }
+
     /* External aborts are not possible in QEMU so A bit is always clear */
     return ret;
 }
-- 
2.19.1

The HCR_EL2 VI and VF bits are supposed to track whether there is
a pending virtual IRQ or virtual FIQ. For QEMU we store the
pending VIRQ/VFIQ status in cs->interrupt_request, so this means:
 * if the register is read we must get these bit values from
   cs->interrupt_request
 * if the register is written then we must write the bit
   values back into cs->interrupt_request

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-7-peter.maydell@linaro.org
---
 target/arm/helper.c | 47 +++++++++++++++++++++++++++++++++++++++++----
 1 file changed, 43 insertions(+), 4 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el3_no_el2_v8_cp_reginfo[] = {
 static void hcr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
 {
     ARMCPU *cpu = arm_env_get_cpu(env);
+    CPUState *cs = ENV_GET_CPU(env);
     uint64_t valid_mask = HCR_MASK;
 
     if (arm_feature(env, ARM_FEATURE_EL3)) {
@@ -XXX,XX +XXX,XX @@ static void hcr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
     /* Clear RES0 bits.  */
     value &= valid_mask;
 
+    /*
+     * VI and VF are kept in cs->interrupt_request. Modifying that
+     * requires that we have the iothread lock, which is done by
+     * marking the reginfo structs as ARM_CP_IO.
+     * Note that if a write to HCR pends a VIRQ or VFIQ it is never
+     * possible for it to be taken immediately, because VIRQ and
+     * VFIQ are masked unless running at EL0 or EL1, and HCR
+     * can only be written at EL2.
+     */
+    g_assert(qemu_mutex_iothread_locked());
+    if (value & HCR_VI) {
+        cs->interrupt_request |= CPU_INTERRUPT_VIRQ;
+    } else {
+        cs->interrupt_request &= ~CPU_INTERRUPT_VIRQ;
+    }
+    if (value & HCR_VF) {
+        cs->interrupt_request |= CPU_INTERRUPT_VFIQ;
+    } else {
+        cs->interrupt_request &= ~CPU_INTERRUPT_VFIQ;
+    }
+    value &= ~(HCR_VI | HCR_VF);
+
     /* These bits change the MMU setup:
      * HCR_VM enables stage 2 translation
      * HCR_PTW forbids certain page-table setups
@@ -XXX,XX +XXX,XX @@ static void hcr_writelow(CPUARMState *env, const ARMCPRegInfo *ri,
     hcr_write(env, NULL, value);
 }
 
+static uint64_t hcr_read(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    /* The VI and VF bits live in cs->interrupt_request */
+    uint64_t ret = env->cp15.hcr_el2 & ~(HCR_VI | HCR_VF);
+    CPUState *cs = ENV_GET_CPU(env);
+
+    if (cs->interrupt_request & CPU_INTERRUPT_VIRQ) {
+        ret |= HCR_VI;
+    }
+    if (cs->interrupt_request & CPU_INTERRUPT_VFIQ) {
+        ret |= HCR_VF;
+    }
+    return ret;
+}
+
 static const ARMCPRegInfo el2_cp_reginfo[] = {
     { .name = "HCR_EL2", .state = ARM_CP_STATE_AA64,
+      .type = ARM_CP_IO,
       .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 0,
       .access = PL2_RW, .fieldoffset = offsetof(CPUARMState, cp15.hcr_el2),
-      .writefn = hcr_write },
+      .writefn = hcr_write, .readfn = hcr_read },
     { .name = "HCR", .state = ARM_CP_STATE_AA32,
-      .type = ARM_CP_ALIAS,
+      .type = ARM_CP_ALIAS | ARM_CP_IO,
       .cp = 15, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 0,
       .access = PL2_RW, .fieldoffset = offsetof(CPUARMState, cp15.hcr_el2),
-      .writefn = hcr_writelow },
+      .writefn = hcr_writelow, .readfn = hcr_read },
     { .name = "ELR_EL2", .state = ARM_CP_STATE_AA64,
       .type = ARM_CP_ALIAS,
       .opc0 = 3, .opc1 = 4, .crn = 4, .crm = 0, .opc2 = 1,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el2_cp_reginfo[] = {
 
 static const ARMCPRegInfo el2_v8_cp_reginfo[] = {
     { .name = "HCR2", .state = ARM_CP_STATE_AA32,
-      .type = ARM_CP_ALIAS,
+      .type = ARM_CP_ALIAS | ARM_CP_IO,
       .cp = 15, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 4,
       .access = PL2_RW,
       .fieldoffset = offsetofhigh32(CPUARMState, cp15.hcr_el2),
-- 
2.19.1

If the HCR_EL2 PTW virtualizaiton configuration register bit
is set, then this means that a stage 2 Permission fault must
be generated if a stage 1 translation table access is made
to an address that is mapped as Device memory in stage 2.
Implement this.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-8-peter.maydell@linaro.org
---
 target/arm/helper.c | 21 ++++++++++++++++++++-
 1 file changed, 20 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
         hwaddr s2pa;
         int s2prot;
         int ret;
+        ARMCacheAttrs cacheattrs = {};
+        ARMCacheAttrs *pcacheattrs = NULL;
+
+        if (env->cp15.hcr_el2 & HCR_PTW) {
+            /*
+             * PTW means we must fault if this S1 walk touches S2 Device
+             * memory; otherwise we don't care about the attributes and can
+             * save the S2 translation the effort of computing them.
+             */
+            pcacheattrs = &cacheattrs;
+        }
 
         ret = get_phys_addr_lpae(env, addr, 0, ARMMMUIdx_S2NS, &s2pa,
-                                 &txattrs, &s2prot, &s2size, fi, NULL);
+                                 &txattrs, &s2prot, &s2size, fi, pcacheattrs);
         if (ret) {
             assert(fi->type != ARMFault_None);
             fi->s2addr = addr;
@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
             fi->s1ptw = true;
             return ~0;
         }
+        if (pcacheattrs && (pcacheattrs->attrs & 0xf0) == 0) {
+            /* Access was to Device memory: generate Permission fault */
+            fi->type = ARMFault_Permission;
+            fi->s2addr = addr;
+            fi->stage2 = true;
+            fi->s1ptw = true;
+            return ~0;
+        }
         addr = s2pa;
     }
     return addr;
-- 
2.19.1

Create and use a utility function to extract the EC field
from a syndrome, rather than open-coding the shift.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-9-peter.maydell@linaro.org
---
 target/arm/internals.h | 5 +++++
 target/arm/helper.c    | 4 ++--
 target/arm/kvm64.c     | 2 +-
 target/arm/op_helper.c | 2 +-
 4 files changed, 9 insertions(+), 4 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ enum arm_exception_class {
 #define ARM_EL_IL (1 << ARM_EL_IL_SHIFT)
 #define ARM_EL_ISV (1 << ARM_EL_ISV_SHIFT)
 
+static inline uint32_t syn_get_ec(uint32_t syn)
+{
+    return syn >> ARM_EL_EC_SHIFT;
+}
+
 /* Utility functions for constructing various kinds of syndrome value.
  * Note that in general we follow the AArch64 syndrome values; in a
  * few cases the value in HSR for exceptions taken to AArch32 Hyp
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch32(CPUState *cs)
     uint32_t moe;
 
     /* If this is a debug exception we must update the DBGDSCR.MOE bits */
-    switch (env->exception.syndrome >> ARM_EL_EC_SHIFT) {
+    switch (syn_get_ec(env->exception.syndrome)) {
     case EC_BREAKPOINT:
     case EC_BREAKPOINT_SAME_EL:
         moe = 1;
@@ -XXX,XX +XXX,XX @@ void arm_cpu_do_interrupt(CPUState *cs)
     if (qemu_loglevel_mask(CPU_LOG_INT)
         && !excp_is_internal(cs->exception_index)) {
         qemu_log_mask(CPU_LOG_INT, "...with ESR 0x%x/0x%" PRIx32 "\n",
-                      env->exception.syndrome >> ARM_EL_EC_SHIFT,
+                      syn_get_ec(env->exception.syndrome),
                       env->exception.syndrome);
     }
 
diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ int kvm_arch_remove_sw_breakpoint(CPUState *cs, struct kvm_sw_breakpoint *bp)
 
 bool kvm_arm_handle_debug(CPUState *cs, struct kvm_debug_exit_arch *debug_exit)
 {
-    int hsr_ec = debug_exit->hsr >> ARM_EL_EC_SHIFT;
+    int hsr_ec = syn_get_ec(debug_exit->hsr);
     ARMCPU *cpu = ARM_CPU(cs);
     CPUClass *cc = CPU_GET_CLASS(cs);
     CPUARMState *env = &cpu->env;
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void raise_exception(CPUARMState *env, uint32_t excp,
          * (see DDI0478C.a D1.10.4)
          */
         target_el = 2;
-        if (syndrome >> ARM_EL_EC_SHIFT == EC_ADVSIMDFPACCESSTRAP) {
+        if (syn_get_ec(syndrome) == EC_ADVSIMDFPACCESSTRAP) {
             syndrome = syn_uncategorized();
         }
     }
-- 
2.19.1

For the v7 version of the Arm architecture, the IL bit in
syndrome register values where the field is not valid was
defined to be UNK/SBZP. In v8 this is RES1, which is what
QEMU currently implements. Handle the desired v7 behaviour
by squashing the IL bit for the affected cases:
 * EC == EC_UNCATEGORIZED
 * prefetch aborts
 * data aborts where ISV is 0

(The fourth case listed in the v8 Arm ARM DDI 0487C.a in
section G7.2.70, "illegal state exception", can't happen
on a v7 CPU.)

This deals with a corner case noted in a comment.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-10-peter.maydell@linaro.org
---
 target/arm/internals.h |  7 ++-----
 target/arm/helper.c    | 13 +++++++++++++
 2 files changed, 15 insertions(+), 5 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_get_ec(uint32_t syn)
 /* Utility functions for constructing various kinds of syndrome value.
  * Note that in general we follow the AArch64 syndrome values; in a
  * few cases the value in HSR for exceptions taken to AArch32 Hyp
- * mode differs slightly, so if we ever implemented Hyp mode then the
- * syndrome value would need some massaging on exception entry.
- * (One example of this is that AArch64 defaults to IL bit set for
- * exceptions which don't specifically indicate information about the
- * trapping instruction, whereas AArch32 defaults to IL bit clear.)
+ * mode differs slightly, and we fix this up when populating HSR in
+ * arm_cpu_do_interrupt_aarch32_hyp().
  */
 static inline uint32_t syn_uncategorized(void)
 {
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch32_hyp(CPUState *cs)
     }
 
     if (cs->exception_index != EXCP_IRQ && cs->exception_index != EXCP_FIQ) {
+        if (!arm_feature(env, ARM_FEATURE_V8)) {
+            /*
+             * QEMU syndrome values are v8-style. v7 has the IL bit
+             * UNK/SBZP for "field not valid" cases, where v8 uses RES1.
+             * If this is a v7 CPU, squash the IL bit in those cases.
+             */
+            if (cs->exception_index == EXCP_PREFETCH_ABORT ||
+                (cs->exception_index == EXCP_DATA_ABORT &&
+                 !(env->exception.syndrome & ARM_EL_ISV)) ||
+                syn_get_ec(env->exception.syndrome) == EC_UNCATEGORIZED) {
+                env->exception.syndrome &= ~ARM_EL_IL;
+            }
+        }
         env->cp15.esr_el[2] = env->exception.syndrome;
     }
 
-- 
2.19.1

For traps of FP/SIMD instructions to AArch32 Hyp mode, the syndrome
provided in HSR has more information than is reported to AArch64.
Specifically, there are extra fields TA and coproc which indicate
whether the trapped instruction was FP or SIMD. Add this extra
information to the syndromes we construct, and mask it out when
taking the exception to AArch64.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181012144235.19646-11-peter.maydell@linaro.org
---
 target/arm/internals.h | 14 +++++++++++++-
 target/arm/helper.c    |  9 +++++++++
 target/arm/translate.c |  8 ++++----
 3 files changed, 26 insertions(+), 5 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_get_ec(uint32_t syn)
  * few cases the value in HSR for exceptions taken to AArch32 Hyp
  * mode differs slightly, and we fix this up when populating HSR in
  * arm_cpu_do_interrupt_aarch32_hyp().
+ * The exception is FP/SIMD access traps -- these report extra information
+ * when taking an exception to AArch32. For those we include the extra coproc
+ * and TA fields, and mask them out when taking the exception to AArch64.
  */
 static inline uint32_t syn_uncategorized(void)
 {
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_cp15_rrt_trap(int cv, int cond, int opc1, int crm,
 
 static inline uint32_t syn_fp_access_trap(int cv, int cond, bool is_16bit)
 {
+    /* AArch32 FP trap or any AArch64 FP/SIMD trap: TA == 0 coproc == 0xa */
     return (EC_ADVSIMDFPACCESSTRAP << ARM_EL_EC_SHIFT)
         | (is_16bit ? 0 : ARM_EL_IL)
-        | (cv << 24) | (cond << 20);
+        | (cv << 24) | (cond << 20) | 0xa;
+}
+
+static inline uint32_t syn_simd_access_trap(int cv, int cond, bool is_16bit)
+{
+    /* AArch32 SIMD trap: TA == 1 coproc == 0 */
+    return (EC_ADVSIMDFPACCESSTRAP << ARM_EL_EC_SHIFT)
+        | (is_16bit ? 0 : ARM_EL_IL)
+        | (cv << 24) | (cond << 20) | (1 << 5);
 }
 
 static inline uint32_t syn_sve_access_trap(void)
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_do_interrupt_aarch64(CPUState *cs)
     case EXCP_HVC:
     case EXCP_HYP_TRAP:
     case EXCP_SMC:
+        if (syn_get_ec(env->exception.syndrome) == EC_ADVSIMDFPACCESSTRAP) {
+            /*
+             * QEMU internal FP/SIMD syndromes from AArch32 include the
+             * TA and coproc fields which are only exposed if the exception
+             * is taken to AArch32 Hyp mode. Mask them out to get a valid
+             * AArch64 format syndrome.
+             */
+            env->exception.syndrome &= ~MAKE_64BIT_MASK(0, 20);
+        }
         env->cp15.esr_el[new_el] = env->exception.syndrome;
         break;
     case EXCP_IRQ:
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
      */
     if (s->fp_excp_el) {
         gen_exception_insn(s, 4, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
         return 0;
     }
 
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      */
     if (s->fp_excp_el) {
         gen_exception_insn(s, 4, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
         return 0;
     }
 
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_3same_ext(DisasContext *s, uint32_t insn)
 
     if (s->fp_excp_el) {
         gen_exception_insn(s, 4, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
         return 0;
     }
     if (!s->vfp_enabled) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_insn_2reg_scalar_ext(DisasContext *s, uint32_t insn)
 
     if (s->fp_excp_el) {
         gen_exception_insn(s, 4, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+                           syn_simd_access_trap(1, 0xe, false), s->fp_excp_el);
         return 0;
     }
     if (!s->vfp_enabled) {
-- 
2.19.1

From: Stewart Hildebrand <Stewart.Hildebrand@dornerworks.com>

"The Image must be placed text_offset bytes from a 2MB aligned base
address anywhere in usable system RAM and called there."

For the virt board, we write our startup bootloader at the very
bottom of RAM, so that bit can't be used for the image. To avoid
overlap in case the image requests to be loaded at an offset
smaller than our bootloader, we increment the load offset to the
next 2MB.

This fixes a boot failure for Xen AArch64.

Signed-off-by: Stewart Hildebrand <stewart.hildebrand@dornerworks.com>
Tested-by: Andre Przywara <andre.przywara@arm.com>
Message-id: b8a89518794b4436af0c151ed10de4fa@dornerworks.com
[PMM: Rephrased a comment a bit]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/boot.c | 18 ++++++++++++++++++
 1 file changed, 18 insertions(+)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/config-file.h"
 #include "qemu/option.h"
 #include "exec/address-spaces.h"
+#include "qemu/units.h"
 
 /* Kernel boot protocol is specified in the kernel docs
  * Documentation/arm/Booting and Documentation/arm64/booting.txt
@@ -XXX,XX +XXX,XX @@
 #define ARM64_TEXT_OFFSET_OFFSET    8
 #define ARM64_MAGIC_OFFSET          56
 
+#define BOOTLOADER_MAX_SIZE         (4 * KiB)
+
 AddressSpace *arm_boot_address_space(ARMCPU *cpu,
                                      const struct arm_boot_info *info)
 {
@@ -XXX,XX +XXX,XX @@ static void write_bootloader(const char *name, hwaddr addr,
         code[i] = tswap32(insn);
     }
 
+    assert((len * sizeof(uint32_t)) < BOOTLOADER_MAX_SIZE);
+
     rom_add_blob_fixed_as(name, code, len * sizeof(uint32_t), addr, as);
 
     g_free(code);
@@ -XXX,XX +XXX,XX @@ static uint64_t load_aarch64_image(const char *filename, hwaddr mem_base,
         memcpy(&hdrvals, buffer + ARM64_TEXT_OFFSET_OFFSET, sizeof(hdrvals));
         if (hdrvals[1] != 0) {
             kernel_load_offset = le64_to_cpu(hdrvals[0]);
+
+            /*
+             * We write our startup "bootloader" at the very bottom of RAM,
+             * so that bit can't be used for the image. Luckily the Image
+             * format specification is that the image requests only an offset
+             * from a 2MB boundary, not an absolute load address. So if the
+             * image requests an offset that might mean it overlaps with the
+             * bootloader, we can just load it starting at 2MB+offset rather
+             * than 0MB + offset.
+             */
+            if (kernel_load_offset < BOOTLOADER_MAX_SIZE) {
+                kernel_load_offset += 2 * MiB;
+            }
         }
     }
 
-- 
2.19.1

From: Richard Henderson <rth@twiddle.net>

This can reduce the number of opcodes required for certain
complex forms of load-multiple (e.g. ld4.16b).

Signed-off-by: Richard Henderson <rth@twiddle.net>
Message-id: 20181011205206.3552-2-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
     bool is_store = !extract32(insn, 22, 1);
     bool is_postidx = extract32(insn, 23, 1);
     bool is_q = extract32(insn, 30, 1);
-    TCGv_i64 tcg_addr, tcg_rn;
+    TCGv_i64 tcg_addr, tcg_rn, tcg_ebytes;
 
     int ebytes = 1 << size;
     int elements = (is_q ? 128 : 64) / (8 << size);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
     tcg_rn = cpu_reg_sp(s, rn);
     tcg_addr = tcg_temp_new_i64();
     tcg_gen_mov_i64(tcg_addr, tcg_rn);
+    tcg_ebytes = tcg_const_i64(ebytes);
 
     for (r = 0; r < rpt; r++) {
         int e;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
                         clear_vec_high(s, is_q, tt);
                     }
                 }
-                tcg_gen_addi_i64(tcg_addr, tcg_addr, ebytes);
+                tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
                 tt = (tt + 1) % 32;
             }
         }
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
         }
     }
+    tcg_temp_free_i64(tcg_ebytes);
     tcg_temp_free_i64(tcg_addr);
 }
 
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
     bool replicate = false;
     int index = is_q << 3 | S << 2 | size;
     int ebytes, xs;
-    TCGv_i64 tcg_addr, tcg_rn;
+    TCGv_i64 tcg_addr, tcg_rn, tcg_ebytes;
 
     switch (scale) {
     case 3:
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
     tcg_rn = cpu_reg_sp(s, rn);
     tcg_addr = tcg_temp_new_i64();
     tcg_gen_mov_i64(tcg_addr, tcg_rn);
+    tcg_ebytes = tcg_const_i64(ebytes);
 
     for (xs = 0; xs < selem; xs++) {
         if (replicate) {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
                 do_vec_st(s, rt, index, tcg_addr, scale);
             }
         }
-        tcg_gen_addi_i64(tcg_addr, tcg_addr, ebytes);
+        tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
         rt = (rt + 1) % 32;
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
         }
     }
+    tcg_temp_free_i64(tcg_ebytes);
     tcg_temp_free_i64(tcg_addr);
 }
 
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

This is done generically in translator_loop.

Reported-by: Laurent Desnogues <laurent.desnogues@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20181011205206.3552-3-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 1 -
 target/arm/translate.c     | 1 -
 2 files changed, 2 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
 
 static void aarch64_tr_tb_start(DisasContextBase *db, CPUState *cpu)
 {
-    tcg_clear_temp_count();
 }
 
 static void aarch64_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_start(DisasContextBase *dcbase, CPUState *cpu)
         tcg_gen_movi_i32(tmp, 0);
         store_cpu_field(tmp, condexec_bits);
     }
-    tcg_clear_temp_count();
 }
 
 static void arm_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-4-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 28 +++-------------------------
 1 file changed, 3 insertions(+), 25 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
     for (xs = 0; xs < selem; xs++) {
         if (replicate) {
             /* Load and replicate to all elements */
-            uint64_t mulconst;
             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 
             tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr,
                                 get_mem_index(s), s->be_data + scale);
-            switch (scale) {
-            case 0:
-                mulconst = 0x0101010101010101ULL;
-                break;
-            case 1:
-                mulconst = 0x0001000100010001ULL;
-                break;
-            case 2:
-                mulconst = 0x0000000100000001ULL;
-                break;
-            case 3:
-                mulconst = 0;
-                break;
-            default:
-                g_assert_not_reached();
-            }
-            if (mulconst) {
-                tcg_gen_muli_i64(tcg_tmp, tcg_tmp, mulconst);
-            }
-            write_vec_element(s, tcg_tmp, rt, 0, MO_64);
-            if (is_q) {
-                write_vec_element(s, tcg_tmp, rt, 1, MO_64);
-            }
+            tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
+                                 (is_q + 1) * 8, vec_full_reg_size(s),
+                                 tcg_tmp);
             tcg_temp_free_i64(tcg_tmp);
-            clear_vec_high(s, is_q, rt);
         } else {
             /* Load/store one element per register */
             if (is_load) {
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

For a sequence of loads or stores from a single register,
little-endian operations can be promoted to an 8-byte op.
This can reduce the number of operations by a factor of 8.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-5-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 66 +++++++++++++++++++++++---------------
 1 file changed, 40 insertions(+), 26 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
 
 /* Store from vector register to memory */
 static void do_vec_st(DisasContext *s, int srcidx, int element,
-                      TCGv_i64 tcg_addr, int size)
+                      TCGv_i64 tcg_addr, int size, TCGMemOp endian)
 {
-    TCGMemOp memop = s->be_data + size;
     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 
     read_vec_element(s, tcg_tmp, srcidx, element, size);
-    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), memop);
+    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
 
     tcg_temp_free_i64(tcg_tmp);
 }
 
 /* Load from memory to vector register */
 static void do_vec_ld(DisasContext *s, int destidx, int element,
-                      TCGv_i64 tcg_addr, int size)
+                      TCGv_i64 tcg_addr, int size, TCGMemOp endian)
 {
-    TCGMemOp memop = s->be_data + size;
     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 
-    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), memop);
+    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
     write_vec_element(s, tcg_tmp, destidx, element, size);
 
     tcg_temp_free_i64(tcg_tmp);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
     bool is_postidx = extract32(insn, 23, 1);
     bool is_q = extract32(insn, 30, 1);
     TCGv_i64 tcg_addr, tcg_rn, tcg_ebytes;
+    TCGMemOp endian = s->be_data;
 
-    int ebytes = 1 << size;
-    int elements = (is_q ? 128 : 64) / (8 << size);
+    int ebytes;   /* bytes per element */
+    int elements; /* elements per vector */
     int rpt;    /* num iterations */
     int selem;  /* structure elements */
     int r;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
         gen_check_sp_alignment(s);
     }
 
+    /* For our purposes, bytes are always little-endian.  */
+    if (size == 0) {
+        endian = MO_LE;
+    }
+
+    /* Consecutive little-endian elements from a single register
+     * can be promoted to a larger little-endian operation.
+     */
+    if (selem == 1 && endian == MO_LE) {
+        size = 3;
+    }
+    ebytes = 1 << size;
+    elements = (is_q ? 16 : 8) / ebytes;
+
     tcg_rn = cpu_reg_sp(s, rn);
     tcg_addr = tcg_temp_new_i64();
     tcg_gen_mov_i64(tcg_addr, tcg_rn);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
     for (r = 0; r < rpt; r++) {
         int e;
         for (e = 0; e < elements; e++) {
-            int tt = (rt + r) % 32;
             int xs;
             for (xs = 0; xs < selem; xs++) {
+                int tt = (rt + r + xs) % 32;
                 if (is_store) {
-                    do_vec_st(s, tt, e, tcg_addr, size);
+                    do_vec_st(s, tt, e, tcg_addr, size, endian);
                 } else {
-                    do_vec_ld(s, tt, e, tcg_addr, size);
-
-                    /* For non-quad operations, setting a slice of the low
-                     * 64 bits of the register clears the high 64 bits (in
-                     * the ARM ARM pseudocode this is implicit in the fact
-                     * that 'rval' is a 64 bit wide variable).
-                     * For quad operations, we might still need to zero the
-                     * high bits of SVE.  We optimize by noticing that we only
-                     * need to do this the first time we touch a register.
-                     */
-                    if (e == 0 && (r == 0 || xs == selem - 1)) {
-                        clear_vec_high(s, is_q, tt);
-                    }
+                    do_vec_ld(s, tt, e, tcg_addr, size, endian);
                 }
                 tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
-                tt = (tt + 1) % 32;
             }
         }
     }
 
+    if (!is_store) {
+        /* For non-quad operations, setting a slice of the low
+         * 64 bits of the register clears the high 64 bits (in
+         * the ARM ARM pseudocode this is implicit in the fact
+         * that 'rval' is a 64 bit wide variable).
+         * For quad operations, we might still need to zero the
+         * high bits of SVE.
+         */
+        for (r = 0; r < rpt * selem; r++) {
+            int tt = (rt + r) % 32;
+            clear_vec_high(s, is_q, tt);
+        }
+    }
+
     if (is_postidx) {
         int rm = extract32(insn, 16, 5);
         if (rm == 31) {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
         } else {
             /* Load/store one element per register */
             if (is_load) {
-                do_vec_ld(s, rt, index, tcg_addr, scale);
+                do_vec_ld(s, rt, index, tcg_addr, scale, s->be_data);
             } else {
-                do_vec_st(s, rt, index, tcg_addr, scale);
+                do_vec_st(s, rt, index, tcg_addr, scale, s->be_data);
             }
         }
         tcg_gen_add_i64(tcg_addr, tcg_addr, tcg_ebytes);
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20181011205206.3552-6-richard.henderson@linaro.org
[PMM: drop change to now-deleted cpu_mode_names array]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 cpu_F0d, cpu_F1d;
 
 #include "exec/gen-icount.h"
 
-static const char *regnames[] =
+static const char * const regnames[] =
     { "r0", "r1", "r2", "r3", "r4", "r5", "r6", "r7",
       "r8", "r9", "r10", "r11", "r12", "r13", "r14", "pc" };
 
@@ -XXX,XX +XXX,XX @@ static struct {
     int nregs;
     int interleave;
     int spacing;
-} neon_ls_element_type[11] = {
+} const neon_ls_element_type[11] = {
     {4, 4, 1},
     {4, 4, 2},
     {4, 1, 1},
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Also introduces neon_element_offset to find the env offset
of a specific element within a neon register.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-7-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 63 ++++++++++++++++++++++++------------------
 1 file changed, 36 insertions(+), 27 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ neon_reg_offset (int reg, int n)
     return vfp_reg_offset(0, sreg);
 }
 
+/* Return the offset of a 2**SIZE piece of a NEON register, at index ELE,
+ * where 0 is the least significant end of the register.
+ */
+static inline long
+neon_element_offset(int reg, int element, TCGMemOp size)
+{
+    int element_size = 1 << size;
+    int ofs = element * element_size;
+#ifdef HOST_WORDS_BIGENDIAN
+    /* Calculate the offset assuming fully little-endian,
+     * then XOR to account for the order of the 8-byte units.
+     */
+    if (element_size < 8) {
+        ofs ^= 8 - element_size;
+    }
+#endif
+    return neon_reg_offset(reg, 0) + ofs;
+}
+
 static TCGv_i32 neon_load_reg(int reg, int pass)
 {
     TCGv_i32 tmp = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static int disas_vfp_insn(DisasContext *s, uint32_t insn)
                     tmp = load_reg(s, rd);
                     if (insn & (1 << 23)) {
                         /* VDUP */
-                        if (size == 0) {
-                            gen_neon_dup_u8(tmp, 0);
-                        } else if (size == 1) {
-                            gen_neon_dup_low16(tmp);
-                        }
-                        for (n = 0; n <= pass * 2; n++) {
-                            tmp2 = tcg_temp_new_i32();
-                            tcg_gen_mov_i32(tmp2, tmp);
-                            neon_store_reg(rn, n, tmp2);
-                        }
-                        neon_store_reg(rn, n, tmp);
+                        int vec_size = pass ? 16 : 8;
+                        tcg_gen_gvec_dup_i32(size, neon_reg_offset(rn, 0),
+                                             vec_size, vec_size, tmp);
+                        tcg_temp_free_i32(tmp);
                     } else {
                         /* VMOV */
                         switch (size) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 tcg_temp_free_i32(tmp);
             } else if ((insn & 0x380) == 0) {
                 /* VDUP */
+                int element;
+                TCGMemOp size;
+
                 if ((insn & (7 << 16)) == 0 || (q && (rd & 1))) {
                     return 1;
                 }
-                if (insn & (1 << 19)) {
-                    tmp = neon_load_reg(rm, 1);
-                } else {
-                    tmp = neon_load_reg(rm, 0);
-                }
                 if (insn & (1 << 16)) {
-                    gen_neon_dup_u8(tmp, ((insn >> 17) & 3) * 8);
+                    size = MO_8;
+                    element = (insn >> 17) & 7;
                 } else if (insn & (1 << 17)) {
-                    if ((insn >> 18) & 1)
-                        gen_neon_dup_high16(tmp);
-                    else
-                        gen_neon_dup_low16(tmp);
+                    size = MO_16;
+                    element = (insn >> 18) & 3;
+                } else {
+                    size = MO_32;
+                    element = (insn >> 19) & 1;
                 }
-                for (pass = 0; pass < (q ? 4 : 2); pass++) {
-                    tmp2 = tcg_temp_new_i32();
-                    tcg_gen_mov_i32(tmp2, tmp);
-                    neon_store_reg(rd, pass, tmp2);
-                }
-                tcg_temp_free_i32(tmp);
+                tcg_gen_gvec_dup_mem(size, neon_reg_offset(rd, 0),
+                                     neon_element_offset(rm, element, size),
+                                     q ? 16 : 8, q ? 16 : 8);
             } else {
                 return 1;
             }
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-8-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 67 ++++++++++++++++++++++++------------------
 1 file changed, 39 insertions(+), 28 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 return 1;
             }
         } else { /* (insn & 0x00380080) == 0 */
-            int invert;
+            int invert, reg_ofs, vec_size;
+
             if (q && (rd & 1)) {
                 return 1;
             }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 break;
             case 14:
                 imm |= (imm << 8) | (imm << 16) | (imm << 24);
-                if (invert)
+                if (invert) {
                     imm = ~imm;
+                }
                 break;
             case 15:
                 if (invert) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                       | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
                 break;
             }
-            if (invert)
+            if (invert) {
                 imm = ~imm;
+            }
 
-            for (pass = 0; pass < (q ? 4 : 2); pass++) {
-                if (op & 1 && op < 12) {
-                    tmp = neon_load_reg(rd, pass);
-                    if (invert) {
-                        /* The immediate value has already been inverted, so
-                           BIC becomes AND.  */
-                        tcg_gen_andi_i32(tmp, tmp, imm);
-                    } else {
-                        tcg_gen_ori_i32(tmp, tmp, imm);
-                    }
+            reg_ofs = neon_reg_offset(rd, 0);
+            vec_size = q ? 16 : 8;
+
+            if (op & 1 && op < 12) {
+                if (invert) {
+                    /* The immediate value has already been inverted,
+                     * so BIC becomes AND.
+                     */
+                    tcg_gen_gvec_andi(MO_32, reg_ofs, reg_ofs, imm,
+                                      vec_size, vec_size);
                 } else {
-                    /* VMOV, VMVN.  */
-                    tmp = tcg_temp_new_i32();
-                    if (op == 14 && invert) {
-                        int n;
-                        uint32_t val;
-                        val = 0;
-                        for (n = 0; n < 4; n++) {
-                            if (imm & (1 << (n + (pass & 1) * 4)))
-                                val |= 0xff << (n * 8);
-                        }
-                        tcg_gen_movi_i32(tmp, val);
-                    } else {
-                        tcg_gen_movi_i32(tmp, imm);
-                    }
+                    tcg_gen_gvec_ori(MO_32, reg_ofs, reg_ofs, imm,
+                                     vec_size, vec_size);
+                }
+            } else {
+                /* VMOV, VMVN.  */
+                if (op == 14 && invert) {
+                    TCGv_i64 t64 = tcg_temp_new_i64();
+
+                    for (pass = 0; pass <= q; ++pass) {
+                        uint64_t val = 0;
+                        int n;
+
+                        for (n = 0; n < 8; n++) {
+                            if (imm & (1 << (n + pass * 8))) {
+                                val |= 0xffull << (n * 8);
+                            }
+                        }
+                        tcg_gen_movi_i64(t64, val);
+                        neon_store_reg64(t64, rd + pass);
+                    }
+                    tcg_temp_free_i64(t64);
+                } else {
+                    tcg_gen_gvec_dup32i(reg_ofs, vec_size, vec_size, imm);
                 }
-                neon_store_reg(rd, pass, tmp);
             }
         }
     } else { /* (insn & 0x00800010 == 0x00800000) */
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Move expanders for VBSL, VBIT, and VBIF from translate-a64.c.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-9-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |   6 ++
 target/arm/translate-a64.c |  61 --------------
 target/arm/translate.c     | 162 +++++++++++++++++++++++++++----------
 3 files changed, 124 insertions(+), 105 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline TCGv_i32 get_ahp_flag(void)
     return ret;
 }
 
+
+/* Vector operations shared between ARM and AArch64.  */
+extern const GVecGen3 bsl_op;
+extern const GVecGen3 bit_op;
+extern const GVecGen3 bif_op;
+
 /*
  * Forward to the isar_feature_* tests given a DisasContext pointer.
  */
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
     }
 }
 
-static void gen_bsl_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
-{
-    tcg_gen_xor_i64(rn, rn, rm);
-    tcg_gen_and_i64(rn, rn, rd);
-    tcg_gen_xor_i64(rd, rm, rn);
-}
-
-static void gen_bit_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
-{
-    tcg_gen_xor_i64(rn, rn, rd);
-    tcg_gen_and_i64(rn, rn, rm);
-    tcg_gen_xor_i64(rd, rd, rn);
-}
-
-static void gen_bif_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
-{
-    tcg_gen_xor_i64(rn, rn, rd);
-    tcg_gen_andc_i64(rn, rn, rm);
-    tcg_gen_xor_i64(rd, rd, rn);
-}
-
-static void gen_bsl_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
-{
-    tcg_gen_xor_vec(vece, rn, rn, rm);
-    tcg_gen_and_vec(vece, rn, rn, rd);
-    tcg_gen_xor_vec(vece, rd, rm, rn);
-}
-
-static void gen_bit_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
-{
-    tcg_gen_xor_vec(vece, rn, rn, rd);
-    tcg_gen_and_vec(vece, rn, rn, rm);
-    tcg_gen_xor_vec(vece, rd, rd, rn);
-}
-
-static void gen_bif_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
-{
-    tcg_gen_xor_vec(vece, rn, rn, rd);
-    tcg_gen_andc_vec(vece, rn, rn, rm);
-    tcg_gen_xor_vec(vece, rd, rd, rn);
-}
-
 /* Logic op (opcode == 3) subgroup of C3.6.16. */
 static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 {
-    static const GVecGen3 bsl_op = {
-        .fni8 = gen_bsl_i64,
-        .fniv = gen_bsl_vec,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-        .load_dest = true
-    };
-    static const GVecGen3 bit_op = {
-        .fni8 = gen_bit_i64,
-        .fniv = gen_bit_vec,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-        .load_dest = true
-    };
-    static const GVecGen3 bif_op = {
-        .fni8 = gen_bif_i64,
-        .fniv = gen_bif_vec,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-        .load_dest = true
-    };
-
     int rd = extract32(insn, 0, 5);
     int rn = extract32(insn, 5, 5);
     int rm = extract32(insn, 16, 5);
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
     return 0;
 }
 
-/* Bitwise select.  dest = c ? t : f.  Clobbers T and F.  */
-static void gen_neon_bsl(TCGv_i32 dest, TCGv_i32 t, TCGv_i32 f, TCGv_i32 c)
-{
-    tcg_gen_and_i32(t, t, c);
-    tcg_gen_andc_i32(f, f, c);
-    tcg_gen_or_i32(dest, t, f);
-}
-
 static inline void gen_neon_narrow(int size, TCGv_i32 dest, TCGv_i64 src)
 {
     switch (size) {
@@ -XXX,XX +XXX,XX @@ static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
     return 1;
 }
 
+/*
+ * Expanders for VBitOps_VBIF, VBIT, VBSL.
+ */
+static void gen_bsl_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
+{
+    tcg_gen_xor_i64(rn, rn, rm);
+    tcg_gen_and_i64(rn, rn, rd);
+    tcg_gen_xor_i64(rd, rm, rn);
+}
+
+static void gen_bit_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
+{
+    tcg_gen_xor_i64(rn, rn, rd);
+    tcg_gen_and_i64(rn, rn, rm);
+    tcg_gen_xor_i64(rd, rd, rn);
+}
+
+static void gen_bif_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
+{
+    tcg_gen_xor_i64(rn, rn, rd);
+    tcg_gen_andc_i64(rn, rn, rm);
+    tcg_gen_xor_i64(rd, rd, rn);
+}
+
+static void gen_bsl_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
+{
+    tcg_gen_xor_vec(vece, rn, rn, rm);
+    tcg_gen_and_vec(vece, rn, rn, rd);
+    tcg_gen_xor_vec(vece, rd, rm, rn);
+}
+
+static void gen_bit_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
+{
+    tcg_gen_xor_vec(vece, rn, rn, rd);
+    tcg_gen_and_vec(vece, rn, rn, rm);
+    tcg_gen_xor_vec(vece, rd, rd, rn);
+}
+
+static void gen_bif_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec rm)
+{
+    tcg_gen_xor_vec(vece, rn, rn, rd);
+    tcg_gen_andc_vec(vece, rn, rn, rm);
+    tcg_gen_xor_vec(vece, rd, rd, rn);
+}
+
+const GVecGen3 bsl_op = {
+    .fni8 = gen_bsl_i64,
+    .fniv = gen_bsl_vec,
+    .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    .load_dest = true
+};
+
+const GVecGen3 bit_op = {
+    .fni8 = gen_bit_i64,
+    .fniv = gen_bit_vec,
+    .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    .load_dest = true
+};
+
+const GVecGen3 bif_op = {
+    .fni8 = gen_bif_i64,
+    .fniv = gen_bif_vec,
+    .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    .load_dest = true
+};
+
+
 /* Translate a NEON data processing instruction.  Return nonzero if the
    instruction is invalid.
    We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
 {
     int op;
     int q;
-    int rd, rn, rm;
+    int rd, rn, rm, rd_ofs, rn_ofs, rm_ofs;
     int size;
     int shift;
     int pass;
     int count;
     int pairwise;
     int u;
+    int vec_size;
     uint32_t imm, mask;
     TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
     TCGv_ptr ptr1, ptr2, ptr3;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     VFP_DREG_N(rn, insn);
     VFP_DREG_M(rm, insn);
     size = (insn >> 20) & 3;
+    vec_size = q ? 16 : 8;
+    rd_ofs = neon_reg_offset(rd, 0);
+    rn_ofs = neon_reg_offset(rn, 0);
+    rm_ofs = neon_reg_offset(rm, 0);
+
     if ((insn & (1 << 23)) == 0) {
         /* Three register same length.  */
         op = ((insn >> 7) & 0x1e) | ((insn >> 4) & 1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                      q, rd, rn, rm);
             }
             return 1;
+
+        case NEON_3R_LOGIC: /* Logic ops.  */
+            switch ((u << 2) | size) {
+            case 0: /* VAND */
+                tcg_gen_gvec_and(0, rd_ofs, rn_ofs, rm_ofs,
+                                 vec_size, vec_size);
+                break;
+            case 1: /* VBIC */
+                tcg_gen_gvec_andc(0, rd_ofs, rn_ofs, rm_ofs,
+                                  vec_size, vec_size);
+                break;
+            case 2:
+                if (rn == rm) {
+                    /* VMOV */
+                    tcg_gen_gvec_mov(0, rd_ofs, rn_ofs, vec_size, vec_size);
+                } else {
+                    /* VORR */
+                    tcg_gen_gvec_or(0, rd_ofs, rn_ofs, rm_ofs,
+                                    vec_size, vec_size);
+                }
+                break;
+            case 3: /* VORN */
+                tcg_gen_gvec_orc(0, rd_ofs, rn_ofs, rm_ofs,
+                                 vec_size, vec_size);
+                break;
+            case 4: /* VEOR */
+                tcg_gen_gvec_xor(0, rd_ofs, rn_ofs, rm_ofs,
+                                 vec_size, vec_size);
+                break;
+            case 5: /* VBSL */
+                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
+                               vec_size, vec_size, &bsl_op);
+                break;
+            case 6: /* VBIT */
+                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
+                               vec_size, vec_size, &bit_op);
+                break;
+            case 7: /* VBIF */
+                tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,
+                               vec_size, vec_size, &bif_op);
+                break;
+            }
+            return 0;
         }
-        if (size == 3 && op != NEON_3R_LOGIC) {
+        if (size == 3) {
             /* 64-bit element instructions. */
             for (pass = 0; pass < (q ? 2 : 1); pass++) {
                 neon_load_reg64(cpu_V0, rn + pass);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VRHADD:
             GEN_NEON_INTEGER_OP(rhadd);
             break;
-        case NEON_3R_LOGIC: /* Logic ops.  */
-            switch ((u << 2) | size) {
-            case 0: /* VAND */
-                tcg_gen_and_i32(tmp, tmp, tmp2);
-                break;
-            case 1: /* BIC */
-                tcg_gen_andc_i32(tmp, tmp, tmp2);
-                break;
-            case 2: /* VORR */
-                tcg_gen_or_i32(tmp, tmp, tmp2);
-                break;
-            case 3: /* VORN */
-                tcg_gen_orc_i32(tmp, tmp, tmp2);
-                break;
-            case 4: /* VEOR */
-                tcg_gen_xor_i32(tmp, tmp, tmp2);
-                break;
-            case 5: /* VBSL */
-                tmp3 = neon_load_reg(rd, pass);
-                gen_neon_bsl(tmp, tmp, tmp2, tmp3);
-                tcg_temp_free_i32(tmp3);
-                break;
-            case 6: /* VBIT */
-                tmp3 = neon_load_reg(rd, pass);
-                gen_neon_bsl(tmp, tmp, tmp3, tmp2);
-                tcg_temp_free_i32(tmp3);
-                break;
-            case 7: /* VBIF */
-                tmp3 = neon_load_reg(rd, pass);
-                gen_neon_bsl(tmp, tmp3, tmp, tmp2);
-                tcg_temp_free_i32(tmp3);
-                break;
-            }
-            break;
         case NEON_3R_VHSUB:
             GEN_NEON_INTEGER_OP(hsub);
             break;
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-10-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 29 ++++++++++-------------------
 1 file changed, 10 insertions(+), 19 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 break;
             }
             return 0;
+
+        case NEON_3R_VADD_VSUB:
+            if (u) {
+                tcg_gen_gvec_sub(size, rd_ofs, rn_ofs, rm_ofs,
+                                 vec_size, vec_size);
+            } else {
+                tcg_gen_gvec_add(size, rd_ofs, rn_ofs, rm_ofs,
+                                 vec_size, vec_size);
+            }
+            return 0;
         }
         if (size == 3) {
             /* 64-bit element instructions. */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                                   cpu_V1, cpu_V0);
                     }
                     break;
-                case NEON_3R_VADD_VSUB:
-                    if (u) {
-                        tcg_gen_sub_i64(CPU_V001);
-                    } else {
-                        tcg_gen_add_i64(CPU_V001);
-                    }
-                    break;
                 default:
                     abort();
                 }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             tmp2 = neon_load_reg(rd, pass);
             gen_neon_add(size, tmp, tmp2);
             break;
-        case NEON_3R_VADD_VSUB:
-            if (!u) { /* VADD */
-                gen_neon_add(size, tmp, tmp2);
-            } else { /* VSUB */
-                switch (size) {
-                case 0: gen_helper_neon_sub_u8(tmp, tmp, tmp2); break;
-                case 1: gen_helper_neon_sub_u16(tmp, tmp, tmp2); break;
-                case 2: tcg_gen_sub_i32(tmp, tmp, tmp2); break;
-                default: abort();
-                }
-            }
-            break;
         case NEON_3R_VTST_VCEQ:
             if (!u) { /* VTST */
                 switch (size) {
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-11-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     tcg_temp_free_ptr(ptr1);
                     tcg_temp_free_ptr(ptr2);
                     break;
+
+                case NEON_2RM_VMVN:
+                    tcg_gen_gvec_not(0, rd_ofs, rm_ofs, vec_size, vec_size);
+                    break;
+                case NEON_2RM_VNEG:
+                    tcg_gen_gvec_neg(size, rd_ofs, rm_ofs, vec_size, vec_size);
+                    break;
+
                 default:
                 elementwise:
                     for (pass = 0; pass < (q ? 4 : 2); pass++) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         case NEON_2RM_VCNT:
                             gen_helper_neon_cnt_u8(tmp, tmp);
                             break;
-                        case NEON_2RM_VMVN:
-                            tcg_gen_not_i32(tmp, tmp);
-                            break;
                         case NEON_2RM_VQABS:
                             switch (size) {
                             case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             default: abort();
                             }
                             break;
-                        case NEON_2RM_VNEG:
-                            tmp2 = tcg_const_i32(0);
-                            gen_neon_rsb(size, tmp, tmp2);
-                            tcg_temp_free_i32(tmp2);
-                            break;
                         case NEON_2RM_VCGT0_F:
                         {
                             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-12-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 31 +++++++++++++++----------------
 1 file changed, 15 insertions(+), 16 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                  vec_size, vec_size);
             }
             return 0;
+
+        case NEON_3R_VMUL: /* VMUL */
+            if (u) {
+                /* Polynomial case allows only P8 and is handled below.  */
+                if (size != 0) {
+                    return 1;
+                }
+            } else {
+                tcg_gen_gvec_mul(size, rd_ofs, rn_ofs, rm_ofs,
+                                 vec_size, vec_size);
+                return 0;
+            }
+            break;
         }
         if (size == 3) {
             /* 64-bit element instructions. */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 return 1;
             }
             break;
-        case NEON_3R_VMUL:
-            if (u && (size != 0)) {
-                /* UNDEF on invalid size for polynomial subcase */
-                return 1;
-            }
-            break;
         case NEON_3R_VFM_VQRDMLSH:
             if (!arm_dc_feature(s, ARM_FEATURE_VFP4)) {
                 return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             }
             break;
         case NEON_3R_VMUL:
-            if (u) { /* polynomial */
-                gen_helper_neon_mul_p8(tmp, tmp, tmp2);
-            } else { /* Integer */
-                switch (size) {
-                case 0: gen_helper_neon_mul_u8(tmp, tmp, tmp2); break;
-                case 1: gen_helper_neon_mul_u16(tmp, tmp, tmp2); break;
-                case 2: tcg_gen_mul_i32(tmp, tmp, tmp2); break;
-                default: abort();
-                }
-            }
+            /* VMUL.P8; other cases already eliminated.  */
+            gen_helper_neon_mul_p8(tmp, tmp, tmp2);
             break;
         case NEON_3R_VPMAX:
             GEN_NEON_INTEGER_OP(pmax);
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-13-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 70 +++++++++++++++++++++++++++++-------------
 1 file changed, 48 insertions(+), 22 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     size--;
             }
             shift = (insn >> 16) & ((1 << (3 + size)) - 1);
-            /* To avoid excessive duplication of ops we implement shift
-               by immediate using the variable shift operations.  */
             if (op < 8) {
                 /* Shift by immediate:
                    VSHR, VSRA, VRSHR, VRSRA, VSRI, VSHL, VQSHL, VQSHLU.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 }
                 /* Right shifts are encoded as N - shift, where N is the
                    element size in bits.  */
-                if (op <= 4)
+                if (op <= 4) {
                     shift = shift - (1 << (size + 3));
+                }
+
+                switch (op) {
+                case 0:  /* VSHR */
+                    /* Right shift comes here negative.  */
+                    shift = -shift;
+                    /* Shifts larger than the element size are architecturally
+                     * valid.  Unsigned results in all zeros; signed results
+                     * in all sign bits.
+                     */
+                    if (!u) {
+                        tcg_gen_gvec_sari(size, rd_ofs, rm_ofs,
+                                          MIN(shift, (8 << size) - 1),
+                                          vec_size, vec_size);
+                    } else if (shift >= 8 << size) {
+                        tcg_gen_gvec_dup8i(rd_ofs, vec_size, vec_size, 0);
+                    } else {
+                        tcg_gen_gvec_shri(size, rd_ofs, rm_ofs, shift,
+                                          vec_size, vec_size);
+                    }
+                    return 0;
+
+                case 5: /* VSHL, VSLI */
+                    if (!u) { /* VSHL */
+                        /* Shifts larger than the element size are
+                         * architecturally valid and results in zero.
+                         */
+                        if (shift >= 8 << size) {
+                            tcg_gen_gvec_dup8i(rd_ofs, vec_size, vec_size, 0);
+                        } else {
+                            tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
+                                              vec_size, vec_size);
+                        }
+                        return 0;
+                    }
+                    break;
+                }
+
                 if (size == 3) {
                     count = q + 1;
                 } else {
                     count = q ? 4: 2;
                 }
-                switch (size) {
-                case 0:
-                    imm = (uint8_t) shift;
-                    imm |= imm << 8;
-                    imm |= imm << 16;
-                    break;
-                case 1:
-                    imm = (uint16_t) shift;
-                    imm |= imm << 16;
-                    break;
-                case 2:
-                case 3:
-                    imm = shift;
-                    break;
-                default:
-                    abort();
-                }
+
+                /* To avoid excessive duplication of ops we implement shift
+                 * by immediate using the variable shift operations.
+                  */
+                imm = dup_const(size, shift);
 
                 for (pass = 0; pass < count; pass++) {
                     if (size == 3) {
                         neon_load_reg64(cpu_V0, rm + pass);
                         tcg_gen_movi_i64(cpu_V1, imm);
                         switch (op) {
-                        case 0:  /* VSHR */
                         case 1:  /* VSRA */
                             if (u)
                                 gen_helper_neon_shl_u64(cpu_V0, cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                                                          cpu_V0, cpu_V1);
                             }
                             break;
+                        default:
+                            g_assert_not_reached();
                         }
                         if (op == 1 || op == 3) {
                             /* Accumulate.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         tmp2 = tcg_temp_new_i32();
                         tcg_gen_movi_i32(tmp2, imm);
                         switch (op) {
-                        case 0:  /* VSHR */
                         case 1:  /* VSRA */
                             GEN_NEON_INTEGER_OP(shl);
                             break;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         case 7: /* VQSHL */
                             GEN_NEON_INTEGER_OP_ENV(qshl);
                             break;
+                        default:
+                            g_assert_not_reached();
                         }
                         tcg_temp_free_i32(tmp2);
 
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Move ssra_op and usra_op expanders from translate-a64.c.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-14-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |   2 +
 target/arm/translate-a64.c | 106 ----------------------------
 target/arm/translate.c     | 139 ++++++++++++++++++++++++++++++++++---
 3 files changed, 130 insertions(+), 117 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Move shi_op and sli_op expanders from translate-a64.c.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-15-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |   2 +
 target/arm/translate-a64.c | 152 +----------------------
 target/arm/translate.c     | 244 ++++++++++++++++++++++++++-----------
 3 files changed, 179 insertions(+), 219 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 bit_op;
 extern const GVecGen3 bif_op;
 extern const GVecGen2i ssra_op[4];
 extern const GVecGen2i usra_op[4];
+extern const GVecGen2i sri_op[4];
+extern const GVecGen2i sli_op[4];
 
 /*
  * Forward to the isar_feature_* tests given a DisasContext pointer.
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
     }
 }
 
-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-    tcg_temp_free_i64(t);
-}
-
-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-    tcg_temp_free_i64(t);
-}
-
-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
-}
-
-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
-}
-
-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    uint64_t mask = (2ull << ((8 << vece) - 1)) - 1;
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_dupi_vec(vece, m, mask ^ (mask >> sh));
-    tcg_gen_shri_vec(vece, t, a, sh);
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-
-    tcg_temp_free_vec(t);
-    tcg_temp_free_vec(m);
-}
-
 /* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
 static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                                  int immh, int immb, int opcode, int rn, int rd)
 {
-    static const GVecGen2i sri_op[4] = {
-        { .fni8 = gen_shr8_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .load_dest = true,
-          .opc = INDEX_op_shri_vec,
-          .vece = MO_8 },
-        { .fni8 = gen_shr16_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .load_dest = true,
-          .opc = INDEX_op_shri_vec,
-          .vece = MO_16 },
-        { .fni4 = gen_shr32_ins_i32,
-          .fniv = gen_shr_ins_vec,
-          .load_dest = true,
-          .opc = INDEX_op_shri_vec,
-          .vece = MO_32 },
-        { .fni8 = gen_shr64_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opc = INDEX_op_shri_vec,
-          .vece = MO_64 },
-    };
-
     int size = 32 - clz32(immh) - 1;
     int immhb = immh << 3 | immb;
     int shift = 2 * (8 << size) - immhb;
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
     clear_vec_high(s, is_q, rd);
 }
 
-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-    tcg_temp_free_i64(t);
-}
-
-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-    tcg_temp_free_i64(t);
-}
-
-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
-}
-
-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
-}
-
-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    uint64_t mask = (1ull << sh) - 1;
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_dupi_vec(vece, m, mask);
-    tcg_gen_shli_vec(vece, t, a, sh);
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-
-    tcg_temp_free_vec(t);
-    tcg_temp_free_vec(m);
-}
-
 /* SHL/SLI - Vector shift left */
 static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
                                  int immh, int immb, int opcode, int rn, int rd)
 {
-    static const GVecGen2i shi_op[4] = {
-        { .fni8 = gen_shl8_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .opc = INDEX_op_shli_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_shl16_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .opc = INDEX_op_shli_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_shl32_ins_i32,
-          .fniv = gen_shl_ins_vec,
-          .opc = INDEX_op_shli_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_shl64_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .opc = INDEX_op_shli_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
     int size = 32 - clz32(immh) - 1;
     int immhb = immh << 3 | immb;
     int shift = immhb - (8 << size);
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
     }
 
     if (insert) {
-        gen_gvec_op2i(s, is_q, rd, rn, shift, &shi_op[size]);
+        gen_gvec_op2i(s, is_q, rd, rn, shift, &sli_op[size]);
     } else {
         gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
     }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ const GVecGen2i usra_op[4] = {
       .vece = MO_64, },
 };
 
+static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+}
+
+static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+}
+
+static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    if (sh == 0) {
+        tcg_gen_mov_vec(d, a);
+    } else {
+        TCGv_vec t = tcg_temp_new_vec_matching(d);
+        TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+        tcg_gen_shri_vec(vece, t, a, sh);
+        tcg_gen_and_vec(vece, d, d, m);
+        tcg_gen_or_vec(vece, d, d, t);
+
+        tcg_temp_free_vec(t);
+        tcg_temp_free_vec(m);
+    }
+}
+
+const GVecGen2i sri_op[4] = {
+    { .fni8 = gen_shr8_ins_i64,
+      .fniv = gen_shr_ins_vec,
+      .load_dest = true,
+      .opc = INDEX_op_shri_vec,
+      .vece = MO_8 },
+    { .fni8 = gen_shr16_ins_i64,
+      .fniv = gen_shr_ins_vec,
+      .load_dest = true,
+      .opc = INDEX_op_shri_vec,
+      .vece = MO_16 },
+    { .fni4 = gen_shr32_ins_i32,
+      .fniv = gen_shr_ins_vec,
+      .load_dest = true,
+      .opc = INDEX_op_shri_vec,
+      .vece = MO_32 },
+    { .fni8 = gen_shr64_ins_i64,
+      .fniv = gen_shr_ins_vec,
+      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+      .load_dest = true,
+      .opc = INDEX_op_shri_vec,
+      .vece = MO_64 },
+};
+
+static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+}
+
+static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+}
+
+static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    if (sh == 0) {
+        tcg_gen_mov_vec(d, a);
+    } else {
+        TCGv_vec t = tcg_temp_new_vec_matching(d);
+        TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+        tcg_gen_shli_vec(vece, t, a, sh);
+        tcg_gen_and_vec(vece, d, d, m);
+        tcg_gen_or_vec(vece, d, d, t);
+
+        tcg_temp_free_vec(t);
+        tcg_temp_free_vec(m);
+    }
+}
+
+const GVecGen2i sli_op[4] = {
+    { .fni8 = gen_shl8_ins_i64,
+      .fniv = gen_shl_ins_vec,
+      .load_dest = true,
+      .opc = INDEX_op_shli_vec,
+      .vece = MO_8 },
+    { .fni8 = gen_shl16_ins_i64,
+      .fniv = gen_shl_ins_vec,
+      .load_dest = true,
+      .opc = INDEX_op_shli_vec,
+      .vece = MO_16 },
+    { .fni4 = gen_shl32_ins_i32,
+      .fniv = gen_shl_ins_vec,
+      .load_dest = true,
+      .opc = INDEX_op_shli_vec,
+      .vece = MO_32 },
+    { .fni8 = gen_shl64_ins_i64,
+      .fniv = gen_shl_ins_vec,
+      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+      .load_dest = true,
+      .opc = INDEX_op_shli_vec,
+      .vece = MO_64 },
+};
+
 /* Translate a NEON data processing instruction.  Return nonzero if the
    instruction is invalid.
    We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     int pairwise;
     int u;
     int vec_size;
-    uint32_t imm, mask;
+    uint32_t imm;
     TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
     TCGv_ptr ptr1, ptr2, ptr3;
     TCGv_i64 tmp64;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     }
                     return 0;
 
+                case 4: /* VSRI */
+                    if (!u) {
+                        return 1;
+                    }
+                    /* Right shift comes here negative.  */
+                    shift = -shift;
+                    /* Shift out of range leaves destination unchanged.  */
+                    if (shift < 8 << size) {
+                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
+                                        shift, &sri_op[size]);
+                    }
+                    return 0;
+
                 case 5: /* VSHL, VSLI */
-                    if (!u) { /* VSHL */
+                    if (u) { /* VSLI */
+                        /* Shift out of range leaves destination unchanged.  */
+                        if (shift < 8 << size) {
+                            tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size,
+                                            vec_size, shift, &sli_op[size]);
+                        }
+                    } else { /* VSHL */
                         /* Shifts larger than the element size are
                          * architecturally valid and results in zero.
                          */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
                                               vec_size, vec_size);
                         }
-                        return 0;
                     }
-                    break;
+                    return 0;
                 }
 
                 if (size == 3) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             else
                                 gen_helper_neon_rshl_s64(cpu_V0, cpu_V0, cpu_V1);
                             break;
-                        case 4: /* VSRI */
-                        case 5: /* VSHL, VSLI */
-                            gen_helper_neon_shl_u64(cpu_V0, cpu_V0, cpu_V1);
-                            break;
                         case 6: /* VQSHLU */
                             gen_helper_neon_qshlu_s64(cpu_V0, cpu_env,
                                                       cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             /* Accumulate.  */
                             neon_load_reg64(cpu_V1, rd + pass);
                             tcg_gen_add_i64(cpu_V0, cpu_V0, cpu_V1);
-                        } else if (op == 4 || (op == 5 && u)) {
-                            /* Insert */
-                            neon_load_reg64(cpu_V1, rd + pass);
-                            uint64_t mask;
-                            if (shift < -63 || shift > 63) {
-                                mask = 0;
-                            } else {
-                                if (op == 4) {
-                                    mask = 0xffffffffffffffffull >> -shift;
-                                } else {
-                                    mask = 0xffffffffffffffffull << shift;
-                                }
-                            }
-                            tcg_gen_andi_i64(cpu_V1, cpu_V1, ~mask);
-                            tcg_gen_or_i64(cpu_V0, cpu_V0, cpu_V1);
                         }
                         neon_store_reg64(cpu_V0, rd + pass);
                     } else { /* size < 3 */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         case 3: /* VRSRA */
                             GEN_NEON_INTEGER_OP(rshl);
                             break;
-                        case 4: /* VSRI */
-                        case 5: /* VSHL, VSLI */
-                            switch (size) {
-                            case 0: gen_helper_neon_shl_u8(tmp, tmp, tmp2); break;
-                            case 1: gen_helper_neon_shl_u16(tmp, tmp, tmp2); break;
-                            case 2: gen_helper_neon_shl_u32(tmp, tmp, tmp2); break;
-                            default: abort();
-                            }
-                            break;
                         case 6: /* VQSHLU */
                             switch (size) {
                             case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             tmp2 = neon_load_reg(rd, pass);
                             gen_neon_add(size, tmp, tmp2);
                             tcg_temp_free_i32(tmp2);
-                        } else if (op == 4 || (op == 5 && u)) {
-                            /* Insert */
-                            switch (size) {
-                            case 0:
-                                if (op == 4)
-                                    mask = 0xff >> -shift;
-                                else
-                                    mask = (uint8_t)(0xff << shift);
-                                mask |= mask << 8;
-                                mask |= mask << 16;
-                                break;
-                            case 1:
-                                if (op == 4)
-                                    mask = 0xffff >> -shift;
-                                else
-                                    mask = (uint16_t)(0xffff << shift);
-                                mask |= mask << 16;
-                                break;
-                            case 2:
-                                if (shift < -31 || shift > 31) {
-                                    mask = 0;
-                                } else {
-                                    if (op == 4)
-                                        mask = 0xffffffffu >> -shift;
-                                    else
-                                        mask = 0xffffffffu << shift;
-                                }
-                                break;
-                            default:
-                                abort();
-                            }
-                            tmp2 = neon_load_reg(rd, pass);
-                            tcg_gen_andi_i32(tmp, tmp, mask);
-                            tcg_gen_andi_i32(tmp2, tmp2, ~mask);
-                            tcg_gen_or_i32(tmp, tmp, tmp2);
-                            tcg_temp_free_i32(tmp2);
                         }
                         neon_store_reg(rd, pass, tmp);
                     }
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Move mla_op and mls_op expanders from translate-a64.c.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-16-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |   2 +
 target/arm/translate-a64.c | 106 -----------------------------
 target/arm/translate.c     | 134 ++++++++++++++++++++++++++++++++-----
 3 files changed, 120 insertions(+), 122 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Move cmtst_op expanders from translate-a64.c.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-17-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |  2 +
 target/arm/translate-a64.c | 38 ------------------
 target/arm/translate.c     | 81 +++++++++++++++++++++++++++-----------
 3 files changed, 60 insertions(+), 61 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-18-richard.henderson@linaro.org
[PMM: added parens in ?: expression]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 81 ++++++++++++++----------------------------
 1 file changed, 26 insertions(+), 55 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_vfp_msr(TCGv_i32 tmp)
     tcg_temp_free_i32(tmp);
 }
 
-static void gen_neon_dup_u8(TCGv_i32 var, int shift)
-{
-    TCGv_i32 tmp = tcg_temp_new_i32();
-    if (shift)
-        tcg_gen_shri_i32(var, var, shift);
-    tcg_gen_ext8u_i32(var, var);
-    tcg_gen_shli_i32(tmp, var, 8);
-    tcg_gen_or_i32(var, var, tmp);
-    tcg_gen_shli_i32(tmp, var, 16);
-    tcg_gen_or_i32(var, var, tmp);
-    tcg_temp_free_i32(tmp);
-}
-
 static void gen_neon_dup_low16(TCGv_i32 var)
 {
     TCGv_i32 tmp = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static void gen_neon_dup_high16(TCGv_i32 var)
     tcg_temp_free_i32(tmp);
 }
 
-static TCGv_i32 gen_load_and_replicate(DisasContext *s, TCGv_i32 addr, int size)
-{
-    /* Load a single Neon element and replicate into a 32 bit TCG reg */
-    TCGv_i32 tmp = tcg_temp_new_i32();
-    switch (size) {
-    case 0:
-        gen_aa32_ld8u(s, tmp, addr, get_mem_index(s));
-        gen_neon_dup_u8(tmp, 0);
-        break;
-    case 1:
-        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-        gen_neon_dup_low16(tmp);
-        break;
-    case 2:
-        gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-        break;
-    default: /* Avoid compiler warnings.  */
-        abort();
-    }
-    return tmp;
-}
-
 static int handle_vsel(uint32_t insn, uint32_t rd, uint32_t rn, uint32_t rm,
                        uint32_t dp)
 {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
     int load;
     int shift;
     int n;
+    int vec_size;
     TCGv_i32 addr;
     TCGv_i32 tmp;
     TCGv_i32 tmp2;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
             }
             addr = tcg_temp_new_i32();
             load_reg_var(s, addr, rn);
-            if (nregs == 1) {
-                /* VLD1 to all lanes: bit 5 indicates how many Dregs to write */
-                tmp = gen_load_and_replicate(s, addr, size);
-                tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 0));
-                tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 1));
-                if (insn & (1 << 5)) {
-                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd + 1, 0));
-                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd + 1, 1));
-                }
-                tcg_temp_free_i32(tmp);
-            } else {
-                /* VLD2/3/4 to all lanes: bit 5 indicates register stride */
-                stride = (insn & (1 << 5)) ? 2 : 1;
-                for (reg = 0; reg < nregs; reg++) {
-                    tmp = gen_load_and_replicate(s, addr, size);
-                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 0));
-                    tcg_gen_st_i32(tmp, cpu_env, neon_reg_offset(rd, 1));
-                    tcg_temp_free_i32(tmp);
-                    tcg_gen_addi_i32(addr, addr, 1 << size);
-                    rd += stride;
+
+            /* VLD1 to all lanes: bit 5 indicates how many Dregs to write.
+             * VLD2/3/4 to all lanes: bit 5 indicates register stride.
+             */
+            stride = (insn & (1 << 5)) ? 2 : 1;
+            vec_size = nregs == 1 ? stride * 8 : 8;
+
+            tmp = tcg_temp_new_i32();
+            for (reg = 0; reg < nregs; reg++) {
+                gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
+                                s->be_data | size);
+                if ((rd & 1) && vec_size == 16) {
+                    /* We cannot write 16 bytes at once because the
+                     * destination is unaligned.
+                     */
+                    tcg_gen_gvec_dup_i32(size, neon_reg_offset(rd, 0),
+                                         8, 8, tmp);
+                    tcg_gen_gvec_mov(0, neon_reg_offset(rd + 1, 0),
+                                     neon_reg_offset(rd, 0), 8, 8);
+                } else {
+                    tcg_gen_gvec_dup_i32(size, neon_reg_offset(rd, 0),
+                                         vec_size, vec_size, tmp);
                 }
+                tcg_gen_addi_i32(addr, addr, 1 << size);
+                rd += stride;
             }
+            tcg_temp_free_i32(tmp);
             tcg_temp_free_i32(addr);
             stride = (1 << size) * nregs;
         } else {
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Instead of shifts and masks, use direct loads and stores from the neon
register file.  Mirror the iteration structure of the ARM pseudocode
more closely.  Correct the parameters of the VLD2 A2 insn.

Note that this includes a bugfix for handling of the insn
"VLD2 (multiple 2-element structures)" -- we were using an
incorrect stride value.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-19-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 170 ++++++++++++++++++-----------------------
 1 file changed, 74 insertions(+), 96 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static TCGv_i32 neon_load_reg(int reg, int pass)
     return tmp;
 }
 
+static void neon_load_element64(TCGv_i64 var, int reg, int ele, TCGMemOp mop)
+{
+    long offset = neon_element_offset(reg, ele, mop & MO_SIZE);
+
+    switch (mop) {
+    case MO_UB:
+        tcg_gen_ld8u_i64(var, cpu_env, offset);
+        break;
+    case MO_UW:
+        tcg_gen_ld16u_i64(var, cpu_env, offset);
+        break;
+    case MO_UL:
+        tcg_gen_ld32u_i64(var, cpu_env, offset);
+        break;
+    case MO_Q:
+        tcg_gen_ld_i64(var, cpu_env, offset);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static void neon_store_reg(int reg, int pass, TCGv_i32 var)
 {
     tcg_gen_st_i32(var, cpu_env, neon_reg_offset(reg, pass));
     tcg_temp_free_i32(var);
 }
 
+static void neon_store_element64(int reg, int ele, TCGMemOp size, TCGv_i64 var)
+{
+    long offset = neon_element_offset(reg, ele, size);
+
+    switch (size) {
+    case MO_8:
+        tcg_gen_st8_i64(var, cpu_env, offset);
+        break;
+    case MO_16:
+        tcg_gen_st16_i64(var, cpu_env, offset);
+        break;
+    case MO_32:
+        tcg_gen_st32_i64(var, cpu_env, offset);
+        break;
+    case MO_64:
+        tcg_gen_st_i64(var, cpu_env, offset);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static inline void neon_load_reg64(TCGv_i64 var, int reg)
 {
     tcg_gen_ld_i64(var, cpu_env, vfp_reg_offset(1, reg));
@@ -XXX,XX +XXX,XX @@ static struct {
     int interleave;
     int spacing;
 } const neon_ls_element_type[11] = {
-    {4, 4, 1},
-    {4, 4, 2},
+    {1, 4, 1},
+    {1, 4, 2},
     {4, 1, 1},
-    {4, 2, 1},
-    {3, 3, 1},
-    {3, 3, 2},
+    {2, 2, 2},
+    {1, 3, 1},
+    {1, 3, 2},
     {3, 1, 1},
     {1, 1, 1},
-    {2, 2, 1},
-    {2, 2, 2},
+    {1, 2, 1},
+    {1, 2, 2},
     {2, 1, 1}
 };
 
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
     int shift;
     int n;
     int vec_size;
+    int mmu_idx;
+    TCGMemOp endian;
     TCGv_i32 addr;
     TCGv_i32 tmp;
     TCGv_i32 tmp2;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
     rn = (insn >> 16) & 0xf;
     rm = insn & 0xf;
     load = (insn & (1 << 21)) != 0;
+    endian = s->be_data;
+    mmu_idx = get_mem_index(s);
     if ((insn & (1 << 23)) == 0) {
         /* Load store all elements.  */
         op = (insn >> 8) & 0xf;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
         nregs = neon_ls_element_type[op].nregs;
         interleave = neon_ls_element_type[op].interleave;
         spacing = neon_ls_element_type[op].spacing;
-        if (size == 3 && (interleave | spacing) != 1)
+        if (size == 3 && (interleave | spacing) != 1) {
             return 1;
+        }
+        tmp64 = tcg_temp_new_i64();
         addr = tcg_temp_new_i32();
+        tmp2 = tcg_const_i32(1 << size);
         load_reg_var(s, addr, rn);
-        stride = (1 << size) * interleave;
         for (reg = 0; reg < nregs; reg++) {
-            if (interleave > 2 || (interleave == 2 && nregs == 2)) {
-                load_reg_var(s, addr, rn);
-                tcg_gen_addi_i32(addr, addr, (1 << size) * reg);
-            } else if (interleave == 2 && nregs == 4 && reg == 2) {
-                load_reg_var(s, addr, rn);
-                tcg_gen_addi_i32(addr, addr, 1 << size);
-            }
-            if (size == 3) {
-                tmp64 = tcg_temp_new_i64();
-                if (load) {
-                    gen_aa32_ld64(s, tmp64, addr, get_mem_index(s));
-                    neon_store_reg64(tmp64, rd);
-                } else {
-                    neon_load_reg64(tmp64, rd);
-                    gen_aa32_st64(s, tmp64, addr, get_mem_index(s));
-                }
-                tcg_temp_free_i64(tmp64);
-                tcg_gen_addi_i32(addr, addr, stride);
-            } else {
-                for (pass = 0; pass < 2; pass++) {
-                    if (size == 2) {
-                        if (load) {
-                            tmp = tcg_temp_new_i32();
-                            gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-                            neon_store_reg(rd, pass, tmp);
-                        } else {
-                            tmp = neon_load_reg(rd, pass);
-                            gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-                            tcg_temp_free_i32(tmp);
-                        }
-                        tcg_gen_addi_i32(addr, addr, stride);
-                    } else if (size == 1) {
-                        if (load) {
-                            tmp = tcg_temp_new_i32();
-                            gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-                            tcg_gen_addi_i32(addr, addr, stride);
-                            tmp2 = tcg_temp_new_i32();
-                            gen_aa32_ld16u(s, tmp2, addr, get_mem_index(s));
-                            tcg_gen_addi_i32(addr, addr, stride);
-                            tcg_gen_shli_i32(tmp2, tmp2, 16);
-                            tcg_gen_or_i32(tmp, tmp, tmp2);
-                            tcg_temp_free_i32(tmp2);
-                            neon_store_reg(rd, pass, tmp);
-                        } else {
-                            tmp = neon_load_reg(rd, pass);
-                            tmp2 = tcg_temp_new_i32();
-                            tcg_gen_shri_i32(tmp2, tmp, 16);
-                            gen_aa32_st16(s, tmp, addr, get_mem_index(s));
-                            tcg_temp_free_i32(tmp);
-                            tcg_gen_addi_i32(addr, addr, stride);
-                            gen_aa32_st16(s, tmp2, addr, get_mem_index(s));
-                            tcg_temp_free_i32(tmp2);
-                            tcg_gen_addi_i32(addr, addr, stride);
-                        }
-                    } else /* size == 0 */ {
-                        if (load) {
-                            tmp2 = NULL;
-                            for (n = 0; n < 4; n++) {
-                                tmp = tcg_temp_new_i32();
-                                gen_aa32_ld8u(s, tmp, addr, get_mem_index(s));
-                                tcg_gen_addi_i32(addr, addr, stride);
-                                if (n == 0) {
-                                    tmp2 = tmp;
-                                } else {
-                                    tcg_gen_shli_i32(tmp, tmp, n * 8);
-                                    tcg_gen_or_i32(tmp2, tmp2, tmp);
-                                    tcg_temp_free_i32(tmp);
-                                }
-                            }
-                            neon_store_reg(rd, pass, tmp2);
-                        } else {
-                            tmp2 = neon_load_reg(rd, pass);
-                            for (n = 0; n < 4; n++) {
-                                tmp = tcg_temp_new_i32();
-                                if (n == 0) {
-                                    tcg_gen_mov_i32(tmp, tmp2);
-                                } else {
-                                    tcg_gen_shri_i32(tmp, tmp2, n * 8);
-                                }
-                                gen_aa32_st8(s, tmp, addr, get_mem_index(s));
-                                tcg_temp_free_i32(tmp);
-                                tcg_gen_addi_i32(addr, addr, stride);
-                            }
-                            tcg_temp_free_i32(tmp2);
-                        }
+            for (n = 0; n < 8 >> size; n++) {
+                int xs;
+                for (xs = 0; xs < interleave; xs++) {
+                    int tt = rd + reg + spacing * xs;
+
+                    if (load) {
+                        gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
+                        neon_store_element64(tt, n, size, tmp64);
+                    } else {
+                        neon_load_element64(tmp64, tt, n, size);
+                        gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
                     }
+                    tcg_gen_add_i32(addr, addr, tmp2);
                 }
             }
-            rd += spacing;
         }
         tcg_temp_free_i32(addr);
-        stride = nregs * 8;
+        tcg_temp_free_i32(tmp2);
+        tcg_temp_free_i64(tmp64);
+        stride = nregs * interleave * 8;
     } else {
         size = (insn >> 10) & 3;
         if (size == 3) {
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

For a sequence of loads or stores from a single register,
little-endian operations can be promoted to an 8-byte op.
This can reduce the number of operations by a factor of 8.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-20-richard.henderson@linaro.org
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_ls_insn(DisasContext *s, uint32_t insn)
         if (size == 3 && (interleave | spacing) != 1) {
             return 1;
         }
+        /* For our purposes, bytes are always little-endian.  */
+        if (size == 0) {
+            endian = MO_LE;
+        }
+        /* Consecutive little-endian elements from a single register
+         * can be promoted to a larger little-endian operation.
+         */
+        if (interleave == 1 && endian == MO_LE) {
+            size = 3;
+        }
         tmp64 = tcg_temp_new_i64();
         addr = tcg_temp_new_i32();
         tmp2 = tcg_const_i32(1 << size);
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Instead of shifts and masks, use direct loads and stores from
the neon register file.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181011205206.3552-21-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 92 +++++++++++++++++++++++-------------------
 1 file changed, 50 insertions(+), 42 deletions(-)

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Announce the availability of the various priority queues.
This fixes an issue where guest kernels would miss to
configure secondary queues due to inproper feature bits.

Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20181017213932.19973-2-edgar.iglesias@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/net/cadence_gem.c | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/hw/net/cadence_gem.c b/hw/net/cadence_gem.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/cadence_gem.c
+++ b/hw/net/cadence_gem.c
@@ -XXX,XX +XXX,XX @@ static void gem_reset(DeviceState *d)
     int i;
     CadenceGEMState *s = CADENCE_GEM(d);
     const uint8_t *a;
+    uint32_t queues_mask = 0;
 
     DB_PRINT("\n");
 
@@ -XXX,XX +XXX,XX @@ static void gem_reset(DeviceState *d)
     s->regs[GEM_DESCONF] = 0x02500111;
     s->regs[GEM_DESCONF2] = 0x2ab13fff;
     s->regs[GEM_DESCONF5] = 0x002f2045;
-    s->regs[GEM_DESCONF6] = 0x00000200;
+    s->regs[GEM_DESCONF6] = 0x0;
+
+    if (s->num_priority_queues > 1) {
+        queues_mask = MAKE_64BIT_MASK(1, s->num_priority_queues - 1);
+        s->regs[GEM_DESCONF6] |= queues_mask;
+    }
 
     /* Set MAC address */
     a = &s->conf.macaddr.a[0];
-- 
2.19.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Announce 64bit addressing support.

Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20181017213932.19973-3-edgar.iglesias@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/net/cadence_gem.c | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/hw/net/cadence_gem.c b/hw/net/cadence_gem.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/cadence_gem.c
+++ b/hw/net/cadence_gem.c
@@ -XXX,XX +XXX,XX @@
 #define GEM_DESCONF4      (0x0000028C/4)
 #define GEM_DESCONF5      (0x00000290/4)
 #define GEM_DESCONF6      (0x00000294/4)
+#define GEM_DESCONF6_64B_MASK (1U << 23)
 #define GEM_DESCONF7      (0x00000298/4)
 
 #define GEM_INT_Q1_STATUS               (0x00000400 / 4)
@@ -XXX,XX +XXX,XX @@ static void gem_reset(DeviceState *d)
     s->regs[GEM_DESCONF] = 0x02500111;
     s->regs[GEM_DESCONF2] = 0x2ab13fff;
     s->regs[GEM_DESCONF5] = 0x002f2045;
-    s->regs[GEM_DESCONF6] = 0x0;
+    s->regs[GEM_DESCONF6] = GEM_DESCONF6_64B_MASK;
 
     if (s->num_priority_queues > 1) {
         queues_mask = MAKE_64BIT_MASK(1, s->num_priority_queues - 1);
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

The EL3 version of this register does not include an ASID,
and so the tlb_flush performed by vmsa_ttbr_write is not needed.

Reviewed-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181019015617.22583-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el3_cp_reginfo[] = {
       .fieldoffset = offsetof(CPUARMState, cp15.mvbar) },
     { .name = "TTBR0_EL3", .state = ARM_CP_STATE_AA64,
       .opc0 = 3, .opc1 = 6, .crn = 2, .crm = 0, .opc2 = 0,
-      .access = PL3_RW, .writefn = vmsa_ttbr_write, .resetvalue = 0,
+      .access = PL3_RW, .resetvalue = 0,
       .fieldoffset = offsetof(CPUARMState, cp15.ttbr0_el[3]) },
     { .name = "TCR_EL3", .state = ARM_CP_STATE_AA64,
       .opc0 = 3, .opc1 = 6, .crn = 2, .crm = 0, .opc2 = 2,
-- 
2.19.1

From: Richard Henderson <richard.henderson@linaro.org>

Since QEMU does not implement ASIDs, changes to the ASID must flush the
tlb.  However, if the ASID does not change there is no reason to flush.

In testing a boot of the Ubuntu installer to the first menu, this reduces
the number of flushes by 30%, or nearly 600k instances.

Reviewed-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Message-id: 20181019015617.22583-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)