Series comparison

-[PULL 0/5] tcg patch queue
+[PULL 0/4] tcg patch queue
-The following changes since commit 40c67636f67c2a89745f2e698522fe917326a952:
+Pretty small still, but there are two patches that ought
 to get backported to stable, so no point in delaying.
-  Merge remote-tracking branch 'remotes/kraxel/tags/usb-20200317-pull-request' into staging (2020-03-17 14:00:56 +0000)
+r~
 The following changes since commit a5ba0a7e4e150d1350a041f0d0ef9ca6c8d7c307:
   Merge tag 'pull-aspeed-20241211' of https://github.com/legoater/qemu into staging (2024-12-11 15:16:47 +0000)
 are available in the Git repository at:
-  https://github.com/rth7680/qemu.git tags/pull-tcg-20200317
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241212
-for you to fetch changes up to 0270bd503e3699b7202200a2d693ad1feb57473f:
+for you to fetch changes up to 7ac87b14a92234b6a89b701b4043ad6cf8bdcccf:
-  tcg: Remove tcg-runtime-gvec.c DO_CMP0 (2020-03-17 08:41:07 -0700)
+  target/sparc: Use memcpy() and remove memcpy32() (2024-12-12 14:28:38 -0600)
 ----------------------------------------------------------------
-Fix tcg/i386 bug vs sari_vec.
+tcg: Reset free_temps before tcg_optimize
-Fix tcg-runtime-gvec.c vs i386 without avx.
+tcg/riscv: Fix StoreStore barrier generation
 include/exec: Introduce fpst alias in helper-head.h.inc
 target/sparc: Use memcpy() and remove memcpy32()
 ----------------------------------------------------------------
-Richard Henderson (5):
+Philippe Mathieu-Daudé (1):
-      tcg/i386: Bound shift count expanding sari_vec
+      target/sparc: Use memcpy() and remove memcpy32()
       tcg: Remove CONFIG_VECTOR16
       tcg: Tidy tcg-runtime-gvec.c types
       tcg: Tidy tcg-runtime-gvec.c DUP*
       tcg: Remove tcg-runtime-gvec.c DO_CMP0
- configure                    |  56 --------
+Richard Henderson (2):
- accel/tcg/tcg-runtime-gvec.c | 298 +++++++++++++++++--------------------------
+      tcg: Reset free_temps before tcg_optimize
- tcg/i386/tcg-target.inc.c    |   9 +-
+      include/exec: Introduce fpst alias in helper-head.h.inc
 files changed, 122 insertions(+), 241 deletions(-)
+Roman Artemev (1):
+      tcg/riscv: Fix StoreStore barrier generation
+ include/tcg/tcg-temp-internal.h |  6 ++++++
+ accel/tcg/plugin-gen.c          |  2 +-
+ target/sparc/win_helper.c       | 26 ++++++++------------------
+ tcg/tcg.c                       |  5 ++++-
+ include/exec/helper-head.h.inc  |  3 +++
+ tcg/riscv/tcg-target.c.inc      |  2 +-
+files changed, 23 insertions(+), 21 deletions(-)

-[PULL 1/5] tcg/i386: Bound shift count expanding sari_vec
+Deleted patch
-A given RISU testcase for SVE can produce
-tcg-op-vec.c:511: do_shifti: Assertion `i >= 0 && i < (8 << vece)' failed.
-because expand_vec_sari gave a shift count of 32 to a MO_32
-vector shift.
-In 44f1441dbe1, we changed from direct expansion of vector opcodes
-to re-use of the tcg expanders.  So while the comment correctly notes
-that the hw will handle such a shift count, we now have to take our
-own sanity checks into account.  Which is easy in this particular case.
-Fixes: 44f1441dbe1
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/i386/tcg-target.inc.c | 9 ++++++---
-file changed, 6 insertions(+), 3 deletions(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
-+++ b/tcg/i386/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void expand_vec_sari(TCGType type, unsigned vece,
-     case MO_64:
-         if (imm <= 32) {
--            /* We can emulate a small sign extend by performing an arithmetic
-+            /*
-+             * We can emulate a small sign extend by performing an arithmetic
-              * 32-bit shift and overwriting the high half of a 64-bit logical
--             * shift (note that the ISA says shift of 32 is valid).
-+             * shift.  Note that the ISA says shift of 32 is valid, but TCG
-+             * does not, so we have to bound the smaller shift -- we get the
-+             * same result in the high half either way.
-              */
-             t1 = tcg_temp_new_vec(type);
--            tcg_gen_sari_vec(MO_32, t1, v1, imm);
-+            tcg_gen_sari_vec(MO_32, t1, v1, MIN(imm, 31));
-             tcg_gen_shri_vec(MO_64, v0, v1, imm);
-             vec_gen_4(INDEX_op_x86_blend_vec, type, MO_32,
-                       tcgv_vec_arg(v0), tcgv_vec_arg(v0),
---
-.20.1

-[PULL 5/5] tcg: Remove tcg-runtime-gvec.c DO_CMP0
+[PULL 1/4] tcg: Reset free_temps before tcg_optimize
-Partial cleanup from the CONFIG_VECTOR16 removal.
+When allocating new temps during tcg_optmize, do not re-use
-Replace DO_CMP0 with its scalar expansion, a simple negation.
+any EBB temps that were used within the TB.  We do not have
 any idea what span of the TB in which the temp was live.
+Introduce tcg_temp_ebb_reset_freed and use before tcg_optimize,
+as well as replacing the equivalent in plugin_gen_inject and
+tcg_func_start.
+Cc: qemu-stable@nongnu.org
+Fixes: fb04ab7ddd8 ("tcg/optimize: Lower TCG_COND_TST{EQ,NE} if unsupported")
+Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2711
+Reported-by: wannacu <wannacu2049@gmail.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 ---
- accel/tcg/tcg-runtime-gvec.c | 5 +----
+ include/tcg/tcg-temp-internal.h | 6 ++++++
-file changed, 1 insertion(+), 4 deletions(-)
+ accel/tcg/plugin-gen.c          | 2 +-
  tcg/tcg.c                       | 5 ++++-
 files changed, 11 insertions(+), 2 deletions(-)
-diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
+diff --git a/include/tcg/tcg-temp-internal.h b/include/tcg/tcg-temp-internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/tcg-runtime-gvec.c
+--- a/include/tcg/tcg-temp-internal.h
-+++ b/accel/tcg/tcg-runtime-gvec.c
++++ b/include/tcg/tcg-temp-internal.h
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar64v)(void *d, void *a, void *b, uint32_t desc)
+@@ -XXX,XX +XXX,XX @@ TCGv_i64 tcg_temp_ebb_new_i64(void);
-     clear_high(d, oprsz, desc);
+ TCGv_ptr tcg_temp_ebb_new_ptr(void);
- }
+ TCGv_i128 tcg_temp_ebb_new_i128(void);
--#define DO_CMP0(X)  -(X)
++/* Forget all freed EBB temps, so that new allocations produce new temps. */
--
++static inline void tcg_temp_ebb_reset_freed(TCGContext *s)
- #define DO_CMP1(NAME, TYPE, OP)                                            \
++{
- void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)                \
++    memset(s->free_temps, 0, sizeof(s->free_temps));
- {                                                                          \
++}
-     intptr_t oprsz = simd_oprsz(desc);                                     \
++
-     intptr_t i;                                                            \
+ #endif /* TCG_TEMP_FREE_H */
-     for (i = 0; i < oprsz; i += sizeof(TYPE)) {                            \
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
--        *(TYPE *)(d + i) = DO_CMP0(*(TYPE *)(a + i) OP *(TYPE *)(b + i));  \
+index XXXXXXX..XXXXXXX 100644
-+        *(TYPE *)(d + i) = -(*(TYPE *)(a + i) OP *(TYPE *)(b + i));        \
+--- a/accel/tcg/plugin-gen.c
-     }                                                                      \
++++ b/accel/tcg/plugin-gen.c
-     clear_high(d, oprsz, desc);                                            \
+@@ -XXX,XX +XXX,XX @@ static void plugin_gen_inject(struct qemu_plugin_tb *plugin_tb)
- }
+      * that might be live within the existing opcode stream.
-@@ -XXX,XX +XXX,XX @@ DO_CMP2(16)
+      * The simplest solution is to release them all and create new.
- DO_CMP2(32)
+      */
- DO_CMP2(64)
+-    memset(tcg_ctx->free_temps, 0, sizeof(tcg_ctx->free_temps));
++    tcg_temp_ebb_reset_freed(tcg_ctx);
--#undef DO_CMP0
- #undef DO_CMP1
+     QTAILQ_FOREACH_SAFE(op, &tcg_ctx->ops, link, next) {
- #undef DO_CMP2
+         switch (op->opc) {
+diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ void tcg_func_start(TCGContext *s)
      s->nb_temps = s->nb_globals;
      /* No temps have been previously allocated for size or locality.  */
 -    memset(s->free_temps, 0, sizeof(s->free_temps));
 +    tcg_temp_ebb_reset_freed(s);
      /* No constant temps have been previously allocated. */
      for (int i = 0; i < TCG_TYPE_COUNT; ++i) {
@@ -XXX,XX +XXX,XX @@ int tcg_gen_code(TCGContext *s, TranslationBlock *tb, uint64_t pc_start)
      }
  #endif
 +    /* Do not reuse any EBB that may be allocated within the TB. */
 +    tcg_temp_ebb_reset_freed(s);
 +
      tcg_optimize(s);
      reachable_code_pass(s);
 --
-.20.1
+.43.0

-[PULL 4/5] tcg: Tidy tcg-runtime-gvec.c DUP*
+[PULL 2/4] tcg/riscv: Fix StoreStore barrier generation
-Partial cleanup from the CONFIG_VECTOR16 removal.
+From: Roman Artemev <roman.artemev@syntacore.com>
 Replace the DUP* expansions with the scalar argument.
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+On RISC-V to StoreStore barrier corresponds
 `fence w, w` not `fence r, r`
 Cc: qemu-stable@nongnu.org
 Fixes: efbea94c76b ("tcg/riscv: Add slowpath load and store instructions")
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Denis Tomashev <denis.tomashev@syntacore.com>
 Signed-off-by: Roman Artemev <roman.artemev@syntacore.com>
 Message-ID: <e2f2131e294a49e79959d4fa9ec02cf4@syntacore.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/tcg-runtime-gvec.c | 50 +++++++++++-------------------------
+ tcg/riscv/tcg-target.c.inc | 2 +-
-file changed, 15 insertions(+), 35 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
+diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/tcg-runtime-gvec.c
+--- a/tcg/riscv/tcg-target.c.inc
-+++ b/accel/tcg/tcg-runtime-gvec.c
++++ b/tcg/riscv/tcg-target.c.inc
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
- #include "tcg/tcg-gvec-desc.h"
+         insn |= 0x02100000;
 -#define DUP16(X)  X
 -#define DUP8(X)   X
 -#define DUP4(X)   X
 -#define DUP2(X)   X
 -
  static inline void clear_high(void *d, intptr_t oprsz, uint32_t desc)
  {
      intptr_t maxsz = simd_maxsz(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint8_t vecb = (uint8_t)DUP16(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 -        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + vecb;
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + (uint8_t)b;
      }
-     clear_high(d, oprsz, desc);
+     if (a0 & TCG_MO_ST_ST) {
- }
+-        insn |= 0x02200000;
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
++        insn |= 0x01100000;
  void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint16_t vecb = (uint16_t)DUP8(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 -        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + vecb;
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + (uint16_t)b;
      }
-     clear_high(d, oprsz, desc);
+     tcg_out32(s, insn);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint32_t vecb = (uint32_t)DUP4(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 -        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + vecb;
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + (uint32_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_adds64)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 -        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + vecb;
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint8_t vecb = (uint8_t)DUP16(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 -        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - vecb;
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - (uint8_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint16_t vecb = (uint16_t)DUP8(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 -        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - vecb;
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - (uint16_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint32_t vecb = (uint32_t)DUP4(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 -        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - vecb;
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - (uint32_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_subs64)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 -        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - vecb;
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint8_t vecb = (uint8_t)DUP16(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 -        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * vecb;
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * (uint8_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint16_t vecb = (uint16_t)DUP8(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 -        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * vecb;
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * (uint16_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint32_t vecb = (uint32_t)DUP4(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 -        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * vecb;
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * (uint32_t)b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_muls64)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 -        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * vecb;
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_eqv)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 -        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & vecb;
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 -        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ vecb;
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ b;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_ors)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
      for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 -        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | vecb;
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | b;
      }
      clear_high(d, oprsz, desc);
  }
 --
-.20.1
+.43.0

-[PULL 3/5] tcg: Tidy tcg-runtime-gvec.c types
+[PULL 3/4] include/exec: Introduce fpst alias in helper-head.h.inc
-Partial cleanup from the CONFIG_VECTOR16 removal.
+This allows targets to declare that the helper requires a
-Replace the vec* types with their scalar expansions.
+float_status pointer and instead of a generic void pointer.
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- accel/tcg/tcg-runtime-gvec.c | 270 +++++++++++++++++------------------
+ include/exec/helper-head.h.inc | 3 +++
-file changed, 130 insertions(+), 140 deletions(-)
+file changed, 3 insertions(+)
-diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
+diff --git a/include/exec/helper-head.h.inc b/include/exec/helper-head.h.inc
 index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/tcg-runtime-gvec.c
+--- a/include/exec/helper-head.h.inc
-+++ b/accel/tcg/tcg-runtime-gvec.c
++++ b/include/exec/helper-head.h.inc
 @@ -XXX,XX +XXX,XX @@
- #include "tcg/tcg-gvec-desc.h"
+ #define dh_alias_ptr ptr
+ #define dh_alias_cptr ptr
+ #define dh_alias_env ptr
--typedef uint8_t vec8;
++#define dh_alias_fpst ptr
--typedef uint16_t vec16;
+ #define dh_alias_void void
--typedef uint32_t vec32;
+ #define dh_alias_noreturn noreturn
--typedef uint64_t vec64;
+ #define dh_alias(t) glue(dh_alias_, t)
--
+@@ -XXX,XX +XXX,XX @@
--typedef int8_t svec8;
+ #define dh_ctype_ptr void *
--typedef int16_t svec16;
+ #define dh_ctype_cptr const void *
--typedef int32_t svec32;
+ #define dh_ctype_env CPUArchState *
--typedef int64_t svec64;
++#define dh_ctype_fpst float_status *
--
+ #define dh_ctype_void void
- #define DUP16(X)  X
+ #define dh_ctype_noreturn G_NORETURN void
- #define DUP8(X)   X
+ #define dh_ctype(t) dh_ctype_##t
- #define DUP4(X)   X
+@@ -XXX,XX +XXX,XX @@
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add8)(void *d, void *a, void *b, uint32_t desc)
+ #define dh_typecode_f64 dh_typecode_i64
-     intptr_t oprsz = simd_oprsz(desc);
+ #define dh_typecode_cptr dh_typecode_ptr
-     intptr_t i;
+ #define dh_typecode_env dh_typecode_ptr
++#define dh_typecode_fpst dh_typecode_ptr
--    for (i = 0; i < oprsz; i += sizeof(vec8)) {
+ #define dh_typecode(t) dh_typecode_##t
--        *(vec8 *)(d + i) = *(vec8 *)(a + i) + *(vec8 *)(b + i);
-+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+ #define dh_callflag_i32  0
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + *(uint8_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add16)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) + *(vec16 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + *(uint16_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add32)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) + *(vec32 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + *(uint32_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) + *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec8 vecb = (vec8)DUP16(b);
 +    uint8_t vecb = (uint8_t)DUP16(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) + vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec16 vecb = (vec16)DUP8(b);
 +    uint16_t vecb = (uint16_t)DUP8(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) + vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec32 vecb = (vec32)DUP4(b);
 +    uint32_t vecb = (uint32_t)DUP4(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) + vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_adds64)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec64 vecb = (vec64)DUP2(b);
 +    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) + vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub8)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) - *(vec8 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - *(uint8_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub16)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) - *(vec16 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - *(uint16_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub32)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) - *(vec32 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - *(uint32_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) - *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec8 vecb = (vec8)DUP16(b);
 +    uint8_t vecb = (uint8_t)DUP16(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) - vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec16 vecb = (vec16)DUP8(b);
 +    uint16_t vecb = (uint16_t)DUP8(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) - vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec32 vecb = (vec32)DUP4(b);
 +    uint32_t vecb = (uint32_t)DUP4(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) - vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_subs64)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec64 vecb = (vec64)DUP2(b);
 +    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) - vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul8)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) * *(vec8 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * *(uint8_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul16)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) * *(vec16 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * *(uint16_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul32)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) * *(vec32 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * *(uint32_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) * *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec8 vecb = (vec8)DUP16(b);
 +    uint8_t vecb = (uint8_t)DUP16(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) * vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec16 vecb = (vec16)DUP8(b);
 +    uint16_t vecb = (uint16_t)DUP8(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) * vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec32 vecb = (vec32)DUP4(b);
 +    uint32_t vecb = (uint32_t)DUP4(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) * vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_muls64)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec64 vecb = (vec64)DUP2(b);
 +    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) * vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg8)(void *d, void *a, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = -*(vec8 *)(a + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = -*(uint8_t *)(a + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg16)(void *d, void *a, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = -*(vec16 *)(a + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = -*(uint16_t *)(a + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg32)(void *d, void *a, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = -*(vec32 *)(a + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = -*(uint32_t *)(a + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg64)(void *d, void *a, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = -*(vec64 *)(a + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = -*(uint64_t *)(a + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_not)(void *d, void *a, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = ~*(vec64 *)(a + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = ~*(uint64_t *)(a + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_and)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) & *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_or)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) | *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_xor)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) ^ *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_andc)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) &~ *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) &~ *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_orc)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) |~ *(vec64 *)(b + i);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) |~ *(uint64_t *)(b + i);
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_nand)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = ~(*(vec64 *)(a + i) & *(vec64 *)(b + i));
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = ~(*(uint64_t *)(a + i) & *(uint64_t *)(b + i));
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_nor)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = ~(*(vec64 *)(a + i) | *(vec64 *)(b + i));
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = ~(*(uint64_t *)(a + i) | *(uint64_t *)(b + i));
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_eqv)(void *d, void *a, void *b, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = ~(*(vec64 *)(a + i) ^ *(vec64 *)(b + i));
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = ~(*(uint64_t *)(a + i) ^ *(uint64_t *)(b + i));
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_eqv)(void *d, void *a, void *b, uint32_t desc)
  void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec64 vecb = (vec64)DUP2(b);
 +    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) & vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec64 vecb = (vec64)DUP2(b);
 +    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) ^ vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
  void HELPER(gvec_ors)(void *d, void *a, uint64_t b, uint32_t desc)
  {
      intptr_t oprsz = simd_oprsz(desc);
 -    vec64 vecb = (vec64)DUP2(b);
 +    uint64_t vecb = (uint64_t)DUP2(b);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) | vecb;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | vecb;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl8i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) << shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) << shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl16i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) << shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) << shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl32i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) << shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) << shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl64i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) << shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) << shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr8i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(vec8 *)(d + i) = *(vec8 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr16i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(vec16 *)(d + i) = *(vec16 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr32i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(vec32 *)(d + i) = *(vec32 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr64i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(vec64 *)(d + i) = *(vec64 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar8i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec8)) {
 -        *(svec8 *)(d + i) = *(svec8 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
 +        *(int8_t *)(d + i) = *(int8_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar16i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec16)) {
 -        *(svec16 *)(d + i) = *(svec16 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
 +        *(int16_t *)(d + i) = *(int16_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar32i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec32)) {
 -        *(svec32 *)(d + i) = *(svec32 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
 +        *(int32_t *)(d + i) = *(int32_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar64i)(void *d, void *a, uint32_t desc)
      int shift = simd_data(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        *(svec64 *)(d + i) = *(svec64 *)(a + i) >> shift;
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        *(int64_t *)(d + i) = *(int64_t *)(a + i) >> shift;
      }
      clear_high(d, oprsz, desc);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)                \
  }
  #define DO_CMP2(SZ) \
 -    DO_CMP1(gvec_eq##SZ, vec##SZ, ==)    \
 -    DO_CMP1(gvec_ne##SZ, vec##SZ, !=)    \
 -    DO_CMP1(gvec_lt##SZ, svec##SZ, <)    \
 -    DO_CMP1(gvec_le##SZ, svec##SZ, <=)   \
 -    DO_CMP1(gvec_ltu##SZ, vec##SZ, <)    \
 -    DO_CMP1(gvec_leu##SZ, vec##SZ, <=)
 +    DO_CMP1(gvec_eq##SZ, uint##SZ##_t, ==)    \
 +    DO_CMP1(gvec_ne##SZ, uint##SZ##_t, !=)    \
 +    DO_CMP1(gvec_lt##SZ, int##SZ##_t, <)      \
 +    DO_CMP1(gvec_le##SZ, int##SZ##_t, <=)     \
 +    DO_CMP1(gvec_ltu##SZ, uint##SZ##_t, <)    \
 +    DO_CMP1(gvec_leu##SZ, uint##SZ##_t, <=)
  DO_CMP2(8)
  DO_CMP2(16)
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_bitsel)(void *d, void *a, void *b, void *c, uint32_t desc)
      intptr_t oprsz = simd_oprsz(desc);
      intptr_t i;
 -    for (i = 0; i < oprsz; i += sizeof(vec64)) {
 -        vec64 aa = *(vec64 *)(a + i);
 -        vec64 bb = *(vec64 *)(b + i);
 -        vec64 cc = *(vec64 *)(c + i);
 -        *(vec64 *)(d + i) = (bb & aa) | (cc & ~aa);
 +    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
 +        uint64_t aa = *(uint64_t *)(a + i);
 +        uint64_t bb = *(uint64_t *)(b + i);
 +        uint64_t cc = *(uint64_t *)(c + i);
 +        *(uint64_t *)(d + i) = (bb & aa) | (cc & ~aa);
      }
      clear_high(d, oprsz, desc);
  }
 --
-.20.1
+.43.0

-[PULL 2/5] tcg: Remove CONFIG_VECTOR16
+[PULL 4/4] target/sparc: Use memcpy() and remove memcpy32()
-The comment in tcg-runtime-gvec.c about CONFIG_VECTOR16 says that
+From: Philippe Mathieu-Daudé <philmd@linaro.org>
 tcg-op-gvec.c has eliminated size 8 vectors, and only passes on
 multiples of 16.  This may have been true of the first few operations,
 but is not true of all operations.
-In particular, multiply, shift by scalar, and compare of 8- and 16-bit
+Rather than manually copying each register, use
-elements are not expanded inline if host vector operations are not
+the libc memcpy(), which is well optimized nowadays.
 supported.
-For an x86_64 host that does not support AVX, this means that we will
+Suggested-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
-fall back to the helper, which will attempt to use SSE instructions,
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
-which will SEGV on an invalid 8-byte aligned memory operation.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-This patch simply removes the CONFIG_VECTOR16 code and configuration
+Message-ID: <20241205205418.67613-1-philmd@linaro.org>
 without further simplification.
 Buglink: https://bugs.launchpad.net/bugs/1863508
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- configure                    | 56 ------------------------------------
+ target/sparc/win_helper.c | 26 ++++++++------------------
- accel/tcg/tcg-runtime-gvec.c | 35 +---------------------
+file changed, 8 insertions(+), 18 deletions(-)
 files changed, 1 insertion(+), 90 deletions(-)
-diff --git a/configure b/configure
+diff --git a/target/sparc/win_helper.c b/target/sparc/win_helper.c
-index XXXXXXX..XXXXXXX 100755
+index XXXXXXX..XXXXXXX 100644
---- a/configure
+--- a/target/sparc/win_helper.c
-+++ b/configure
++++ b/target/sparc/win_helper.c
-@@ -XXX,XX +XXX,XX @@ if  test "$plugins" = "yes" &&
+@@ -XXX,XX +XXX,XX @@
-       "for this purpose. You can't build with --static."
+ #include "exec/helper-proto.h"
- fi
+ #include "trace.h"
--########################################
+-static inline void memcpy32(target_ulong *dst, const target_ulong *src)
--# See if 16-byte vector operations are supported.
+-{
--# Even without a vector unit the compiler may expand these.
+-    dst[0] = src[0];
--# There is a bug in old GCC for PPC that crashes here.
+-    dst[1] = src[1];
--# Unfortunately it's the system compiler for Centos 7.
+-    dst[2] = src[2];
 -    dst[3] = src[3];
 -    dst[4] = src[4];
 -    dst[5] = src[5];
 -    dst[6] = src[6];
 -    dst[7] = src[7];
 -}
 -
--cat > $TMPC << EOF
+ void cpu_set_cwp(CPUSPARCState *env, int new_cwp)
 -typedef unsigned char U1 __attribute__((vector_size(16)));
 -typedef unsigned short U2 __attribute__((vector_size(16)));
 -typedef unsigned int U4 __attribute__((vector_size(16)));
 -typedef unsigned long long U8 __attribute__((vector_size(16)));
 -typedef signed char S1 __attribute__((vector_size(16)));
 -typedef signed short S2 __attribute__((vector_size(16)));
 -typedef signed int S4 __attribute__((vector_size(16)));
 -typedef signed long long S8 __attribute__((vector_size(16)));
 -static U1 a1, b1;
 -static U2 a2, b2;
 -static U4 a4, b4;
 -static U8 a8, b8;
 -static S1 c1;
 -static S2 c2;
 -static S4 c4;
 -static S8 c8;
 -static int i;
 -void helper(void *d, void *a, int shift, int i);
 -void helper(void *d, void *a, int shift, int i)
 -{
 -  *(U1 *)(d + i) = *(U1 *)(a + i) << shift;
 -  *(U2 *)(d + i) = *(U2 *)(a + i) << shift;
 -  *(U4 *)(d + i) = *(U4 *)(a + i) << shift;
 -  *(U8 *)(d + i) = *(U8 *)(a + i) << shift;
 -}
 -int main(void)
 -{
 -  a1 += b1; a2 += b2; a4 += b4; a8 += b8;
 -  a1 -= b1; a2 -= b2; a4 -= b4; a8 -= b8;
 -  a1 *= b1; a2 *= b2; a4 *= b4; a8 *= b8;
 -  a1 &= b1; a2 &= b2; a4 &= b4; a8 &= b8;
 -  a1 |= b1; a2 |= b2; a4 |= b4; a8 |= b8;
 -  a1 ^= b1; a2 ^= b2; a4 ^= b4; a8 ^= b8;
 -  a1 <<= i; a2 <<= i; a4 <<= i; a8 <<= i;
 -  a1 >>= i; a2 >>= i; a4 >>= i; a8 >>= i;
 -  c1 >>= i; c2 >>= i; c4 >>= i; c8 >>= i;
 -  return 0;
 -}
 -EOF
 -
 -vector16=no
 -if compile_prog "" "" ; then
 -  vector16=yes
 -fi
 -
  ########################################
  # See if __attribute__((alias)) is supported.
  # This false for Xcode 9, but has been remedied for Xcode 10.
@@ -XXX,XX +XXX,XX @@ if test "$atomic64" = "yes" ; then
    echo "CONFIG_ATOMIC64=y" >> $config_host_mak
  fi
 -if test "$vector16" = "yes" ; then
 -  echo "CONFIG_VECTOR16=y" >> $config_host_mak
 -fi
 -
  if test "$attralias" = "yes" ; then
    echo "CONFIG_ATTRIBUTE_ALIAS=y" >> $config_host_mak
  fi
 diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/tcg-runtime-gvec.c
 +++ b/accel/tcg/tcg-runtime-gvec.c
@@ -XXX,XX +XXX,XX @@
  #include "tcg/tcg-gvec-desc.h"
 -/* Virtually all hosts support 16-byte vectors.  Those that don't can emulate
 - * them via GCC's generic vector extension.  This turns out to be simpler and
 - * more reliable than getting the compiler to autovectorize.
 - *
 - * In tcg-op-gvec.c, we asserted that both the size and alignment of the data
 - * are multiples of 16.
 - *
 - * When the compiler does not support all of the operations we require, the
 - * loops are written so that we can always fall back on the base types.
 - */
 -#ifdef CONFIG_VECTOR16
 -typedef uint8_t vec8 __attribute__((vector_size(16)));
 -typedef uint16_t vec16 __attribute__((vector_size(16)));
 -typedef uint32_t vec32 __attribute__((vector_size(16)));
 -typedef uint64_t vec64 __attribute__((vector_size(16)));
 -
 -typedef int8_t svec8 __attribute__((vector_size(16)));
 -typedef int16_t svec16 __attribute__((vector_size(16)));
 -typedef int32_t svec32 __attribute__((vector_size(16)));
 -typedef int64_t svec64 __attribute__((vector_size(16)));
 -
 -#define DUP16(X)  { X, X, X, X, X, X, X, X, X, X, X, X, X, X, X, X }
 -#define DUP8(X)   { X, X, X, X, X, X, X, X }
 -#define DUP4(X)   { X, X, X, X }
 -#define DUP2(X)   { X, X }
 -#else
  typedef uint8_t vec8;
  typedef uint16_t vec16;
  typedef uint32_t vec32;
@@ -XXX,XX +XXX,XX @@ typedef int64_t svec64;
  #define DUP8(X)   X
  #define DUP4(X)   X
  #define DUP2(X)   X
 -#endif /* CONFIG_VECTOR16 */
  static inline void clear_high(void *d, intptr_t oprsz, uint32_t desc)
  {
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar64v)(void *d, void *a, void *b, uint32_t desc)
+     /* put the modified wrap registers at their proper location */
-     clear_high(d, oprsz, desc);
+     if (env->cwp == env->nwindows - 1) {
 -        memcpy32(env->regbase, env->regbase + env->nwindows * 16);
 +        memcpy(env->regbase, env->regbase + env->nwindows * 16,
 +               sizeof(env->gregs));
      }
      env->cwp = new_cwp;
      /* put the wrap registers at their temporary location */
      if (new_cwp == env->nwindows - 1) {
 -        memcpy32(env->regbase + env->nwindows * 16, env->regbase);
 +        memcpy(env->regbase + env->nwindows * 16, env->regbase,
 +               sizeof(env->gregs));
      }
      env->regwptr = env->regbase + (new_cwp * 16);
  }
+@@ -XXX,XX +XXX,XX @@ void cpu_gl_switch_gregs(CPUSPARCState *env, uint32_t new_gl)
--/* If vectors are enabled, the compiler fills in -1 for true.
+     dst = get_gl_gregset(env, env->gl);
--   Otherwise, we must take care of this by hand.  */
--#ifdef CONFIG_VECTOR16
+     if (src != dst) {
--# define DO_CMP0(X)  X
+-        memcpy32(dst, env->gregs);
--#else
+-        memcpy32(env->gregs, src);
--# define DO_CMP0(X)  -(X)
++        memcpy(dst, env->gregs, sizeof(env->gregs));
--#endif
++        memcpy(env->gregs, src, sizeof(env->gregs));
-+#define DO_CMP0(X)  -(X)
+     }
+ }
- #define DO_CMP1(NAME, TYPE, OP)                                            \
- void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)                \
+@@ -XXX,XX +XXX,XX @@ void cpu_change_pstate(CPUSPARCState *env, uint32_t new_pstate)
          /* Switch global register bank */
          src = get_gregset(env, new_pstate_regs);
          dst = get_gregset(env, pstate_regs);
 -        memcpy32(dst, env->gregs);
 -        memcpy32(env->gregs, src);
 +        memcpy(dst, env->gregs, sizeof(env->gregs));
 +        memcpy(env->gregs, src, sizeof(env->gregs));
      } else {
          trace_win_helper_no_switch_pstate(new_pstate_regs);
      }
 --
-.20.1
+.43.0

The following changes since commit 40c67636f67c2a89745f2e698522fe917326a952:

Merge remote-tracking branch 'remotes/kraxel/tags/usb-20200317-pull-request' into staging (2020-03-17 14:00:56 +0000)

are available in the Git repository at:

https://github.com/rth7680/qemu.git tags/pull-tcg-20200317

for you to fetch changes up to 0270bd503e3699b7202200a2d693ad1feb57473f:

tcg: Remove tcg-runtime-gvec.c DO_CMP0 (2020-03-17 08:41:07 -0700)

----------------------------------------------------------------
Fix tcg/i386 bug vs sari_vec.
Fix tcg-runtime-gvec.c vs i386 without avx.

----------------------------------------------------------------
Richard Henderson (5):
      tcg/i386: Bound shift count expanding sari_vec
      tcg: Remove CONFIG_VECTOR16
      tcg: Tidy tcg-runtime-gvec.c types
      tcg: Tidy tcg-runtime-gvec.c DUP*
      tcg: Remove tcg-runtime-gvec.c DO_CMP0

configure                    |  56 --------
 accel/tcg/tcg-runtime-gvec.c | 298 +++++++++++++++++--------------------------
 tcg/i386/tcg-target.inc.c    |   9 +-
 3 files changed, 122 insertions(+), 241 deletions(-)

A given RISU testcase for SVE can produce

tcg-op-vec.c:511: do_shifti: Assertion `i >= 0 && i < (8 << vece)' failed.

because expand_vec_sari gave a shift count of 32 to a MO_32
vector shift.

In 44f1441dbe1, we changed from direct expansion of vector opcodes
to re-use of the tcg expanders.  So while the comment correctly notes
that the hw will handle such a shift count, we now have to take our
own sanity checks into account.  Which is easy in this particular case.

Fixes: 44f1441dbe1
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.inc.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void expand_vec_sari(TCGType type, unsigned vece,
 
     case MO_64:
         if (imm <= 32) {
-            /* We can emulate a small sign extend by performing an arithmetic
+            /*
+             * We can emulate a small sign extend by performing an arithmetic
              * 32-bit shift and overwriting the high half of a 64-bit logical
-             * shift (note that the ISA says shift of 32 is valid).
+             * shift.  Note that the ISA says shift of 32 is valid, but TCG
+             * does not, so we have to bound the smaller shift -- we get the
+             * same result in the high half either way.
              */
             t1 = tcg_temp_new_vec(type);
-            tcg_gen_sari_vec(MO_32, t1, v1, imm);
+            tcg_gen_sari_vec(MO_32, t1, v1, MIN(imm, 31));
             tcg_gen_shri_vec(MO_64, v0, v1, imm);
             vec_gen_4(INDEX_op_x86_blend_vec, type, MO_32,
                       tcgv_vec_arg(v0), tcgv_vec_arg(v0),
-- 
2.20.1

The comment in tcg-runtime-gvec.c about CONFIG_VECTOR16 says that
tcg-op-gvec.c has eliminated size 8 vectors, and only passes on
multiples of 16.  This may have been true of the first few operations,
but is not true of all operations.

In particular, multiply, shift by scalar, and compare of 8- and 16-bit
elements are not expanded inline if host vector operations are not
supported.

For an x86_64 host that does not support AVX, this means that we will
fall back to the helper, which will attempt to use SSE instructions,
which will SEGV on an invalid 8-byte aligned memory operation.

This patch simply removes the CONFIG_VECTOR16 code and configuration
without further simplification.

Buglink: https://bugs.launchpad.net/bugs/1863508
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 configure                    | 56 ------------------------------------
 accel/tcg/tcg-runtime-gvec.c | 35 +---------------------
 2 files changed, 1 insertion(+), 90 deletions(-)

diff --git a/configure b/configure
index XXXXXXX..XXXXXXX 100755
--- a/configure
+++ b/configure
@@ -XXX,XX +XXX,XX @@ if  test "$plugins" = "yes" &&
       "for this purpose. You can't build with --static."
 fi
 
-########################################
-# See if 16-byte vector operations are supported.
-# Even without a vector unit the compiler may expand these.
-# There is a bug in old GCC for PPC that crashes here.
-# Unfortunately it's the system compiler for Centos 7.
-
-cat > $TMPC << EOF
-typedef unsigned char U1 __attribute__((vector_size(16)));
-typedef unsigned short U2 __attribute__((vector_size(16)));
-typedef unsigned int U4 __attribute__((vector_size(16)));
-typedef unsigned long long U8 __attribute__((vector_size(16)));
-typedef signed char S1 __attribute__((vector_size(16)));
-typedef signed short S2 __attribute__((vector_size(16)));
-typedef signed int S4 __attribute__((vector_size(16)));
-typedef signed long long S8 __attribute__((vector_size(16)));
-static U1 a1, b1;
-static U2 a2, b2;
-static U4 a4, b4;
-static U8 a8, b8;
-static S1 c1;
-static S2 c2;
-static S4 c4;
-static S8 c8;
-static int i;
-void helper(void *d, void *a, int shift, int i);
-void helper(void *d, void *a, int shift, int i)
-{
-  *(U1 *)(d + i) = *(U1 *)(a + i) << shift;
-  *(U2 *)(d + i) = *(U2 *)(a + i) << shift;
-  *(U4 *)(d + i) = *(U4 *)(a + i) << shift;
-  *(U8 *)(d + i) = *(U8 *)(a + i) << shift;
-}
-int main(void)
-{
-  a1 += b1; a2 += b2; a4 += b4; a8 += b8;
-  a1 -= b1; a2 -= b2; a4 -= b4; a8 -= b8;
-  a1 *= b1; a2 *= b2; a4 *= b4; a8 *= b8;
-  a1 &= b1; a2 &= b2; a4 &= b4; a8 &= b8;
-  a1 |= b1; a2 |= b2; a4 |= b4; a8 |= b8;
-  a1 ^= b1; a2 ^= b2; a4 ^= b4; a8 ^= b8;
-  a1 <<= i; a2 <<= i; a4 <<= i; a8 <<= i;
-  a1 >>= i; a2 >>= i; a4 >>= i; a8 >>= i;
-  c1 >>= i; c2 >>= i; c4 >>= i; c8 >>= i;
-  return 0;
-}
-EOF
-
-vector16=no
-if compile_prog "" "" ; then
-  vector16=yes
-fi
-
 ########################################
 # See if __attribute__((alias)) is supported.
 # This false for Xcode 9, but has been remedied for Xcode 10.
@@ -XXX,XX +XXX,XX @@ if test "$atomic64" = "yes" ; then
   echo "CONFIG_ATOMIC64=y" >> $config_host_mak
 fi
 
-if test "$vector16" = "yes" ; then
-  echo "CONFIG_VECTOR16=y" >> $config_host_mak
-fi
-
 if test "$attralias" = "yes" ; then
   echo "CONFIG_ATTRIBUTE_ALIAS=y" >> $config_host_mak
 fi
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -XXX,XX +XXX,XX @@
 #include "tcg/tcg-gvec-desc.h"
 
 
-/* Virtually all hosts support 16-byte vectors.  Those that don't can emulate
- * them via GCC's generic vector extension.  This turns out to be simpler and
- * more reliable than getting the compiler to autovectorize.
- *
- * In tcg-op-gvec.c, we asserted that both the size and alignment of the data
- * are multiples of 16.
- *
- * When the compiler does not support all of the operations we require, the
- * loops are written so that we can always fall back on the base types.
- */
-#ifdef CONFIG_VECTOR16
-typedef uint8_t vec8 __attribute__((vector_size(16)));
-typedef uint16_t vec16 __attribute__((vector_size(16)));
-typedef uint32_t vec32 __attribute__((vector_size(16)));
-typedef uint64_t vec64 __attribute__((vector_size(16)));
-
-typedef int8_t svec8 __attribute__((vector_size(16)));
-typedef int16_t svec16 __attribute__((vector_size(16)));
-typedef int32_t svec32 __attribute__((vector_size(16)));
-typedef int64_t svec64 __attribute__((vector_size(16)));
-
-#define DUP16(X)  { X, X, X, X, X, X, X, X, X, X, X, X, X, X, X, X }
-#define DUP8(X)   { X, X, X, X, X, X, X, X }
-#define DUP4(X)   { X, X, X, X }
-#define DUP2(X)   { X, X }
-#else
 typedef uint8_t vec8;
 typedef uint16_t vec16;
 typedef uint32_t vec32;
@@ -XXX,XX +XXX,XX @@ typedef int64_t svec64;
 #define DUP8(X)   X
 #define DUP4(X)   X
 #define DUP2(X)   X
-#endif /* CONFIG_VECTOR16 */
 
 static inline void clear_high(void *d, intptr_t oprsz, uint32_t desc)
 {
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar64v)(void *d, void *a, void *b, uint32_t desc)
     clear_high(d, oprsz, desc);
 }
 
-/* If vectors are enabled, the compiler fills in -1 for true.
-   Otherwise, we must take care of this by hand.  */
-#ifdef CONFIG_VECTOR16
-# define DO_CMP0(X)  X
-#else
-# define DO_CMP0(X)  -(X)
-#endif
+#define DO_CMP0(X)  -(X)
 
 #define DO_CMP1(NAME, TYPE, OP)                                            \
 void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)                \
-- 
2.20.1

Partial cleanup from the CONFIG_VECTOR16 removal.
Replace the vec* types with their scalar expansions.

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime-gvec.c | 270 +++++++++++++++++------------------
 1 file changed, 130 insertions(+), 140 deletions(-)

diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -XXX,XX +XXX,XX @@
 #include "tcg/tcg-gvec-desc.h"
 
 
-typedef uint8_t vec8;
-typedef uint16_t vec16;
-typedef uint32_t vec32;
-typedef uint64_t vec64;
-
-typedef int8_t svec8;
-typedef int16_t svec16;
-typedef int32_t svec32;
-typedef int64_t svec64;
-
 #define DUP16(X)  X
 #define DUP8(X)   X
 #define DUP4(X)   X
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add8)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) + *(vec8 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + *(uint8_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add16)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) + *(vec16 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + *(uint16_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add32)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) + *(vec32 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + *(uint32_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) + *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec8 vecb = (vec8)DUP16(b);
+    uint8_t vecb = (uint8_t)DUP16(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) + vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec16 vecb = (vec16)DUP8(b);
+    uint16_t vecb = (uint16_t)DUP8(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) + vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec32 vecb = (vec32)DUP4(b);
+    uint32_t vecb = (uint32_t)DUP4(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) + vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_adds64)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec64 vecb = (vec64)DUP2(b);
+    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) + vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub8)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) - *(vec8 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - *(uint8_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub16)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) - *(vec16 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - *(uint16_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub32)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) - *(vec32 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - *(uint32_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) - *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec8 vecb = (vec8)DUP16(b);
+    uint8_t vecb = (uint8_t)DUP16(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) - vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec16 vecb = (vec16)DUP8(b);
+    uint16_t vecb = (uint16_t)DUP8(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) - vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec32 vecb = (vec32)DUP4(b);
+    uint32_t vecb = (uint32_t)DUP4(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) - vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_subs64)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec64 vecb = (vec64)DUP2(b);
+    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) - vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul8)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) * *(vec8 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * *(uint8_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul16)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) * *(vec16 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * *(uint16_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul32)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) * *(vec32 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * *(uint32_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) * *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec8 vecb = (vec8)DUP16(b);
+    uint8_t vecb = (uint8_t)DUP16(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) * vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec16 vecb = (vec16)DUP8(b);
+    uint16_t vecb = (uint16_t)DUP8(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) * vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec32 vecb = (vec32)DUP4(b);
+    uint32_t vecb = (uint32_t)DUP4(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) * vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_muls64)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec64 vecb = (vec64)DUP2(b);
+    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) * vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg8)(void *d, void *a, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = -*(vec8 *)(a + i);
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = -*(uint8_t *)(a + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg16)(void *d, void *a, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = -*(vec16 *)(a + i);
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = -*(uint16_t *)(a + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg32)(void *d, void *a, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = -*(vec32 *)(a + i);
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = -*(uint32_t *)(a + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_neg64)(void *d, void *a, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = -*(vec64 *)(a + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = -*(uint64_t *)(a + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_not)(void *d, void *a, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = ~*(vec64 *)(a + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = ~*(uint64_t *)(a + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_and)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) & *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_or)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) | *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_xor)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) ^ *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_andc)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) &~ *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) &~ *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_orc)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) |~ *(vec64 *)(b + i);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) |~ *(uint64_t *)(b + i);
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_nand)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = ~(*(vec64 *)(a + i) & *(vec64 *)(b + i));
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = ~(*(uint64_t *)(a + i) & *(uint64_t *)(b + i));
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_nor)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = ~(*(vec64 *)(a + i) | *(vec64 *)(b + i));
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = ~(*(uint64_t *)(a + i) | *(uint64_t *)(b + i));
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_eqv)(void *d, void *a, void *b, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = ~(*(vec64 *)(a + i) ^ *(vec64 *)(b + i));
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = ~(*(uint64_t *)(a + i) ^ *(uint64_t *)(b + i));
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_eqv)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec64 vecb = (vec64)DUP2(b);
+    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) & vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec64 vecb = (vec64)DUP2(b);
+    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) ^ vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_ors)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    vec64 vecb = (vec64)DUP2(b);
+    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) | vecb;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | vecb;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl8i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) << shift;
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) << shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl16i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) << shift;
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) << shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl32i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) << shift;
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) << shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shl64i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) << shift;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) << shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr8i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(vec8 *)(d + i) = *(vec8 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr16i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(vec16 *)(d + i) = *(vec16 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr32i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(vec32 *)(d + i) = *(vec32 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_shr64i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(vec64 *)(d + i) = *(vec64 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar8i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec8)) {
-        *(svec8 *)(d + i) = *(svec8 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
+        *(int8_t *)(d + i) = *(int8_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar16i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec16)) {
-        *(svec16 *)(d + i) = *(svec16 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
+        *(int16_t *)(d + i) = *(int16_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar32i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec32)) {
-        *(svec32 *)(d + i) = *(svec32 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
+        *(int32_t *)(d + i) = *(int32_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar64i)(void *d, void *a, uint32_t desc)
     int shift = simd_data(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        *(svec64 *)(d + i) = *(svec64 *)(a + i) >> shift;
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        *(int64_t *)(d + i) = *(int64_t *)(a + i) >> shift;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)                \
 }
 
 #define DO_CMP2(SZ) \
-    DO_CMP1(gvec_eq##SZ, vec##SZ, ==)    \
-    DO_CMP1(gvec_ne##SZ, vec##SZ, !=)    \
-    DO_CMP1(gvec_lt##SZ, svec##SZ, <)    \
-    DO_CMP1(gvec_le##SZ, svec##SZ, <=)   \
-    DO_CMP1(gvec_ltu##SZ, vec##SZ, <)    \
-    DO_CMP1(gvec_leu##SZ, vec##SZ, <=)
+    DO_CMP1(gvec_eq##SZ, uint##SZ##_t, ==)    \
+    DO_CMP1(gvec_ne##SZ, uint##SZ##_t, !=)    \
+    DO_CMP1(gvec_lt##SZ, int##SZ##_t, <)      \
+    DO_CMP1(gvec_le##SZ, int##SZ##_t, <=)     \
+    DO_CMP1(gvec_ltu##SZ, uint##SZ##_t, <)    \
+    DO_CMP1(gvec_leu##SZ, uint##SZ##_t, <=)
 
 DO_CMP2(8)
 DO_CMP2(16)
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_bitsel)(void *d, void *a, void *b, void *c, uint32_t desc)
     intptr_t oprsz = simd_oprsz(desc);
     intptr_t i;
 
-    for (i = 0; i < oprsz; i += sizeof(vec64)) {
-        vec64 aa = *(vec64 *)(a + i);
-        vec64 bb = *(vec64 *)(b + i);
-        vec64 cc = *(vec64 *)(c + i);
-        *(vec64 *)(d + i) = (bb & aa) | (cc & ~aa);
+    for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
+        uint64_t aa = *(uint64_t *)(a + i);
+        uint64_t bb = *(uint64_t *)(b + i);
+        uint64_t cc = *(uint64_t *)(c + i);
+        *(uint64_t *)(d + i) = (bb & aa) | (cc & ~aa);
     }
     clear_high(d, oprsz, desc);
 }
-- 
2.20.1

Partial cleanup from the CONFIG_VECTOR16 removal.
Replace the DUP* expansions with the scalar argument.

Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime-gvec.c | 50 +++++++++++-------------------------
 1 file changed, 15 insertions(+), 35 deletions(-)

diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -XXX,XX +XXX,XX @@
 #include "tcg/tcg-gvec-desc.h"
 
 
-#define DUP16(X)  X
-#define DUP8(X)   X
-#define DUP4(X)   X
-#define DUP2(X)   X
-
 static inline void clear_high(void *d, intptr_t oprsz, uint32_t desc)
 {
     intptr_t maxsz = simd_maxsz(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint8_t vecb = (uint8_t)DUP16(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
-        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + vecb;
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) + (uint8_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds8)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint16_t vecb = (uint16_t)DUP8(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
-        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + vecb;
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) + (uint16_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds16)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint32_t vecb = (uint32_t)DUP4(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
-        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + vecb;
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) + (uint32_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_adds32)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_adds64)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
-        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + vecb;
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) + b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint8_t vecb = (uint8_t)DUP16(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
-        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - vecb;
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) - (uint8_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs8)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint16_t vecb = (uint16_t)DUP8(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
-        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - vecb;
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) - (uint16_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs16)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint32_t vecb = (uint32_t)DUP4(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
-        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - vecb;
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) - (uint32_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_subs32)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_subs64)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
-        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - vecb;
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) - b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint8_t vecb = (uint8_t)DUP16(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint8_t)) {
-        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * vecb;
+        *(uint8_t *)(d + i) = *(uint8_t *)(a + i) * (uint8_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls8)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint16_t vecb = (uint16_t)DUP8(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint16_t)) {
-        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * vecb;
+        *(uint16_t *)(d + i) = *(uint16_t *)(a + i) * (uint16_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls16)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint32_t vecb = (uint32_t)DUP4(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint32_t)) {
-        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * vecb;
+        *(uint32_t *)(d + i) = *(uint32_t *)(a + i) * (uint32_t)b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_muls32)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_muls64)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
-        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * vecb;
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) * b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_eqv)(void *d, void *a, void *b, uint32_t desc)
 void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
-        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & vecb;
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) & b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_ands)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
-        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ vecb;
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) ^ b;
     }
     clear_high(d, oprsz, desc);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_xors)(void *d, void *a, uint64_t b, uint32_t desc)
 void HELPER(gvec_ors)(void *d, void *a, uint64_t b, uint32_t desc)
 {
     intptr_t oprsz = simd_oprsz(desc);
-    uint64_t vecb = (uint64_t)DUP2(b);
     intptr_t i;
 
     for (i = 0; i < oprsz; i += sizeof(uint64_t)) {
-        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | vecb;
+        *(uint64_t *)(d + i) = *(uint64_t *)(a + i) | b;
     }
     clear_high(d, oprsz, desc);
 }
-- 
2.20.1

Partial cleanup from the CONFIG_VECTOR16 removal.
Replace DO_CMP0 with its scalar expansion, a simple negation.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime-gvec.c | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sar64v)(void *d, void *a, void *b, uint32_t desc)
     clear_high(d, oprsz, desc);
 }
 
-#define DO_CMP0(X)  -(X)
-
 #define DO_CMP1(NAME, TYPE, OP)                                            \
 void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)                \
 {                                                                          \
     intptr_t oprsz = simd_oprsz(desc);                                     \
     intptr_t i;                                                            \
     for (i = 0; i < oprsz; i += sizeof(TYPE)) {                            \
-        *(TYPE *)(d + i) = DO_CMP0(*(TYPE *)(a + i) OP *(TYPE *)(b + i));  \
+        *(TYPE *)(d + i) = -(*(TYPE *)(a + i) OP *(TYPE *)(b + i));        \
     }                                                                      \
     clear_high(d, oprsz, desc);                                            \
 }
@@ -XXX,XX +XXX,XX @@ DO_CMP2(16)
 DO_CMP2(32)
 DO_CMP2(64)
 
-#undef DO_CMP0
 #undef DO_CMP1
 #undef DO_CMP2
 
-- 
2.20.1

Pretty small still, but there are two patches that ought
to get backported to stable, so no point in delaying.

The following changes since commit a5ba0a7e4e150d1350a041f0d0ef9ca6c8d7c307:

Merge tag 'pull-aspeed-20241211' of https://github.com/legoater/qemu into staging (2024-12-11 15:16:47 +0000)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241212

for you to fetch changes up to 7ac87b14a92234b6a89b701b4043ad6cf8bdcccf:

target/sparc: Use memcpy() and remove memcpy32() (2024-12-12 14:28:38 -0600)

----------------------------------------------------------------
tcg: Reset free_temps before tcg_optimize
tcg/riscv: Fix StoreStore barrier generation
include/exec: Introduce fpst alias in helper-head.h.inc
target/sparc: Use memcpy() and remove memcpy32()

----------------------------------------------------------------
Philippe Mathieu-Daudé (1):
      target/sparc: Use memcpy() and remove memcpy32()

Richard Henderson (2):
      tcg: Reset free_temps before tcg_optimize
      include/exec: Introduce fpst alias in helper-head.h.inc

Roman Artemev (1):
      tcg/riscv: Fix StoreStore barrier generation

When allocating new temps during tcg_optmize, do not re-use
any EBB temps that were used within the TB.  We do not have
any idea what span of the TB in which the temp was live.

Introduce tcg_temp_ebb_reset_freed and use before tcg_optimize,
as well as replacing the equivalent in plugin_gen_inject and
tcg_func_start.

Cc: qemu-stable@nongnu.org
Fixes: fb04ab7ddd8 ("tcg/optimize: Lower TCG_COND_TST{EQ,NE} if unsupported")
Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2711
Reported-by: wannacu <wannacu2049@gmail.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
---
 include/tcg/tcg-temp-internal.h | 6 ++++++
 accel/tcg/plugin-gen.c          | 2 +-
 tcg/tcg.c                       | 5 ++++-
 3 files changed, 11 insertions(+), 2 deletions(-)

diff --git a/include/tcg/tcg-temp-internal.h b/include/tcg/tcg-temp-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/tcg/tcg-temp-internal.h
+++ b/include/tcg/tcg-temp-internal.h
@@ -XXX,XX +XXX,XX @@ TCGv_i64 tcg_temp_ebb_new_i64(void);
 TCGv_ptr tcg_temp_ebb_new_ptr(void);
 TCGv_i128 tcg_temp_ebb_new_i128(void);
 
+/* Forget all freed EBB temps, so that new allocations produce new temps. */
+static inline void tcg_temp_ebb_reset_freed(TCGContext *s)
+{
+    memset(s->free_temps, 0, sizeof(s->free_temps));
+}
+
 #endif /* TCG_TEMP_FREE_H */
diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/plugin-gen.c
+++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@ static void plugin_gen_inject(struct qemu_plugin_tb *plugin_tb)
      * that might be live within the existing opcode stream.
      * The simplest solution is to release them all and create new.
      */
-    memset(tcg_ctx->free_temps, 0, sizeof(tcg_ctx->free_temps));
+    tcg_temp_ebb_reset_freed(tcg_ctx);
 
     QTAILQ_FOREACH_SAFE(op, &tcg_ctx->ops, link, next) {
         switch (op->opc) {
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ void tcg_func_start(TCGContext *s)
     s->nb_temps = s->nb_globals;
 
     /* No temps have been previously allocated for size or locality.  */
-    memset(s->free_temps, 0, sizeof(s->free_temps));
+    tcg_temp_ebb_reset_freed(s);
 
     /* No constant temps have been previously allocated. */
     for (int i = 0; i < TCG_TYPE_COUNT; ++i) {
@@ -XXX,XX +XXX,XX @@ int tcg_gen_code(TCGContext *s, TranslationBlock *tb, uint64_t pc_start)
     }
 #endif
 
+    /* Do not reuse any EBB that may be allocated within the TB. */
+    tcg_temp_ebb_reset_freed(s);
+
     tcg_optimize(s);
 
     reachable_code_pass(s);
-- 
2.43.0

From: Roman Artemev <roman.artemev@syntacore.com>

On RISC-V to StoreStore barrier corresponds
`fence w, w` not `fence r, r`

Cc: qemu-stable@nongnu.org
Fixes: efbea94c76b ("tcg/riscv: Add slowpath load and store instructions")
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Denis Tomashev <denis.tomashev@syntacore.com>
Signed-off-by: Roman Artemev <roman.artemev@syntacore.com>
Message-ID: <e2f2131e294a49e79959d4fa9ec02cf4@syntacore.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/riscv/tcg-target.c.inc | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tcg/riscv/tcg-target.c.inc b/tcg/riscv/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/riscv/tcg-target.c.inc
+++ b/tcg/riscv/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mb(TCGContext *s, TCGArg a0)
         insn |= 0x02100000;
     }
     if (a0 & TCG_MO_ST_ST) {
-        insn |= 0x02200000;
+        insn |= 0x01100000;
     }
     tcg_out32(s, insn);
 }
-- 
2.43.0

This allows targets to declare that the helper requires a
float_status pointer and instead of a generic void pointer.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/helper-head.h.inc | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/include/exec/helper-head.h.inc b/include/exec/helper-head.h.inc
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/helper-head.h.inc
+++ b/include/exec/helper-head.h.inc
@@ -XXX,XX +XXX,XX @@
 #define dh_alias_ptr ptr
 #define dh_alias_cptr ptr
 #define dh_alias_env ptr
+#define dh_alias_fpst ptr
 #define dh_alias_void void
 #define dh_alias_noreturn noreturn
 #define dh_alias(t) glue(dh_alias_, t)
@@ -XXX,XX +XXX,XX @@
 #define dh_ctype_ptr void *
 #define dh_ctype_cptr const void *
 #define dh_ctype_env CPUArchState *
+#define dh_ctype_fpst float_status *
 #define dh_ctype_void void
 #define dh_ctype_noreturn G_NORETURN void
 #define dh_ctype(t) dh_ctype_##t
@@ -XXX,XX +XXX,XX @@
 #define dh_typecode_f64 dh_typecode_i64
 #define dh_typecode_cptr dh_typecode_ptr
 #define dh_typecode_env dh_typecode_ptr
+#define dh_typecode_fpst dh_typecode_ptr
 #define dh_typecode(t) dh_typecode_##t
 
 #define dh_callflag_i32  0
-- 
2.43.0

From: Philippe Mathieu-Daudé <philmd@linaro.org>

Rather than manually copying each register, use
the libc memcpy(), which is well optimized nowadays.

Suggested-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-ID: <20241205205418.67613-1-philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sparc/win_helper.c | 26 ++++++++------------------
 1 file changed, 8 insertions(+), 18 deletions(-)

diff --git a/target/sparc/win_helper.c b/target/sparc/win_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/win_helper.c
+++ b/target/sparc/win_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 #include "trace.h"
 
-static inline void memcpy32(target_ulong *dst, const target_ulong *src)
-{
-    dst[0] = src[0];
-    dst[1] = src[1];
-    dst[2] = src[2];
-    dst[3] = src[3];
-    dst[4] = src[4];
-    dst[5] = src[5];
-    dst[6] = src[6];
-    dst[7] = src[7];
-}
-
 void cpu_set_cwp(CPUSPARCState *env, int new_cwp)
 {
     /* put the modified wrap registers at their proper location */
     if (env->cwp == env->nwindows - 1) {
-        memcpy32(env->regbase, env->regbase + env->nwindows * 16);
+        memcpy(env->regbase, env->regbase + env->nwindows * 16,
+               sizeof(env->gregs));
     }
     env->cwp = new_cwp;
 
     /* put the wrap registers at their temporary location */
     if (new_cwp == env->nwindows - 1) {
-        memcpy32(env->regbase + env->nwindows * 16, env->regbase);
+        memcpy(env->regbase + env->nwindows * 16, env->regbase,
+               sizeof(env->gregs));
     }
     env->regwptr = env->regbase + (new_cwp * 16);
 }
@@ -XXX,XX +XXX,XX @@ void cpu_gl_switch_gregs(CPUSPARCState *env, uint32_t new_gl)
     dst = get_gl_gregset(env, env->gl);
 
     if (src != dst) {
-        memcpy32(dst, env->gregs);
-        memcpy32(env->gregs, src);
+        memcpy(dst, env->gregs, sizeof(env->gregs));
+        memcpy(env->gregs, src, sizeof(env->gregs));
     }
 }
 
@@ -XXX,XX +XXX,XX @@ void cpu_change_pstate(CPUSPARCState *env, uint32_t new_pstate)
         /* Switch global register bank */
         src = get_gregset(env, new_pstate_regs);
         dst = get_gregset(env, pstate_regs);
-        memcpy32(dst, env->gregs);
-        memcpy32(env->gregs, src);
+        memcpy(dst, env->gregs, sizeof(env->gregs));
+        memcpy(env->gregs, src, sizeof(env->gregs));
     } else {
         trace_win_helper_no_switch_pstate(new_pstate_regs);
     }
-- 
2.43.0