Series comparison

-[Qemu-devel] [PULL 00/32] tcg patch queue
+[PULL 00/23] tcg patch queue
-The following changes since commit 2d894e48362ad2a576fca929dcca1787f43a8af6:
+The following changes since commit 9e5319ca52a5b9e84d55ad9c36e2c0b317a122bb:
-  Merge remote-tracking branch 'remotes/stefanha/tags/tracing-pull-request' into staging (2018-12-13 17:50:45 +0000)
+  Merge remote-tracking branch 'remotes/bonzini/tags/for-upstream' into staging (2019-10-04 18:32:34 +0100)
 are available in the Git repository at:
-  https://github.com/rth7680/qemu.git tags/pull-tcg-20181213
+  https://github.com/rth7680/qemu.git tags/pull-tcg-20191013
-for you to fetch changes up to 99f70ba5b6b4566509b2069a8d29c6686b8115de:
+for you to fetch changes up to d2f86bba6931388e275e8eb4ccd1dbcc7cae6328:
-  xxhash: match output against the original xxhash32 (2018-12-13 18:56:11 -0600)
+  cpus: kick all vCPUs when running thread=single (2019-10-07 14:08:58 -0400)
 ----------------------------------------------------------------
-- Remove retranslation remenents
+Host vector support for tcg/ppc.
-- Return success from patch_reloc
+Fix thread=single cpu kicking.
 - Preserve 32-bit values as zero-extended on x86_64
 - Make bswap during memory ops as optional
 - Cleanup xxhash
 ----------------------------------------------------------------
-Alistair Francis (1):
+Alex Bennée (1):
-      tcg/mips: Improve the add2/sub2 command to use TCG_TARGET_REG_BITS
+      cpus: kick all vCPUs when running thread=single
-Emilio G. Cota (5):
+Richard Henderson (22):
-      tcg: Drop nargs from tcg_op_insert_{before,after}
+      tcg/ppc: Introduce Altivec registers
-      qht-bench: document -p flag
+      tcg/ppc: Introduce macro VX4()
-      exec: introduce qemu_xxhash{2,4,5,6,7}
+      tcg/ppc: Introduce macros VRT(), VRA(), VRB(), VRC()
-      include: move exec/tb-hash-xx.h to qemu/xxhash.h
+      tcg/ppc: Create TCGPowerISA and have_isa
-      xxhash: match output against the original xxhash32
+      tcg/ppc: Replace HAVE_ISA_2_06
       tcg/ppc: Replace HAVE_ISEL macro with a variable
       tcg/ppc: Enable tcg backend vector compilation
       tcg/ppc: Add support for load/store/logic/comparison
       tcg/ppc: Add support for vector maximum/minimum
       tcg/ppc: Add support for vector add/subtract
       tcg/ppc: Add support for vector saturated add/subtract
       tcg/ppc: Support vector shift by immediate
       tcg/ppc: Support vector multiply
       tcg/ppc: Support vector dup2
       tcg/ppc: Enable Altivec detection
       tcg/ppc: Update vector support for VSX
       tcg/ppc: Update vector support for v2.07 Altivec
       tcg/ppc: Update vector support for v2.07 VSX
       tcg/ppc: Update vector support for v2.07 FP
       tcg/ppc: Update vector support for v3.00 Altivec
       tcg/ppc: Update vector support for v3.00 load/store
       tcg/ppc: Update vector support for v3.00 dup/dupi
-Richard Henderson (26):
+ tcg/ppc/tcg-target.h     |   51 ++-
-      tcg/i386: Always use %ebp for TCG_AREG0
+ tcg/ppc/tcg-target.opc.h |   13 +
-      tcg/i386: Move TCG_REG_CALL_STACK from define to enum
+ cpus.c                   |   24 +-
-      tcg/aarch64: Remove reloc_pc26_atomic
+ tcg/ppc/tcg-target.inc.c | 1118 ++++++++++++++++++++++++++++++++++++++++++----
-      tcg/aarch64: Fold away "noaddr" branch routines
+files changed, 1119 insertions(+), 87 deletions(-)
-      tcg/arm: Remove reloc_pc24_atomic
+ create mode 100644 tcg/ppc/tcg-target.opc.h
       tcg/arm: Fold away "noaddr" branch routines
       tcg/ppc: Fold away "noaddr" branch routines
       tcg/s390: Remove retranslation code
       tcg/sparc: Remove retranslation code
       tcg/mips: Remove retranslation code
       tcg: Return success from patch_reloc
       tcg/i386: Return false on failure from patch_reloc
       tcg/aarch64: Return false on failure from patch_reloc
       tcg/arm: Return false on failure from patch_reloc
       tcg/ppc: Return false on failure from patch_reloc
       tcg/s390x: Return false on failure from patch_reloc
       tcg/i386: Propagate is64 to tcg_out_qemu_ld_direct
       tcg/i386: Propagate is64 to tcg_out_qemu_ld_slow_path
       tcg/i386: Implement INDEX_op_extr{lh}_i64_i32 for 32-bit guests
       tcg/i386: Assume 32-bit values are zero-extended
       tcg/i386: Precompute all guest_base parameters
       tcg/i386: Add setup_guest_base_seg for FreeBSD
       tcg: Clean up generic bswap32
       tcg: Clean up generic bswap64
       tcg/optimize: Optimize bswap
       tcg: Add TCG_TARGET_HAS_MEMORY_BSWAP
- include/exec/tb-hash.h                       |   4 +-
- include/{exec/tb-hash-xx.h => qemu/xxhash.h} |  47 ++++--
- tcg/aarch64/tcg-target.h                     |   1 +
- tcg/arm/tcg-target.h                         |   1 +
- tcg/i386/tcg-target.h                        |  17 +--
- tcg/mips/tcg-target.h                        |   1 +
- tcg/ppc/tcg-target.h                         |   1 +
- tcg/s390/tcg-target.h                        |   1 +
- tcg/sparc/tcg-target.h                       |   1 +
- tcg/tcg.h                                    |   4 +-
- tcg/tci/tcg-target.h                         |   2 +
- tcg/aarch64/tcg-target.inc.c                 |  71 +++------
- tcg/arm/tcg-target.inc.c                     |  55 +++----
- tcg/i386/tcg-target.inc.c                    | 208 ++++++++++++--------------
- tcg/mips/tcg-target.inc.c                    |  12 +-
- tcg/optimize.c                               |  16 +-
- tcg/ppc/tcg-target.inc.c                     |  60 ++++----
- tcg/s390/tcg-target.inc.c                    |  45 +++---
- tcg/sparc/tcg-target.inc.c                   |  13 +-
- tcg/tcg-op.c                                 | 215 ++++++++++++++++++++-------
- tcg/tcg.c                                    |  18 +--
- tcg/tci/tcg-target.inc.c                     |   3 +-
- tests/qht-bench.c                            |   5 +-
- util/qsp.c                                   |  14 +-
-files changed, 452 insertions(+), 363 deletions(-)
- rename include/{exec/tb-hash-xx.h => qemu/xxhash.h} (73%)

-[Qemu-devel] [PULL 01/32] tcg/i386: Always use %ebp for TCG_AREG0
+Deleted patch
-For x86_64, this can remove a REX prefix resulting in smaller code
-when manipulating globals of type i32, as we move them between backing
-store via cpu_env, aka TCG_AREG0.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Emilio G. Cota <cota@braap.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/i386/tcg-target.h | 8 ++------
-file changed, 2 insertions(+), 6 deletions(-)
-diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.h
-+++ b/tcg/i386/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ typedef enum {
-     TCG_REG_RBP = TCG_REG_EBP,
-     TCG_REG_RSI = TCG_REG_ESI,
-     TCG_REG_RDI = TCG_REG_EDI,
-+
-+    TCG_AREG0 = TCG_REG_EBP,
- } TCGReg;
- /* used for function call generation */
-@@ -XXX,XX +XXX,XX @@ extern bool have_avx2;
- #define TCG_TARGET_extract_i64_valid(ofs, len) \
-     (((ofs) == 8 && (len) == 8) || ((ofs) + (len)) == 32)
--#if TCG_TARGET_REG_BITS == 64
--# define TCG_AREG0 TCG_REG_R14
--#else
--# define TCG_AREG0 TCG_REG_EBP
--#endif
--
- static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
- {
- }
---
-.17.2

-[Qemu-devel] [PULL 19/32] tcg/i386: Implement INDEX_op_extr{lh}_i64_i32 for 32-bit guests
+[PULL 01/23] tcg/ppc: Introduce Altivec registers
-This preserves the invariant that all TCG_TYPE_I32 values are
+Altivec supports 32 128-bit vector registers, whose names are
-zero-extended in the 64-bit host register.
+by convention v0 through v31.
-Reviewed-by: Emilio G. Cota <cota@braap.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/i386/tcg-target.h     | 5 +++--
+ tcg/ppc/tcg-target.h     | 11 ++++-
- tcg/i386/tcg-target.inc.c | 6 ++++++
+ tcg/ppc/tcg-target.inc.c | 88 +++++++++++++++++++++++++---------------
-files changed, 9 insertions(+), 2 deletions(-)
+files changed, 65 insertions(+), 34 deletions(-)
-diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.h
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/i386/tcg-target.h
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ extern bool have_avx2;
+@@ -XXX,XX +XXX,XX @@
- #define TCG_TARGET_HAS_direct_jump      1
+ # define TCG_TARGET_REG_BITS  32
+ #endif
- #if TCG_TARGET_REG_BITS == 64
--#define TCG_TARGET_HAS_extrl_i64_i32    0
+-#define TCG_TARGET_NB_REGS 32
--#define TCG_TARGET_HAS_extrh_i64_i32    0
++#define TCG_TARGET_NB_REGS 64
-+/* Keep target addresses zero-extended in a register.  */
+ #define TCG_TARGET_INSN_UNIT_SIZE 4
-+#define TCG_TARGET_HAS_extrl_i64_i32    (TARGET_LONG_BITS == 32)
+ #define TCG_TARGET_TLB_DISPLACEMENT_BITS 16
-+#define TCG_TARGET_HAS_extrh_i64_i32    (TARGET_LONG_BITS == 32)
- #define TCG_TARGET_HAS_div2_i64         1
+@@ -XXX,XX +XXX,XX @@ typedef enum {
- #define TCG_TARGET_HAS_rot_i64          1
+     TCG_REG_R24, TCG_REG_R25, TCG_REG_R26, TCG_REG_R27,
- #define TCG_TARGET_HAS_ext8s_i64        1
+     TCG_REG_R28, TCG_REG_R29, TCG_REG_R30, TCG_REG_R31,
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
 +    TCG_REG_V0,  TCG_REG_V1,  TCG_REG_V2,  TCG_REG_V3,
 +    TCG_REG_V4,  TCG_REG_V5,  TCG_REG_V6,  TCG_REG_V7,
 +    TCG_REG_V8,  TCG_REG_V9,  TCG_REG_V10, TCG_REG_V11,
 +    TCG_REG_V12, TCG_REG_V13, TCG_REG_V14, TCG_REG_V15,
 +    TCG_REG_V16, TCG_REG_V17, TCG_REG_V18, TCG_REG_V19,
 +    TCG_REG_V20, TCG_REG_V21, TCG_REG_V22, TCG_REG_V23,
 +    TCG_REG_V24, TCG_REG_V25, TCG_REG_V26, TCG_REG_V27,
 +    TCG_REG_V28, TCG_REG_V29, TCG_REG_V30, TCG_REG_V31,
 +
      TCG_REG_CALL_STACK = TCG_REG_R1,
      TCG_AREG0 = TCG_REG_R27
  } TCGReg;
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/i386/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
+@@ -XXX,XX +XXX,XX @@
-         break;
+ # define TCG_REG_TMP1   TCG_REG_R12
      case INDEX_op_extu_i32_i64:
      case INDEX_op_ext32u_i64:
 +    case INDEX_op_extrl_i64_i32:
          tcg_out_ext32u(s, a0, a1);
          break;
      case INDEX_op_ext_i32_i64:
      case INDEX_op_ext32s_i64:
          tcg_out_ext32s(s, a0, a1);
          break;
 +    case INDEX_op_extrh_i64_i32:
 +        tcg_out_shifti(s, SHIFT_SHR + P_REXW, a0, 32);
 +        break;
  #endif
-     OP_32_64(deposit):
++#define TCG_VEC_TMP1    TCG_REG_V0
-@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
++#define TCG_VEC_TMP2    TCG_REG_V1
-     case INDEX_op_neg_i64:
++
-     case INDEX_op_not_i32:
+ #define TCG_REG_TB     TCG_REG_R31
-     case INDEX_op_not_i64:
+ #define USE_REG_TB     (TCG_TARGET_REG_BITS == 64)
-+    case INDEX_op_extrh_i64_i32:
-         return &r_0;
+@@ -XXX,XX +XXX,XX @@ bool have_isa_3_00;
+ #endif
-     case INDEX_op_ext8s_i32:
-@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
+ #ifdef CONFIG_DEBUG_TCG
-     case INDEX_op_ext32u_i64:
+-static const char * const tcg_target_reg_names[TCG_TARGET_NB_REGS] = {
-     case INDEX_op_ext_i32_i64:
+-    "r0",
-     case INDEX_op_extu_i32_i64:
+-    "r1",
-+    case INDEX_op_extrl_i64_i32:
+-    "r2",
-     case INDEX_op_extract_i32:
+-    "r3",
-     case INDEX_op_extract_i64:
+-    "r4",
-     case INDEX_op_sextract_i32:
+-    "r5",
 -    "r6",
 -    "r7",
 -    "r8",
 -    "r9",
 -    "r10",
 -    "r11",
 -    "r12",
 -    "r13",
 -    "r14",
 -    "r15",
 -    "r16",
 -    "r17",
 -    "r18",
 -    "r19",
 -    "r20",
 -    "r21",
 -    "r22",
 -    "r23",
 -    "r24",
 -    "r25",
 -    "r26",
 -    "r27",
 -    "r28",
 -    "r29",
 -    "r30",
 -    "r31"
 +static const char tcg_target_reg_names[TCG_TARGET_NB_REGS][4] = {
 +    "r0",  "r1",  "r2",  "r3",  "r4",  "r5",  "r6",  "r7",
 +    "r8",  "r9",  "r10", "r11", "r12", "r13", "r14", "r15",
 +    "r16", "r17", "r18", "r19", "r20", "r21", "r22", "r23",
 +    "r24", "r25", "r26", "r27", "r28", "r29", "r30", "r31",
 +    "v0",  "v1",  "v2",  "v3",  "v4",  "v5",  "v6",  "v7",
 +    "v8",  "v9",  "v10", "v11", "v12", "v13", "v14", "v15",
 +    "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
 +    "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31",
  };
  #endif
@@ -XXX,XX +XXX,XX @@ static const int tcg_target_reg_alloc_order[] = {
      TCG_REG_R5,
      TCG_REG_R4,
      TCG_REG_R3,
 +
 +    /* V0 and V1 reserved as temporaries; V20 - V31 are call-saved */
 +    TCG_REG_V2,   /* call clobbered, vectors */
 +    TCG_REG_V3,
 +    TCG_REG_V4,
 +    TCG_REG_V5,
 +    TCG_REG_V6,
 +    TCG_REG_V7,
 +    TCG_REG_V8,
 +    TCG_REG_V9,
 +    TCG_REG_V10,
 +    TCG_REG_V11,
 +    TCG_REG_V12,
 +    TCG_REG_V13,
 +    TCG_REG_V14,
 +    TCG_REG_V15,
 +    TCG_REG_V16,
 +    TCG_REG_V17,
 +    TCG_REG_V18,
 +    TCG_REG_V19,
  };
  static const int tcg_target_call_iarg_regs[] = {
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
      tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R11);
      tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R12);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V0);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V1);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V2);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V3);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V4);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V5);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V6);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V7);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V8);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V9);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V10);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V11);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V12);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V13);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V14);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V15);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V16);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V17);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V18);
 +    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V19);
 +
      s->reserved_regs = 0;
      tcg_regset_set_reg(s->reserved_regs, TCG_REG_R0); /* tcg temp */
      tcg_regset_set_reg(s->reserved_regs, TCG_REG_R1); /* stack pointer */
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
      tcg_regset_set_reg(s->reserved_regs, TCG_REG_R13); /* thread pointer */
  #endif
      tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1); /* mem temp */
 +    tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP1);
 +    tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP2);
      if (USE_REG_TB) {
          tcg_regset_set_reg(s->reserved_regs, TCG_REG_TB);  /* tb->tc_ptr */
      }
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 29/32] qht-bench: document -p flag
+[PULL 02/23] tcg/ppc: Introduce macro VX4()
-From: "Emilio G. Cota" <cota@braap.org>
+Introduce macro VX4() used for encoding Altivec instructions.
-Which we forgot to do in bd224fce60 ("qht-bench: add -p flag
-to precompute hash values", 2018-09-26).
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Emilio G. Cota <cota@braap.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tests/qht-bench.c | 1 +
+ tcg/ppc/tcg-target.inc.c | 1 +
 file changed, 1 insertion(+)
-diff --git a/tests/qht-bench.c b/tests/qht-bench.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tests/qht-bench.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tests/qht-bench.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static const char commands_string[] =
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-     " -n = number of threads\n"
+ #define XO31(opc) (OPCD(31)|((opc)<<1))
-     "\n"
+ #define XO58(opc) (OPCD(58)|(opc))
-     " -o = offset at which keys start\n"
+ #define XO62(opc) (OPCD(62)|(opc))
-+    " -p = precompute hashes\n"
++#define VX4(opc)  (OPCD(4)|(opc))
-     "\n"
-     " -g = set -s,-k,-K,-l,-r to the same value\n"
+ #define B      OPCD( 18)
-     " -s = initial size hint\n"
+ #define BC     OPCD( 16)
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 32/32] xxhash: match output against the original xxhash32
+[PULL 03/23] tcg/ppc: Introduce macros VRT(), VRA(), VRB(), VRC()
-From: "Emilio G. Cota" <cota@braap.org>
+Introduce macros VRT(), VRA(), VRB(), VRC() used for encoding
 elements of Altivec instructions.
-Change the order in which we extract a/b and c/d to
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-match the output of the upstream xxhash32.
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
  tcg/ppc/tcg-target.inc.c | 5 +++++
 file changed, 5 insertions(+)
-Tested with:
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
   https://github.com/cota/xxhash/tree/qemu
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Tested-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Emilio G. Cota <cota@braap.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  include/qemu/xxhash.h | 8 ++++----
 file changed, 4 insertions(+), 4 deletions(-)
 diff --git a/include/qemu/xxhash.h b/include/qemu/xxhash.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/qemu/xxhash.h
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/include/qemu/xxhash.h
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ qemu_xxhash7(uint64_t ab, uint64_t cd, uint32_t e, uint32_t f, uint32_t g)
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-     uint32_t v2 = QEMU_XXHASH_SEED + PRIME32_2;
+ #define MB64(b) ((b)<<5)
-     uint32_t v3 = QEMU_XXHASH_SEED + 0;
+ #define FXM(b) (1 << (19 - (b)))
-     uint32_t v4 = QEMU_XXHASH_SEED - PRIME32_1;
--    uint32_t a = ab >> 32;
++#define VRT(r)  (((r) & 31) << 21)
--    uint32_t b = ab;
++#define VRA(r)  (((r) & 31) << 16)
--    uint32_t c = cd >> 32;
++#define VRB(r)  (((r) & 31) << 11)
--    uint32_t d = cd;
++#define VRC(r)  (((r) & 31) <<  6)
-+    uint32_t a = ab;
++
-+    uint32_t b = ab >> 32;
+ #define LK    1
-+    uint32_t c = cd;
-+    uint32_t d = cd >> 32;
+ #define TAB(t, a, b) (RT(t) | RA(a) | RB(b))
      uint32_t h32;
      v1 += a * PRIME32_2;
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 02/32] tcg/i386: Move TCG_REG_CALL_STACK from define to enum
+[PULL 04/23] tcg/ppc: Create TCGPowerISA and have_isa
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Introduce an enum to hold base < 2.06 < 3.00.  Use macros to
-Reviewed-by: Emilio G. Cota <cota@braap.org>
+preserve the existing have_isa_2_06 and have_isa_3_00 predicates.
 Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.h | 2 +-
+ tcg/ppc/tcg-target.h     | 12 ++++++++++--
-file changed, 1 insertion(+), 1 deletion(-)
+ tcg/ppc/tcg-target.inc.c |  8 ++++----
 files changed, 14 insertions(+), 6 deletions(-)
-diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.h
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/i386/tcg-target.h
++++ b/tcg/ppc/tcg-target.h
 @@ -XXX,XX +XXX,XX @@ typedef enum {
-     TCG_REG_RDI = TCG_REG_EDI,
+     TCG_AREG0 = TCG_REG_R27
      TCG_AREG0 = TCG_REG_EBP,
 +    TCG_REG_CALL_STACK = TCG_REG_ESP
  } TCGReg;
- /* used for function call generation */
+-extern bool have_isa_2_06;
--#define TCG_REG_CALL_STACK TCG_REG_ESP
+-extern bool have_isa_3_00;
- #define TCG_TARGET_STACK_ALIGN 16
++typedef enum {
- #if defined(_WIN64)
++    tcg_isa_base,
- #define TCG_TARGET_CALL_STACK_OFFSET 32
++    tcg_isa_2_06,
 +    tcg_isa_3_00,
 +} TCGPowerISA;
 +
 +extern TCGPowerISA have_isa;
 +
 +#define have_isa_2_06  (have_isa >= tcg_isa_2_06)
 +#define have_isa_3_00  (have_isa >= tcg_isa_3_00)
  /* optional instructions automatically implemented */
  #define TCG_TARGET_HAS_ext8u_i32        0 /* andi */
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@
  static tcg_insn_unit *tb_ret_addr;
 -bool have_isa_2_06;
 -bool have_isa_3_00;
 +TCGPowerISA have_isa;
  #define HAVE_ISA_2_06  have_isa_2_06
  #define HAVE_ISEL      have_isa_2_06
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
      unsigned long hwcap = qemu_getauxval(AT_HWCAP);
      unsigned long hwcap2 = qemu_getauxval(AT_HWCAP2);
 +    have_isa = tcg_isa_base;
      if (hwcap & PPC_FEATURE_ARCH_2_06) {
 -        have_isa_2_06 = true;
 +        have_isa = tcg_isa_2_06;
      }
  #ifdef PPC_FEATURE2_ARCH_3_00
      if (hwcap2 & PPC_FEATURE2_ARCH_3_00) {
 -        have_isa_3_00 = true;
 +        have_isa = tcg_isa_3_00;
      }
  #endif
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 03/32] tcg/aarch64: Remove reloc_pc26_atomic
+Deleted patch
-It is unused since b68686bd4bfeb70040b4099df993dfa0b4f37b03.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/aarch64/tcg-target.inc.c | 12 ------------
-file changed, 12 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.inc.c
-+++ b/tcg/aarch64/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc26(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
-     *code_ptr = deposit32(*code_ptr, 0, 26, offset);
- }
--static inline void reloc_pc26_atomic(tcg_insn_unit *code_ptr,
--                                     tcg_insn_unit *target)
--{
--    ptrdiff_t offset = target - code_ptr;
--    tcg_insn_unit insn;
--    tcg_debug_assert(offset == sextract64(offset, 0, 26));
--    /* read instruction, mask away previous PC_REL26 parameter contents,
--       set the proper offset, then write back the instruction. */
--    insn = atomic_read(code_ptr);
--    atomic_set(code_ptr, deposit32(insn, 0, 26, offset));
--}
--
- static inline void reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
- {
-     ptrdiff_t offset = target - code_ptr;
---
-.17.2

-[Qemu-devel] [PULL 04/32] tcg/aarch64: Fold away "noaddr" branch routines
+Deleted patch
-There are one use apiece for these.  There is no longer a need for
-preserving branch offset operands, as we no longer re-translate.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/aarch64/tcg-target.inc.c | 21 ++-------------------
-file changed, 2 insertions(+), 19 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.inc.c
-+++ b/tcg/aarch64/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_goto_long(TCGContext *s, tcg_insn_unit *target)
-     }
- }
--static inline void tcg_out_goto_noaddr(TCGContext *s)
--{
--    /* We pay attention here to not modify the branch target by reading from
--       the buffer. This ensure that caches and memory are kept coherent during
--       retranslation.  Mask away possible garbage in the high bits for the
--       first translation, while keeping the offset bits for retranslation. */
--    uint32_t old = tcg_in32(s);
--    tcg_out_insn(s, 3206, B, old);
--}
--
--static inline void tcg_out_goto_cond_noaddr(TCGContext *s, TCGCond c)
--{
--    /* See comments in tcg_out_goto_noaddr.  */
--    uint32_t old = tcg_in32(s) >> 5;
--    tcg_out_insn(s, 3202, B_C, c, old);
--}
--
- static inline void tcg_out_callr(TCGContext *s, TCGReg reg)
- {
-     tcg_out_insn(s, 3207, BLR, reg);
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_goto_label(TCGContext *s, TCGLabel *l)
- {
-     if (!l->has_value) {
-         tcg_out_reloc(s, s->code_ptr, R_AARCH64_JUMP26, l, 0);
--        tcg_out_goto_noaddr(s);
-+        tcg_out_insn(s, 3206, B, 0);
-     } else {
-         tcg_out_goto(s, l->u.value_ptr);
-     }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, TCGMemOp opc,
-     /* If not equal, we jump to the slow path. */
-     *label_ptr = s->code_ptr;
--    tcg_out_goto_cond_noaddr(s, TCG_COND_NE);
-+    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
- }
- #endif /* CONFIG_SOFTMMU */
---
-.17.2

-[Qemu-devel] [PULL 05/32] tcg/arm: Remove reloc_pc24_atomic
+Deleted patch
-It is unused since 3fb53fb4d12f2e7833bd1659e6013237b130ef20.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/arm/tcg-target.inc.c | 8 --------
-file changed, 8 deletions(-)
-diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.inc.c
-+++ b/tcg/arm/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
-     *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
- }
--static inline void reloc_pc24_atomic(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
--{
--    ptrdiff_t offset = (tcg_ptr_byte_diff(target, code_ptr) - 8) >> 2;
--    tcg_insn_unit insn = atomic_read(code_ptr);
--    tcg_debug_assert(offset == sextract32(offset, 0, 24));
--    atomic_set(code_ptr, deposit32(insn, 0, 24, offset));
--}
--
- static void patch_reloc(tcg_insn_unit *code_ptr, int type,
-                         intptr_t value, intptr_t addend)
- {
---
-.17.2

-[Qemu-devel] [PULL 06/32] tcg/arm: Fold away "noaddr" branch routines
+Deleted patch
-There are one use apiece for these.  There is no longer a need for
-preserving branch offset operands, as we no longer re-translate.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/arm/tcg-target.inc.c | 22 +++-------------------
-file changed, 3 insertions(+), 19 deletions(-)
-diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.inc.c
-+++ b/tcg/arm/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_b(TCGContext *s, int cond, int32_t offset)
-                     (((offset - 8) >> 2) & 0x00ffffff));
- }
--static inline void tcg_out_b_noaddr(TCGContext *s, int cond)
--{
--    /* We pay attention here to not modify the branch target by masking
--       the corresponding bytes.  This ensure that caches and memory are
--       kept coherent during retranslation. */
--    tcg_out32(s, deposit32(*s->code_ptr, 24, 8, (cond << 4) | 0x0a));
--}
--
--static inline void tcg_out_bl_noaddr(TCGContext *s, int cond)
--{
--    /* We pay attention here to not modify the branch target by masking
--       the corresponding bytes.  This ensure that caches and memory are
--       kept coherent during retranslation. */
--    tcg_out32(s, deposit32(*s->code_ptr, 24, 8, (cond << 4) | 0x0b));
--}
--
- static inline void tcg_out_bl(TCGContext *s, int cond, int32_t offset)
- {
-     tcg_out32(s, (cond << 28) | 0x0b000000 |
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_goto_label(TCGContext *s, int cond, TCGLabel *l)
-         tcg_out_goto(s, cond, l->u.value_ptr);
-     } else {
-         tcg_out_reloc(s, s->code_ptr, R_ARM_PC24, l, 0);
--        tcg_out_b_noaddr(s, cond);
-+        tcg_out_b(s, cond, 0);
-     }
- }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
-     /* This a conditional BL only to load a pointer within this opcode into LR
-        for the slow path.  We will not be using the value for a tail call.  */
-     label_ptr = s->code_ptr;
--    tcg_out_bl_noaddr(s, COND_NE);
-+    tcg_out_bl(s, COND_NE, 0);
-     tcg_out_qemu_ld_index(s, opc, datalo, datahi, addrlo, addend);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
-     /* The conditional call must come last, as we're going to return here.  */
-     label_ptr = s->code_ptr;
--    tcg_out_bl_noaddr(s, COND_NE);
-+    tcg_out_bl(s, COND_NE, 0);
-     add_qemu_ldst_label(s, false, oi, datalo, datahi, addrlo, addrhi,
-                         s->code_ptr, label_ptr);
---
-.17.2

-[Qemu-devel] [PULL 31/32] include: move exec/tb-hash-xx.h to qemu/xxhash.h
+[PULL 05/23] tcg/ppc: Replace HAVE_ISA_2_06
-From: "Emilio G. Cota" <cota@braap.org>
+This is identical to have_isa_2_06, so replace it.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Emilio G. Cota <cota@braap.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/tb-hash.h                       | 2 +-
+ tcg/ppc/tcg-target.inc.c | 5 ++---
- include/{exec/tb-hash-xx.h => qemu/xxhash.h} | 6 +++---
+file changed, 2 insertions(+), 3 deletions(-)
  tests/qht-bench.c                            | 2 +-
  util/qsp.c                                   | 2 +-
 files changed, 6 insertions(+), 6 deletions(-)
  rename include/{exec/tb-hash-xx.h => qemu/xxhash.h} (97%)
-diff --git a/include/exec/tb-hash.h b/include/exec/tb-hash.h
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/tb-hash.h
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/include/exec/tb-hash.h
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static tcg_insn_unit *tb_ret_addr;
- #ifndef EXEC_TB_HASH_H
- #define EXEC_TB_HASH_H
+ TCGPowerISA have_isa;
--#include "exec/tb-hash-xx.h"
+-#define HAVE_ISA_2_06  have_isa_2_06
-+#include "qemu/xxhash.h"
+ #define HAVE_ISEL      have_isa_2_06
- #ifdef CONFIG_SOFTMMU
+ #ifndef CONFIG_SOFTMMU
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
-diff --git a/include/exec/tb-hash-xx.h b/include/qemu/xxhash.h
+         }
-similarity index 97%
+     } else {
-rename from include/exec/tb-hash-xx.h
+         uint32_t insn = qemu_ldx_opc[opc & (MO_BSWAP | MO_SSIZE)];
-rename to include/qemu/xxhash.h
+-        if (!HAVE_ISA_2_06 && insn == LDBRX) {
-index XXXXXXX..XXXXXXX 100644
++        if (!have_isa_2_06 && insn == LDBRX) {
---- a/include/exec/tb-hash-xx.h
+             tcg_out32(s, ADDI | TAI(TCG_REG_R0, addrlo, 4));
-+++ b/include/qemu/xxhash.h
+             tcg_out32(s, LWBRX | TAB(datalo, rbase, addrlo));
-@@ -XXX,XX +XXX,XX @@
+             tcg_out32(s, LWBRX | TAB(TCG_REG_R0, rbase, TCG_REG_R0));
-  * - xxHash source repository : https://github.com/Cyan4973/xxHash
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
-  */
+         }
+     } else {
--#ifndef EXEC_TB_HASH_XX_H
+         uint32_t insn = qemu_stx_opc[opc & (MO_BSWAP | MO_SIZE)];
--#define EXEC_TB_HASH_XX_H
+-        if (!HAVE_ISA_2_06 && insn == STDBRX) {
-+#ifndef QEMU_XXHASH_H
++        if (!have_isa_2_06 && insn == STDBRX) {
-+#define QEMU_XXHASH_H
+             tcg_out32(s, STWBRX | SAB(datalo, rbase, addrlo));
+             tcg_out32(s, ADDI | TAI(TCG_REG_TMP1, addrlo, 4));
- #include "qemu/bitops.h"
+             tcg_out_shri64(s, TCG_REG_R0, datalo, 32);
@@ -XXX,XX +XXX,XX @@ static inline uint32_t qemu_xxhash6(uint64_t ab, uint64_t cd, uint32_t e,
      return qemu_xxhash7(ab, cd, e, f, 0);
  }
 -#endif /* EXEC_TB_HASH_XX_H */
 +#endif /* QEMU_XXHASH_H */
 diff --git a/tests/qht-bench.c b/tests/qht-bench.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/qht-bench.c
 +++ b/tests/qht-bench.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/atomic.h"
  #include "qemu/qht.h"
  #include "qemu/rcu.h"
 -#include "exec/tb-hash-xx.h"
 +#include "qemu/xxhash.h"
  struct thread_stats {
      size_t rd;
 diff --git a/util/qsp.c b/util/qsp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/util/qsp.c
 +++ b/util/qsp.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/timer.h"
  #include "qemu/qht.h"
  #include "qemu/rcu.h"
 -#include "exec/tb-hash-xx.h"
 +#include "qemu/xxhash.h"
  enum QSPType {
      QSP_MUTEX,
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 17/32] tcg/i386: Propagate is64 to tcg_out_qemu_ld_direct
+[PULL 06/23] tcg/ppc: Replace HAVE_ISEL macro with a variable
-This helps preserve the invariant that all TCG_TYPE_I32 values
+Previously we've been hard-coding knowledge that Power7 has ISEL, but
-are stored zero-extended in the 64-bit host registers.
+it was an optional instruction before that.  Use the AT_HWCAP2 bit,
 when present, to properly determine support.
-Reviewed-by: Emilio G. Cota <cota@braap.org>
+Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.inc.c | 13 +++++++------
+ tcg/ppc/tcg-target.inc.c | 17 ++++++++++++-----
-file changed, 7 insertions(+), 6 deletions(-)
+file changed, 12 insertions(+), 5 deletions(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/i386/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void setup_guest_base_seg(void) { }
+@@ -XXX,XX +XXX,XX @@
+ static tcg_insn_unit *tb_ret_addr;
- static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
-                                    TCGReg base, int index, intptr_t ofs,
+ TCGPowerISA have_isa;
--                                   int seg, TCGMemOp memop)
+-
-+                                   int seg, bool is64, TCGMemOp memop)
+-#define HAVE_ISEL      have_isa_2_06
- {
++static bool have_isel;
-     const TCGMemOp real_bswap = memop & MO_BSWAP;
-     TCGMemOp bswap = real_bswap;
+ #ifndef CONFIG_SOFTMMU
-+    int rexw = is64 * P_REXW;
+ #define TCG_GUEST_BASE_REG 30
-     int movop = OPC_MOVL_GvEv;
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_setcond(TCGContext *s, TCGType type, TCGCond cond,
+     /* If we have ISEL, we can implement everything with 3 or 4 insns.
-     if (have_movbe && real_bswap) {
+        All other cases below are also at least 3 insns, so speed up the
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
+        code generator by not considering them and always using ISEL.  */
-                                  base, index, 0, ofs);
+-    if (HAVE_ISEL) {
-         break;
++    if (have_isel) {
-     case MO_SB:
+         int isel, tab;
--        tcg_out_modrm_sib_offset(s, OPC_MOVSBL + P_REXW + seg, datalo,
-+        tcg_out_modrm_sib_offset(s, OPC_MOVSBL + rexw + seg, datalo,
+         tcg_out_cmp(s, cond, arg1, arg2, const_arg2, 7, type);
-                                  base, index, 0, ofs);
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_movcond(TCGContext *s, TCGType type, TCGCond cond,
-         break;
-     case MO_UW:
+     tcg_out_cmp(s, cond, c1, c2, const_c2, 7, type);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
-                                          base, index, 0, ofs);
+-    if (HAVE_ISEL) {
-                 tcg_out_rolw_8(s, datalo);
++    if (have_isel) {
-             }
+         int isel = tcg_to_isel[cond];
--            tcg_out_modrm(s, OPC_MOVSWL + P_REXW, datalo, datalo);
-+            tcg_out_modrm(s, OPC_MOVSWL + rexw, datalo, datalo);
+         /* Swap the V operands if the operation indicates inversion.  */
-         } else {
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_cntxz(TCGContext *s, TCGType type, uint32_t opc,
--            tcg_out_modrm_sib_offset(s, OPC_MOVSWL + P_REXW + seg,
+     } else {
-+            tcg_out_modrm_sib_offset(s, OPC_MOVSWL + rexw + seg,
+         tcg_out_cmp(s, TCG_COND_EQ, a1, 0, 1, 7, type);
-                                      datalo, base, index, 0, ofs);
+         /* Note that the only other valid constant for a2 is 0.  */
-         }
+-        if (HAVE_ISEL) {
-         break;
++        if (have_isel) {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
+             tcg_out32(s, opc | RA(TCG_REG_R0) | RS(a1));
-                      label_ptr, offsetof(CPUTLBEntry, addr_read));
+             tcg_out32(s, tcg_to_isel[TCG_COND_EQ] | TAB(a0, a2, TCG_REG_R0));
+         } else if (!const_a2 && a0 == a2) {
-     /* TLB Hit.  */
+@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
 -    tcg_out_qemu_ld_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, opc);
 +    tcg_out_qemu_ld_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, is64, opc);
      /* Record the current context of a load into ldst label */
      add_qemu_ldst_label(s, true, oi, datalo, datahi, addrlo, addrhi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
          }
          tcg_out_qemu_ld_direct(s, datalo, datahi,
 -                               base, index, offset, seg, opc);
 +                               base, index, offset, seg, is64, opc);
      }
  #endif
- }
 +#ifdef PPC_FEATURE2_HAS_ISEL
 +    /* Prefer explicit instruction from the kernel. */
 +    have_isel = (hwcap2 & PPC_FEATURE2_HAS_ISEL) != 0;
 +#else
 +    /* Fall back to knowing Power7 (2.06) has ISEL. */
 +    have_isel = have_isa_2_06;
 +#endif
 +
      tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
      tcg_target_available_regs[TCG_TYPE_I64] = 0xffffffff;
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 26/32] tcg: Add TCG_TARGET_HAS_MEMORY_BSWAP
+[PULL 07/23] tcg/ppc: Enable tcg backend vector compilation
-For now, defined universally as true, since we previously required
+Introduce all of the flags required to enable tcg backend vector support,
-backends to implement swapped memory operations.  Future patches
+and a runtime flag to indicate the host supports Altivec instructions.
-may now remove that support where it is onerous.
 For now, do not actually set have_isa_altivec to true, because we have not
 yet added all of the code to actually generate all of the required insns.
 However, we must define these flags in order to disable ifndefs that create
 stub versions of the functions added here.
 The change to tcg_out_movi works around a buglet in tcg.c wherein if we
 do not define tcg_out_dupi_vec we get a declared but not defined Werror,
 but if we only declare it we get a defined but not used Werror.  We need
 to this change to tcg_out_movi eventually anyway, so it's no biggie.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/aarch64/tcg-target.h |   1 +
+ tcg/ppc/tcg-target.h     | 25 ++++++++++++++++
- tcg/arm/tcg-target.h     |   1 +
+ tcg/ppc/tcg-target.opc.h |  5 ++++
- tcg/i386/tcg-target.h    |   2 +
+ tcg/ppc/tcg-target.inc.c | 62 ++++++++++++++++++++++++++++++++++++++--
- tcg/mips/tcg-target.h    |   1 +
+files changed, 89 insertions(+), 3 deletions(-)
- tcg/ppc/tcg-target.h     |   1 +
+ create mode 100644 tcg/ppc/tcg-target.opc.h
  tcg/s390/tcg-target.h    |   1 +
  tcg/sparc/tcg-target.h   |   1 +
  tcg/tci/tcg-target.h     |   2 +
  tcg/tcg-op.c             | 118 ++++++++++++++++++++++++++++++++++++++-
 files changed, 126 insertions(+), 2 deletions(-)
-diff --git a/tcg/aarch64/tcg-target.h b/tcg/aarch64/tcg-target.h
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.h
-+++ b/tcg/aarch64/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ typedef enum {
- #define TCG_TARGET_HAS_mul_vec          1
- #define TCG_TARGET_DEFAULT_MO (0)
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
- static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
- {
-diff --git a/tcg/arm/tcg-target.h b/tcg/arm/tcg-target.h
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.h
-+++ b/tcg/arm/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ enum {
- };
- #define TCG_TARGET_DEFAULT_MO (0)
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
- static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
- {
-diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.h
-+++ b/tcg/i386/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static inline void tb_target_set_jmp_target(uintptr_t tc_ptr,
- #define TCG_TARGET_DEFAULT_MO (TCG_MO_ALL & ~TCG_MO_ST_LD)
-+#define TCG_TARGET_HAS_MEMORY_BSWAP  1
-+
- #ifdef CONFIG_SOFTMMU
- #define TCG_TARGET_NEED_LDST_LABELS
- #endif
-diff --git a/tcg/mips/tcg-target.h b/tcg/mips/tcg-target.h
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.h
-+++ b/tcg/mips/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ extern bool use_mips32r2_instructions;
- #endif
- #define TCG_TARGET_DEFAULT_MO (0)
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
- static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
- {
 diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.h
 +++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ void flush_icache_range(uintptr_t start, uintptr_t stop);
+@@ -XXX,XX +XXX,XX @@ typedef enum {
  } TCGPowerISA;
  extern TCGPowerISA have_isa;
 +extern bool have_altivec;
  #define have_isa_2_06  (have_isa >= tcg_isa_2_06)
  #define have_isa_3_00  (have_isa >= tcg_isa_3_00)
@@ -XXX,XX +XXX,XX @@ extern TCGPowerISA have_isa;
  #define TCG_TARGET_HAS_mulsh_i64        1
  #endif
 +/*
 + * While technically Altivec could support V64, it has no 64-bit store
 + * instruction and substituting two 32-bit stores makes the generated
 + * code quite large.
 + */
 +#define TCG_TARGET_HAS_v64              0
 +#define TCG_TARGET_HAS_v128             have_altivec
 +#define TCG_TARGET_HAS_v256             0
 +
 +#define TCG_TARGET_HAS_andc_vec         0
 +#define TCG_TARGET_HAS_orc_vec          0
 +#define TCG_TARGET_HAS_not_vec          0
 +#define TCG_TARGET_HAS_neg_vec          0
 +#define TCG_TARGET_HAS_abs_vec          0
 +#define TCG_TARGET_HAS_shi_vec          0
 +#define TCG_TARGET_HAS_shs_vec          0
 +#define TCG_TARGET_HAS_shv_vec          0
 +#define TCG_TARGET_HAS_cmp_vec          0
 +#define TCG_TARGET_HAS_mul_vec          0
 +#define TCG_TARGET_HAS_sat_vec          0
 +#define TCG_TARGET_HAS_minmax_vec       0
 +#define TCG_TARGET_HAS_bitsel_vec       0
 +#define TCG_TARGET_HAS_cmpsel_vec       0
 +
  void flush_icache_range(uintptr_t start, uintptr_t stop);
  void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t);
- #define TCG_TARGET_DEFAULT_MO (0)
+diff --git a/tcg/ppc/tcg-target.opc.h b/tcg/ppc/tcg-target.opc.h
-+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+new file mode 100644
+index XXXXXXX..XXXXXXX
- #ifdef CONFIG_SOFTMMU
+--- /dev/null
- #define TCG_TARGET_NEED_LDST_LABELS
++++ b/tcg/ppc/tcg-target.opc.h
-diff --git a/tcg/s390/tcg-target.h b/tcg/s390/tcg-target.h
+@@ -XXX,XX +XXX,XX @@
 +/*
 + * Target-specific opcodes for host vector expansion.  These will be
 + * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
 + * consider these to be UNSPEC with names.
 + */
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390/tcg-target.h
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/s390/tcg-target.h
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
+@@ -XXX,XX +XXX,XX @@ static tcg_insn_unit *tb_ret_addr;
- #define TCG_TARGET_CALL_STACK_OFFSET    160
+ TCGPowerISA have_isa;
- #define TCG_TARGET_EXTEND_ARGS 1
+ static bool have_isel;
-+#define TCG_TARGET_HAS_MEMORY_BSWAP   1
++bool have_altivec;
- #define TCG_TARGET_DEFAULT_MO (TCG_MO_ALL & ~TCG_MO_ST_LD)
+ #ifndef CONFIG_SOFTMMU
+ #define TCG_GUEST_BASE_REG 30
-diff --git a/tcg/sparc/tcg-target.h b/tcg/sparc/tcg-target.h
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
-index XXXXXXX..XXXXXXX 100644
+     }
---- a/tcg/sparc/tcg-target.h
+ }
-+++ b/tcg/sparc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ extern bool use_vis3_instructions;
+-static inline void tcg_out_movi(TCGContext *s, TCGType type, TCGReg ret,
- #define TCG_AREG0 TCG_REG_I0
+-                                tcg_target_long arg)
++static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
- #define TCG_TARGET_DEFAULT_MO (0)
++                             tcg_target_long val)
 +#define TCG_TARGET_HAS_MEMORY_BSWAP     1
  static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
  {
-diff --git a/tcg/tci/tcg-target.h b/tcg/tci/tcg-target.h
+-    tcg_out_movi_int(s, type, ret, arg, false);
-index XXXXXXX..XXXXXXX 100644
++    g_assert_not_reached();
---- a/tcg/tci/tcg-target.h
++}
 +++ b/tcg/tci/tcg-target.h
@@ -XXX,XX +XXX,XX @@ static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
     We prefer consistency across hosts on this.  */
  #define TCG_TARGET_DEFAULT_MO  (0)
 +#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 +
- static inline void tb_target_set_jmp_target(uintptr_t tc_ptr,
++static void tcg_out_movi(TCGContext *s, TCGType type, TCGReg ret,
-                                             uintptr_t jmp_addr, uintptr_t addr)
++                         tcg_target_long arg)
- {
++{
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
++    switch (type) {
-index XXXXXXX..XXXXXXX 100644
++    case TCG_TYPE_I32:
---- a/tcg/tcg-op.c
++    case TCG_TYPE_I64:
-+++ b/tcg/tcg-op.c
++        tcg_debug_assert(ret < TCG_REG_V0);
-@@ -XXX,XX +XXX,XX @@ static void tcg_gen_req_mo(TCGBar type)
++        tcg_out_movi_int(s, type, ret, arg, false);
++        break;
  void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, TCGMemOp memop)
  {
 +    TCGMemOp orig_memop;
 +
-     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
++    case TCG_TYPE_V64:
-     memop = tcg_canonicalize_memop(memop, 0, 0);
++    case TCG_TYPE_V128:
-     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
++        tcg_debug_assert(ret >= TCG_REG_V0);
-                                addr, trace_mem_get_info(memop, 0));
++        tcg_out_dupi_vec(s, type, ret, arg);
 +        break;
 +
-+    orig_memop = memop;
++    default:
-+    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
++        g_assert_not_reached();
 +        memop &= ~MO_BSWAP;
 +        /* The bswap primitive requires zero-extended input.  */
 +        if ((memop & MO_SSIZE) == MO_SW) {
 +            memop &= ~MO_SIGN;
 +        }
 +    }
 +
      gen_ldst_i32(INDEX_op_qemu_ld_i32, val, addr, memop, idx);
 +
 +    if ((orig_memop ^ memop) & MO_BSWAP) {
 +        switch (orig_memop & MO_SIZE) {
 +        case MO_16:
 +            tcg_gen_bswap16_i32(val, val);
 +            if (orig_memop & MO_SIGN) {
 +                tcg_gen_ext16s_i32(val, val);
 +            }
 +            break;
 +        case MO_32:
 +            tcg_gen_bswap32_i32(val, val);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +    }
  }
- void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, TCGMemOp memop)
+ static bool mask_operand(uint32_t c, int *mb, int *me)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
      }
  }
 +int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
 +{
 +    g_assert_not_reached();
 +}
 +
 +static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
 +                            TCGReg dst, TCGReg src)
 +{
 +    g_assert_not_reached();
 +}
 +
 +static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
 +                             TCGReg out, TCGReg base, intptr_t offset)
 +{
 +    g_assert_not_reached();
 +}
 +
 +static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
 +                           unsigned vecl, unsigned vece,
 +                           const TCGArg *args, const int *const_args)
 +{
 +    g_assert_not_reached();
 +}
 +
 +void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
 +                       TCGArg a0, ...)
 +{
 +    g_assert_not_reached();
 +}
 +
  static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
  {
-+    TCGv_i32 swap = NULL;
+     static const TCGTargetOpDef r = { .args_ct_str = { "r" } };
-+
+@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
-     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
-     memop = tcg_canonicalize_memop(memop, 0, 1);
+     tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
-     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
+     tcg_target_available_regs[TCG_TYPE_I64] = 0xffffffff;
-                                addr, trace_mem_get_info(memop, 1));
++    if (have_altivec) {
-+
++        tcg_target_available_regs[TCG_TYPE_V64] = 0xffffffff00000000ull;
-+    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
++        tcg_target_available_regs[TCG_TYPE_V128] = 0xffffffff00000000ull;
 +        swap = tcg_temp_new_i32();
 +        switch (memop & MO_SIZE) {
 +        case MO_16:
 +            tcg_gen_ext16u_i32(swap, val);
 +            tcg_gen_bswap16_i32(swap, swap);
 +            break;
 +        case MO_32:
 +            tcg_gen_bswap32_i32(swap, val);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +        val = swap;
 +        memop &= ~MO_BSWAP;
 +    }
-+
-     gen_ldst_i32(INDEX_op_qemu_st_i32, val, addr, memop, idx);
+     tcg_target_call_clobber_regs = 0;
-+
+     tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R0);
 +    if (swap) {
 +        tcg_temp_free_i32(swap);
 +    }
  }
  void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, TCGMemOp memop)
  {
 -    tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
 +    TCGMemOp orig_memop;
 +
      if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
          tcg_gen_qemu_ld_i32(TCGV_LOW(val), addr, idx, memop);
          if (memop & MO_SIGN) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, TCGMemOp memop)
          return;
      }
 +    tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
      memop = tcg_canonicalize_memop(memop, 1, 0);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
                                 addr, trace_mem_get_info(memop, 0));
 +
 +    orig_memop = memop;
 +    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
 +        memop &= ~MO_BSWAP;
 +        /* The bswap primitive requires zero-extended input.  */
 +        if ((memop & MO_SIGN) && (memop & MO_SIZE) < MO_64) {
 +            memop &= ~MO_SIGN;
 +        }
 +    }
 +
      gen_ldst_i64(INDEX_op_qemu_ld_i64, val, addr, memop, idx);
 +
 +    if ((orig_memop ^ memop) & MO_BSWAP) {
 +        switch (orig_memop & MO_SIZE) {
 +        case MO_16:
 +            tcg_gen_bswap16_i64(val, val);
 +            if (orig_memop & MO_SIGN) {
 +                tcg_gen_ext16s_i64(val, val);
 +            }
 +            break;
 +        case MO_32:
 +            tcg_gen_bswap32_i64(val, val);
 +            if (orig_memop & MO_SIGN) {
 +                tcg_gen_ext32s_i64(val, val);
 +            }
 +            break;
 +        case MO_64:
 +            tcg_gen_bswap64_i64(val, val);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +    }
  }
  void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, TCGMemOp memop)
  {
 -    tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
 +    TCGv_i64 swap = NULL;
 +
      if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
          tcg_gen_qemu_st_i32(TCGV_LOW(val), addr, idx, memop);
          return;
      }
 +    tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
      memop = tcg_canonicalize_memop(memop, 1, 1);
      trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
                                 addr, trace_mem_get_info(memop, 1));
 +
 +    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
 +        swap = tcg_temp_new_i64();
 +        switch (memop & MO_SIZE) {
 +        case MO_16:
 +            tcg_gen_ext16u_i64(swap, val);
 +            tcg_gen_bswap16_i64(swap, swap);
 +            break;
 +        case MO_32:
 +            tcg_gen_ext32u_i64(swap, val);
 +            tcg_gen_bswap32_i64(swap, swap);
 +            break;
 +        case MO_64:
 +            tcg_gen_bswap64_i64(swap, val);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +        val = swap;
 +        memop &= ~MO_BSWAP;
 +    }
 +
      gen_ldst_i64(INDEX_op_qemu_st_i64, val, addr, memop, idx);
 +
 +    if (swap) {
 +        tcg_temp_free_i64(swap);
 +    }
  }
  static void tcg_gen_ext_i32(TCGv_i32 ret, TCGv_i32 val, TCGMemOp opc)
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 11/32] tcg: Return success from patch_reloc
+[PULL 08/23] tcg/ppc: Add support for load/store/logic/comparison
-This will move the assert for success from within (subroutines of)
+Add various bits and peaces related mostly to load and store
-patch_reloc into the callers.  It will also let new code do something
+operations. In that context, logic, compare, and splat Altivec
-different when a relocation is out of range.
+instructions are used, and, therefore, the support for emitting
 them is included in this patch too.
-For the moment, all backends are trivially converted to return true.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
  tcg/ppc/tcg-target.h     |   6 +-
  tcg/ppc/tcg-target.inc.c | 472 ++++++++++++++++++++++++++++++++++++---
 files changed, 442 insertions(+), 36 deletions(-)
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/aarch64/tcg-target.inc.c | 3 ++-
  tcg/arm/tcg-target.inc.c     | 3 ++-
  tcg/i386/tcg-target.inc.c    | 3 ++-
  tcg/mips/tcg-target.inc.c    | 3 ++-
  tcg/ppc/tcg-target.inc.c     | 3 ++-
  tcg/s390/tcg-target.inc.c    | 3 ++-
  tcg/sparc/tcg-target.inc.c   | 5 +++--
  tcg/tcg.c                    | 8 +++++---
  tcg/tci/tcg-target.inc.c     | 3 ++-
 files changed, 22 insertions(+), 12 deletions(-)
 diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/aarch64/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
+@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
-     *code_ptr = deposit32(*code_ptr, 5, 19, offset);
+ #define TCG_TARGET_HAS_v128             have_altivec
- }
+ #define TCG_TARGET_HAS_v256             0
--static inline void patch_reloc(tcg_insn_unit *code_ptr, int type,
+-#define TCG_TARGET_HAS_andc_vec         0
-+static inline bool patch_reloc(tcg_insn_unit *code_ptr, int type,
++#define TCG_TARGET_HAS_andc_vec         1
-                                intptr_t value, intptr_t addend)
+ #define TCG_TARGET_HAS_orc_vec          0
- {
+-#define TCG_TARGET_HAS_not_vec          0
-     tcg_debug_assert(addend == 0);
++#define TCG_TARGET_HAS_not_vec          1
-@@ -XXX,XX +XXX,XX @@ static inline void patch_reloc(tcg_insn_unit *code_ptr, int type,
+ #define TCG_TARGET_HAS_neg_vec          0
-     default:
+ #define TCG_TARGET_HAS_abs_vec          0
-         tcg_abort();
+ #define TCG_TARGET_HAS_shi_vec          0
-     }
+ #define TCG_TARGET_HAS_shs_vec          0
-+    return true;
+ #define TCG_TARGET_HAS_shv_vec          0
- }
+-#define TCG_TARGET_HAS_cmp_vec          0
++#define TCG_TARGET_HAS_cmp_vec          1
- #define TCG_CT_CONST_AIMM 0x100
+ #define TCG_TARGET_HAS_mul_vec          0
-diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
+ #define TCG_TARGET_HAS_sat_vec          0
-index XXXXXXX..XXXXXXX 100644
+ #define TCG_TARGET_HAS_minmax_vec       0
 --- a/tcg/arm/tcg-target.inc.c
 +++ b/tcg/arm/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
      *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
  }
 -static void patch_reloc(tcg_insn_unit *code_ptr, int type,
 +static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend)
  {
      tcg_debug_assert(addend == 0);
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
      } else {
          g_assert_not_reached();
      }
 +    return true;
  }
  #define TCG_CT_CONST_ARM  0x100
 diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/i386/tcg-target.inc.c
 +++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static bool have_lzcnt;
  static tcg_insn_unit *tb_ret_addr;
 -static void patch_reloc(tcg_insn_unit *code_ptr, int type,
 +static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend)
  {
      value += addend;
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
      default:
          tcg_abort();
      }
 +    return true;
  }
  #if TCG_TARGET_REG_BITS == 64
 diff --git a/tcg/mips/tcg-target.inc.c b/tcg/mips/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/mips/tcg-target.inc.c
 +++ b/tcg/mips/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void reloc_26(tcg_insn_unit *pc, tcg_insn_unit *target)
      *pc = deposit32(*pc, 0, 26, reloc_26_val(pc, target));
  }
 -static void patch_reloc(tcg_insn_unit *code_ptr, int type,
 +static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend)
  {
      tcg_debug_assert(type == R_MIPS_PC16);
      tcg_debug_assert(addend == 0);
      reloc_pc16(code_ptr, (tcg_insn_unit *)value);
 +    return true;
  }
  #define TCG_CT_CONST_ZERO 0x100
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static const uint32_t tcg_to_isel[] = {
+@@ -XXX,XX +XXX,XX @@ static const char *target_parse_constraint(TCGArgConstraint *ct,
-     [TCG_COND_GTU] = ISEL | BC_(7, CR_GT),
+         ct->ct |= TCG_CT_REG;
- };
+         ct->u.regs = 0xffffffff;
+         break;
--static void patch_reloc(tcg_insn_unit *code_ptr, int type,
++    case 'v':
-+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
++        ct->ct |= TCG_CT_REG;
 +        ct->u.regs = 0xffffffff00000000ull;
 +        break;
      case 'L':                   /* qemu_ld constraint */
          ct->ct |= TCG_CT_REG;
          ct->u.regs = 0xffffffff;
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define NOP    ORI  /* ori 0,0,0 */
 +#define LVX        XO31(103)
 +#define LVEBX      XO31(7)
 +#define LVEHX      XO31(39)
 +#define LVEWX      XO31(71)
 +
 +#define STVX       XO31(231)
 +#define STVEWX     XO31(199)
 +
 +#define VCMPEQUB   VX4(6)
 +#define VCMPEQUH   VX4(70)
 +#define VCMPEQUW   VX4(134)
 +#define VCMPGTSB   VX4(774)
 +#define VCMPGTSH   VX4(838)
 +#define VCMPGTSW   VX4(902)
 +#define VCMPGTUB   VX4(518)
 +#define VCMPGTUH   VX4(582)
 +#define VCMPGTUW   VX4(646)
 +
 +#define VAND       VX4(1028)
 +#define VANDC      VX4(1092)
 +#define VNOR       VX4(1284)
 +#define VOR        VX4(1156)
 +#define VXOR       VX4(1220)
 +
 +#define VSPLTB     VX4(524)
 +#define VSPLTH     VX4(588)
 +#define VSPLTW     VX4(652)
 +#define VSPLTISB   VX4(780)
 +#define VSPLTISH   VX4(844)
 +#define VSPLTISW   VX4(908)
 +
 +#define VSLDOI     VX4(44)
 +
  #define RT(r) ((r)<<21)
  #define RS(r) ((r)<<21)
  #define RA(r) ((r)<<16)
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend)
  {
      tcg_insn_unit *target;
-@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
++    int16_t lo;
 +    int32_t hi;
      value += addend;
      target = (tcg_insn_unit *)value;
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
          }
          *code_ptr = (*code_ptr & ~0xfffc) | (value & 0xfffc);
          break;
 +    case R_PPC_ADDR32:
 +        /*
 +         * We are abusing this relocation type.  Again, this points to
 +         * a pair of insns, lis + load.  This is an absolute address
 +         * relocation for PPC32 so the lis cannot be removed.
 +         */
 +        lo = value;
 +        hi = value - lo;
 +        if (hi + lo != value) {
 +            return false;
 +        }
 +        code_ptr[0] = deposit32(code_ptr[0], 0, 16, hi >> 16);
 +        code_ptr[1] = deposit32(code_ptr[1], 0, 16, lo);
 +        break;
      default:
          g_assert_not_reached();
      }
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
+ static bool tcg_out_mov(TCGContext *s, TCGType type, TCGReg ret, TCGReg arg)
+ {
+-    tcg_debug_assert(TCG_TARGET_REG_BITS == 64 || type == TCG_TYPE_I32);
+-    if (ret != arg) {
+-        tcg_out32(s, OR | SAB(arg, ret, arg));
++    if (ret == arg) {
++        return true;
++    }
++    switch (type) {
++    case TCG_TYPE_I64:
++        tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
++        /* fallthru */
++    case TCG_TYPE_I32:
++        if (ret < TCG_REG_V0 && arg < TCG_REG_V0) {
++            tcg_out32(s, OR | SAB(arg, ret, arg));
++            break;
++        } else if (ret < TCG_REG_V0 || arg < TCG_REG_V0) {
++            /* Altivec does not support vector/integer moves.  */
++            return false;
++        }
++        /* fallthru */
++    case TCG_TYPE_V64:
++    case TCG_TYPE_V128:
++        tcg_debug_assert(ret >= TCG_REG_V0 && arg >= TCG_REG_V0);
++        tcg_out32(s, VOR | VRT(ret) | VRA(arg) | VRB(arg));
++        break;
++    default:
++        g_assert_not_reached();
+     }
+     return true;
+ }
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
+ static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
+                              tcg_target_long val)
+ {
+-    g_assert_not_reached();
++    uint32_t load_insn;
++    int rel, low;
++    intptr_t add;
++
++    low = (int8_t)val;
++    if (low >= -16 && low < 16) {
++        if (val == (tcg_target_long)dup_const(MO_8, low)) {
++            tcg_out32(s, VSPLTISB | VRT(ret) | ((val & 31) << 16));
++            return;
++        }
++        if (val == (tcg_target_long)dup_const(MO_16, low)) {
++            tcg_out32(s, VSPLTISH | VRT(ret) | ((val & 31) << 16));
++            return;
++        }
++        if (val == (tcg_target_long)dup_const(MO_32, low)) {
++            tcg_out32(s, VSPLTISW | VRT(ret) | ((val & 31) << 16));
++            return;
++        }
++    }
++
++    /*
++     * Otherwise we must load the value from the constant pool.
++     */
++    if (USE_REG_TB) {
++        rel = R_PPC_ADDR16;
++        add = -(intptr_t)s->code_gen_ptr;
++    } else {
++        rel = R_PPC_ADDR32;
++        add = 0;
++    }
++
++    load_insn = LVX | VRT(ret) | RB(TCG_REG_TMP1);
++    if (TCG_TARGET_REG_BITS == 64) {
++        new_pool_l2(s, rel, s->code_ptr, add, val, val);
++    } else {
++        new_pool_l4(s, rel, s->code_ptr, add, val, val, val, val);
++    }
++
++    if (USE_REG_TB) {
++        tcg_out32(s, ADDI | TAI(TCG_REG_TMP1, 0, 0));
++        load_insn |= RA(TCG_REG_TB);
++    } else {
++        tcg_out32(s, ADDIS | TAI(TCG_REG_TMP1, 0, 0));
++        tcg_out32(s, ADDI | TAI(TCG_REG_TMP1, TCG_REG_TMP1, 0));
++    }
++    tcg_out32(s, load_insn);
+ }
+ static void tcg_out_movi(TCGContext *s, TCGType type, TCGReg ret,
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
+         align = 3;
+         /* FALLTHRU */
+     default:
+-        if (rt != TCG_REG_R0) {
++        if (rt > TCG_REG_R0 && rt < TCG_REG_V0) {
+             rs = rt;
+             break;
+         }
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
+     }
+     /* For unaligned, or very large offsets, use the indexed form.  */
+-    if (offset & align || offset != (int32_t)offset) {
++    if (offset & align || offset != (int32_t)offset || opi == 0) {
+         if (rs == base) {
+             rs = TCG_REG_R0;
+         }
+         tcg_debug_assert(!is_store || rs != rt);
+         tcg_out_movi(s, TCG_TYPE_PTR, rs, orig);
+-        tcg_out32(s, opx | TAB(rt, base, rs));
++        tcg_out32(s, opx | TAB(rt & 31, base, rs));
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
+         base = rs;
+     }
+     if (opi != ADDI || base != rt || l0 != 0) {
+-        tcg_out32(s, opi | TAI(rt, base, l0));
++        tcg_out32(s, opi | TAI(rt & 31, base, l0));
+     }
+ }
+-static inline void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
+-                              TCGReg arg1, intptr_t arg2)
++static void tcg_out_vsldoi(TCGContext *s, TCGReg ret,
++                           TCGReg va, TCGReg vb, int shb)
+ {
+-    int opi, opx;
+-
+-    tcg_debug_assert(TCG_TARGET_REG_BITS == 64 || type == TCG_TYPE_I32);
+-    if (type == TCG_TYPE_I32) {
+-        opi = LWZ, opx = LWZX;
+-    } else {
+-        opi = LD, opx = LDX;
+-    }
+-    tcg_out_mem_long(s, opi, opx, ret, arg1, arg2);
++    tcg_out32(s, VSLDOI | VRT(ret) | VRA(va) | VRB(vb) | (shb << 6));
+ }
+-static inline void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
+-                              TCGReg arg1, intptr_t arg2)
++static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
++                       TCGReg base, intptr_t offset)
+ {
+-    int opi, opx;
++    int shift;
+-    tcg_debug_assert(TCG_TARGET_REG_BITS == 64 || type == TCG_TYPE_I32);
+-    if (type == TCG_TYPE_I32) {
+-        opi = STW, opx = STWX;
+-    } else {
+-        opi = STD, opx = STDX;
++    switch (type) {
++    case TCG_TYPE_I32:
++        if (ret < TCG_REG_V0) {
++            tcg_out_mem_long(s, LWZ, LWZX, ret, base, offset);
++            break;
++        }
++        tcg_debug_assert((offset & 3) == 0);
++        tcg_out_mem_long(s, 0, LVEWX, ret, base, offset);
++        shift = (offset - 4) & 0xc;
++        if (shift) {
++            tcg_out_vsldoi(s, ret, ret, ret, shift);
++        }
++        break;
++    case TCG_TYPE_I64:
++        if (ret < TCG_REG_V0) {
++            tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
++            tcg_out_mem_long(s, LD, LDX, ret, base, offset);
++            break;
++        }
++        /* fallthru */
++    case TCG_TYPE_V64:
++        tcg_debug_assert(ret >= TCG_REG_V0);
++        tcg_debug_assert((offset & 7) == 0);
++        tcg_out_mem_long(s, 0, LVX, ret, base, offset & -16);
++        if (offset & 8) {
++            tcg_out_vsldoi(s, ret, ret, ret, 8);
++        }
++        break;
++    case TCG_TYPE_V128:
++        tcg_debug_assert(ret >= TCG_REG_V0);
++        tcg_debug_assert((offset & 15) == 0);
++        tcg_out_mem_long(s, 0, LVX, ret, base, offset);
++        break;
++    default:
++        g_assert_not_reached();
++    }
++}
++
++static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
++                              TCGReg base, intptr_t offset)
++{
++    int shift;
++
++    switch (type) {
++    case TCG_TYPE_I32:
++        if (arg < TCG_REG_V0) {
++            tcg_out_mem_long(s, STW, STWX, arg, base, offset);
++            break;
++        }
++        tcg_debug_assert((offset & 3) == 0);
++        shift = (offset - 4) & 0xc;
++        if (shift) {
++            tcg_out_vsldoi(s, TCG_VEC_TMP1, arg, arg, shift);
++            arg = TCG_VEC_TMP1;
++        }
++        tcg_out_mem_long(s, 0, STVEWX, arg, base, offset);
++        break;
++    case TCG_TYPE_I64:
++        if (arg < TCG_REG_V0) {
++            tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
++            tcg_out_mem_long(s, STD, STDX, arg, base, offset);
++            break;
++        }
++        /* fallthru */
++    case TCG_TYPE_V64:
++        tcg_debug_assert(arg >= TCG_REG_V0);
++        tcg_debug_assert((offset & 7) == 0);
++        if (offset & 8) {
++            tcg_out_vsldoi(s, TCG_VEC_TMP1, arg, arg, 8);
++            arg = TCG_VEC_TMP1;
++        }
++        tcg_out_mem_long(s, 0, STVEWX, arg, base, offset);
++        tcg_out_mem_long(s, 0, STVEWX, arg, base, offset + 4);
++        break;
++    case TCG_TYPE_V128:
++        tcg_debug_assert(arg >= TCG_REG_V0);
++        tcg_out_mem_long(s, 0, STVX, arg, base, offset);
++        break;
++    default:
++        g_assert_not_reached();
+     }
+-    tcg_out_mem_long(s, opi, opx, arg, arg1, arg2);
+ }
+ static inline bool tcg_out_sti(TCGContext *s, TCGType type, TCGArg val,
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
+ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+ {
+-    g_assert_not_reached();
++    switch (opc) {
++    case INDEX_op_and_vec:
++    case INDEX_op_or_vec:
++    case INDEX_op_xor_vec:
++    case INDEX_op_andc_vec:
++    case INDEX_op_not_vec:
++        return 1;
++    case INDEX_op_cmp_vec:
++        return vece <= MO_32 ? -1 : 0;
++    default:
++        return 0;
++    }
+ }
+ static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
+                             TCGReg dst, TCGReg src)
+ {
+-    g_assert_not_reached();
++    tcg_debug_assert(dst >= TCG_REG_V0);
++    tcg_debug_assert(src >= TCG_REG_V0);
++
++    /*
++     * Recall we use (or emulate) VSX integer loads, so the integer is
++     * right justified within the left (zero-index) double-word.
++     */
++    switch (vece) {
++    case MO_8:
++        tcg_out32(s, VSPLTB | VRT(dst) | VRB(src) | (7 << 16));
++        break;
++    case MO_16:
++        tcg_out32(s, VSPLTH | VRT(dst) | VRB(src) | (3 << 16));
++        break;
++    case MO_32:
++        tcg_out32(s, VSPLTW | VRT(dst) | VRB(src) | (1 << 16));
++        break;
++    case MO_64:
++        tcg_out_vsldoi(s, TCG_VEC_TMP1, src, src, 8);
++        tcg_out_vsldoi(s, dst, TCG_VEC_TMP1, src, 8);
++        break;
++    default:
++        g_assert_not_reached();
++    }
 +    return true;
  }
- static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
+ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
-diff --git a/tcg/s390/tcg-target.inc.c b/tcg/s390/tcg-target.inc.c
+                              TCGReg out, TCGReg base, intptr_t offset)
-index XXXXXXX..XXXXXXX 100644
+ {
---- a/tcg/s390/tcg-target.inc.c
+-    g_assert_not_reached();
-+++ b/tcg/s390/tcg-target.inc.c
++    int elt;
-@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[16] = {
++
- static tcg_insn_unit *tb_ret_addr;
++    tcg_debug_assert(out >= TCG_REG_V0);
- uint64_t s390_facilities;
++    switch (vece) {
++    case MO_8:
--static void patch_reloc(tcg_insn_unit *code_ptr, int type,
++        tcg_out_mem_long(s, 0, LVEBX, out, base, offset);
-+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
++        elt = extract32(offset, 0, 4);
-                         intptr_t value, intptr_t addend)
++#ifndef HOST_WORDS_BIGENDIAN
- {
++        elt ^= 15;
-     intptr_t pcrel2;
++#endif
-@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
++        tcg_out32(s, VSPLTB | VRT(out) | VRB(out) | (elt << 16));
 +        break;
 +    case MO_16:
 +        tcg_debug_assert((offset & 1) == 0);
 +        tcg_out_mem_long(s, 0, LVEHX, out, base, offset);
 +        elt = extract32(offset, 1, 3);
 +#ifndef HOST_WORDS_BIGENDIAN
 +        elt ^= 7;
 +#endif
 +        tcg_out32(s, VSPLTH | VRT(out) | VRB(out) | (elt << 16));
 +        break;
 +    case MO_32:
 +        tcg_debug_assert((offset & 3) == 0);
 +        tcg_out_mem_long(s, 0, LVEWX, out, base, offset);
 +        elt = extract32(offset, 2, 2);
 +#ifndef HOST_WORDS_BIGENDIAN
 +        elt ^= 3;
 +#endif
 +        tcg_out32(s, VSPLTW | VRT(out) | VRB(out) | (elt << 16));
 +        break;
 +    case MO_64:
 +        tcg_debug_assert((offset & 7) == 0);
 +        tcg_out_mem_long(s, 0, LVX, out, base, offset & -16);
 +        tcg_out_vsldoi(s, TCG_VEC_TMP1, out, out, 8);
 +        elt = extract32(offset, 3, 1);
 +#ifndef HOST_WORDS_BIGENDIAN
 +        elt = !elt;
 +#endif
 +        if (elt) {
 +            tcg_out_vsldoi(s, out, out, TCG_VEC_TMP1, 8);
 +        } else {
 +            tcg_out_vsldoi(s, out, TCG_VEC_TMP1, out, 8);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
  }
  static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
                             unsigned vecl, unsigned vece,
                             const TCGArg *args, const int *const_args)
  {
 -    g_assert_not_reached();
 +    static const uint32_t
 +        eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
 +        gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
 +        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 };
 +
 +    TCGType type = vecl + TCG_TYPE_V64;
 +    TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
 +    uint32_t insn;
 +
 +    switch (opc) {
 +    case INDEX_op_ld_vec:
 +        tcg_out_ld(s, type, a0, a1, a2);
 +        return;
 +    case INDEX_op_st_vec:
 +        tcg_out_st(s, type, a0, a1, a2);
 +        return;
 +    case INDEX_op_dupm_vec:
 +        tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
 +        return;
 +
 +    case INDEX_op_and_vec:
 +        insn = VAND;
 +        break;
 +    case INDEX_op_or_vec:
 +        insn = VOR;
 +        break;
 +    case INDEX_op_xor_vec:
 +        insn = VXOR;
 +        break;
 +    case INDEX_op_andc_vec:
 +        insn = VANDC;
 +        break;
 +    case INDEX_op_not_vec:
 +        insn = VNOR;
 +        a2 = a1;
 +        break;
 +
 +    case INDEX_op_cmp_vec:
 +        switch (args[3]) {
 +        case TCG_COND_EQ:
 +            insn = eq_op[vece];
 +            break;
 +        case TCG_COND_GT:
 +            insn = gts_op[vece];
 +            break;
 +        case TCG_COND_GTU:
 +            insn = gtu_op[vece];
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
 +        break;
 +
 +    case INDEX_op_mov_vec:  /* Always emitted via tcg_out_mov.  */
 +    case INDEX_op_dupi_vec: /* Always emitted via tcg_out_movi.  */
 +    case INDEX_op_dup_vec:  /* Always emitted via tcg_out_dup_vec.  */
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    tcg_debug_assert(insn != 0);
 +    tcg_out32(s, insn | VRT(a0) | VRA(a1) | VRB(a2));
 +}
 +
 +static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
 +                           TCGv_vec v1, TCGv_vec v2, TCGCond cond)
 +{
 +    bool need_swap = false, need_inv = false;
 +
 +    tcg_debug_assert(vece <= MO_32);
 +
 +    switch (cond) {
 +    case TCG_COND_EQ:
 +    case TCG_COND_GT:
 +    case TCG_COND_GTU:
 +        break;
 +    case TCG_COND_NE:
 +    case TCG_COND_LE:
 +    case TCG_COND_LEU:
 +        need_inv = true;
 +        break;
 +    case TCG_COND_LT:
 +    case TCG_COND_LTU:
 +        need_swap = true;
 +        break;
 +    case TCG_COND_GE:
 +    case TCG_COND_GEU:
 +        need_swap = need_inv = true;
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +
 +    if (need_inv) {
 +        cond = tcg_invert_cond(cond);
 +    }
 +    if (need_swap) {
 +        TCGv_vec t1;
 +        t1 = v1, v1 = v2, v2 = t1;
 +        cond = tcg_swap_cond(cond);
 +    }
 +
 +    vec_gen_4(INDEX_op_cmp_vec, type, vece, tcgv_vec_arg(v0),
 +              tcgv_vec_arg(v1), tcgv_vec_arg(v2), cond);
 +
 +    if (need_inv) {
 +        tcg_gen_not_vec(vece, v0, v0);
 +    }
  }
  void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                         TCGArg a0, ...)
  {
 -    g_assert_not_reached();
 +    va_list va;
 +    TCGv_vec v0, v1, v2;
 +
 +    va_start(va, a0);
 +    v0 = temp_tcgv_vec(arg_temp(a0));
 +    v1 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
 +    v2 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
 +
 +    switch (opc) {
 +    case INDEX_op_cmp_vec:
 +        expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    va_end(va);
  }
  static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
          = { .args_ct_str = { "r", "r", "r", "r", "rI", "rZM" } };
      static const TCGTargetOpDef sub2
          = { .args_ct_str = { "r", "r", "rI", "rZM", "r", "r" } };
 +    static const TCGTargetOpDef v_r = { .args_ct_str = { "v", "r" } };
 +    static const TCGTargetOpDef v_v = { .args_ct_str = { "v", "v" } };
 +    static const TCGTargetOpDef v_v_v = { .args_ct_str = { "v", "v", "v" } };
      switch (op) {
      case INDEX_op_goto_ptr:
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
          return (TCG_TARGET_REG_BITS == 64 ? &S_S
                  : TARGET_LONG_BITS == 32 ? &S_S_S : &S_S_S_S);
 +    case INDEX_op_and_vec:
 +    case INDEX_op_or_vec:
 +    case INDEX_op_xor_vec:
 +    case INDEX_op_andc_vec:
 +    case INDEX_op_orc_vec:
 +    case INDEX_op_cmp_vec:
 +        return &v_v_v;
 +    case INDEX_op_not_vec:
 +    case INDEX_op_dup_vec:
 +        return &v_v;
 +    case INDEX_op_ld_vec:
 +    case INDEX_op_st_vec:
 +    case INDEX_op_dupm_vec:
 +        return &v_r;
 +
      default:
-         g_assert_not_reached();
+         return NULL;
      }
 +    return true;
  }
  /* parse target specific constraints */
 diff --git a/tcg/sparc/tcg-target.inc.c b/tcg/sparc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/sparc/tcg-target.inc.c
 +++ b/tcg/sparc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline int check_fit_i32(int32_t val, unsigned int bits)
  # define check_fit_ptr  check_fit_i32
  #endif
 -static void patch_reloc(tcg_insn_unit *code_ptr, int type,
 +static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend)
  {
      uint32_t insn = *code_ptr;
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
          /* Note that we're abusing this reloc type for our own needs.  */
          code_ptr[0] = deposit32(code_ptr[0], 0, 22, value >> 10);
          code_ptr[1] = deposit32(code_ptr[1], 0, 10, value);
 -        return;
 +        return true;
      default:
          g_assert_not_reached();
      }
      *code_ptr = insn;
 +    return true;
  }
  /* parse target specific constraints */
 diff --git a/tcg/tcg.c b/tcg/tcg.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tcg.c
 +++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@
  static void tcg_target_init(TCGContext *s);
  static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode);
  static void tcg_target_qemu_prologue(TCGContext *s);
 -static void patch_reloc(tcg_insn_unit *code_ptr, int type,
 +static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend);
  /* The CIE and FDE header definitions will be common to all hosts.  */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_reloc(TCGContext *s, tcg_insn_unit *code_ptr, int type,
          /* FIXME: This may break relocations on RISC targets that
             modify instruction fields in place.  The caller may not have
             written the initial value.  */
 -        patch_reloc(code_ptr, type, l->u.value, addend);
 +        bool ok = patch_reloc(code_ptr, type, l->u.value, addend);
 +        tcg_debug_assert(ok);
      } else {
          /* add a new relocation entry */
          r = tcg_malloc(sizeof(TCGRelocation));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_label(TCGContext *s, TCGLabel *l, tcg_insn_unit *ptr)
      tcg_debug_assert(!l->has_value);
      for (r = l->u.first_reloc; r != NULL; r = r->next) {
 -        patch_reloc(r->ptr, r->type, value, r->addend);
 +        bool ok = patch_reloc(r->ptr, r->type, value, r->addend);
 +        tcg_debug_assert(ok);
      }
      l->has_value = 1;
 diff --git a/tcg/tci/tcg-target.inc.c b/tcg/tci/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/tci/tcg-target.inc.c
 +++ b/tcg/tci/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static const char *const tcg_target_reg_names[TCG_TARGET_NB_REGS] = {
  };
  #endif
 -static void patch_reloc(tcg_insn_unit *code_ptr, int type,
 +static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                          intptr_t value, intptr_t addend)
  {
      /* tcg_out_reloc always uses the same type, addend. */
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
      } else {
          tcg_patch64(code_ptr, value);
      }
 +    return true;
  }
  /* Parse target specific constraints. */
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 25/32] tcg/optimize: Optimize bswap
+[PULL 09/23] tcg/ppc: Add support for vector maximum/minimum
-Somehow we forgot these operations, once upon a time.
+Add support for vector maximum/minimum using Altivec instructions
-This will allow immediate stores to have their bswap
+VMAXSB, VMAXSH, VMAXSW, VMAXUB, VMAXUH, VMAXUW, and
-optimized away.
+VMINSB, VMINSH, VMINSW, VMINUB, VMINUH, VMINUW.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/optimize.c | 12 ++++++++++++
+ tcg/ppc/tcg-target.h     |  2 +-
-file changed, 12 insertions(+)
+ tcg/ppc/tcg-target.inc.c | 40 +++++++++++++++++++++++++++++++++++++++-
 files changed, 40 insertions(+), 2 deletions(-)
-diff --git a/tcg/optimize.c b/tcg/optimize.c
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_2(TCGOpcode op, TCGArg x, TCGArg y)
+@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
-     CASE_OP_32_64(ext16u):
+ #define TCG_TARGET_HAS_cmp_vec          1
-         return (uint16_t)x;
+ #define TCG_TARGET_HAS_mul_vec          0
+ #define TCG_TARGET_HAS_sat_vec          0
-+    CASE_OP_32_64(bswap16):
+-#define TCG_TARGET_HAS_minmax_vec       0
-+        return bswap16(x);
++#define TCG_TARGET_HAS_minmax_vec       1
  #define TCG_TARGET_HAS_bitsel_vec       0
  #define TCG_TARGET_HAS_cmpsel_vec       0
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define STVX       XO31(231)
  #define STVEWX     XO31(199)
 +#define VMAXSB     VX4(258)
 +#define VMAXSH     VX4(322)
 +#define VMAXSW     VX4(386)
 +#define VMAXUB     VX4(2)
 +#define VMAXUH     VX4(66)
 +#define VMAXUW     VX4(130)
 +#define VMINSB     VX4(770)
 +#define VMINSH     VX4(834)
 +#define VMINSW     VX4(898)
 +#define VMINUB     VX4(514)
 +#define VMINUH     VX4(578)
 +#define VMINUW     VX4(642)
 +
-+    CASE_OP_32_64(bswap32):
+ #define VCMPEQUB   VX4(6)
-+        return bswap32(x);
+ #define VCMPEQUH   VX4(70)
-+
+ #define VCMPEQUW   VX4(134)
-+    case INDEX_op_bswap64_i64:
+@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
-+        return bswap64(x);
+     case INDEX_op_andc_vec:
-+
+     case INDEX_op_not_vec:
-     case INDEX_op_ext_i32_i64:
+         return 1;
-     case INDEX_op_ext32s_i64:
++    case INDEX_op_smax_vec:
-         return (int32_t)x;
++    case INDEX_op_smin_vec:
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++    case INDEX_op_umax_vec:
-         CASE_OP_32_64(ext16s):
++    case INDEX_op_umin_vec:
-         CASE_OP_32_64(ext16u):
++        return vece <= MO_32;
-         CASE_OP_32_64(ctpop):
+     case INDEX_op_cmp_vec:
-+        CASE_OP_32_64(bswap16):
+         return vece <= MO_32 ? -1 : 0;
-+        CASE_OP_32_64(bswap32):
+     default:
-+        case INDEX_op_bswap64_i64:
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
-         case INDEX_op_ext32s_i64:
+     static const uint32_t
-         case INDEX_op_ext32u_i64:
+         eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
-         case INDEX_op_ext_i32_i64:
+         gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
 -        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 };
 +        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 },
 +        umin_op[4] = { VMINUB, VMINUH, VMINUW, 0 },
 +        smin_op[4] = { VMINSB, VMINSH, VMINSW, 0 },
 +        umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, 0 },
 +        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, 0 };
      TCGType type = vecl + TCG_TYPE_V64;
      TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
          return;
 +    case INDEX_op_smin_vec:
 +        insn = smin_op[vece];
 +        break;
 +    case INDEX_op_umin_vec:
 +        insn = umin_op[vece];
 +        break;
 +    case INDEX_op_smax_vec:
 +        insn = smax_op[vece];
 +        break;
 +    case INDEX_op_umax_vec:
 +        insn = umax_op[vece];
 +        break;
      case INDEX_op_and_vec:
          insn = VAND;
          break;
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
      case INDEX_op_andc_vec:
      case INDEX_op_orc_vec:
      case INDEX_op_cmp_vec:
 +    case INDEX_op_smax_vec:
 +    case INDEX_op_smin_vec:
 +    case INDEX_op_umax_vec:
 +    case INDEX_op_umin_vec:
          return &v_v_v;
      case INDEX_op_not_vec:
      case INDEX_op_dup_vec:
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 23/32] tcg: Clean up generic bswap32
+[PULL 10/23] tcg/ppc: Add support for vector add/subtract
-Based on the only current user, Sparc:
+Add support for vector add/subtract using Altivec instructions:
+VADDUBM, VADDUHM, VADDUWM, VSUBUBM, VSUBUHM, VSUBUWM.
 New code uses 1 constant that takes 2 insns to create, plus 8.
 Old code used 2 constants that took 2 insns to create, plus 9.
 The result is a new total of 10 vs an old total of 13.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/tcg-op.c | 54 ++++++++++++++++++++++++++--------------------------
+ tcg/ppc/tcg-target.inc.c | 20 ++++++++++++++++++++
-file changed, 27 insertions(+), 27 deletions(-)
+file changed, 20 insertions(+)
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/tcg-op.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg)
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-     if (TCG_TARGET_HAS_bswap32_i32) {
+ #define STVX       XO31(231)
-         tcg_gen_op2_i32(INDEX_op_bswap32_i32, ret, arg);
+ #define STVEWX     XO31(199)
-     } else {
--        TCGv_i32 t0, t1;
++#define VADDUBM    VX4(0)
--        t0 = tcg_temp_new_i32();
++#define VADDUHM    VX4(64)
--        t1 = tcg_temp_new_i32();
++#define VADDUWM    VX4(128)
-+        TCGv_i32 t0 = tcg_temp_new_i32();
++
-+        TCGv_i32 t1 = tcg_temp_new_i32();
++#define VSUBUBM    VX4(1024)
-+        TCGv_i32 t2 = tcg_const_i32(0x00ff00ff);
++#define VSUBUHM    VX4(1088)
++#define VSUBUWM    VX4(1152)
--        tcg_gen_shli_i32(t0, arg, 24);
++
-+                                        /* arg = abcd */
+ #define VMAXSB     VX4(258)
-+        tcg_gen_shri_i32(t0, arg, 8);   /*  t0 = .abc */
+ #define VMAXSH     VX4(322)
-+        tcg_gen_and_i32(t1, arg, t2);   /*  t1 = .b.d */
+ #define VMAXSW     VX4(386)
-+        tcg_gen_and_i32(t0, t0, t2);    /*  t0 = .a.c */
+@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
-+        tcg_temp_free_i32(t2);
+     case INDEX_op_andc_vec:
-+        tcg_gen_shli_i32(t1, t1, 8);    /*  t1 = b.d. */
+     case INDEX_op_not_vec:
-+        tcg_gen_or_i32(ret, t0, t1);    /* ret = badc */
+         return 1;
++    case INDEX_op_add_vec:
--        tcg_gen_andi_i32(t1, arg, 0x0000ff00);
++    case INDEX_op_sub_vec:
--        tcg_gen_shli_i32(t1, t1, 8);
+     case INDEX_op_smax_vec:
--        tcg_gen_or_i32(t0, t0, t1);
+     case INDEX_op_smin_vec:
-+        tcg_gen_shri_i32(t0, ret, 16);  /*  t0 = ..ba */
+     case INDEX_op_umax_vec:
-+        tcg_gen_shli_i32(t1, ret, 16);  /*  t1 = dc.. */
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
-+        tcg_gen_or_i32(ret, t0, t1);    /* ret = dcba */
+                            const TCGArg *args, const int *const_args)
+ {
--        tcg_gen_shri_i32(t1, arg, 8);
+     static const uint32_t
--        tcg_gen_andi_i32(t1, t1, 0x0000ff00);
++        add_op[4] = { VADDUBM, VADDUHM, VADDUWM, 0 },
--        tcg_gen_or_i32(t0, t0, t1);
++        sub_op[4] = { VSUBUBM, VSUBUHM, VSUBUWM, 0 },
--
+         eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
--        tcg_gen_shri_i32(t1, arg, 24);
+         gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
--        tcg_gen_or_i32(ret, t0, t1);
+         gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 },
-         tcg_temp_free_i32(t0);
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
-         tcg_temp_free_i32(t1);
+         tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
-     }
+         return;
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
-     } else if (TCG_TARGET_HAS_bswap32_i64) {
++    case INDEX_op_add_vec:
-         tcg_gen_op2_i64(INDEX_op_bswap32_i64, ret, arg);
++        insn = add_op[vece];
-     } else {
++        break;
--        TCGv_i64 t0, t1;
++    case INDEX_op_sub_vec:
--        t0 = tcg_temp_new_i64();
++        insn = sub_op[vece];
--        t1 = tcg_temp_new_i64();
++        break;
-+        TCGv_i64 t0 = tcg_temp_new_i64();
+     case INDEX_op_smin_vec:
-+        TCGv_i64 t1 = tcg_temp_new_i64();
+         insn = smin_op[vece];
-+        TCGv_i64 t2 = tcg_const_i64(0x00ff00ff);
+         break;
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
--        tcg_gen_shli_i64(t0, arg, 24);
+         return (TCG_TARGET_REG_BITS == 64 ? &S_S
--        tcg_gen_ext32u_i64(t0, t0);
+                 : TARGET_LONG_BITS == 32 ? &S_S_S : &S_S_S_S);
-+                                        /* arg = ....abcd */
-+        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .....abc */
++    case INDEX_op_add_vec:
-+        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .....b.d */
++    case INDEX_op_sub_vec:
-+        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .....a.c */
+     case INDEX_op_and_vec:
-+        tcg_temp_free_i64(t2);
+     case INDEX_op_or_vec:
-+        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = ....b.d. */
+     case INDEX_op_xor_vec:
 +        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....badc */
 -        tcg_gen_andi_i64(t1, arg, 0x0000ff00);
 -        tcg_gen_shli_i64(t1, t1, 8);
 -        tcg_gen_or_i64(t0, t0, t1);
 +        tcg_gen_shli_i64(t1, ret, 48);  /*  t1 = dc...... */
 +        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ......ba */
 +        tcg_gen_shri_i64(t1, ret, 32);  /*  t1 = ....dc.. */
 +        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....dcba */
 -        tcg_gen_shri_i64(t1, arg, 8);
 -        tcg_gen_andi_i64(t1, t1, 0x0000ff00);
 -        tcg_gen_or_i64(t0, t0, t1);
 -
 -        tcg_gen_shri_i64(t1, arg, 24);
 -        tcg_gen_or_i64(ret, t0, t1);
          tcg_temp_free_i64(t0);
          tcg_temp_free_i64(t1);
      }
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 18/32] tcg/i386: Propagate is64 to tcg_out_qemu_ld_slow_path
+[PULL 11/23] tcg/ppc: Add support for vector saturated add/subtract
-This helps preserve the invariant that all TCG_TYPE_I32 values
+Add support for vector saturated add/subtract using Altivec
-are stored zero-extended in the 64-bit host registers.
+instructions:
 VADDSBS, VADDSHS, VADDSWS, VADDUBS, VADDUHS, VADDUWS, and
 VSUBSBS, VSUBSHS, VSUBSWS, VSUBUBS, VSUBUHS, VSUBUWS.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/i386/tcg-target.inc.c | 13 ++++++++-----
+ tcg/ppc/tcg-target.h     |  2 +-
-file changed, 8 insertions(+), 5 deletions(-)
+ tcg/ppc/tcg-target.inc.c | 36 ++++++++++++++++++++++++++++++++++++
 files changed, 37 insertions(+), 1 deletion(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/i386/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
+@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
-  * Record the context of a call to the out of line helper code for the slow path
+ #define TCG_TARGET_HAS_shv_vec          0
-  * for a load or store, so that we can later generate the correct helper code
+ #define TCG_TARGET_HAS_cmp_vec          1
-  */
+ #define TCG_TARGET_HAS_mul_vec          0
--static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+-#define TCG_TARGET_HAS_sat_vec          0
-+static void add_qemu_ldst_label(TCGContext *s, bool is_ld, bool is_64,
++#define TCG_TARGET_HAS_sat_vec          1
-+                                TCGMemOpIdx oi,
+ #define TCG_TARGET_HAS_minmax_vec       1
-                                 TCGReg datalo, TCGReg datahi,
+ #define TCG_TARGET_HAS_bitsel_vec       0
-                                 TCGReg addrlo, TCGReg addrhi,
+ #define TCG_TARGET_HAS_cmpsel_vec       0
-                                 tcg_insn_unit *raddr,
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/ppc/tcg-target.inc.c
-     label->is_ld = is_ld;
++++ b/tcg/ppc/tcg-target.inc.c
-     label->oi = oi;
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-+    label->type = is_64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
+ #define STVX       XO31(231)
-     label->datalo_reg = datalo;
+ #define STVEWX     XO31(199)
-     label->datahi_reg = datahi;
-     label->addrlo_reg = addrlo;
++#define VADDSBS    VX4(768)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
++#define VADDUBS    VX4(512)
-     TCGMemOp opc = get_memop(oi);
+ #define VADDUBM    VX4(0)
-     TCGReg data_reg;
++#define VADDSHS    VX4(832)
-     tcg_insn_unit **label_ptr = &l->label_ptr[0];
++#define VADDUHS    VX4(576)
-+    int rexw = (l->type == TCG_TYPE_I64 ? P_REXW : 0);
+ #define VADDUHM    VX4(64)
++#define VADDSWS    VX4(896)
-     /* resolve label address */
++#define VADDUWS    VX4(640)
-     tcg_patch32(label_ptr[0], s->code_ptr - label_ptr[0] - 4);
+ #define VADDUWM    VX4(128)
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
-     data_reg = l->datalo_reg;
++#define VSUBSBS    VX4(1792)
-     switch (opc & MO_SSIZE) {
++#define VSUBUBS    VX4(1536)
-     case MO_SB:
+ #define VSUBUBM    VX4(1024)
--        tcg_out_ext8s(s, data_reg, TCG_REG_EAX, P_REXW);
++#define VSUBSHS    VX4(1856)
-+        tcg_out_ext8s(s, data_reg, TCG_REG_EAX, rexw);
++#define VSUBUHS    VX4(1600)
  #define VSUBUHM    VX4(1088)
 +#define VSUBSWS    VX4(1920)
 +#define VSUBUWS    VX4(1664)
  #define VSUBUWM    VX4(1152)
  #define VMAXSB     VX4(258)
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
      case INDEX_op_smin_vec:
      case INDEX_op_umax_vec:
      case INDEX_op_umin_vec:
 +    case INDEX_op_ssadd_vec:
 +    case INDEX_op_sssub_vec:
 +    case INDEX_op_usadd_vec:
 +    case INDEX_op_ussub_vec:
          return vece <= MO_32;
      case INDEX_op_cmp_vec:
          return vece <= MO_32 ? -1 : 0;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
          gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
          gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 },
 +        ssadd_op[4] = { VADDSBS, VADDSHS, VADDSWS, 0 },
 +        usadd_op[4] = { VADDUBS, VADDUHS, VADDUWS, 0 },
 +        sssub_op[4] = { VSUBSBS, VSUBSHS, VSUBSWS, 0 },
 +        ussub_op[4] = { VSUBUBS, VSUBUHS, VSUBUWS, 0 },
          umin_op[4] = { VMINUB, VMINUH, VMINUW, 0 },
          smin_op[4] = { VMINSB, VMINSH, VMINSW, 0 },
          umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, 0 },
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_sub_vec:
          insn = sub_op[vece];
          break;
-     case MO_SW:
++    case INDEX_op_ssadd_vec:
--        tcg_out_ext16s(s, data_reg, TCG_REG_EAX, P_REXW);
++        insn = ssadd_op[vece];
-+        tcg_out_ext16s(s, data_reg, TCG_REG_EAX, rexw);
++        break;
 +    case INDEX_op_sssub_vec:
 +        insn = sssub_op[vece];
 +        break;
 +    case INDEX_op_usadd_vec:
 +        insn = usadd_op[vece];
 +        break;
 +    case INDEX_op_ussub_vec:
 +        insn = ussub_op[vece];
 +        break;
      case INDEX_op_smin_vec:
          insn = smin_op[vece];
          break;
- #if TCG_TARGET_REG_BITS == 64
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
-     case MO_SL:
+     case INDEX_op_andc_vec:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
+     case INDEX_op_orc_vec:
-     tcg_out_qemu_ld_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, is64, opc);
+     case INDEX_op_cmp_vec:
++    case INDEX_op_ssadd_vec:
-     /* Record the current context of a load into ldst label */
++    case INDEX_op_sssub_vec:
--    add_qemu_ldst_label(s, true, oi, datalo, datahi, addrlo, addrhi,
++    case INDEX_op_usadd_vec:
-+    add_qemu_ldst_label(s, true, is64, oi, datalo, datahi, addrlo, addrhi,
++    case INDEX_op_ussub_vec:
-                         s->code_ptr, label_ptr);
+     case INDEX_op_smax_vec:
- #else
+     case INDEX_op_smin_vec:
-     {
+     case INDEX_op_umax_vec:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
      tcg_out_qemu_st_direct(s, datalo, datahi, TCG_REG_L1, 0, 0, opc);
      /* Record the current context of a store into ldst label */
 -    add_qemu_ldst_label(s, false, oi, datalo, datahi, addrlo, addrhi,
 +    add_qemu_ldst_label(s, false, is64, oi, datalo, datahi, addrlo, addrhi,
                          s->code_ptr, label_ptr);
  #else
      {
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 28/32] tcg: Drop nargs from tcg_op_insert_{before, after}
+[PULL 12/23] tcg/ppc: Support vector shift by immediate
-From: "Emilio G. Cota" <cota@braap.org>
+For Altivec, this is done via vector shift by vector,
 and loading the immediate into a register.
-It's unused since 75e8b9b7aa0b95a761b9add7e2f09248b101a392.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
  tcg/ppc/tcg-target.h     |  2 +-
  tcg/ppc/tcg-target.inc.c | 58 ++++++++++++++++++++++++++++++++++++++--
 files changed, 57 insertions(+), 3 deletions(-)
-Signed-off-by: Emilio G. Cota <cota@braap.org>
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 Message-Id: <20181209193749.12277-9-cota@braap.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/tcg.h      |  4 ++--
  tcg/optimize.c |  4 ++--
  tcg/tcg.c      | 10 ++++------
 files changed, 8 insertions(+), 10 deletions(-)
 diff --git a/tcg/tcg.h b/tcg/tcg.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg.h
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/tcg.h
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_callN(void *func, TCGTemp *ret, int nargs, TCGTemp **args);
+@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
+ #define TCG_TARGET_HAS_abs_vec          0
- TCGOp *tcg_emit_op(TCGOpcode opc);
+ #define TCG_TARGET_HAS_shi_vec          0
- void tcg_op_remove(TCGContext *s, TCGOp *op);
+ #define TCG_TARGET_HAS_shs_vec          0
--TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *op, TCGOpcode opc, int narg);
+-#define TCG_TARGET_HAS_shv_vec          0
--TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *op, TCGOpcode opc, int narg);
++#define TCG_TARGET_HAS_shv_vec          1
-+TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *op, TCGOpcode opc);
+ #define TCG_TARGET_HAS_cmp_vec          1
-+TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *op, TCGOpcode opc);
+ #define TCG_TARGET_HAS_mul_vec          0
+ #define TCG_TARGET_HAS_sat_vec          1
- void tcg_optimize(TCGContext *s);
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/optimize.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/optimize.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-                 uint64_t a = ((uint64_t)ah << 32) | al;
+ #define VCMPGTUH   VX4(582)
-                 uint64_t b = ((uint64_t)bh << 32) | bl;
+ #define VCMPGTUW   VX4(646)
-                 TCGArg rl, rh;
--                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32, 2);
++#define VSLB       VX4(260)
-+                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32);
++#define VSLH       VX4(324)
++#define VSLW       VX4(388)
-                 if (opc == INDEX_op_add2_i32) {
++#define VSRB       VX4(516)
-                     a += b;
++#define VSRH       VX4(580)
-@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
++#define VSRW       VX4(644)
-                 uint32_t b = arg_info(op->args[3])->val;
++#define VSRAB      VX4(772)
-                 uint64_t r = (uint64_t)a * b;
++#define VSRAH      VX4(836)
-                 TCGArg rl, rh;
++#define VSRAW      VX4(900)
--                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32, 2);
++
-+                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32);
+ #define VAND       VX4(1028)
+ #define VANDC      VX4(1092)
-                 rl = op->args[0];
+ #define VNOR       VX4(1284)
-                 rh = op->args[1];
+@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
-diff --git a/tcg/tcg.c b/tcg/tcg.c
+     case INDEX_op_sssub_vec:
-index XXXXXXX..XXXXXXX 100644
+     case INDEX_op_usadd_vec:
---- a/tcg/tcg.c
+     case INDEX_op_ussub_vec:
-+++ b/tcg/tcg.c
++    case INDEX_op_shlv_vec:
-@@ -XXX,XX +XXX,XX @@ TCGOp *tcg_emit_op(TCGOpcode opc)
++    case INDEX_op_shrv_vec:
-     return op;
++    case INDEX_op_sarv_vec:
          return vece <= MO_32;
      case INDEX_op_cmp_vec:
 +    case INDEX_op_shli_vec:
 +    case INDEX_op_shri_vec:
 +    case INDEX_op_sari_vec:
          return vece <= MO_32 ? -1 : 0;
      default:
          return 0;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          umin_op[4] = { VMINUB, VMINUH, VMINUW, 0 },
          smin_op[4] = { VMINSB, VMINSH, VMINSW, 0 },
          umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, 0 },
 -        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, 0 };
 +        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, 0 },
 +        shlv_op[4] = { VSLB, VSLH, VSLW, 0 },
 +        shrv_op[4] = { VSRB, VSRH, VSRW, 0 },
 +        sarv_op[4] = { VSRAB, VSRAH, VSRAW, 0 };
      TCGType type = vecl + TCG_TYPE_V64;
      TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_umax_vec:
          insn = umax_op[vece];
          break;
 +    case INDEX_op_shlv_vec:
 +        insn = shlv_op[vece];
 +        break;
 +    case INDEX_op_shrv_vec:
 +        insn = shrv_op[vece];
 +        break;
 +    case INDEX_op_sarv_vec:
 +        insn = sarv_op[vece];
 +        break;
      case INDEX_op_and_vec:
          insn = VAND;
          break;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      tcg_out32(s, insn | VRT(a0) | VRA(a1) | VRB(a2));
  }
--TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *old_op,
++static void expand_vec_shi(TCGType type, unsigned vece, TCGv_vec v0,
--                            TCGOpcode opc, int nargs)
++                           TCGv_vec v1, TCGArg imm, TCGOpcode opci)
-+TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *old_op, TCGOpcode opc)
++{
 +    TCGv_vec t1 = tcg_temp_new_vec(type);
 +
 +    /* Splat w/bytes for xxspltib.  */
 +    tcg_gen_dupi_vec(MO_8, t1, imm & ((8 << vece) - 1));
 +    vec_gen_3(opci, type, vece, tcgv_vec_arg(v0),
 +              tcgv_vec_arg(v1), tcgv_vec_arg(t1));
 +    tcg_temp_free_vec(t1);
 +}
 +
  static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
                             TCGv_vec v1, TCGv_vec v2, TCGCond cond)
  {
-     TCGOp *new_op = tcg_op_alloc(opc);
+@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
      QTAILQ_INSERT_BEFORE(old_op, new_op, link);
      return new_op;
  }
 -TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op,
 -                           TCGOpcode opc, int nargs)
 +TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op, TCGOpcode opc)
  {
-     TCGOp *new_op = tcg_op_alloc(opc);
+     va_list va;
-     QTAILQ_INSERT_AFTER(&s->ops, old_op, new_op, link);
+     TCGv_vec v0, v1, v2;
-@@ -XXX,XX +XXX,XX @@ static bool liveness_pass_2(TCGContext *s)
++    TCGArg a2;
-                     TCGOpcode lopc = (arg_ts->type == TCG_TYPE_I32
-                                       ? INDEX_op_ld_i32
+     va_start(va, a0);
-                                       : INDEX_op_ld_i64);
+     v0 = temp_tcgv_vec(arg_temp(a0));
--                    TCGOp *lop = tcg_op_insert_before(s, op, lopc, 3);
+     v1 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
-+                    TCGOp *lop = tcg_op_insert_before(s, op, lopc);
+-    v2 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
++    a2 = va_arg(va, TCGArg);
-                     lop->args[0] = temp_arg(dir_ts);
-                     lop->args[1] = temp_arg(arg_ts->mem_base);
+     switch (opc) {
-@@ -XXX,XX +XXX,XX @@ static bool liveness_pass_2(TCGContext *s)
++    case INDEX_op_shli_vec:
-                 TCGOpcode sopc = (arg_ts->type == TCG_TYPE_I32
++        expand_vec_shi(type, vece, v0, v1, a2, INDEX_op_shlv_vec);
-                                   ? INDEX_op_st_i32
++        break;
-                                   : INDEX_op_st_i64);
++    case INDEX_op_shri_vec:
--                TCGOp *sop = tcg_op_insert_after(s, op, sopc, 3);
++        expand_vec_shi(type, vece, v0, v1, a2, INDEX_op_shrv_vec);
-+                TCGOp *sop = tcg_op_insert_after(s, op, sopc);
++        break;
++    case INDEX_op_sari_vec:
-                 sop->args[0] = temp_arg(dir_ts);
++        expand_vec_shi(type, vece, v0, v1, a2, INDEX_op_sarv_vec);
-                 sop->args[1] = temp_arg(arg_ts->mem_base);
++        break;
      case INDEX_op_cmp_vec:
 +        v2 = temp_tcgv_vec(arg_temp(a2));
          expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
          break;
      default:
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
      case INDEX_op_smin_vec:
      case INDEX_op_umax_vec:
      case INDEX_op_umin_vec:
 +    case INDEX_op_shlv_vec:
 +    case INDEX_op_shrv_vec:
 +    case INDEX_op_sarv_vec:
          return &v_v_v;
      case INDEX_op_not_vec:
      case INDEX_op_dup_vec:
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 24/32] tcg: Clean up generic bswap64
+[PULL 13/23] tcg/ppc: Support vector multiply
-Based on the only current user, Sparc:
+For Altivec, this is always an expansion.
 New code uses 2 constants that take 2 insns to load from constant pool,
 plus 13.  Old code used 6 constants that took 1 or 2 insns to create,
 plus 21.  The result is a new total of 17 vs an old total of 29.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/tcg-op.c | 43 ++++++++++++++++++-------------------------
+ tcg/ppc/tcg-target.h     |   2 +-
-file changed, 18 insertions(+), 25 deletions(-)
+ tcg/ppc/tcg-target.opc.h |   8 +++
+ tcg/ppc/tcg-target.inc.c | 113 ++++++++++++++++++++++++++++++++++++++-
-diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
+files changed, 121 insertions(+), 2 deletions(-)
 diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/tcg-op.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/tcg-op.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
+@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
-     } else {
+ #define TCG_TARGET_HAS_shs_vec          0
-         TCGv_i64 t0 = tcg_temp_new_i64();
+ #define TCG_TARGET_HAS_shv_vec          1
-         TCGv_i64 t1 = tcg_temp_new_i64();
+ #define TCG_TARGET_HAS_cmp_vec          1
-+        TCGv_i64 t2 = tcg_temp_new_i64();
+-#define TCG_TARGET_HAS_mul_vec          0
++#define TCG_TARGET_HAS_mul_vec          1
--        tcg_gen_shli_i64(t0, arg, 56);
+ #define TCG_TARGET_HAS_sat_vec          1
-+                                        /* arg = abcdefgh */
+ #define TCG_TARGET_HAS_minmax_vec       1
-+        tcg_gen_movi_i64(t2, 0x00ff00ff00ff00ffull);
+ #define TCG_TARGET_HAS_bitsel_vec       0
-+        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .abcdefg */
+diff --git a/tcg/ppc/tcg-target.opc.h b/tcg/ppc/tcg-target.opc.h
-+        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .b.d.f.h */
+index XXXXXXX..XXXXXXX 100644
-+        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .a.c.e.g */
+--- a/tcg/ppc/tcg-target.opc.h
-+        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = b.d.f.h. */
++++ b/tcg/ppc/tcg-target.opc.h
-+        tcg_gen_or_i64(ret, t0, t1);    /* ret = badcfehg */
+@@ -XXX,XX +XXX,XX @@
+  * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
--        tcg_gen_andi_i64(t1, arg, 0x0000ff00);
+  * consider these to be UNSPEC with names.
--        tcg_gen_shli_i64(t1, t1, 40);
+  */
--        tcg_gen_or_i64(t0, t0, t1);
++
-+        tcg_gen_movi_i64(t2, 0x0000ffff0000ffffull);
++DEF(ppc_mrgh_vec, 1, 2, 0, IMPLVEC)
-+        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ..badcfe */
++DEF(ppc_mrgl_vec, 1, 2, 0, IMPLVEC)
-+        tcg_gen_and_i64(t1, ret, t2);   /*  t1 = ..dc..hg */
++DEF(ppc_msum_vec, 1, 3, 0, IMPLVEC)
-+        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = ..ba..fe */
++DEF(ppc_muleu_vec, 1, 2, 0, IMPLVEC)
-+        tcg_gen_shli_i64(t1, t1, 16);   /*  t1 = dc..hg.. */
++DEF(ppc_mulou_vec, 1, 2, 0, IMPLVEC)
-+        tcg_gen_or_i64(ret, t0, t1);    /* ret = dcbahgfe */
++DEF(ppc_pkum_vec, 1, 2, 0, IMPLVEC)
++DEF(ppc_rotl_vec, 1, 2, 0, IMPLVEC)
--        tcg_gen_andi_i64(t1, arg, 0x00ff0000);
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
--        tcg_gen_shli_i64(t1, t1, 24);
+index XXXXXXX..XXXXXXX 100644
--        tcg_gen_or_i64(t0, t0, t1);
+--- a/tcg/ppc/tcg-target.inc.c
-+        tcg_gen_shri_i64(t0, ret, 32);  /*  t0 = ....dcba */
++++ b/tcg/ppc/tcg-target.inc.c
-+        tcg_gen_shli_i64(t1, ret, 32);  /*  t1 = hgfe.... */
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-+        tcg_gen_or_i64(ret, t0, t1);    /* ret = hgfedcba */
+ #define VSRAB      VX4(772)
+ #define VSRAH      VX4(836)
--        tcg_gen_andi_i64(t1, arg, 0xff000000);
+ #define VSRAW      VX4(900)
--        tcg_gen_shli_i64(t1, t1, 8);
++#define VRLB       VX4(4)
--        tcg_gen_or_i64(t0, t0, t1);
++#define VRLH       VX4(68)
--
++#define VRLW       VX4(132)
--        tcg_gen_shri_i64(t1, arg, 8);
++
--        tcg_gen_andi_i64(t1, t1, 0xff000000);
++#define VMULEUB    VX4(520)
--        tcg_gen_or_i64(t0, t0, t1);
++#define VMULEUH    VX4(584)
--
++#define VMULOUB    VX4(8)
--        tcg_gen_shri_i64(t1, arg, 24);
++#define VMULOUH    VX4(72)
--        tcg_gen_andi_i64(t1, t1, 0x00ff0000);
++#define VMSUMUHM   VX4(38)
--        tcg_gen_or_i64(t0, t0, t1);
++
--
++#define VMRGHB     VX4(12)
--        tcg_gen_shri_i64(t1, arg, 40);
++#define VMRGHH     VX4(76)
--        tcg_gen_andi_i64(t1, t1, 0x0000ff00);
++#define VMRGHW     VX4(140)
--        tcg_gen_or_i64(t0, t0, t1);
++#define VMRGLB     VX4(268)
--
++#define VMRGLH     VX4(332)
--        tcg_gen_shri_i64(t1, arg, 56);
++#define VMRGLW     VX4(396)
--        tcg_gen_or_i64(ret, t0, t1);
++
-         tcg_temp_free_i64(t0);
++#define VPKUHUM    VX4(14)
-         tcg_temp_free_i64(t1);
++#define VPKUWUM    VX4(78)
-+        tcg_temp_free_i64(t2);
  #define VAND       VX4(1028)
  #define VANDC      VX4(1092)
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
      case INDEX_op_sarv_vec:
          return vece <= MO_32;
      case INDEX_op_cmp_vec:
 +    case INDEX_op_mul_vec:
      case INDEX_op_shli_vec:
      case INDEX_op_shri_vec:
      case INDEX_op_sari_vec:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, 0 },
          shlv_op[4] = { VSLB, VSLH, VSLW, 0 },
          shrv_op[4] = { VSRB, VSRH, VSRW, 0 },
 -        sarv_op[4] = { VSRAB, VSRAH, VSRAW, 0 };
 +        sarv_op[4] = { VSRAB, VSRAH, VSRAW, 0 },
 +        mrgh_op[4] = { VMRGHB, VMRGHH, VMRGHW, 0 },
 +        mrgl_op[4] = { VMRGLB, VMRGLH, VMRGLW, 0 },
 +        muleu_op[4] = { VMULEUB, VMULEUH, 0, 0 },
 +        mulou_op[4] = { VMULOUB, VMULOUH, 0, 0 },
 +        pkum_op[4] = { VPKUHUM, VPKUWUM, 0, 0 },
 +        rotl_op[4] = { VRLB, VRLH, VRLW, 0 };
      TCGType type = vecl + TCG_TYPE_V64;
      TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          }
          break;
 +    case INDEX_op_ppc_mrgh_vec:
 +        insn = mrgh_op[vece];
 +        break;
 +    case INDEX_op_ppc_mrgl_vec:
 +        insn = mrgl_op[vece];
 +        break;
 +    case INDEX_op_ppc_muleu_vec:
 +        insn = muleu_op[vece];
 +        break;
 +    case INDEX_op_ppc_mulou_vec:
 +        insn = mulou_op[vece];
 +        break;
 +    case INDEX_op_ppc_pkum_vec:
 +        insn = pkum_op[vece];
 +        break;
 +    case INDEX_op_ppc_rotl_vec:
 +        insn = rotl_op[vece];
 +        break;
 +    case INDEX_op_ppc_msum_vec:
 +        tcg_debug_assert(vece == MO_16);
 +        tcg_out32(s, VMSUMUHM | VRT(a0) | VRA(a1) | VRB(a2) | VRC(args[3]));
 +        return;
 +
      case INDEX_op_mov_vec:  /* Always emitted via tcg_out_mov.  */
      case INDEX_op_dupi_vec: /* Always emitted via tcg_out_movi.  */
      case INDEX_op_dup_vec:  /* Always emitted via tcg_out_dup_vec.  */
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
      }
  }
++static void expand_vec_mul(TCGType type, unsigned vece, TCGv_vec v0,
++                           TCGv_vec v1, TCGv_vec v2)
++{
++    TCGv_vec t1 = tcg_temp_new_vec(type);
++    TCGv_vec t2 = tcg_temp_new_vec(type);
++    TCGv_vec t3, t4;
++
++    switch (vece) {
++    case MO_8:
++    case MO_16:
++        vec_gen_3(INDEX_op_ppc_muleu_vec, type, vece, tcgv_vec_arg(t1),
++                  tcgv_vec_arg(v1), tcgv_vec_arg(v2));
++        vec_gen_3(INDEX_op_ppc_mulou_vec, type, vece, tcgv_vec_arg(t2),
++                  tcgv_vec_arg(v1), tcgv_vec_arg(v2));
++        vec_gen_3(INDEX_op_ppc_mrgh_vec, type, vece + 1, tcgv_vec_arg(v0),
++                  tcgv_vec_arg(t1), tcgv_vec_arg(t2));
++        vec_gen_3(INDEX_op_ppc_mrgl_vec, type, vece + 1, tcgv_vec_arg(t1),
++                  tcgv_vec_arg(t1), tcgv_vec_arg(t2));
++        vec_gen_3(INDEX_op_ppc_pkum_vec, type, vece, tcgv_vec_arg(v0),
++                  tcgv_vec_arg(v0), tcgv_vec_arg(t1));
++    break;
++
++    case MO_32:
++        t3 = tcg_temp_new_vec(type);
++        t4 = tcg_temp_new_vec(type);
++        tcg_gen_dupi_vec(MO_8, t4, -16);
++        vec_gen_3(INDEX_op_ppc_rotl_vec, type, MO_32, tcgv_vec_arg(t1),
++                  tcgv_vec_arg(v2), tcgv_vec_arg(t4));
++        vec_gen_3(INDEX_op_ppc_mulou_vec, type, MO_16, tcgv_vec_arg(t2),
++                  tcgv_vec_arg(v1), tcgv_vec_arg(v2));
++        tcg_gen_dupi_vec(MO_8, t3, 0);
++        vec_gen_4(INDEX_op_ppc_msum_vec, type, MO_16, tcgv_vec_arg(t3),
++                  tcgv_vec_arg(v1), tcgv_vec_arg(t1), tcgv_vec_arg(t3));
++        vec_gen_3(INDEX_op_shlv_vec, type, MO_32, tcgv_vec_arg(t3),
++                  tcgv_vec_arg(t3), tcgv_vec_arg(t4));
++        tcg_gen_add_vec(MO_32, v0, t2, t3);
++        tcg_temp_free_vec(t3);
++        tcg_temp_free_vec(t4);
++        break;
++
++    default:
++        g_assert_not_reached();
++    }
++    tcg_temp_free_vec(t1);
++    tcg_temp_free_vec(t2);
++}
++
+ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+                        TCGArg a0, ...)
+ {
+@@ -XXX,XX +XXX,XX @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+         v2 = temp_tcgv_vec(arg_temp(a2));
+         expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
+         break;
++    case INDEX_op_mul_vec:
++        v2 = temp_tcgv_vec(arg_temp(a2));
++        expand_vec_mul(type, vece, v0, v1, v2);
++        break;
+     default:
+         g_assert_not_reached();
+     }
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
+     static const TCGTargetOpDef v_r = { .args_ct_str = { "v", "r" } };
+     static const TCGTargetOpDef v_v = { .args_ct_str = { "v", "v" } };
+     static const TCGTargetOpDef v_v_v = { .args_ct_str = { "v", "v", "v" } };
++    static const TCGTargetOpDef v_v_v_v
++        = { .args_ct_str = { "v", "v", "v", "v" } };
+     switch (op) {
+     case INDEX_op_goto_ptr:
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
+     case INDEX_op_add_vec:
+     case INDEX_op_sub_vec:
++    case INDEX_op_mul_vec:
+     case INDEX_op_and_vec:
+     case INDEX_op_or_vec:
+     case INDEX_op_xor_vec:
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
+     case INDEX_op_shlv_vec:
+     case INDEX_op_shrv_vec:
+     case INDEX_op_sarv_vec:
++    case INDEX_op_ppc_mrgh_vec:
++    case INDEX_op_ppc_mrgl_vec:
++    case INDEX_op_ppc_muleu_vec:
++    case INDEX_op_ppc_mulou_vec:
++    case INDEX_op_ppc_pkum_vec:
++    case INDEX_op_ppc_rotl_vec:
+         return &v_v_v;
+     case INDEX_op_not_vec:
+     case INDEX_op_dup_vec:
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
+     case INDEX_op_st_vec:
+     case INDEX_op_dupm_vec:
+         return &v_r;
++    case INDEX_op_ppc_msum_vec:
++        return &v_v_v_v;
+     default:
+         return NULL;
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 07/32] tcg/ppc: Fold away "noaddr" branch routines
+[PULL 14/23] tcg/ppc: Support vector dup2
-There is no longer a need for preserving branch offset operands,
+This is only used for 32-bit hosts.
 as we no longer re-translate.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/ppc/tcg-target.inc.c | 25 +++++++------------------
+ tcg/ppc/tcg-target.inc.c | 9 +++++++++
-file changed, 7 insertions(+), 18 deletions(-)
+file changed, 9 insertions(+)
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void reloc_pc14(tcg_insn_unit *pc, tcg_insn_unit *target)
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      *pc = (*pc & ~0xfffc) | reloc_pc14_val(pc, target);
  }
 -static inline void tcg_out_b_noaddr(TCGContext *s, int insn)
 -{
 -    unsigned retrans = *s->code_ptr & 0x3fffffc;
 -    tcg_out32(s, insn | retrans);
 -}
 -
 -static inline void tcg_out_bc_noaddr(TCGContext *s, int insn)
 -{
 -    unsigned retrans = *s->code_ptr & 0xfffc;
 -    tcg_out32(s, insn | retrans);
 -}
 -
  /* parse target specific constraints */
  static const char *target_parse_constraint(TCGArgConstraint *ct,
                                             const char *ct_str, TCGType type)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_setcond(TCGContext *s, TCGType type, TCGCond cond,
  static void tcg_out_bc(TCGContext *s, int bc, TCGLabel *l)
  {
      if (l->has_value) {
 -        tcg_out32(s, bc | reloc_pc14_val(s->code_ptr, l->u.value_ptr));
 +        bc |= reloc_pc14_val(s->code_ptr, l->u.value_ptr);
      } else {
          tcg_out_reloc(s, s->code_ptr, R_PPC_REL14, l, 0);
 -        tcg_out_bc_noaddr(s, bc);
      }
 +    tcg_out32(s, bc);
  }
  static void tcg_out_brcond(TCGContext *s, TCGCond cond,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
      /* Load a pointer into the current opcode w/conditional branch-link. */
      label_ptr = s->code_ptr;
 -    tcg_out_bc_noaddr(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 +    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
      rbase = TCG_REG_R3;
  #else  /* !CONFIG_SOFTMMU */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
      /* Load a pointer into the current opcode w/conditional branch-link. */
      label_ptr = s->code_ptr;
 -    tcg_out_bc_noaddr(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 +    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
      rbase = TCG_REG_R3;
  #else  /* !CONFIG_SOFTMMU */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
      case INDEX_op_br:
          {
              TCGLabel *l = arg_label(args[0]);
 +            uint32_t insn = B;
              if (l->has_value) {
 -                tcg_out_b(s, 0, l->u.value_ptr);
 +                insn |= reloc_pc24_val(s->code_ptr, l->u.value_ptr);
              } else {
                  tcg_out_reloc(s, s->code_ptr, R_PPC_REL24, l, 0);
 -                tcg_out_b_noaddr(s, B);
              }
 +            tcg_out32(s, insn);
          }
          break;
-     case INDEX_op_ld8u_i32:
 +    case INDEX_op_dup2_vec:
 +        assert(TCG_TARGET_REG_BITS == 32);
 +        /* With inputs a1 = xLxx, a2 = xHxx  */
 +        tcg_out32(s, VMRGHW | VRT(a0) | VRA(a2) | VRB(a1));  /* a0  = xxHL */
 +        tcg_out_vsldoi(s, TCG_VEC_TMP1, a0, a0, 8);          /* tmp = HLxx */
 +        tcg_out_vsldoi(s, a0, a0, TCG_VEC_TMP1, 8);          /* a0  = HLHL */
 +        return;
 +
      case INDEX_op_ppc_mrgh_vec:
          insn = mrgh_op[vece];
          break;
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
      case INDEX_op_ppc_mulou_vec:
      case INDEX_op_ppc_pkum_vec:
      case INDEX_op_ppc_rotl_vec:
 +    case INDEX_op_dup2_vec:
          return &v_v_v;
      case INDEX_op_not_vec:
      case INDEX_op_dup_vec:
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 08/32] tcg/s390: Remove retranslation code
+Deleted patch
-There is no longer a need for preserving branch offset operands,
-as we no longer re-translate.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/s390/tcg-target.inc.c | 10 ++--------
-file changed, 2 insertions(+), 8 deletions(-)
-diff --git a/tcg/s390/tcg-target.inc.c b/tcg/s390/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390/tcg-target.inc.c
-+++ b/tcg/s390/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void tgen_branch(TCGContext *s, int cc, TCGLabel *l)
- static void tgen_compare_branch(TCGContext *s, S390Opcode opc, int cc,
-                                 TCGReg r1, TCGReg r2, TCGLabel *l)
- {
--    intptr_t off;
-+    intptr_t off = 0;
-     if (l->has_value) {
-         off = l->u.value_ptr - s->code_ptr;
-     } else {
--        /* We need to keep the offset unchanged for retranslation.  */
--        off = s->code_ptr[1];
-         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
-     }
-@@ -XXX,XX +XXX,XX @@ static void tgen_compare_branch(TCGContext *s, S390Opcode opc, int cc,
- static void tgen_compare_imm_branch(TCGContext *s, S390Opcode opc, int cc,
-                                     TCGReg r1, int i2, TCGLabel *l)
- {
--    tcg_target_long off;
-+    tcg_target_long off = 0;
-     if (l->has_value) {
-         off = l->u.value_ptr - s->code_ptr;
-     } else {
--        /* We need to keep the offset unchanged for retranslation.  */
--        off = s->code_ptr[1];
-         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
-     }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
-     base_reg = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 1);
--    /* We need to keep the offset unchanged for retranslation.  */
-     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-     label_ptr = s->code_ptr;
-     s->code_ptr += 1;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
-     base_reg = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 0);
--    /* We need to keep the offset unchanged for retranslation.  */
-     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
-     label_ptr = s->code_ptr;
-     s->code_ptr += 1;
---
-.17.2

-[Qemu-devel] [PULL 09/32] tcg/sparc: Remove retranslation code
+Deleted patch
-There is no longer a need for preserving branch offset operands,
-as we no longer re-translate.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/sparc/tcg-target.inc.c | 8 ++------
-file changed, 2 insertions(+), 6 deletions(-)
-diff --git a/tcg/sparc/tcg-target.inc.c b/tcg/sparc/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/sparc/tcg-target.inc.c
-+++ b/tcg/sparc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_bpcc0(TCGContext *s, int scond, int flags, int off19)
- static void tcg_out_bpcc(TCGContext *s, int scond, int flags, TCGLabel *l)
- {
--    int off19;
-+    int off19 = 0;
-     if (l->has_value) {
-         off19 = INSN_OFF19(tcg_pcrel_diff(s, l->u.value_ptr));
-     } else {
--        /* Make sure to preserve destinations during retranslation.  */
--        off19 = *s->code_ptr & INSN_OFF19(-1);
-         tcg_out_reloc(s, s->code_ptr, R_SPARC_WDISP19, l, 0);
-     }
-     tcg_out_bpcc0(s, scond, flags, off19);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_brcond_i64(TCGContext *s, TCGCond cond, TCGReg arg1,
- {
-     /* For 64-bit signed comparisons vs zero, we can avoid the compare.  */
-     if (arg2 == 0 && !is_unsigned_cond(cond)) {
--        int off16;
-+        int off16 = 0;
-         if (l->has_value) {
-             off16 = INSN_OFF16(tcg_pcrel_diff(s, l->u.value_ptr));
-         } else {
--            /* Make sure to preserve destinations during retranslation.  */
--            off16 = *s->code_ptr & INSN_OFF16(-1);
-             tcg_out_reloc(s, s->code_ptr, R_SPARC_WDISP16, l, 0);
-         }
-         tcg_out32(s, INSN_OP(0) | INSN_OP2(3) | BPR_PT | INSN_RS1(arg1)
---
-.17.2

-[Qemu-devel] [PULL 10/32] tcg/mips: Remove retranslation code
+Deleted patch
-There is no longer a need for preserving branch offset operands,
-as we no longer re-translate.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/mips/tcg-target.inc.c | 7 +------
-file changed, 1 insertion(+), 6 deletions(-)
-diff --git a/tcg/mips/tcg-target.inc.c b/tcg/mips/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.inc.c
-+++ b/tcg/mips/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_opc_bf64(TCGContext *s, MIPSInsn opc, MIPSInsn opm,
- static inline void tcg_out_opc_br(TCGContext *s, MIPSInsn opc,
-                                   TCGReg rt, TCGReg rs)
- {
--    /* We pay attention here to not modify the branch target by reading
--       the existing value and using it again. This ensure that caches and
--       memory are kept coherent during retranslation. */
--    uint16_t offset = (uint16_t)*s->code_ptr;
--
--    tcg_out_opc_imm(s, opc, rt, rs, offset);
-+    tcg_out_opc_imm(s, opc, rt, rs, 0);
- }
- /*
---
-.17.2

-[Qemu-devel] [PULL 12/32] tcg/i386: Return false on failure from patch_reloc
+Deleted patch
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
----
- tcg/i386/tcg-target.inc.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
-+++ b/tcg/i386/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
-     case R_386_PC32:
-         value -= (uintptr_t)code_ptr;
-         if (value != (int32_t)value) {
--            tcg_abort();
-+            return false;
-         }
-         /* FALLTHRU */
-     case R_386_32:
-@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
-     case R_386_PC8:
-         value -= (uintptr_t)code_ptr;
-         if (value != (int8_t)value) {
--            tcg_abort();
-+            return false;
-         }
-         tcg_patch8(code_ptr, value);
-         break;
---
-.17.2

-[Qemu-devel] [PULL 13/32] tcg/aarch64: Return false on failure from patch_reloc
+[PULL 15/23] tcg/ppc: Enable Altivec detection
-This does require an extra two checks within the slow paths
+Now that we have implemented the required tcg operations,
-to replace the assert that we're moving.
+we can enable detection of host vector support.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk> (PPC32)
 Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/aarch64/tcg-target.inc.c | 37 ++++++++++++++++++++----------------
+ tcg/ppc/tcg-target.inc.c | 4 ++++
-file changed, 21 insertions(+), 16 deletions(-)
+file changed, 4 insertions(+)
-diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/aarch64/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/aarch64/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static const int tcg_target_call_oarg_regs[1] = {
+@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
- #define TCG_REG_GUEST_BASE TCG_REG_X28
+     have_isel = have_isa_2_06;
  #endif
--static inline void reloc_pc26(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
++    if (hwcap & PPC_FEATURE_HAS_ALTIVEC) {
-+static inline bool reloc_pc26(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
++        have_altivec = true;
  {
      ptrdiff_t offset = target - code_ptr;
 -    tcg_debug_assert(offset == sextract64(offset, 0, 26));
 -    /* read instruction, mask away previous PC_REL26 parameter contents,
 -       set the proper offset, then write back the instruction. */
 -    *code_ptr = deposit32(*code_ptr, 0, 26, offset);
 +    if (offset == sextract64(offset, 0, 26)) {
 +        /* read instruction, mask away previous PC_REL26 parameter contents,
 +           set the proper offset, then write back the instruction. */
 +        *code_ptr = deposit32(*code_ptr, 0, 26, offset);
 +        return true;
 +    }
-+    return false;
++
- }
+     tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
+     tcg_target_available_regs[TCG_TYPE_I64] = 0xffffffff;
--static inline void reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
+     if (have_altivec) {
 +static inline bool reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
  {
      ptrdiff_t offset = target - code_ptr;
 -    tcg_debug_assert(offset == sextract64(offset, 0, 19));
 -    *code_ptr = deposit32(*code_ptr, 5, 19, offset);
 +    if (offset == sextract64(offset, 0, 19)) {
 +        *code_ptr = deposit32(*code_ptr, 5, 19, offset);
 +        return true;
 +    }
 +    return false;
  }
  static inline bool patch_reloc(tcg_insn_unit *code_ptr, int type,
@@ -XXX,XX +XXX,XX @@ static inline bool patch_reloc(tcg_insn_unit *code_ptr, int type,
      switch (type) {
      case R_AARCH64_JUMP26:
      case R_AARCH64_CALL26:
 -        reloc_pc26(code_ptr, (tcg_insn_unit *)value);
 -        break;
 +        return reloc_pc26(code_ptr, (tcg_insn_unit *)value);
      case R_AARCH64_CONDBR19:
 -        reloc_pc19(code_ptr, (tcg_insn_unit *)value);
 -        break;
 +        return reloc_pc19(code_ptr, (tcg_insn_unit *)value);
      default:
 -        tcg_abort();
 +        g_assert_not_reached();
      }
 -    return true;
  }
  #define TCG_CT_CONST_AIMM 0x100
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      TCGMemOp opc = get_memop(oi);
      TCGMemOp size = opc & MO_SIZE;
 -    reloc_pc19(lb->label_ptr[0], s->code_ptr);
 +    bool ok = reloc_pc19(lb->label_ptr[0], s->code_ptr);
 +    tcg_debug_assert(ok);
      tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
      tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      TCGMemOp opc = get_memop(oi);
      TCGMemOp size = opc & MO_SIZE;
 -    reloc_pc19(lb->label_ptr[0], s->code_ptr);
 +    bool ok = reloc_pc19(lb->label_ptr[0], s->code_ptr);
 +    tcg_debug_assert(ok);
      tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
      tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 20/32] tcg/i386: Assume 32-bit values are zero-extended
+[PULL 16/23] tcg/ppc: Update vector support for VSX
-We now have an invariant that all TCG_TYPE_I32 values are
+The VSX instruction set instructions include double-word loads and
-zero-extended, which means that we do not need to extend
+stores, double-word load and splat, double-word permute, and bit
-them again during qemu_ld/st, either explicitly via a separate
+select.  All of which require multiple operations in the Altivec
-tcg_out_ext32u or implicitly via P_ADDR32.
+instruction set.
-Reviewed-by: Emilio G. Cota <cota@braap.org>
+Because the VSX registers map %vsr32 to %vr0, and we have no current
 intention or need to use vector registers outside %vr0-%vr19, force
 on the {ax,bx,cx,tx} bits within the added VSX insns so that we don't
 have to otherwise modify the VR[TABC] macros.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 ---
- tcg/i386/tcg-target.inc.c | 103 +++++++++++++++-----------------------
+ tcg/ppc/tcg-target.h     |  5 ++--
-file changed, 40 insertions(+), 63 deletions(-)
+ tcg/ppc/tcg-target.inc.c | 52 ++++++++++++++++++++++++++++++++++++----
 files changed, 51 insertions(+), 6 deletions(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/i386/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static inline int tcg_target_const_match(tcg_target_long val, TCGType type,
+@@ -XXX,XX +XXX,XX @@ typedef enum {
- #define P_EXT38         0x200           /* 0x0f 0x38 opcode prefix */
- #define P_DATA16        0x400           /* 0x66 opcode prefix */
+ extern TCGPowerISA have_isa;
- #if TCG_TARGET_REG_BITS == 64
+ extern bool have_altivec;
--# define P_ADDR32       0x800           /* 0x67 opcode prefix */
++extern bool have_vsx;
- # define P_REXW         0x1000          /* Set REX.W = 1 */
- # define P_REXB_R       0x2000          /* REG field as byte register */
+ #define have_isa_2_06  (have_isa >= tcg_isa_2_06)
- # define P_REXB_RM      0x4000          /* R/M field as byte register */
+ #define have_isa_3_00  (have_isa >= tcg_isa_3_00)
- # define P_GS           0x8000          /* gs segment override */
+@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
- #else
+  * instruction and substituting two 32-bit stores makes the generated
--# define P_ADDR32    0
+  * code quite large.
- # define P_REXW        0
+  */
- # define P_REXB_R    0
+-#define TCG_TARGET_HAS_v64              0
- # define P_REXB_RM    0
++#define TCG_TARGET_HAS_v64              have_vsx
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_opc(TCGContext *s, int opc, int r, int rm, int x)
+ #define TCG_TARGET_HAS_v128             have_altivec
-         tcg_debug_assert((opc & P_REXW) == 0);
+ #define TCG_TARGET_HAS_v256             0
-         tcg_out8(s, 0x66);
@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
  #define TCG_TARGET_HAS_mul_vec          1
  #define TCG_TARGET_HAS_sat_vec          1
  #define TCG_TARGET_HAS_minmax_vec       1
 -#define TCG_TARGET_HAS_bitsel_vec       0
 +#define TCG_TARGET_HAS_bitsel_vec       have_vsx
  #define TCG_TARGET_HAS_cmpsel_vec       0
  void flush_icache_range(uintptr_t start, uintptr_t stop);
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static tcg_insn_unit *tb_ret_addr;
  TCGPowerISA have_isa;
  static bool have_isel;
  bool have_altivec;
 +bool have_vsx;
  #ifndef CONFIG_SOFTMMU
  #define TCG_GUEST_BASE_REG 30
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define LVEBX      XO31(7)
  #define LVEHX      XO31(39)
  #define LVEWX      XO31(71)
 +#define LXSDX      (XO31(588) | 1)  /* v2.06, force tx=1 */
 +#define LXVDSX     (XO31(332) | 1)  /* v2.06, force tx=1 */
  #define STVX       XO31(231)
  #define STVEWX     XO31(199)
 +#define STXSDX     (XO31(716) | 1)  /* v2.06, force sx=1 */
  #define VADDSBS    VX4(768)
  #define VADDUBS    VX4(512)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define VSLDOI     VX4(44)
 +#define XXPERMDI   (OPCD(60) | (10 << 3) | 7)  /* v2.06, force ax=bx=tx=1 */
 +#define XXSEL      (OPCD(60) | (3 << 4) | 0xf) /* v2.06, force ax=bx=cx=tx=1 */
 +
  #define RT(r) ((r)<<21)
  #define RS(r) ((r)<<21)
  #define RA(r) ((r)<<16)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
          add = 0;
      }
--    if (opc & P_ADDR32) {
--        tcg_out8(s, 0x67);
+-    load_insn = LVX | VRT(ret) | RB(TCG_REG_TMP1);
--    }
+-    if (TCG_TARGET_REG_BITS == 64) {
-     if (opc & P_SIMDF3) {
+-        new_pool_l2(s, rel, s->code_ptr, add, val, val);
-         tcg_out8(s, 0xf3);
++    if (have_vsx) {
-     } else if (opc & P_SIMDF2) {
++        load_insn = type == TCG_TYPE_V64 ? LXSDX : LXVDSX;
-@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
++        load_insn |= VRT(ret) | RB(TCG_REG_TMP1);
-     tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw, r1, r0, 0);
++        if (TCG_TARGET_REG_BITS == 64) {
++            new_pool_label(s, val, rel, s->code_ptr, add);
-     /* Prepare for both the fast path add of the tlb addend, and the slow
++        } else {
--       path function argument setup.  There are two cases worth note:
++            new_pool_l2(s, rel, s->code_ptr, add, val, val);
--       For 32-bit guest and x86_64 host, MOVL zero-extends the guest address
++        }
--       before the fastpath ADDQ below.  For 64-bit guest and x32 host, MOVQ
+     } else {
--       copies the entire guest address for the slow path, while truncation
+-        new_pool_l4(s, rel, s->code_ptr, add, val, val, val, val);
--       for the 32-bit host happens with the fastpath ADDL below.  */
++        load_insn = LVX | VRT(ret) | RB(TCG_REG_TMP1);
-+       path function argument setup.  */
++        if (TCG_TARGET_REG_BITS == 64) {
-     tcg_out_mov(s, ttype, r1, addrlo);
++            new_pool_l2(s, rel, s->code_ptr, add, val, val);
++        } else {
-     /* jne slow_path */
++            new_pool_l4(s, rel, s->code_ptr, add, val, val, val, val);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
++        }
  #else
      {
          int32_t offset = guest_base;
 -        TCGReg base = addrlo;
          int index = -1;
          int seg = 0;
 -        /* For a 32-bit guest, the high 32 bits may contain garbage.
 -           We can do this with the ADDR32 prefix if we're not using
 -           a guest base, or when using segmentation.  Otherwise we
 -           need to zero-extend manually.  */
 +        /*
 +         * Recall we store 32-bit values zero-extended.  No need for
 +         * further manual extension or an addr32 (0x67) prefix.
 +         */
          if (guest_base == 0 || guest_base_flags) {
              seg = guest_base_flags;
              offset = 0;
 -            if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -                seg |= P_ADDR32;
 -            }
 -        } else if (TCG_TARGET_REG_BITS == 64) {
 -            if (TARGET_LONG_BITS == 32) {
 -                tcg_out_ext32u(s, TCG_REG_L0, base);
 -                base = TCG_REG_L0;
 -            }
 -            if (offset != guest_base) {
 -                tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
 -                index = TCG_REG_L1;
 -                offset = 0;
 -            }
 +        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
 +            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
 +            index = TCG_REG_L1;
 +            offset = 0;
          }
          tcg_out_qemu_ld_direct(s, datalo, datahi,
 -                               base, index, offset, seg, is64, opc);
 +                               addrlo, index, offset, seg, is64, opc);
      }
- #endif
- }
+     if (USE_REG_TB) {
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
- static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
+         /* fallthru */
--                                   TCGReg base, intptr_t ofs, int seg,
+     case TCG_TYPE_V64:
--                                   TCGMemOp memop)
+         tcg_debug_assert(ret >= TCG_REG_V0);
-+                                   TCGReg base, int index, intptr_t ofs,
++        if (have_vsx) {
-+                                   int seg, TCGMemOp memop)
++            tcg_out_mem_long(s, 0, LXSDX, ret, base, offset);
- {
++            break;
-     /* ??? Ideally we wouldn't need a scratch register.  For user-only,
++        }
-        we could perform the bswap twice to restore the original value
+         tcg_debug_assert((offset & 7) == 0);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
+         tcg_out_mem_long(s, 0, LVX, ret, base, offset & -16);
-             tcg_out_mov(s, TCG_TYPE_I32, scratch, datalo);
+         if (offset & 8) {
-             datalo = scratch;
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
-         }
+         /* fallthru */
--        tcg_out_modrm_offset(s, OPC_MOVB_EvGv + P_REXB_R + seg,
+     case TCG_TYPE_V64:
--                             datalo, base, ofs);
+         tcg_debug_assert(arg >= TCG_REG_V0);
-+        tcg_out_modrm_sib_offset(s, OPC_MOVB_EvGv + P_REXB_R + seg,
++        if (have_vsx) {
-+                                 datalo, base, index, 0, ofs);
++            tcg_out_mem_long(s, 0, STXSDX, arg, base, offset);
-         break;
++            break;
-     case MO_16:
++        }
-         if (bswap) {
+         tcg_debug_assert((offset & 7) == 0);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
+         if (offset & 8) {
-             tcg_out_rolw_8(s, scratch);
+             tcg_out_vsldoi(s, TCG_VEC_TMP1, arg, arg, 8);
-             datalo = scratch;
+@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
-         }
+     case INDEX_op_shri_vec:
--        tcg_out_modrm_offset(s, movop + P_DATA16 + seg, datalo, base, ofs);
+     case INDEX_op_sari_vec:
-+        tcg_out_modrm_sib_offset(s, movop + P_DATA16 + seg, datalo,
+         return vece <= MO_32 ? -1 : 0;
-+                                 base, index, 0, ofs);
++    case INDEX_op_bitsel_vec:
-         break;
++        return have_vsx;
-     case MO_32:
+     default:
-         if (bswap) {
+         return 0;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
+     }
-             tcg_out_bswap32(s, scratch);
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
-             datalo = scratch;
+         tcg_out32(s, VSPLTW | VRT(dst) | VRB(src) | (1 << 16));
          }
 -        tcg_out_modrm_offset(s, movop + seg, datalo, base, ofs);
 +        tcg_out_modrm_sib_offset(s, movop + seg, datalo, base, index, 0, ofs);
          break;
      case MO_64:
-         if (TCG_TARGET_REG_BITS == 64) {
++        if (have_vsx) {
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
++            tcg_out32(s, XXPERMDI | VRT(dst) | VRA(src) | VRB(src));
-                 tcg_out_bswap64(s, scratch);
++            break;
-                 datalo = scratch;
++        }
-             }
+         tcg_out_vsldoi(s, TCG_VEC_TMP1, src, src, 8);
--            tcg_out_modrm_offset(s, movop + P_REXW + seg, datalo, base, ofs);
+         tcg_out_vsldoi(s, dst, TCG_VEC_TMP1, src, 8);
-+            tcg_out_modrm_sib_offset(s, movop + P_REXW + seg, datalo,
+         break;
-+                                     base, index, 0, ofs);
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
-         } else if (bswap) {
+         tcg_out32(s, VSPLTW | VRT(out) | VRB(out) | (elt << 16));
-             tcg_out_mov(s, TCG_TYPE_I32, scratch, datahi);
+         break;
-             tcg_out_bswap32(s, scratch);
+     case MO_64:
--            tcg_out_modrm_offset(s, OPC_MOVL_EvGv + seg, scratch, base, ofs);
++        if (have_vsx) {
-+            tcg_out_modrm_sib_offset(s, OPC_MOVL_EvGv + seg, scratch,
++            tcg_out_mem_long(s, 0, LXVDSX, out, base, offset);
-+                                     base, index, 0, ofs);
++            break;
-             tcg_out_mov(s, TCG_TYPE_I32, scratch, datalo);
++        }
-             tcg_out_bswap32(s, scratch);
+         tcg_debug_assert((offset & 7) == 0);
--            tcg_out_modrm_offset(s, OPC_MOVL_EvGv + seg, scratch, base, ofs+4);
+         tcg_out_mem_long(s, 0, LVX, out, base, offset & -16);
-+            tcg_out_modrm_sib_offset(s, OPC_MOVL_EvGv + seg, scratch,
+         tcg_out_vsldoi(s, TCG_VEC_TMP1, out, out, 8);
-+                                     base, index, 0, ofs + 4);
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          } else {
              if (real_bswap) {
                  int t = datalo;
                  datalo = datahi;
                  datahi = t;
              }
 -            tcg_out_modrm_offset(s, movop + seg, datalo, base, ofs);
 -            tcg_out_modrm_offset(s, movop + seg, datahi, base, ofs+4);
 +            tcg_out_modrm_sib_offset(s, movop + seg, datalo,
 +                                     base, index, 0, ofs);
 +            tcg_out_modrm_sib_offset(s, movop + seg, datahi,
 +                                     base, index, 0, ofs + 4);
          }
          break;
-     default:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
++    case INDEX_op_bitsel_vec:
-                      label_ptr, offsetof(CPUTLBEntry, addr_write));
++        tcg_out32(s, XXSEL | VRT(a0) | VRC(a1) | VRB(a2) | VRA(args[3]));
++        return;
-     /* TLB Hit.  */
++
--    tcg_out_qemu_st_direct(s, datalo, datahi, TCG_REG_L1, 0, 0, opc);
+     case INDEX_op_dup2_vec:
-+    tcg_out_qemu_st_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, opc);
+         assert(TCG_TARGET_REG_BITS == 32);
+         /* With inputs a1 = xLxx, a2 = xHxx  */
-     /* Record the current context of a store into ldst label */
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
-     add_qemu_ldst_label(s, false, is64, oi, datalo, datahi, addrlo, addrhi,
+     case INDEX_op_st_vec:
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
+     case INDEX_op_dupm_vec:
- #else
+         return &v_r;
-     {
++    case INDEX_op_bitsel_vec:
-         int32_t offset = guest_base;
+     case INDEX_op_ppc_msum_vec:
--        TCGReg base = addrlo;
+         return &v_v_v_v;
-+        int index = -1;
-         int seg = 0;
+@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
--        /* See comment in tcg_out_qemu_ld re zero-extension of addrlo.  */
+     if (hwcap & PPC_FEATURE_HAS_ALTIVEC) {
-+        /*
+         have_altivec = true;
-+         * Recall we store 32-bit values zero-extended.  No need for
++        /* We only care about the portion of VSX that overlaps Altivec. */
-+         * further manual extension or an addr32 (0x67) prefix.
++        if (hwcap & PPC_FEATURE_HAS_VSX) {
-+         */
++            have_vsx = true;
-         if (guest_base == 0 || guest_base_flags) {
++        }
              seg = guest_base_flags;
              offset = 0;
 -            if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
 -                seg |= P_ADDR32;
 -            }
 -        } else if (TCG_TARGET_REG_BITS == 64) {
 -            /* ??? Note that we can't use the same SIB addressing scheme
 -               as for loads, since we require L0 free for bswap.  */
 -            if (offset != guest_base) {
 -                if (TARGET_LONG_BITS == 32) {
 -                    tcg_out_ext32u(s, TCG_REG_L0, base);
 -                    base = TCG_REG_L0;
 -                }
 -                tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
 -                tgen_arithr(s, ARITH_ADD + P_REXW, TCG_REG_L1, base);
 -                base = TCG_REG_L1;
 -                offset = 0;
 -            } else if (TARGET_LONG_BITS == 32) {
 -                tcg_out_ext32u(s, TCG_REG_L1, base);
 -                base = TCG_REG_L1;
 -            }
 +        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
 +            /* ??? Note that we require L0 free for bswap.  */
 +            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
 +            index = TCG_REG_L1;
 +            offset = 0;
          }
 -        tcg_out_qemu_st_direct(s, datalo, datahi, base, offset, seg, opc);
 +        tcg_out_qemu_st_direct(s, datalo, datahi,
 +                               addrlo, index, offset, seg, opc);
      }
- #endif
- }
+     tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 14/32] tcg/arm: Return false on failure from patch_reloc
+[PULL 17/23] tcg/ppc: Update vector support for v2.07 Altivec
-This does require an extra two checks within the slow paths
+These new instructions are conditional only on MSR.VEC and
-to replace the assert that we're moving.
+are thus part of the Altivec instruction set, and not VSX.
+This includes lots of double-word arithmetic and a few extra
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+logical operations.
 Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/arm/tcg-target.inc.c | 22 ++++++++++++++++------
+ tcg/ppc/tcg-target.h     |  4 +-
-file changed, 16 insertions(+), 6 deletions(-)
+ tcg/ppc/tcg-target.inc.c | 85 ++++++++++++++++++++++++++++++----------
+files changed, 67 insertions(+), 22 deletions(-)
-diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
 diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/arm/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/arm/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static const uint8_t tcg_cond_to_arm_cond[] = {
+@@ -XXX,XX +XXX,XX @@ typedef enum {
-     [TCG_COND_GTU] = COND_HI,
+ typedef enum {
- };
+     tcg_isa_base,
+     tcg_isa_2_06,
--static inline void reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
++    tcg_isa_2_07,
-+static inline bool reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
+     tcg_isa_3_00,
  } TCGPowerISA;
@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
  extern bool have_vsx;
  #define have_isa_2_06  (have_isa >= tcg_isa_2_06)
 +#define have_isa_2_07  (have_isa >= tcg_isa_2_07)
  #define have_isa_3_00  (have_isa >= tcg_isa_3_00)
  /* optional instructions automatically implemented */
@@ -XXX,XX +XXX,XX @@ extern bool have_vsx;
  #define TCG_TARGET_HAS_v256             0
  #define TCG_TARGET_HAS_andc_vec         1
 -#define TCG_TARGET_HAS_orc_vec          0
 +#define TCG_TARGET_HAS_orc_vec          have_isa_2_07
  #define TCG_TARGET_HAS_not_vec          1
  #define TCG_TARGET_HAS_neg_vec          0
  #define TCG_TARGET_HAS_abs_vec          0
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define VADDSWS    VX4(896)
  #define VADDUWS    VX4(640)
  #define VADDUWM    VX4(128)
 +#define VADDUDM    VX4(192)       /* v2.07 */
  #define VSUBSBS    VX4(1792)
  #define VSUBUBS    VX4(1536)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define VSUBSWS    VX4(1920)
  #define VSUBUWS    VX4(1664)
  #define VSUBUWM    VX4(1152)
 +#define VSUBUDM    VX4(1216)      /* v2.07 */
  #define VMAXSB     VX4(258)
  #define VMAXSH     VX4(322)
  #define VMAXSW     VX4(386)
 +#define VMAXSD     VX4(450)       /* v2.07 */
  #define VMAXUB     VX4(2)
  #define VMAXUH     VX4(66)
  #define VMAXUW     VX4(130)
 +#define VMAXUD     VX4(194)       /* v2.07 */
  #define VMINSB     VX4(770)
  #define VMINSH     VX4(834)
  #define VMINSW     VX4(898)
 +#define VMINSD     VX4(962)       /* v2.07 */
  #define VMINUB     VX4(514)
  #define VMINUH     VX4(578)
  #define VMINUW     VX4(642)
 +#define VMINUD     VX4(706)       /* v2.07 */
  #define VCMPEQUB   VX4(6)
  #define VCMPEQUH   VX4(70)
  #define VCMPEQUW   VX4(134)
 +#define VCMPEQUD   VX4(199)       /* v2.07 */
  #define VCMPGTSB   VX4(774)
  #define VCMPGTSH   VX4(838)
  #define VCMPGTSW   VX4(902)
 +#define VCMPGTSD   VX4(967)       /* v2.07 */
  #define VCMPGTUB   VX4(518)
  #define VCMPGTUH   VX4(582)
  #define VCMPGTUW   VX4(646)
 +#define VCMPGTUD   VX4(711)       /* v2.07 */
  #define VSLB       VX4(260)
  #define VSLH       VX4(324)
  #define VSLW       VX4(388)
 +#define VSLD       VX4(1476)      /* v2.07 */
  #define VSRB       VX4(516)
  #define VSRH       VX4(580)
  #define VSRW       VX4(644)
 +#define VSRD       VX4(1732)      /* v2.07 */
  #define VSRAB      VX4(772)
  #define VSRAH      VX4(836)
  #define VSRAW      VX4(900)
 +#define VSRAD      VX4(964)       /* v2.07 */
  #define VRLB       VX4(4)
  #define VRLH       VX4(68)
  #define VRLW       VX4(132)
 +#define VRLD       VX4(196)       /* v2.07 */
  #define VMULEUB    VX4(520)
  #define VMULEUH    VX4(584)
 +#define VMULEUW    VX4(648)       /* v2.07 */
  #define VMULOUB    VX4(8)
  #define VMULOUH    VX4(72)
 +#define VMULOUW    VX4(136)       /* v2.07 */
 +#define VMULUWM    VX4(137)       /* v2.07 */
  #define VMSUMUHM   VX4(38)
  #define VMRGHB     VX4(12)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define VNOR       VX4(1284)
  #define VOR        VX4(1156)
  #define VXOR       VX4(1220)
 +#define VEQV       VX4(1668)      /* v2.07 */
 +#define VNAND      VX4(1412)      /* v2.07 */
 +#define VORC       VX4(1348)      /* v2.07 */
  #define VSPLTB     VX4(524)
  #define VSPLTH     VX4(588)
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
      case INDEX_op_andc_vec:
      case INDEX_op_not_vec:
          return 1;
 +    case INDEX_op_orc_vec:
 +        return have_isa_2_07;
      case INDEX_op_add_vec:
      case INDEX_op_sub_vec:
      case INDEX_op_smax_vec:
      case INDEX_op_smin_vec:
      case INDEX_op_umax_vec:
      case INDEX_op_umin_vec:
 +    case INDEX_op_shlv_vec:
 +    case INDEX_op_shrv_vec:
 +    case INDEX_op_sarv_vec:
 +        return vece <= MO_32 || have_isa_2_07;
      case INDEX_op_ssadd_vec:
      case INDEX_op_sssub_vec:
      case INDEX_op_usadd_vec:
      case INDEX_op_ussub_vec:
 -    case INDEX_op_shlv_vec:
 -    case INDEX_op_shrv_vec:
 -    case INDEX_op_sarv_vec:
          return vece <= MO_32;
      case INDEX_op_cmp_vec:
 -    case INDEX_op_mul_vec:
      case INDEX_op_shli_vec:
      case INDEX_op_shri_vec:
      case INDEX_op_sari_vec:
 -        return vece <= MO_32 ? -1 : 0;
 +        return vece <= MO_32 || have_isa_2_07 ? -1 : 0;
 +    case INDEX_op_mul_vec:
 +        switch (vece) {
 +        case MO_8:
 +        case MO_16:
 +            return -1;
 +        case MO_32:
 +            return have_isa_2_07 ? 1 : -1;
 +        }
 +        return 0;
      case INDEX_op_bitsel_vec:
          return have_vsx;
      default:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
                             const TCGArg *args, const int *const_args)
  {
-     ptrdiff_t offset = (tcg_ptr_byte_diff(target, code_ptr) - 8) >> 2;
+     static const uint32_t
--    *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
+-        add_op[4] = { VADDUBM, VADDUHM, VADDUWM, 0 },
-+    if (offset == sextract32(offset, 0, 24)) {
+-        sub_op[4] = { VSUBUBM, VSUBUHM, VSUBUWM, 0 },
-+        *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
+-        eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
-+        return true;
+-        gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
 -        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 },
 +        add_op[4] = { VADDUBM, VADDUHM, VADDUWM, VADDUDM },
 +        sub_op[4] = { VSUBUBM, VSUBUHM, VSUBUWM, VSUBUDM },
 +        eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, VCMPEQUD },
 +        gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, VCMPGTSD },
 +        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, VCMPGTUD },
          ssadd_op[4] = { VADDSBS, VADDSHS, VADDSWS, 0 },
          usadd_op[4] = { VADDUBS, VADDUHS, VADDUWS, 0 },
          sssub_op[4] = { VSUBSBS, VSUBSHS, VSUBSWS, 0 },
          ussub_op[4] = { VSUBUBS, VSUBUHS, VSUBUWS, 0 },
 -        umin_op[4] = { VMINUB, VMINUH, VMINUW, 0 },
 -        smin_op[4] = { VMINSB, VMINSH, VMINSW, 0 },
 -        umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, 0 },
 -        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, 0 },
 -        shlv_op[4] = { VSLB, VSLH, VSLW, 0 },
 -        shrv_op[4] = { VSRB, VSRH, VSRW, 0 },
 -        sarv_op[4] = { VSRAB, VSRAH, VSRAW, 0 },
 +        umin_op[4] = { VMINUB, VMINUH, VMINUW, VMINUD },
 +        smin_op[4] = { VMINSB, VMINSH, VMINSW, VMINSD },
 +        umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, VMAXUD },
 +        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, VMAXSD },
 +        shlv_op[4] = { VSLB, VSLH, VSLW, VSLD },
 +        shrv_op[4] = { VSRB, VSRH, VSRW, VSRD },
 +        sarv_op[4] = { VSRAB, VSRAH, VSRAW, VSRAD },
          mrgh_op[4] = { VMRGHB, VMRGHH, VMRGHW, 0 },
          mrgl_op[4] = { VMRGLB, VMRGLH, VMRGLW, 0 },
 -        muleu_op[4] = { VMULEUB, VMULEUH, 0, 0 },
 -        mulou_op[4] = { VMULOUB, VMULOUH, 0, 0 },
 +        muleu_op[4] = { VMULEUB, VMULEUH, VMULEUW, 0 },
 +        mulou_op[4] = { VMULOUB, VMULOUH, VMULOUW, 0 },
          pkum_op[4] = { VPKUHUM, VPKUWUM, 0, 0 },
 -        rotl_op[4] = { VRLB, VRLH, VRLW, 0 };
 +        rotl_op[4] = { VRLB, VRLH, VRLW, VRLD };
      TCGType type = vecl + TCG_TYPE_V64;
      TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_sub_vec:
          insn = sub_op[vece];
          break;
 +    case INDEX_op_mul_vec:
 +        tcg_debug_assert(vece == MO_32 && have_isa_2_07);
 +        insn = VMULUWM;
 +        break;
      case INDEX_op_ssadd_vec:
          insn = ssadd_op[vece];
          break;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          insn = VNOR;
          a2 = a1;
          break;
 +    case INDEX_op_orc_vec:
 +        insn = VORC;
 +        break;
      case INDEX_op_cmp_vec:
          switch (args[3]) {
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
  {
      bool need_swap = false, need_inv = false;
 -    tcg_debug_assert(vece <= MO_32);
 +    tcg_debug_assert(vece <= MO_32 || have_isa_2_07);
      switch (cond) {
      case TCG_COND_EQ:
@@ -XXX,XX +XXX,XX @@ static void expand_vec_mul(TCGType type, unsigned vece, TCGv_vec v0,
      break;
      case MO_32:
 +        tcg_debug_assert(!have_isa_2_07);
          t3 = tcg_temp_new_vec(type);
          t4 = tcg_temp_new_vec(type);
          tcg_gen_dupi_vec(MO_8, t4, -16);
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
      if (hwcap & PPC_FEATURE_ARCH_2_06) {
          have_isa = tcg_isa_2_06;
      }
 +#ifdef PPC_FEATURE2_ARCH_2_07
 +    if (hwcap2 & PPC_FEATURE2_ARCH_2_07) {
 +        have_isa = tcg_isa_2_07;
 +    }
-+    return false;
++#endif
- }
+ #ifdef PPC_FEATURE2_ARCH_3_00
+     if (hwcap2 & PPC_FEATURE2_ARCH_3_00) {
- static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
+         have_isa = tcg_isa_3_00;
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
      tcg_debug_assert(addend == 0);
      if (type == R_ARM_PC24) {
 -        reloc_pc24(code_ptr, (tcg_insn_unit *)value);
 +        return reloc_pc24(code_ptr, (tcg_insn_unit *)value);
      } else if (type == R_ARM_PC13) {
          intptr_t diff = value - (uintptr_t)(code_ptr + 2);
          tcg_insn_unit insn = *code_ptr;
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
          } else {
              int rd = extract32(insn, 12, 4);
              int rt = rd == TCG_REG_PC ? TCG_REG_TMP : rd;
 -            assert(diff >= 0x1000 && diff < 0x100000);
 +
 +            if (diff < 0x1000 || diff >= 0x100000) {
 +                return false;
 +            }
 +
              /* add rt, pc, #high */
              *code_ptr++ = ((insn & 0xf0000000) | (1 << 25) | ARITH_ADD
                             | (TCG_REG_PC << 16) | (rt << 12)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      TCGMemOp opc = get_memop(oi);
      void *func;
 -    reloc_pc24(lb->label_ptr[0], s->code_ptr);
 +    bool ok = reloc_pc24(lb->label_ptr[0], s->code_ptr);
 +    tcg_debug_assert(ok);
      argreg = tcg_out_arg_reg32(s, TCG_REG_R0, TCG_AREG0);
      if (TARGET_LONG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      TCGMemOpIdx oi = lb->oi;
      TCGMemOp opc = get_memop(oi);
 -    reloc_pc24(lb->label_ptr[0], s->code_ptr);
 +    bool ok = reloc_pc24(lb->label_ptr[0], s->code_ptr);
 +    tcg_debug_assert(ok);
      argreg = TCG_REG_R0;
      argreg = tcg_out_arg_reg32(s, argreg, TCG_AREG0);
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 27/32] tcg/mips: Improve the add2/sub2 command to use TCG_TARGET_REG_BITS
+[PULL 18/23] tcg/ppc: Update vector support for v2.07 VSX
-From: Alistair Francis <Alistair.Francis@wdc.com>
+These new instructions are conditional only on MSR.VSX and
 are thus part of the VSX instruction set, and not Altivec.
 This includes double-word loads and stores.
-Instead of hard coding 31 for the shift right use TCG_TARGET_REG_BITS - 1.
+Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Alistair Francis <alistair.francis@wdc.com>
 Message-Id: <7dfbddf7014a595150aa79011ddb342c3cc17ec3.1544648105.git.alistair.francis@wdc.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/mips/tcg-target.inc.c | 2 +-
+ tcg/ppc/tcg-target.inc.c | 11 +++++++++++
-file changed, 1 insertion(+), 1 deletion(-)
+file changed, 11 insertions(+)
-diff --git a/tcg/mips/tcg-target.inc.c b/tcg/mips/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/mips/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/mips/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_addsub2(TCGContext *s, TCGReg rl, TCGReg rh, TCGReg al,
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-             tcg_out_opc_imm(s, OPC_ADDIU, rl, al, bl);
+ #define LVEWX      XO31(71)
-             tcg_out_opc_imm(s, OPC_SLTIU, TCG_TMP0, rl, bl);
+ #define LXSDX      (XO31(588) | 1)  /* v2.06, force tx=1 */
-         } else if (rl == al && rl == bl) {
+ #define LXVDSX     (XO31(332) | 1)  /* v2.06, force tx=1 */
--            tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, al, 31);
++#define LXSIWZX    (XO31(12) | 1)   /* v2.07, force tx=1 */
-+            tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, al, TCG_TARGET_REG_BITS - 1);
-             tcg_out_opc_reg(s, OPC_ADDU, rl, al, bl);
+ #define STVX       XO31(231)
-         } else {
+ #define STVEWX     XO31(199)
-             tcg_out_opc_reg(s, OPC_ADDU, rl, al, bl);
+ #define STXSDX     (XO31(716) | 1)  /* v2.06, force sx=1 */
 +#define STXSIWX    (XO31(140) | 1)  /* v2.07, force sx=1 */
  #define VADDSBS    VX4(768)
  #define VADDUBS    VX4(512)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
              tcg_out_mem_long(s, LWZ, LWZX, ret, base, offset);
              break;
          }
 +        if (have_isa_2_07 && have_vsx) {
 +            tcg_out_mem_long(s, 0, LXSIWZX, ret, base, offset);
 +            break;
 +        }
          tcg_debug_assert((offset & 3) == 0);
          tcg_out_mem_long(s, 0, LVEWX, ret, base, offset);
          shift = (offset - 4) & 0xc;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
              tcg_out_mem_long(s, STW, STWX, arg, base, offset);
              break;
          }
 +        if (have_isa_2_07 && have_vsx) {
 +            tcg_out_mem_long(s, 0, STXSIWX, arg, base, offset);
 +            break;
 +        }
 +        assert((offset & 3) == 0);
          tcg_debug_assert((offset & 3) == 0);
          shift = (offset - 4) & 0xc;
          if (shift) {
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 15/32] tcg/ppc: Return false on failure from patch_reloc
+[PULL 19/23] tcg/ppc: Update vector support for v2.07 FP
-The reloc_pc{14,24}_val routines retain their asserts.
+These new instructions are conditional on MSR.FP when TX=0 and
-Use these directly within the slow paths.
+MSR.VEC when TX=1.  Since we only care about the Altivec registers,
 and force TX=1, we can consider these to be Altivec instructions.
 Since Altivec is true for any use of vector types, we only need
 test have_isa_2_07.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+This includes moves to and from the integer registers.
 Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/ppc/tcg-target.inc.c | 32 +++++++++++++++++++++-----------
+ tcg/ppc/tcg-target.inc.c | 32 ++++++++++++++++++++++++++------
-file changed, 21 insertions(+), 11 deletions(-)
+file changed, 26 insertions(+), 6 deletions(-)
 diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tcg/ppc/tcg-target.inc.c
 +++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static uint32_t reloc_pc24_val(tcg_insn_unit *pc, tcg_insn_unit *target)
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-     return disp & 0x3fffffc;
+ #define XXPERMDI   (OPCD(60) | (10 << 3) | 7)  /* v2.06, force ax=bx=tx=1 */
- }
+ #define XXSEL      (OPCD(60) | (3 << 4) | 0xf) /* v2.06, force ax=bx=cx=tx=1 */
--static void reloc_pc24(tcg_insn_unit *pc, tcg_insn_unit *target)
++#define MFVSRD     (XO31(51) | 1)   /* v2.07, force sx=1 */
-+static bool reloc_pc24(tcg_insn_unit *pc, tcg_insn_unit *target)
++#define MFVSRWZ    (XO31(115) | 1)  /* v2.07, force sx=1 */
- {
++#define MTVSRD     (XO31(179) | 1)  /* v2.07, force tx=1 */
--    *pc = (*pc & ~0x3fffffc) | reloc_pc24_val(pc, target);
++#define MTVSRWZ    (XO31(243) | 1)  /* v2.07, force tx=1 */
-+    ptrdiff_t disp = tcg_ptr_byte_diff(target, pc);
++
-+    if (in_range_b(disp)) {
+ #define RT(r) ((r)<<21)
-+        *pc = (*pc & ~0x3fffffc) | (disp & 0x3fffffc);
+ #define RS(r) ((r)<<21)
-+        return true;
+ #define RA(r) ((r)<<16)
-+    }
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_mov(TCGContext *s, TCGType type, TCGReg ret, TCGReg arg)
-+    return false;
+         tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
- }
+         /* fallthru */
+     case TCG_TYPE_I32:
- static uint16_t reloc_pc14_val(tcg_insn_unit *pc, tcg_insn_unit *target)
+-        if (ret < TCG_REG_V0 && arg < TCG_REG_V0) {
-@@ -XXX,XX +XXX,XX @@ static uint16_t reloc_pc14_val(tcg_insn_unit *pc, tcg_insn_unit *target)
+-            tcg_out32(s, OR | SAB(arg, ret, arg));
-     return disp & 0xfffc;
+-            break;
- }
+-        } else if (ret < TCG_REG_V0 || arg < TCG_REG_V0) {
+-            /* Altivec does not support vector/integer moves.  */
--static void reloc_pc14(tcg_insn_unit *pc, tcg_insn_unit *target)
+-            return false;
-+static bool reloc_pc14(tcg_insn_unit *pc, tcg_insn_unit *target)
++        if (ret < TCG_REG_V0) {
- {
++            if (arg < TCG_REG_V0) {
--    *pc = (*pc & ~0xfffc) | reloc_pc14_val(pc, target);
++                tcg_out32(s, OR | SAB(arg, ret, arg));
-+    ptrdiff_t disp = tcg_ptr_byte_diff(target, pc);
++                break;
-+    if (disp == (int16_t) disp) {
++            } else if (have_isa_2_07) {
-+        *pc = (*pc & ~0xfffc) | (disp & 0xfffc);
++                tcg_out32(s, (type == TCG_TYPE_I32 ? MFVSRWZ : MFVSRD)
-+        return true;
++                          | VRT(arg) | RA(ret));
-+    }
++                break;
-+    return false;
++            } else {
- }
++                /* Altivec does not support vector->integer moves.  */
  /* parse target specific constraints */
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
      switch (type) {
      case R_PPC_REL14:
 -        reloc_pc14(code_ptr, target);
 -        break;
 +        return reloc_pc14(code_ptr, target);
      case R_PPC_REL24:
 -        reloc_pc24(code_ptr, target);
 -        break;
 +        return reloc_pc24(code_ptr, target);
      case R_PPC_ADDR16:
          /* We are abusing this relocation type.  This points to a pair
             of insns, addis + load.  If the displacement is small, we
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
          } else {
              int16_t lo = value;
              int hi = value - lo;
 -            assert(hi + lo == value);
 +            if (hi + lo != value) {
 +                return false;
 +            }
-             code_ptr[0] = deposit32(code_ptr[0], 0, 16, hi >> 16);
++        } else if (arg < TCG_REG_V0) {
-             code_ptr[1] = deposit32(code_ptr[1], 0, 16, lo);
++            if (have_isa_2_07) {
 +                tcg_out32(s, (type == TCG_TYPE_I32 ? MTVSRWZ : MTVSRD)
 +                          | VRT(ret) | RA(arg));
 +                break;
 +            } else {
 +                /* Altivec does not support integer->vector moves.  */
 +                return false;
 +            }
          }
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+         /* fallthru */
-     TCGMemOp opc = get_memop(oi);
+     case TCG_TYPE_V64:
      TCGReg hi, lo, arg = TCG_REG_R3;
 -    reloc_pc14(lb->label_ptr[0], s->code_ptr);
 +    **lb->label_ptr |= reloc_pc14_val(*lb->label_ptr, s->code_ptr);
      tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
      TCGMemOp s_bits = opc & MO_SIZE;
      TCGReg hi, lo, arg = TCG_REG_R3;
 -    reloc_pc14(lb->label_ptr[0], s->code_ptr);
 +    **lb->label_ptr |= reloc_pc14_val(*lb->label_ptr, s->code_ptr);
      tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 22/32] tcg/i386: Add setup_guest_base_seg for FreeBSD
+[PULL 20/23] tcg/ppc: Update vector support for v3.00 Altivec
-Reviewed-by: Emilio G. Cota <cota@braap.org>
+These new instructions are conditional only on MSR.VEC and
 are thus part of the Altivec instruction set, and not VSX.
 This includes negation and compare not equal.
 Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.inc.c | 9 +++++++++
+ tcg/ppc/tcg-target.h     |  2 +-
-file changed, 9 insertions(+)
+ tcg/ppc/tcg-target.inc.c | 23 +++++++++++++++++++++++
 files changed, 24 insertions(+), 1 deletion(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.h
-+++ b/tcg/i386/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.h
-@@ -XXX,XX +XXX,XX @@ static inline int setup_guest_base_seg(void)
+@@ -XXX,XX +XXX,XX @@ extern bool have_vsx;
-     }
+ #define TCG_TARGET_HAS_andc_vec         1
-     return 0;
+ #define TCG_TARGET_HAS_orc_vec          have_isa_2_07
- }
+ #define TCG_TARGET_HAS_not_vec          1
-+# elif defined (__FreeBSD__) || defined (__FreeBSD_kernel__)
+-#define TCG_TARGET_HAS_neg_vec          0
-+#  include <machine/sysarch.h>
++#define TCG_TARGET_HAS_neg_vec          have_isa_3_00
-+static inline int setup_guest_base_seg(void)
+ #define TCG_TARGET_HAS_abs_vec          0
-+{
+ #define TCG_TARGET_HAS_shi_vec          0
-+    if (sysarch(AMD64_SET_GSBASE, &guest_base) == 0) {
+ #define TCG_TARGET_HAS_shs_vec          0
-+        return P_GS;
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
-+    }
+index XXXXXXX..XXXXXXX 100644
-+    return 0;
+--- a/tcg/ppc/tcg-target.inc.c
-+}
++++ b/tcg/ppc/tcg-target.inc.c
- # else
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
- static inline int setup_guest_base_seg(void)
+ #define VSUBUWM    VX4(1152)
- {
+ #define VSUBUDM    VX4(1216)      /* v2.07 */
 +#define VNEGW      (VX4(1538) | (6 << 16))  /* v3.00 */
 +#define VNEGD      (VX4(1538) | (7 << 16))  /* v3.00 */
 +
  #define VMAXSB     VX4(258)
  #define VMAXSH     VX4(322)
  #define VMAXSW     VX4(386)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
  #define VCMPGTUH   VX4(582)
  #define VCMPGTUW   VX4(646)
  #define VCMPGTUD   VX4(711)       /* v2.07 */
 +#define VCMPNEB    VX4(7)         /* v3.00 */
 +#define VCMPNEH    VX4(71)        /* v3.00 */
 +#define VCMPNEW    VX4(135)       /* v3.00 */
  #define VSLB       VX4(260)
  #define VSLH       VX4(324)
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
      case INDEX_op_shri_vec:
      case INDEX_op_sari_vec:
          return vece <= MO_32 || have_isa_2_07 ? -1 : 0;
 +    case INDEX_op_neg_vec:
 +        return vece >= MO_32 && have_isa_3_00;
      case INDEX_op_mul_vec:
          switch (vece) {
          case MO_8:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      static const uint32_t
          add_op[4] = { VADDUBM, VADDUHM, VADDUWM, VADDUDM },
          sub_op[4] = { VSUBUBM, VSUBUHM, VSUBUWM, VSUBUDM },
 +        neg_op[4] = { 0, 0, VNEGW, VNEGD },
          eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, VCMPEQUD },
 +        ne_op[4]  = { VCMPNEB, VCMPNEH, VCMPNEW, 0 },
          gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, VCMPGTSD },
          gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, VCMPGTUD },
          ssadd_op[4] = { VADDSBS, VADDSHS, VADDSWS, 0 },
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
      case INDEX_op_sub_vec:
          insn = sub_op[vece];
          break;
 +    case INDEX_op_neg_vec:
 +        insn = neg_op[vece];
 +        a2 = a1;
 +        a1 = 0;
 +        break;
      case INDEX_op_mul_vec:
          tcg_debug_assert(vece == MO_32 && have_isa_2_07);
          insn = VMULUWM;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
          case TCG_COND_EQ:
              insn = eq_op[vece];
              break;
 +        case TCG_COND_NE:
 +            insn = ne_op[vece];
 +            break;
          case TCG_COND_GT:
              insn = gts_op[vece];
              break;
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
      case TCG_COND_GTU:
          break;
      case TCG_COND_NE:
 +        if (have_isa_3_00 && vece <= MO_32) {
 +            break;
 +        }
 +        /* fall through */
      case TCG_COND_LE:
      case TCG_COND_LEU:
          need_inv = true;
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
      case INDEX_op_dup2_vec:
          return &v_v_v;
      case INDEX_op_not_vec:
 +    case INDEX_op_neg_vec:
      case INDEX_op_dup_vec:
          return &v_v;
      case INDEX_op_ld_vec:
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 16/32] tcg/s390x: Return false on failure from patch_reloc
+[PULL 21/23] tcg/ppc: Update vector support for v3.00 load/store
-This does require an extra two checks within the slow paths
+These new instructions are a mix of those like LXSD that are
-to replace the assert that we're moving.  Also add two checks
+only conditional only on MSR.VEC and those like LXV that are
-within existing functions that lacked any kind of assert for
+conditional on MSR.VEC for TX=1.  Thus, in the end, we can
-out of range branch.
+consider all of these as Altivec instructions.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/s390/tcg-target.inc.c | 34 +++++++++++++++++++++++-----------
+ tcg/ppc/tcg-target.inc.c | 47 ++++++++++++++++++++++++++++++++--------
-file changed, 23 insertions(+), 11 deletions(-)
+file changed, 38 insertions(+), 9 deletions(-)
-diff --git a/tcg/s390/tcg-target.inc.c b/tcg/s390/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/s390/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/s390/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
+ #define LXSDX      (XO31(588) | 1)  /* v2.06, force tx=1 */
-     switch (type) {
+ #define LXVDSX     (XO31(332) | 1)  /* v2.06, force tx=1 */
-     case R_390_PC16DBL:
+ #define LXSIWZX    (XO31(12) | 1)   /* v2.07, force tx=1 */
--        assert(pcrel2 == (int16_t)pcrel2);
++#define LXV        (OPCD(61) | 8 | 1)  /* v3.00, force tx=1 */
--        tcg_patch16(code_ptr, pcrel2);
++#define LXSD       (OPCD(57) | 2)   /* v3.00 */
-+        if (pcrel2 == (int16_t)pcrel2) {
++#define LXVWSX     (XO31(364) | 1)  /* v3.00, force tx=1 */
-+            tcg_patch16(code_ptr, pcrel2);
-+            return true;
+ #define STVX       XO31(231)
-+        }
+ #define STVEWX     XO31(199)
  #define STXSDX     (XO31(716) | 1)  /* v2.06, force sx=1 */
  #define STXSIWX    (XO31(140) | 1)  /* v2.07, force sx=1 */
 +#define STXV       (OPCD(61) | 8 | 5) /* v3.00, force sx=1 */
 +#define STXSD      (OPCD(61) | 2)   /* v3.00 */
  #define VADDSBS    VX4(768)
  #define VADDUBS    VX4(512)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
                               TCGReg base, tcg_target_long offset)
  {
      tcg_target_long orig = offset, l0, l1, extra = 0, align = 0;
 -    bool is_store = false;
 +    bool is_int_store = false;
      TCGReg rs = TCG_REG_TMP1;
      switch (opi) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
              break;
          }
          break;
-     case R_390_PC32DBL:
++    case LXSD:
--        assert(pcrel2 == (int32_t)pcrel2);
++    case STXSD:
--        tcg_patch32(code_ptr, pcrel2);
++        align = 3;
-+        if (pcrel2 == (int32_t)pcrel2) {
++        break;
-+            tcg_patch32(code_ptr, pcrel2);
++    case LXV:
-+            return true;
++    case STXV:
-+        }
++        align = 15;
 +        break;
      case STD:
          align = 3;
          /* FALLTHRU */
      case STB: case STH: case STW:
 -        is_store = true;
 +        is_int_store = true;
          break;
-     case R_390_20:
+     }
--        assert(value == sextract64(value, 0, 20));
--        old = *(uint32_t *)code_ptr & 0xf00000ff;
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
--        old |= ((value & 0xfff) << 16) | ((value & 0xff000) >> 4);
+         if (rs == base) {
--        tcg_patch32(code_ptr, old);
+             rs = TCG_REG_R0;
-+        if (value == sextract64(value, 0, 20)) {
+         }
-+            old = *(uint32_t *)code_ptr & 0xf00000ff;
+-        tcg_debug_assert(!is_store || rs != rt);
-+            old |= ((value & 0xfff) << 16) | ((value & 0xff000) >> 4);
++        tcg_debug_assert(!is_int_store || rs != rt);
-+            tcg_patch32(code_ptr, old);
+         tcg_out_movi(s, TCG_TYPE_PTR, rs, orig);
-+            return true;
+         tcg_out32(s, opx | TAB(rt & 31, base, rs));
-+        }
+         return;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
      case TCG_TYPE_V64:
          tcg_debug_assert(ret >= TCG_REG_V0);
          if (have_vsx) {
 -            tcg_out_mem_long(s, 0, LXSDX, ret, base, offset);
 +            tcg_out_mem_long(s, have_isa_3_00 ? LXSD : 0, LXSDX,
 +                             ret, base, offset);
              break;
          }
          tcg_debug_assert((offset & 7) == 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
      case TCG_TYPE_V128:
          tcg_debug_assert(ret >= TCG_REG_V0);
          tcg_debug_assert((offset & 15) == 0);
 -        tcg_out_mem_long(s, 0, LVX, ret, base, offset);
 +        tcg_out_mem_long(s, have_isa_3_00 ? LXV : 0,
 +                         LVX, ret, base, offset);
          break;
      default:
          g_assert_not_reached();
-     }
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
--    return true;
+     case TCG_TYPE_V64:
-+    return false;
+         tcg_debug_assert(arg >= TCG_REG_V0);
- }
+         if (have_vsx) {
+-            tcg_out_mem_long(s, 0, STXSDX, arg, base, offset);
- /* parse target specific constraints */
++            tcg_out_mem_long(s, have_isa_3_00 ? STXSD : 0,
-@@ -XXX,XX +XXX,XX @@ static void tgen_compare_branch(TCGContext *s, S390Opcode opc, int cc,
++                             STXSDX, arg, base, offset);
+             break;
-     if (l->has_value) {
+         }
-         off = l->u.value_ptr - s->code_ptr;
+         tcg_debug_assert((offset & 7) == 0);
-+        tcg_debug_assert(off == (int16_t)off);
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
-     } else {
+         break;
-         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
+     case TCG_TYPE_V128:
-     }
+         tcg_debug_assert(arg >= TCG_REG_V0);
-@@ -XXX,XX +XXX,XX @@ static void tgen_compare_imm_branch(TCGContext *s, S390Opcode opc, int cc,
+-        tcg_out_mem_long(s, 0, STVX, arg, base, offset);
++        tcg_out_mem_long(s, have_isa_3_00 ? STXV : 0,
-     if (l->has_value) {
++                         STVX, arg, base, offset);
-         off = l->u.value_ptr - s->code_ptr;
+         break;
-+        tcg_debug_assert(off == (int16_t)off);
+     default:
-     } else {
+         g_assert_not_reached();
-         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
-     }
+     tcg_debug_assert(out >= TCG_REG_V0);
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+     switch (vece) {
-     TCGMemOpIdx oi = lb->oi;
+     case MO_8:
-     TCGMemOp opc = get_memop(oi);
+-        tcg_out_mem_long(s, 0, LVEBX, out, base, offset);
++        if (have_isa_3_00) {
--    patch_reloc(lb->label_ptr[0], R_390_PC16DBL, (intptr_t)s->code_ptr, 2);
++            tcg_out_mem_long(s, LXV, LVX, out, base, offset & -16);
-+    bool ok = patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
++        } else {
-+                          (intptr_t)s->code_ptr, 2);
++            tcg_out_mem_long(s, 0, LVEBX, out, base, offset);
-+    tcg_debug_assert(ok);
++        }
+         elt = extract32(offset, 0, 4);
-     tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
+ #ifndef HOST_WORDS_BIGENDIAN
-     if (TARGET_LONG_BITS == 64) {
+         elt ^= 15;
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
+@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
-     TCGMemOpIdx oi = lb->oi;
+         break;
-     TCGMemOp opc = get_memop(oi);
+     case MO_16:
+         tcg_debug_assert((offset & 1) == 0);
--    patch_reloc(lb->label_ptr[0], R_390_PC16DBL, (intptr_t)s->code_ptr, 2);
+-        tcg_out_mem_long(s, 0, LVEHX, out, base, offset);
-+    bool ok = patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
++        if (have_isa_3_00) {
-+                          (intptr_t)s->code_ptr, 2);
++            tcg_out_mem_long(s, LXV | 8, LVX, out, base, offset & -16);
-+    tcg_debug_assert(ok);
++        } else {
++            tcg_out_mem_long(s, 0, LVEHX, out, base, offset);
-     tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
++        }
-     if (TARGET_LONG_BITS == 64) {
+         elt = extract32(offset, 1, 3);
  #ifndef HOST_WORDS_BIGENDIAN
          elt ^= 7;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
          tcg_out32(s, VSPLTH | VRT(out) | VRB(out) | (elt << 16));
          break;
      case MO_32:
 +        if (have_isa_3_00) {
 +            tcg_out_mem_long(s, 0, LXVWSX, out, base, offset);
 +            break;
 +        }
          tcg_debug_assert((offset & 3) == 0);
          tcg_out_mem_long(s, 0, LVEWX, out, base, offset);
          elt = extract32(offset, 2, 2);
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 21/32] tcg/i386: Precompute all guest_base parameters
+[PULL 22/23] tcg/ppc: Update vector support for v3.00 dup/dupi
-These values are constant between all qemu_ld/st invocations;
+These new instructions are conditional on MSR.VEC for TX=1,
-there is no need to figure this out each time.  If we cannot
+so we can consider these Altivec instructions.
 use a segment or an offset directly for guest_base, load the
 value into a register in the prologue.
-Reviewed-by: Emilio G. Cota <cota@braap.org>
+Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tcg/i386/tcg-target.inc.c | 101 +++++++++++++++-----------------------
+ tcg/ppc/tcg-target.inc.c | 28 ++++++++++++++++++++++++++--
-file changed, 40 insertions(+), 61 deletions(-)
+file changed, 26 insertions(+), 2 deletions(-)
-diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
+diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/i386/tcg-target.inc.c
+--- a/tcg/ppc/tcg-target.inc.c
-+++ b/tcg/i386/tcg-target.inc.c
++++ b/tcg/ppc/tcg-target.inc.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
+@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
-     tcg_out_push(s, retaddr);
-     tcg_out_jmp(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
+ #define XXPERMDI   (OPCD(60) | (10 << 3) | 7)  /* v2.06, force ax=bx=tx=1 */
- }
+ #define XXSEL      (OPCD(60) | (3 << 4) | 0xf) /* v2.06, force ax=bx=cx=tx=1 */
--#elif defined(__x86_64__) && defined(__linux__)
++#define XXSPLTIB   (OPCD(60) | (360 << 1) | 1) /* v3.00, force tx=1 */
--# include <asm/prctl.h>
--# include <sys/prctl.h>
+ #define MFVSRD     (XO31(51) | 1)   /* v2.07, force sx=1 */
--
+ #define MFVSRWZ    (XO31(115) | 1)  /* v2.07, force sx=1 */
-+#elif TCG_TARGET_REG_BITS == 32
+ #define MTVSRD     (XO31(179) | 1)  /* v2.07, force tx=1 */
-+# define x86_guest_base_seg     0
+ #define MTVSRWZ    (XO31(243) | 1)  /* v2.07, force tx=1 */
-+# define x86_guest_base_index   -1
++#define MTVSRDD    (XO31(435) | 1)  /* v3.00, force tx=1 */
-+# define x86_guest_base_offset  guest_base
++#define MTVSRWS    (XO31(403) | 1)  /* v3.00, force tx=1 */
-+#else
-+static int x86_guest_base_seg;
+ #define RT(r) ((r)<<21)
-+static int x86_guest_base_index = -1;
+ #define RS(r) ((r)<<21)
-+static int32_t x86_guest_base_offset;
+@@ -XXX,XX +XXX,XX @@ static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
-+# if defined(__x86_64__) && defined(__linux__)
+             return;
-+#  include <asm/prctl.h>
+         }
-+#  include <sys/prctl.h>
+     }
- int arch_prctl(int code, unsigned long addr);
++    if (have_isa_3_00 && val == (tcg_target_long)dup_const(MO_8, val)) {
--
++        tcg_out32(s, XXSPLTIB | VRT(ret) | ((val & 0xff) << 11));
--static int guest_base_flags;
++        return;
--static inline void setup_guest_base_seg(void)
++    }
-+static inline int setup_guest_base_seg(void)
      /*
       * Otherwise we must load the value from the constant pool.
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
                              TCGReg dst, TCGReg src)
  {
-     if (arch_prctl(ARCH_SET_GS, guest_base) == 0) {
+     tcg_debug_assert(dst >= TCG_REG_V0);
--        guest_base_flags = P_GS;
+-    tcg_debug_assert(src >= TCG_REG_V0);
-+        return P_GS;
++
-     }
++    /* Splat from integer reg allowed via constraints for v3.00.  */
-+    return 0;
++    if (src < TCG_REG_V0) {
- }
++        tcg_debug_assert(have_isa_3_00);
--#else
++        switch (vece) {
--# define guest_base_flags 0
++        case MO_64:
--static inline void setup_guest_base_seg(void) { }
++            tcg_out32(s, MTVSRDD | VRT(dst) | RA(src) | RB(src));
-+# else
++            return true;
-+static inline int setup_guest_base_seg(void)
++        case MO_32:
-+{
++            tcg_out32(s, MTVSRWS | VRT(dst) | RA(src));
-+    return 0;
++            return true;
-+}
++        default:
-+# endif
++            /* Fail, so that we fall back on either dupm or mov+dup.  */
- #endif /* SOFTMMU */
++            return false;
  static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
      add_qemu_ldst_label(s, true, is64, oi, datalo, datahi, addrlo, addrhi,
                          s->code_ptr, label_ptr);
  #else
 -    {
 -        int32_t offset = guest_base;
 -        int index = -1;
 -        int seg = 0;
 -
 -        /*
 -         * Recall we store 32-bit values zero-extended.  No need for
 -         * further manual extension or an addr32 (0x67) prefix.
 -         */
 -        if (guest_base == 0 || guest_base_flags) {
 -            seg = guest_base_flags;
 -            offset = 0;
 -        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
 -            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
 -            index = TCG_REG_L1;
 -            offset = 0;
 -        }
 -
 -        tcg_out_qemu_ld_direct(s, datalo, datahi,
 -                               addrlo, index, offset, seg, is64, opc);
 -    }
 +    tcg_out_qemu_ld_direct(s, datalo, datahi, addrlo, x86_guest_base_index,
 +                           x86_guest_base_offset, x86_guest_base_seg,
 +                           is64, opc);
  #endif
  }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
      add_qemu_ldst_label(s, false, is64, oi, datalo, datahi, addrlo, addrhi,
                          s->code_ptr, label_ptr);
  #else
 -    {
 -        int32_t offset = guest_base;
 -        int index = -1;
 -        int seg = 0;
 -
 -        /*
 -         * Recall we store 32-bit values zero-extended.  No need for
 -         * further manual extension or an addr32 (0x67) prefix.
 -         */
 -        if (guest_base == 0 || guest_base_flags) {
 -            seg = guest_base_flags;
 -            offset = 0;
 -        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
 -            /* ??? Note that we require L0 free for bswap.  */
 -            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
 -            index = TCG_REG_L1;
 -            offset = 0;
 -        }
 -
 -        tcg_out_qemu_st_direct(s, datalo, datahi,
 -                               addrlo, index, offset, seg, opc);
 -    }
 +    tcg_out_qemu_st_direct(s, datalo, datahi, addrlo, x86_guest_base_index,
 +                           x86_guest_base_offset, x86_guest_base_seg, opc);
  #endif
  }
@@ -XXX,XX +XXX,XX @@ static void tcg_target_qemu_prologue(TCGContext *s)
                   (ARRAY_SIZE(tcg_target_callee_save_regs) + 2) * 4
               + stack_addend);
  #else
 +# if !defined(CONFIG_SOFTMMU) && TCG_TARGET_REG_BITS == 64
 +    if (guest_base) {
 +        int seg = setup_guest_base_seg();
 +        if (seg != 0) {
 +            x86_guest_base_seg = seg;
 +        } else if (guest_base == (int32_t)guest_base) {
 +            x86_guest_base_offset = guest_base;
 +        } else {
 +            /* Choose R12 because, as a base, it requires a SIB byte. */
 +            x86_guest_base_index = TCG_REG_R12;
 +            tcg_out_mov(s, TCG_TYPE_PTR, x86_guest_base_index, guest_base);
 +            tcg_regset_set_reg(s->reserved_regs, x86_guest_base_index);
 +        }
 +    }
-+# endif
-     tcg_out_mov(s, TCG_TYPE_PTR, TCG_AREG0, tcg_target_call_iarg_regs[0]);
+     /*
-     tcg_out_addi(s, TCG_REG_ESP, -stack_addend);
+      * Recall we use (or emulate) VSX integer loads, so the integer is
-     /* jmp *tb.  */
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
-@@ -XXX,XX +XXX,XX @@ static void tcg_target_qemu_prologue(TCGContext *s)
+     static const TCGTargetOpDef sub2
-         tcg_out_pop(s, tcg_target_callee_save_regs[i]);
+         = { .args_ct_str = { "r", "r", "rI", "rZM", "r", "r" } };
-     }
+     static const TCGTargetOpDef v_r = { .args_ct_str = { "v", "r" } };
-     tcg_out_opc(s, OPC_RET, 0, 0, 0);
++    static const TCGTargetOpDef v_vr = { .args_ct_str = { "v", "vr" } };
--
+     static const TCGTargetOpDef v_v = { .args_ct_str = { "v", "v" } };
--#if !defined(CONFIG_SOFTMMU)
+     static const TCGTargetOpDef v_v_v = { .args_ct_str = { "v", "v", "v" } };
--    /* Try to set up a segment register to point to guest_base.  */
+     static const TCGTargetOpDef v_v_v_v
--    if (guest_base) {
+@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
--        setup_guest_base_seg();
+         return &v_v_v;
--    }
+     case INDEX_op_not_vec:
--#endif
+     case INDEX_op_neg_vec:
- }
+-    case INDEX_op_dup_vec:
+         return &v_v;
- static void tcg_out_nop_fill(tcg_insn_unit *p, int count)
++    case INDEX_op_dup_vec:
 +        return have_isa_3_00 ? &v_vr : &v_v;
      case INDEX_op_ld_vec:
      case INDEX_op_st_vec:
      case INDEX_op_dupm_vec:
 --
-.17.2
+.17.1

-[Qemu-devel] [PULL 30/32] exec: introduce qemu_xxhash{2,4,5,6,7}
+[PULL 23/23] cpus: kick all vCPUs when running thread=single
-From: "Emilio G. Cota" <cota@braap.org>
+From: Alex Bennée <alex.bennee@linaro.org>
-Before moving them all to include/qemu/xxhash.h.
+qemu_cpu_kick is used for a number of reasons including to indicate
 there is work to be done. However when thread=single the old
 qemu_cpu_kick_rr_cpu only advanced the vCPU to the next executing one
 which can lead to a hang in the case that:
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+  a) the kick is from outside the vCPUs (e.g. iothread)
-Signed-off-by: Emilio G. Cota <cota@braap.org>
+  b) the timers are paused (i.e. iothread calling run_on_cpu)
 To avoid this lets split qemu_cpu_kick_rr into two functions. One for
 the timer which continues to advance to the next timeslice and another
 for all other kicks.
 Message-Id: <20191001160426.26644-1-alex.bennee@linaro.org>
 Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/tb-hash-xx.h | 41 +++++++++++++++++++++++++++++----------
+ cpus.c | 24 ++++++++++++++++++------
- include/exec/tb-hash.h    |  2 +-
+file changed, 18 insertions(+), 6 deletions(-)
  tests/qht-bench.c         |  2 +-
  util/qsp.c                | 12 ++++++------
 files changed, 39 insertions(+), 18 deletions(-)
-diff --git a/include/exec/tb-hash-xx.h b/include/exec/tb-hash-xx.h
+diff --git a/cpus.c b/cpus.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/tb-hash-xx.h
+--- a/cpus.c
-+++ b/include/exec/tb-hash-xx.h
++++ b/cpus.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static inline int64_t qemu_tcg_next_kick(void)
- #define PRIME32_4    668265263U
+     return qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) + TCG_KICK_PERIOD;
- #define PRIME32_5    374761393U
+ }
--#define TB_HASH_XX_SEED 1
+-/* Kick the currently round-robin scheduled vCPU */
-+#define QEMU_XXHASH_SEED 1
+-static void qemu_cpu_kick_rr_cpu(void)
++/* Kick the currently round-robin scheduled vCPU to next */
- /*
++static void qemu_cpu_kick_rr_next_cpu(void)
   * xxhash32, customized for input variables that are not guaranteed to be
   * contiguous in memory.
   */
  static inline uint32_t
 -tb_hash_func7(uint64_t a0, uint64_t b0, uint32_t e, uint32_t f, uint32_t g)
 +qemu_xxhash7(uint64_t ab, uint64_t cd, uint32_t e, uint32_t f, uint32_t g)
  {
--    uint32_t v1 = TB_HASH_XX_SEED + PRIME32_1 + PRIME32_2;
+     CPUState *cpu;
--    uint32_t v2 = TB_HASH_XX_SEED + PRIME32_2;
+     do {
--    uint32_t v3 = TB_HASH_XX_SEED + 0;
+@@ -XXX,XX +XXX,XX @@ static void qemu_cpu_kick_rr_cpu(void)
--    uint32_t v4 = TB_HASH_XX_SEED - PRIME32_1;
+     } while (cpu != atomic_mb_read(&tcg_current_rr_cpu));
 -    uint32_t a = a0 >> 32;
 -    uint32_t b = a0;
 -    uint32_t c = b0 >> 32;
 -    uint32_t d = b0;
 +    uint32_t v1 = QEMU_XXHASH_SEED + PRIME32_1 + PRIME32_2;
 +    uint32_t v2 = QEMU_XXHASH_SEED + PRIME32_2;
 +    uint32_t v3 = QEMU_XXHASH_SEED + 0;
 +    uint32_t v4 = QEMU_XXHASH_SEED - PRIME32_1;
 +    uint32_t a = ab >> 32;
 +    uint32_t b = ab;
 +    uint32_t c = cd >> 32;
 +    uint32_t d = cd;
      uint32_t h32;
      v1 += a * PRIME32_2;
@@ -XXX,XX +XXX,XX @@ tb_hash_func7(uint64_t a0, uint64_t b0, uint32_t e, uint32_t f, uint32_t g)
      return h32;
  }
-+static inline uint32_t qemu_xxhash2(uint64_t ab)
++/* Kick all RR vCPUs */
 +static void qemu_cpu_kick_rr_cpus(void)
 +{
-+    return qemu_xxhash7(ab, 0, 0, 0, 0);
++    CPUState *cpu;
 +
 +    CPU_FOREACH(cpu) {
 +        cpu_exit(cpu);
 +    };
 +}
 +
-+static inline uint32_t qemu_xxhash4(uint64_t ab, uint64_t cd)
+ static void do_nothing(CPUState *cpu, run_on_cpu_data unused)
 +{
 +    return qemu_xxhash7(ab, cd, 0, 0, 0);
 +}
 +
 +static inline uint32_t qemu_xxhash5(uint64_t ab, uint64_t cd, uint32_t e)
 +{
 +    return qemu_xxhash7(ab, cd, e, 0, 0);
 +}
 +
 +static inline uint32_t qemu_xxhash6(uint64_t ab, uint64_t cd, uint32_t e,
 +                                    uint32_t f)
 +{
 +    return qemu_xxhash7(ab, cd, e, f, 0);
 +}
 +
  #endif /* EXEC_TB_HASH_XX_H */
 diff --git a/include/exec/tb-hash.h b/include/exec/tb-hash.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/exec/tb-hash.h
 +++ b/include/exec/tb-hash.h
@@ -XXX,XX +XXX,XX @@ static inline
  uint32_t tb_hash_func(tb_page_addr_t phys_pc, target_ulong pc, uint32_t flags,
                        uint32_t cf_mask, uint32_t trace_vcpu_dstate)
  {
--    return tb_hash_func7(phys_pc, pc, flags, cf_mask, trace_vcpu_dstate);
-+    return qemu_xxhash7(phys_pc, pc, flags, cf_mask, trace_vcpu_dstate);
  }
+@@ -XXX,XX +XXX,XX @@ void qemu_timer_notify_cb(void *opaque, QEMUClockType type)
- #endif
+ static void kick_tcg_thread(void *opaque)
 diff --git a/tests/qht-bench.c b/tests/qht-bench.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/qht-bench.c
 +++ b/tests/qht-bench.c
@@ -XXX,XX +XXX,XX @@ static bool is_equal(const void *ap, const void *bp)
  static uint32_t h(unsigned long v)
  {
--    return tb_hash_func7(v, 0, 0, 0, 0);
+     timer_mod(tcg_kick_vcpu_timer, qemu_tcg_next_kick());
-+    return qemu_xxhash2(v);
+-    qemu_cpu_kick_rr_cpu();
 +    qemu_cpu_kick_rr_next_cpu();
  }
- static uint32_t hval(unsigned long v)
+ static void start_tcg_kick_timer(void)
-diff --git a/util/qsp.c b/util/qsp.c
+@@ -XXX,XX +XXX,XX @@ void qemu_cpu_kick(CPUState *cpu)
 index XXXXXXX..XXXXXXX 100644
 --- a/util/qsp.c
 +++ b/util/qsp.c
@@ -XXX,XX +XXX,XX @@ QemuCondWaitFunc qemu_cond_wait_func = qemu_cond_wait_impl;
   * without it we still get a pretty unique hash.
   */
  static inline
 -uint32_t do_qsp_callsite_hash(const QSPCallSite *callsite, uint64_t a)
 +uint32_t do_qsp_callsite_hash(const QSPCallSite *callsite, uint64_t ab)
  {
--    uint64_t b = (uint64_t)(uintptr_t)callsite->obj;
+     qemu_cond_broadcast(cpu->halt_cond);
-+    uint64_t cd = (uint64_t)(uintptr_t)callsite->obj;
+     if (tcg_enabled()) {
-     uint32_t e = callsite->line;
+-        cpu_exit(cpu);
-     uint32_t f = callsite->type;
+-        /* NOP unless doing single-thread RR */
+-        qemu_cpu_kick_rr_cpu();
--    return tb_hash_func7(a, b, e, f, 0);
++        if (qemu_tcg_mttcg_enabled()) {
-+    return qemu_xxhash6(ab, cd, e, f);
++            cpu_exit(cpu);
- }
++        } else {
++            qemu_cpu_kick_rr_cpus();
- static inline
++        }
-@@ -XXX,XX +XXX,XX @@ static uint32_t qsp_entry_no_thread_hash(const QSPEntry *entry)
+     } else {
- static uint32_t qsp_entry_no_thread_obj_hash(const QSPEntry *entry)
+         if (hax_enabled()) {
- {
+             /*
      const QSPCallSite *callsite = entry->callsite;
 -    uint64_t a = g_str_hash(callsite->file);
 -    uint64_t b = callsite->line;
 +    uint64_t ab = g_str_hash(callsite->file);
 +    uint64_t cd = callsite->line;
      uint32_t e = callsite->type;
 -    return tb_hash_func7(a, b, e, 0, 0);
 +    return qemu_xxhash5(ab, cd, e);
  }
  static bool qsp_callsite_cmp(const void *ap, const void *bp)
 --
-.17.2
+.17.1

-[Qemu-devel] [PATCH] fixup! target/arm: Move id_aa64mmfr* to ARMISARegisters
+Deleted patch
-I didn't get this fix pushed back into the patch set that I actually
-sent last week.  The patch is in target-arm.next, and I'm sure you
-would have eventually seen the error in testing.
-r~
----
- target/arm/kvm64.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/kvm64.c
-+++ b/target/arm/kvm64.c
-@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
-                               ARM64_SYS_REG(3, 0, 0, 6, 0));
-         err |= read_sys_reg64(fdarray[2], &ahcf->isar.id_aa64isar1,
-                               ARM64_SYS_REG(3, 0, 0, 6, 1));
--        err |= read_sys_reg64(fdarray[2], &achf->isar.id_aa64mmfr0,
-+        err |= read_sys_reg64(fdarray[2], &ahcf->isar.id_aa64mmfr0,
-                               ARM64_SYS_REG(3, 0, 0, 7, 0));
--        err |= read_sys_reg64(fdarray[2], &achf->isar.id_aa64mmfr1,
-+        err |= read_sys_reg64(fdarray[2], &ahcf->isar.id_aa64mmfr1,
-                               ARM64_SYS_REG(3, 0, 0, 7, 1));
-         /*
---
-.17.2

The following changes since commit 2d894e48362ad2a576fca929dcca1787f43a8af6:

Merge remote-tracking branch 'remotes/stefanha/tags/tracing-pull-request' into staging (2018-12-13 17:50:45 +0000)

are available in the Git repository at:

https://github.com/rth7680/qemu.git tags/pull-tcg-20181213

for you to fetch changes up to 99f70ba5b6b4566509b2069a8d29c6686b8115de:

xxhash: match output against the original xxhash32 (2018-12-13 18:56:11 -0600)

----------------------------------------------------------------
- Remove retranslation remenents
- Return success from patch_reloc
- Preserve 32-bit values as zero-extended on x86_64
- Make bswap during memory ops as optional
- Cleanup xxhash

----------------------------------------------------------------
Alistair Francis (1):
      tcg/mips: Improve the add2/sub2 command to use TCG_TARGET_REG_BITS

Emilio G. Cota (5):
      tcg: Drop nargs from tcg_op_insert_{before,after}
      qht-bench: document -p flag
      exec: introduce qemu_xxhash{2,4,5,6,7}
      include: move exec/tb-hash-xx.h to qemu/xxhash.h
      xxhash: match output against the original xxhash32

Richard Henderson (26):
      tcg/i386: Always use %ebp for TCG_AREG0
      tcg/i386: Move TCG_REG_CALL_STACK from define to enum
      tcg/aarch64: Remove reloc_pc26_atomic
      tcg/aarch64: Fold away "noaddr" branch routines
      tcg/arm: Remove reloc_pc24_atomic
      tcg/arm: Fold away "noaddr" branch routines
      tcg/ppc: Fold away "noaddr" branch routines
      tcg/s390: Remove retranslation code
      tcg/sparc: Remove retranslation code
      tcg/mips: Remove retranslation code
      tcg: Return success from patch_reloc
      tcg/i386: Return false on failure from patch_reloc
      tcg/aarch64: Return false on failure from patch_reloc
      tcg/arm: Return false on failure from patch_reloc
      tcg/ppc: Return false on failure from patch_reloc
      tcg/s390x: Return false on failure from patch_reloc
      tcg/i386: Propagate is64 to tcg_out_qemu_ld_direct
      tcg/i386: Propagate is64 to tcg_out_qemu_ld_slow_path
      tcg/i386: Implement INDEX_op_extr{lh}_i64_i32 for 32-bit guests
      tcg/i386: Assume 32-bit values are zero-extended
      tcg/i386: Precompute all guest_base parameters
      tcg/i386: Add setup_guest_base_seg for FreeBSD
      tcg: Clean up generic bswap32
      tcg: Clean up generic bswap64
      tcg/optimize: Optimize bswap
      tcg: Add TCG_TARGET_HAS_MEMORY_BSWAP

include/exec/tb-hash.h                       |   4 +-
 include/{exec/tb-hash-xx.h => qemu/xxhash.h} |  47 ++++--
 tcg/aarch64/tcg-target.h                     |   1 +
 tcg/arm/tcg-target.h                         |   1 +
 tcg/i386/tcg-target.h                        |  17 +--
 tcg/mips/tcg-target.h                        |   1 +
 tcg/ppc/tcg-target.h                         |   1 +
 tcg/s390/tcg-target.h                        |   1 +
 tcg/sparc/tcg-target.h                       |   1 +
 tcg/tcg.h                                    |   4 +-
 tcg/tci/tcg-target.h                         |   2 +
 tcg/aarch64/tcg-target.inc.c                 |  71 +++------
 tcg/arm/tcg-target.inc.c                     |  55 +++----
 tcg/i386/tcg-target.inc.c                    | 208 ++++++++++++--------------
 tcg/mips/tcg-target.inc.c                    |  12 +-
 tcg/optimize.c                               |  16 +-
 tcg/ppc/tcg-target.inc.c                     |  60 ++++----
 tcg/s390/tcg-target.inc.c                    |  45 +++---
 tcg/sparc/tcg-target.inc.c                   |  13 +-
 tcg/tcg-op.c                                 | 215 ++++++++++++++++++++-------
 tcg/tcg.c                                    |  18 +--
 tcg/tci/tcg-target.inc.c                     |   3 +-
 tests/qht-bench.c                            |   5 +-
 util/qsp.c                                   |  14 +-
 24 files changed, 452 insertions(+), 363 deletions(-)
 rename include/{exec/tb-hash-xx.h => qemu/xxhash.h} (73%)

For x86_64, this can remove a REX prefix resulting in smaller code
when manipulating globals of type i32, as we move them between backing
store via cpu_env, aka TCG_AREG0.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.h | 8 ++------
 1 file changed, 2 insertions(+), 6 deletions(-)

diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
     TCG_REG_RBP = TCG_REG_EBP,
     TCG_REG_RSI = TCG_REG_ESI,
     TCG_REG_RDI = TCG_REG_EDI,
+
+    TCG_AREG0 = TCG_REG_EBP,
 } TCGReg;
 
 /* used for function call generation */
@@ -XXX,XX +XXX,XX @@ extern bool have_avx2;
 #define TCG_TARGET_extract_i64_valid(ofs, len) \
     (((ofs) == 8 && (len) == 8) || ((ofs) + (len)) == 32)
 
-#if TCG_TARGET_REG_BITS == 64
-# define TCG_AREG0 TCG_REG_R14
-#else
-# define TCG_AREG0 TCG_REG_EBP
-#endif
-
 static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
 {
 }
-- 
2.17.2

It is unused since b68686bd4bfeb70040b4099df993dfa0b4f37b03.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.inc.c | 12 ------------
 1 file changed, 12 deletions(-)

There are one use apiece for these.  There is no longer a need for
preserving branch offset operands, as we no longer re-translate.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.inc.c | 21 ++-------------------
 1 file changed, 2 insertions(+), 19 deletions(-)

diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.inc.c
+++ b/tcg/aarch64/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_goto_long(TCGContext *s, tcg_insn_unit *target)
     }
 }
 
-static inline void tcg_out_goto_noaddr(TCGContext *s)
-{
-    /* We pay attention here to not modify the branch target by reading from
-       the buffer. This ensure that caches and memory are kept coherent during
-       retranslation.  Mask away possible garbage in the high bits for the
-       first translation, while keeping the offset bits for retranslation. */
-    uint32_t old = tcg_in32(s);
-    tcg_out_insn(s, 3206, B, old);
-}
-
-static inline void tcg_out_goto_cond_noaddr(TCGContext *s, TCGCond c)
-{
-    /* See comments in tcg_out_goto_noaddr.  */
-    uint32_t old = tcg_in32(s) >> 5;
-    tcg_out_insn(s, 3202, B_C, c, old);
-}
-
 static inline void tcg_out_callr(TCGContext *s, TCGReg reg)
 {
     tcg_out_insn(s, 3207, BLR, reg);
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_goto_label(TCGContext *s, TCGLabel *l)
 {
     if (!l->has_value) {
         tcg_out_reloc(s, s->code_ptr, R_AARCH64_JUMP26, l, 0);
-        tcg_out_goto_noaddr(s);
+        tcg_out_insn(s, 3206, B, 0);
     } else {
         tcg_out_goto(s, l->u.value_ptr);
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_tlb_read(TCGContext *s, TCGReg addr_reg, TCGMemOp opc,
 
     /* If not equal, we jump to the slow path. */
     *label_ptr = s->code_ptr;
-    tcg_out_goto_cond_noaddr(s, TCG_COND_NE);
+    tcg_out_insn(s, 3202, B_C, TCG_COND_NE, 0);
 }
 
 #endif /* CONFIG_SOFTMMU */
-- 
2.17.2

It is unused since 3fb53fb4d12f2e7833bd1659e6013237b130ef20.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.inc.c | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.inc.c
+++ b/tcg/arm/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
     *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
 }
 
-static inline void reloc_pc24_atomic(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
-{
-    ptrdiff_t offset = (tcg_ptr_byte_diff(target, code_ptr) - 8) >> 2;
-    tcg_insn_unit insn = atomic_read(code_ptr);
-    tcg_debug_assert(offset == sextract32(offset, 0, 24));
-    atomic_set(code_ptr, deposit32(insn, 0, 24, offset));
-}
-
 static void patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
-- 
2.17.2

There are one use apiece for these.  There is no longer a need for
preserving branch offset operands, as we no longer re-translate.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.inc.c | 22 +++-------------------
 1 file changed, 3 insertions(+), 19 deletions(-)

diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.inc.c
+++ b/tcg/arm/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_b(TCGContext *s, int cond, int32_t offset)
                     (((offset - 8) >> 2) & 0x00ffffff));
 }
 
-static inline void tcg_out_b_noaddr(TCGContext *s, int cond)
-{
-    /* We pay attention here to not modify the branch target by masking
-       the corresponding bytes.  This ensure that caches and memory are
-       kept coherent during retranslation. */
-    tcg_out32(s, deposit32(*s->code_ptr, 24, 8, (cond << 4) | 0x0a));
-}
-
-static inline void tcg_out_bl_noaddr(TCGContext *s, int cond)
-{
-    /* We pay attention here to not modify the branch target by masking
-       the corresponding bytes.  This ensure that caches and memory are
-       kept coherent during retranslation. */
-    tcg_out32(s, deposit32(*s->code_ptr, 24, 8, (cond << 4) | 0x0b));
-}
-
 static inline void tcg_out_bl(TCGContext *s, int cond, int32_t offset)
 {
     tcg_out32(s, (cond << 28) | 0x0b000000 |
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_goto_label(TCGContext *s, int cond, TCGLabel *l)
         tcg_out_goto(s, cond, l->u.value_ptr);
     } else {
         tcg_out_reloc(s, s->code_ptr, R_ARM_PC24, l, 0);
-        tcg_out_b_noaddr(s, cond);
+        tcg_out_b(s, cond, 0);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
     /* This a conditional BL only to load a pointer within this opcode into LR
        for the slow path.  We will not be using the value for a tail call.  */
     label_ptr = s->code_ptr;
-    tcg_out_bl_noaddr(s, COND_NE);
+    tcg_out_bl(s, COND_NE, 0);
 
     tcg_out_qemu_ld_index(s, opc, datalo, datahi, addrlo, addend);
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
 
     /* The conditional call must come last, as we're going to return here.  */
     label_ptr = s->code_ptr;
-    tcg_out_bl_noaddr(s, COND_NE);
+    tcg_out_bl(s, COND_NE, 0);
 
     add_qemu_ldst_label(s, false, oi, datalo, datahi, addrlo, addrhi,
                         s->code_ptr, label_ptr);
-- 
2.17.2

There is no longer a need for preserving branch offset operands,
as we no longer re-translate.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 25 +++++++------------------
 1 file changed, 7 insertions(+), 18 deletions(-)

diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void reloc_pc14(tcg_insn_unit *pc, tcg_insn_unit *target)
     *pc = (*pc & ~0xfffc) | reloc_pc14_val(pc, target);
 }
 
-static inline void tcg_out_b_noaddr(TCGContext *s, int insn)
-{
-    unsigned retrans = *s->code_ptr & 0x3fffffc;
-    tcg_out32(s, insn | retrans);
-}
-
-static inline void tcg_out_bc_noaddr(TCGContext *s, int insn)
-{
-    unsigned retrans = *s->code_ptr & 0xfffc;
-    tcg_out32(s, insn | retrans);
-}
-
 /* parse target specific constraints */
 static const char *target_parse_constraint(TCGArgConstraint *ct,
                                            const char *ct_str, TCGType type)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_setcond(TCGContext *s, TCGType type, TCGCond cond,
 static void tcg_out_bc(TCGContext *s, int bc, TCGLabel *l)
 {
     if (l->has_value) {
-        tcg_out32(s, bc | reloc_pc14_val(s->code_ptr, l->u.value_ptr));
+        bc |= reloc_pc14_val(s->code_ptr, l->u.value_ptr);
     } else {
         tcg_out_reloc(s, s->code_ptr, R_PPC_REL14, l, 0);
-        tcg_out_bc_noaddr(s, bc);
     }
+    tcg_out32(s, bc);
 }
 
 static void tcg_out_brcond(TCGContext *s, TCGCond cond,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
 
     /* Load a pointer into the current opcode w/conditional branch-link. */
     label_ptr = s->code_ptr;
-    tcg_out_bc_noaddr(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
+    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 
     rbase = TCG_REG_R3;
 #else  /* !CONFIG_SOFTMMU */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
 
     /* Load a pointer into the current opcode w/conditional branch-link. */
     label_ptr = s->code_ptr;
-    tcg_out_bc_noaddr(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
+    tcg_out32(s, BC | BI(7, CR_EQ) | BO_COND_FALSE | LK);
 
     rbase = TCG_REG_R3;
 #else  /* !CONFIG_SOFTMMU */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
     case INDEX_op_br:
         {
             TCGLabel *l = arg_label(args[0]);
+            uint32_t insn = B;
 
             if (l->has_value) {
-                tcg_out_b(s, 0, l->u.value_ptr);
+                insn |= reloc_pc24_val(s->code_ptr, l->u.value_ptr);
             } else {
                 tcg_out_reloc(s, s->code_ptr, R_PPC_REL24, l, 0);
-                tcg_out_b_noaddr(s, B);
             }
+            tcg_out32(s, insn);
         }
         break;
     case INDEX_op_ld8u_i32:
-- 
2.17.2

There is no longer a need for preserving branch offset operands,
as we no longer re-translate.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390/tcg-target.inc.c | 10 ++--------
 1 file changed, 2 insertions(+), 8 deletions(-)

diff --git a/tcg/s390/tcg-target.inc.c b/tcg/s390/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.inc.c
+++ b/tcg/s390/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void tgen_branch(TCGContext *s, int cc, TCGLabel *l)
 static void tgen_compare_branch(TCGContext *s, S390Opcode opc, int cc,
                                 TCGReg r1, TCGReg r2, TCGLabel *l)
 {
-    intptr_t off;
+    intptr_t off = 0;
 
     if (l->has_value) {
         off = l->u.value_ptr - s->code_ptr;
     } else {
-        /* We need to keep the offset unchanged for retranslation.  */
-        off = s->code_ptr[1];
         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
     }
 
@@ -XXX,XX +XXX,XX @@ static void tgen_compare_branch(TCGContext *s, S390Opcode opc, int cc,
 static void tgen_compare_imm_branch(TCGContext *s, S390Opcode opc, int cc,
                                     TCGReg r1, int i2, TCGLabel *l)
 {
-    tcg_target_long off;
+    tcg_target_long off = 0;
 
     if (l->has_value) {
         off = l->u.value_ptr - s->code_ptr;
     } else {
-        /* We need to keep the offset unchanged for retranslation.  */
-        off = s->code_ptr[1];
         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
     }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
 
     base_reg = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 1);
 
-    /* We need to keep the offset unchanged for retranslation.  */
     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
     label_ptr = s->code_ptr;
     s->code_ptr += 1;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext* s, TCGReg data_reg, TCGReg addr_reg,
 
     base_reg = tcg_out_tlb_read(s, addr_reg, opc, mem_index, 0);
 
-    /* We need to keep the offset unchanged for retranslation.  */
     tcg_out16(s, RI_BRC | (S390_CC_NE << 4));
     label_ptr = s->code_ptr;
     s->code_ptr += 1;
-- 
2.17.2

There is no longer a need for preserving branch offset operands,
as we no longer re-translate.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/sparc/tcg-target.inc.c | 8 ++------
 1 file changed, 2 insertions(+), 6 deletions(-)

diff --git a/tcg/sparc/tcg-target.inc.c b/tcg/sparc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/sparc/tcg-target.inc.c
+++ b/tcg/sparc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void tcg_out_bpcc0(TCGContext *s, int scond, int flags, int off19)
 
 static void tcg_out_bpcc(TCGContext *s, int scond, int flags, TCGLabel *l)
 {
-    int off19;
+    int off19 = 0;
 
     if (l->has_value) {
         off19 = INSN_OFF19(tcg_pcrel_diff(s, l->u.value_ptr));
     } else {
-        /* Make sure to preserve destinations during retranslation.  */
-        off19 = *s->code_ptr & INSN_OFF19(-1);
         tcg_out_reloc(s, s->code_ptr, R_SPARC_WDISP19, l, 0);
     }
     tcg_out_bpcc0(s, scond, flags, off19);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_brcond_i64(TCGContext *s, TCGCond cond, TCGReg arg1,
 {
     /* For 64-bit signed comparisons vs zero, we can avoid the compare.  */
     if (arg2 == 0 && !is_unsigned_cond(cond)) {
-        int off16;
+        int off16 = 0;
 
         if (l->has_value) {
             off16 = INSN_OFF16(tcg_pcrel_diff(s, l->u.value_ptr));
         } else {
-            /* Make sure to preserve destinations during retranslation.  */
-            off16 = *s->code_ptr & INSN_OFF16(-1);
             tcg_out_reloc(s, s->code_ptr, R_SPARC_WDISP16, l, 0);
         }
         tcg_out32(s, INSN_OP(0) | INSN_OP2(3) | BPR_PT | INSN_RS1(arg1)
-- 
2.17.2

There is no longer a need for preserving branch offset operands,
as we no longer re-translate.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.inc.c | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/tcg/mips/tcg-target.inc.c b/tcg/mips/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.inc.c
+++ b/tcg/mips/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_opc_bf64(TCGContext *s, MIPSInsn opc, MIPSInsn opm,
 static inline void tcg_out_opc_br(TCGContext *s, MIPSInsn opc,
                                   TCGReg rt, TCGReg rs)
 {
-    /* We pay attention here to not modify the branch target by reading
-       the existing value and using it again. This ensure that caches and
-       memory are kept coherent during retranslation. */
-    uint16_t offset = (uint16_t)*s->code_ptr;
-
-    tcg_out_opc_imm(s, opc, rt, rs, offset);
+    tcg_out_opc_imm(s, opc, rt, rs, 0);
 }
 
 /*
-- 
2.17.2

This will move the assert for success from within (subroutines of)
patch_reloc into the callers.  It will also let new code do something
different when a relocation is out of range.

For the moment, all backends are trivially converted to return true.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.inc.c | 3 ++-
 tcg/arm/tcg-target.inc.c     | 3 ++-
 tcg/i386/tcg-target.inc.c    | 3 ++-
 tcg/mips/tcg-target.inc.c    | 3 ++-
 tcg/ppc/tcg-target.inc.c     | 3 ++-
 tcg/s390/tcg-target.inc.c    | 3 ++-
 tcg/sparc/tcg-target.inc.c   | 5 +++--
 tcg/tcg.c                    | 8 +++++---
 tcg/tci/tcg-target.inc.c     | 3 ++-
 9 files changed, 22 insertions(+), 12 deletions(-)

diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.inc.c
+++ b/tcg/aarch64/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
     *code_ptr = deposit32(*code_ptr, 5, 19, offset);
 }
 
-static inline void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static inline bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                                intptr_t value, intptr_t addend)
 {
     tcg_debug_assert(addend == 0);
@@ -XXX,XX +XXX,XX @@ static inline void patch_reloc(tcg_insn_unit *code_ptr, int type,
     default:
         tcg_abort();
     }
+    return true;
 }
 
 #define TCG_CT_CONST_AIMM 0x100
diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.inc.c
+++ b/tcg/arm/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
     *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
 }
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     tcg_debug_assert(addend == 0);
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
     } else {
         g_assert_not_reached();
     }
+    return true;
 }
 
 #define TCG_CT_CONST_ARM  0x100
diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static bool have_lzcnt;
 
 static tcg_insn_unit *tb_ret_addr;
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     value += addend;
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
     default:
         tcg_abort();
     }
+    return true;
 }
 
 #if TCG_TARGET_REG_BITS == 64
diff --git a/tcg/mips/tcg-target.inc.c b/tcg/mips/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.inc.c
+++ b/tcg/mips/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void reloc_26(tcg_insn_unit *pc, tcg_insn_unit *target)
     *pc = deposit32(*pc, 0, 26, reloc_26_val(pc, target));
 }
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     tcg_debug_assert(type == R_MIPS_PC16);
     tcg_debug_assert(addend == 0);
     reloc_pc16(code_ptr, (tcg_insn_unit *)value);
+    return true;
 }
 
 #define TCG_CT_CONST_ZERO 0x100
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static const uint32_t tcg_to_isel[] = {
     [TCG_COND_GTU] = ISEL | BC_(7, CR_GT),
 };
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     tcg_insn_unit *target;
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
     default:
         g_assert_not_reached();
     }
+    return true;
 }
 
 static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
diff --git a/tcg/s390/tcg-target.inc.c b/tcg/s390/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.inc.c
+++ b/tcg/s390/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void * const qemu_st_helpers[16] = {
 static tcg_insn_unit *tb_ret_addr;
 uint64_t s390_facilities;
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     intptr_t pcrel2;
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
     default:
         g_assert_not_reached();
     }
+    return true;
 }
 
 /* parse target specific constraints */
diff --git a/tcg/sparc/tcg-target.inc.c b/tcg/sparc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/sparc/tcg-target.inc.c
+++ b/tcg/sparc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline int check_fit_i32(int32_t val, unsigned int bits)
 # define check_fit_ptr  check_fit_i32
 #endif
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     uint32_t insn = *code_ptr;
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
         /* Note that we're abusing this reloc type for our own needs.  */
         code_ptr[0] = deposit32(code_ptr[0], 0, 22, value >> 10);
         code_ptr[1] = deposit32(code_ptr[1], 0, 10, value);
-        return;
+        return true;
     default:
         g_assert_not_reached();
     }
 
     *code_ptr = insn;
+    return true;
 }
 
 /* parse target specific constraints */
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@
 static void tcg_target_init(TCGContext *s);
 static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode);
 static void tcg_target_qemu_prologue(TCGContext *s);
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend);
 
 /* The CIE and FDE header definitions will be common to all hosts.  */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_reloc(TCGContext *s, tcg_insn_unit *code_ptr, int type,
         /* FIXME: This may break relocations on RISC targets that
            modify instruction fields in place.  The caller may not have 
            written the initial value.  */
-        patch_reloc(code_ptr, type, l->u.value, addend);
+        bool ok = patch_reloc(code_ptr, type, l->u.value, addend);
+        tcg_debug_assert(ok);
     } else {
         /* add a new relocation entry */
         r = tcg_malloc(sizeof(TCGRelocation));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_label(TCGContext *s, TCGLabel *l, tcg_insn_unit *ptr)
     tcg_debug_assert(!l->has_value);
 
     for (r = l->u.first_reloc; r != NULL; r = r->next) {
-        patch_reloc(r->ptr, r->type, value, r->addend);
+        bool ok = patch_reloc(r->ptr, r->type, value, r->addend);
+        tcg_debug_assert(ok);
     }
 
     l->has_value = 1;
diff --git a/tcg/tci/tcg-target.inc.c b/tcg/tci/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tci/tcg-target.inc.c
+++ b/tcg/tci/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static const char *const tcg_target_reg_names[TCG_TARGET_NB_REGS] = {
 };
 #endif
 
-static void patch_reloc(tcg_insn_unit *code_ptr, int type,
+static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     /* tcg_out_reloc always uses the same type, addend. */
@@ -XXX,XX +XXX,XX @@ static void patch_reloc(tcg_insn_unit *code_ptr, int type,
     } else {
         tcg_patch64(code_ptr, value);
     }
+    return true;
 }
 
 /* Parse target specific constraints. */
-- 
2.17.2

This does require an extra two checks within the slow paths
to replace the assert that we're moving.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.inc.c | 37 ++++++++++++++++++++----------------
 1 file changed, 21 insertions(+), 16 deletions(-)

diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.inc.c
+++ b/tcg/aarch64/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static const int tcg_target_call_oarg_regs[1] = {
 #define TCG_REG_GUEST_BASE TCG_REG_X28
 #endif
 
-static inline void reloc_pc26(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
+static inline bool reloc_pc26(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
 {
     ptrdiff_t offset = target - code_ptr;
-    tcg_debug_assert(offset == sextract64(offset, 0, 26));
-    /* read instruction, mask away previous PC_REL26 parameter contents,
-       set the proper offset, then write back the instruction. */
-    *code_ptr = deposit32(*code_ptr, 0, 26, offset);
+    if (offset == sextract64(offset, 0, 26)) {
+        /* read instruction, mask away previous PC_REL26 parameter contents,
+           set the proper offset, then write back the instruction. */
+        *code_ptr = deposit32(*code_ptr, 0, 26, offset);
+        return true;
+    }
+    return false;
 }
 
-static inline void reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
+static inline bool reloc_pc19(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
 {
     ptrdiff_t offset = target - code_ptr;
-    tcg_debug_assert(offset == sextract64(offset, 0, 19));
-    *code_ptr = deposit32(*code_ptr, 5, 19, offset);
+    if (offset == sextract64(offset, 0, 19)) {
+        *code_ptr = deposit32(*code_ptr, 5, 19, offset);
+        return true;
+    }
+    return false;
 }
 
 static inline bool patch_reloc(tcg_insn_unit *code_ptr, int type,
@@ -XXX,XX +XXX,XX @@ static inline bool patch_reloc(tcg_insn_unit *code_ptr, int type,
     switch (type) {
     case R_AARCH64_JUMP26:
     case R_AARCH64_CALL26:
-        reloc_pc26(code_ptr, (tcg_insn_unit *)value);
-        break;
+        return reloc_pc26(code_ptr, (tcg_insn_unit *)value);
     case R_AARCH64_CONDBR19:
-        reloc_pc19(code_ptr, (tcg_insn_unit *)value);
-        break;
+        return reloc_pc19(code_ptr, (tcg_insn_unit *)value);
     default:
-        tcg_abort();
+        g_assert_not_reached();
     }
-    return true;
 }
 
 #define TCG_CT_CONST_AIMM 0x100
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOp opc = get_memop(oi);
     TCGMemOp size = opc & MO_SIZE;
 
-    reloc_pc19(lb->label_ptr[0], s->code_ptr);
+    bool ok = reloc_pc19(lb->label_ptr[0], s->code_ptr);
+    tcg_debug_assert(ok);
 
     tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
     tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOp opc = get_memop(oi);
     TCGMemOp size = opc & MO_SIZE;
 
-    reloc_pc19(lb->label_ptr[0], s->code_ptr);
+    bool ok = reloc_pc19(lb->label_ptr[0], s->code_ptr);
+    tcg_debug_assert(ok);
 
     tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_X0, TCG_AREG0);
     tcg_out_mov(s, TARGET_LONG_BITS == 64, TCG_REG_X1, lb->addrlo_reg);
-- 
2.17.2

This does require an extra two checks within the slow paths
to replace the assert that we're moving.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/arm/tcg-target.inc.c | 22 ++++++++++++++++------
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/tcg/arm/tcg-target.inc.c b/tcg/arm/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.inc.c
+++ b/tcg/arm/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t tcg_cond_to_arm_cond[] = {
     [TCG_COND_GTU] = COND_HI,
 };
 
-static inline void reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
+static inline bool reloc_pc24(tcg_insn_unit *code_ptr, tcg_insn_unit *target)
 {
     ptrdiff_t offset = (tcg_ptr_byte_diff(target, code_ptr) - 8) >> 2;
-    *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
+    if (offset == sextract32(offset, 0, 24)) {
+        *code_ptr = (*code_ptr & ~0xffffff) | (offset & 0xffffff);
+        return true;
+    }
+    return false;
 }
 
 static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
     tcg_debug_assert(addend == 0);
 
     if (type == R_ARM_PC24) {
-        reloc_pc24(code_ptr, (tcg_insn_unit *)value);
+        return reloc_pc24(code_ptr, (tcg_insn_unit *)value);
     } else if (type == R_ARM_PC13) {
         intptr_t diff = value - (uintptr_t)(code_ptr + 2);
         tcg_insn_unit insn = *code_ptr;
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
         } else {
             int rd = extract32(insn, 12, 4);
             int rt = rd == TCG_REG_PC ? TCG_REG_TMP : rd;
-            assert(diff >= 0x1000 && diff < 0x100000);
+
+            if (diff < 0x1000 || diff >= 0x100000) {
+                return false;
+            }
+
             /* add rt, pc, #high */
             *code_ptr++ = ((insn & 0xf0000000) | (1 << 25) | ARITH_ADD
                            | (TCG_REG_PC << 16) | (rt << 12)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOp opc = get_memop(oi);
     void *func;
 
-    reloc_pc24(lb->label_ptr[0], s->code_ptr);
+    bool ok = reloc_pc24(lb->label_ptr[0], s->code_ptr);
+    tcg_debug_assert(ok);
 
     argreg = tcg_out_arg_reg32(s, TCG_REG_R0, TCG_AREG0);
     if (TARGET_LONG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOpIdx oi = lb->oi;
     TCGMemOp opc = get_memop(oi);
 
-    reloc_pc24(lb->label_ptr[0], s->code_ptr);
+    bool ok = reloc_pc24(lb->label_ptr[0], s->code_ptr);
+    tcg_debug_assert(ok);
 
     argreg = TCG_REG_R0;
     argreg = tcg_out_arg_reg32(s, argreg, TCG_AREG0);
-- 
2.17.2

The reloc_pc{14,24}_val routines retain their asserts.
Use these directly within the slow paths.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 32 +++++++++++++++++++++-----------
 1 file changed, 21 insertions(+), 11 deletions(-)

diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static uint32_t reloc_pc24_val(tcg_insn_unit *pc, tcg_insn_unit *target)
     return disp & 0x3fffffc;
 }
 
-static void reloc_pc24(tcg_insn_unit *pc, tcg_insn_unit *target)
+static bool reloc_pc24(tcg_insn_unit *pc, tcg_insn_unit *target)
 {
-    *pc = (*pc & ~0x3fffffc) | reloc_pc24_val(pc, target);
+    ptrdiff_t disp = tcg_ptr_byte_diff(target, pc);
+    if (in_range_b(disp)) {
+        *pc = (*pc & ~0x3fffffc) | (disp & 0x3fffffc);
+        return true;
+    }
+    return false;
 }
 
 static uint16_t reloc_pc14_val(tcg_insn_unit *pc, tcg_insn_unit *target)
@@ -XXX,XX +XXX,XX @@ static uint16_t reloc_pc14_val(tcg_insn_unit *pc, tcg_insn_unit *target)
     return disp & 0xfffc;
 }
 
-static void reloc_pc14(tcg_insn_unit *pc, tcg_insn_unit *target)
+static bool reloc_pc14(tcg_insn_unit *pc, tcg_insn_unit *target)
 {
-    *pc = (*pc & ~0xfffc) | reloc_pc14_val(pc, target);
+    ptrdiff_t disp = tcg_ptr_byte_diff(target, pc);
+    if (disp == (int16_t) disp) {
+        *pc = (*pc & ~0xfffc) | (disp & 0xfffc);
+        return true;
+    }
+    return false;
 }
 
 /* parse target specific constraints */
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
 
     switch (type) {
     case R_PPC_REL14:
-        reloc_pc14(code_ptr, target);
-        break;
+        return reloc_pc14(code_ptr, target);
     case R_PPC_REL24:
-        reloc_pc24(code_ptr, target);
-        break;
+        return reloc_pc24(code_ptr, target);
     case R_PPC_ADDR16:
         /* We are abusing this relocation type.  This points to a pair
            of insns, addis + load.  If the displacement is small, we
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
         } else {
             int16_t lo = value;
             int hi = value - lo;
-            assert(hi + lo == value);
+            if (hi + lo != value) {
+                return false;
+            }
             code_ptr[0] = deposit32(code_ptr[0], 0, 16, hi >> 16);
             code_ptr[1] = deposit32(code_ptr[1], 0, 16, lo);
         }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOp opc = get_memop(oi);
     TCGReg hi, lo, arg = TCG_REG_R3;
 
-    reloc_pc14(lb->label_ptr[0], s->code_ptr);
+    **lb->label_ptr |= reloc_pc14_val(*lb->label_ptr, s->code_ptr);
 
     tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOp s_bits = opc & MO_SIZE;
     TCGReg hi, lo, arg = TCG_REG_R3;
 
-    reloc_pc14(lb->label_ptr[0], s->code_ptr);
+    **lb->label_ptr |= reloc_pc14_val(*lb->label_ptr, s->code_ptr);
 
     tcg_out_mov(s, TCG_TYPE_PTR, arg++, TCG_AREG0);
 
-- 
2.17.2

This does require an extra two checks within the slow paths
to replace the assert that we're moving.  Also add two checks
within existing functions that lacked any kind of assert for
out of range branch.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/s390/tcg-target.inc.c | 34 +++++++++++++++++++++++-----------
 1 file changed, 23 insertions(+), 11 deletions(-)

diff --git a/tcg/s390/tcg-target.inc.c b/tcg/s390/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.inc.c
+++ b/tcg/s390/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
 
     switch (type) {
     case R_390_PC16DBL:
-        assert(pcrel2 == (int16_t)pcrel2);
-        tcg_patch16(code_ptr, pcrel2);
+        if (pcrel2 == (int16_t)pcrel2) {
+            tcg_patch16(code_ptr, pcrel2);
+            return true;
+        }
         break;
     case R_390_PC32DBL:
-        assert(pcrel2 == (int32_t)pcrel2);
-        tcg_patch32(code_ptr, pcrel2);
+        if (pcrel2 == (int32_t)pcrel2) {
+            tcg_patch32(code_ptr, pcrel2);
+            return true;
+        }
         break;
     case R_390_20:
-        assert(value == sextract64(value, 0, 20));
-        old = *(uint32_t *)code_ptr & 0xf00000ff;
-        old |= ((value & 0xfff) << 16) | ((value & 0xff000) >> 4);
-        tcg_patch32(code_ptr, old);
+        if (value == sextract64(value, 0, 20)) {
+            old = *(uint32_t *)code_ptr & 0xf00000ff;
+            old |= ((value & 0xfff) << 16) | ((value & 0xff000) >> 4);
+            tcg_patch32(code_ptr, old);
+            return true;
+        }
         break;
     default:
         g_assert_not_reached();
     }
-    return true;
+    return false;
 }
 
 /* parse target specific constraints */
@@ -XXX,XX +XXX,XX @@ static void tgen_compare_branch(TCGContext *s, S390Opcode opc, int cc,
 
     if (l->has_value) {
         off = l->u.value_ptr - s->code_ptr;
+        tcg_debug_assert(off == (int16_t)off);
     } else {
         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
     }
@@ -XXX,XX +XXX,XX @@ static void tgen_compare_imm_branch(TCGContext *s, S390Opcode opc, int cc,
 
     if (l->has_value) {
         off = l->u.value_ptr - s->code_ptr;
+        tcg_debug_assert(off == (int16_t)off);
     } else {
         tcg_out_reloc(s, s->code_ptr + 1, R_390_PC16DBL, l, 2);
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOpIdx oi = lb->oi;
     TCGMemOp opc = get_memop(oi);
 
-    patch_reloc(lb->label_ptr[0], R_390_PC16DBL, (intptr_t)s->code_ptr, 2);
+    bool ok = patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
+                          (intptr_t)s->code_ptr, 2);
+    tcg_debug_assert(ok);
 
     tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
     if (TARGET_LONG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *lb)
     TCGMemOpIdx oi = lb->oi;
     TCGMemOp opc = get_memop(oi);
 
-    patch_reloc(lb->label_ptr[0], R_390_PC16DBL, (intptr_t)s->code_ptr, 2);
+    bool ok = patch_reloc(lb->label_ptr[0], R_390_PC16DBL,
+                          (intptr_t)s->code_ptr, 2);
+    tcg_debug_assert(ok);
 
     tcg_out_mov(s, TCG_TYPE_PTR, TCG_REG_R2, TCG_AREG0);
     if (TARGET_LONG_BITS == 64) {
-- 
2.17.2

This helps preserve the invariant that all TCG_TYPE_I32 values
are stored zero-extended in the 64-bit host registers.

Reviewed-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.inc.c | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void setup_guest_base_seg(void) { }
 
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                    TCGReg base, int index, intptr_t ofs,
-                                   int seg, TCGMemOp memop)
+                                   int seg, bool is64, TCGMemOp memop)
 {
     const TCGMemOp real_bswap = memop & MO_BSWAP;
     TCGMemOp bswap = real_bswap;
+    int rexw = is64 * P_REXW;
     int movop = OPC_MOVL_GvEv;
 
     if (have_movbe && real_bswap) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                  base, index, 0, ofs);
         break;
     case MO_SB:
-        tcg_out_modrm_sib_offset(s, OPC_MOVSBL + P_REXW + seg, datalo,
+        tcg_out_modrm_sib_offset(s, OPC_MOVSBL + rexw + seg, datalo,
                                  base, index, 0, ofs);
         break;
     case MO_UW:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                                          base, index, 0, ofs);
                 tcg_out_rolw_8(s, datalo);
             }
-            tcg_out_modrm(s, OPC_MOVSWL + P_REXW, datalo, datalo);
+            tcg_out_modrm(s, OPC_MOVSWL + rexw, datalo, datalo);
         } else {
-            tcg_out_modrm_sib_offset(s, OPC_MOVSWL + P_REXW + seg,
+            tcg_out_modrm_sib_offset(s, OPC_MOVSWL + rexw + seg,
                                      datalo, base, index, 0, ofs);
         }
         break;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
                      label_ptr, offsetof(CPUTLBEntry, addr_read));
 
     /* TLB Hit.  */
-    tcg_out_qemu_ld_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, opc);
+    tcg_out_qemu_ld_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, is64, opc);
 
     /* Record the current context of a load into ldst label */
     add_qemu_ldst_label(s, true, oi, datalo, datahi, addrlo, addrhi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
         }
 
         tcg_out_qemu_ld_direct(s, datalo, datahi,
-                               base, index, offset, seg, opc);
+                               base, index, offset, seg, is64, opc);
     }
 #endif
 }
-- 
2.17.2

This helps preserve the invariant that all TCG_TYPE_I32 values
are stored zero-extended in the 64-bit host registers.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.inc.c | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
  * Record the context of a call to the out of line helper code for the slow path
  * for a load or store, so that we can later generate the correct helper code
  */
-static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
+static void add_qemu_ldst_label(TCGContext *s, bool is_ld, bool is_64,
+                                TCGMemOpIdx oi,
                                 TCGReg datalo, TCGReg datahi,
                                 TCGReg addrlo, TCGReg addrhi,
                                 tcg_insn_unit *raddr,
@@ -XXX,XX +XXX,XX @@ static void add_qemu_ldst_label(TCGContext *s, bool is_ld, TCGMemOpIdx oi,
 
     label->is_ld = is_ld;
     label->oi = oi;
+    label->type = is_64 ? TCG_TYPE_I64 : TCG_TYPE_I32;
     label->datalo_reg = datalo;
     label->datahi_reg = datahi;
     label->addrlo_reg = addrlo;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     TCGMemOp opc = get_memop(oi);
     TCGReg data_reg;
     tcg_insn_unit **label_ptr = &l->label_ptr[0];
+    int rexw = (l->type == TCG_TYPE_I64 ? P_REXW : 0);
 
     /* resolve label address */
     tcg_patch32(label_ptr[0], s->code_ptr - label_ptr[0] - 4);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     data_reg = l->datalo_reg;
     switch (opc & MO_SSIZE) {
     case MO_SB:
-        tcg_out_ext8s(s, data_reg, TCG_REG_EAX, P_REXW);
+        tcg_out_ext8s(s, data_reg, TCG_REG_EAX, rexw);
         break;
     case MO_SW:
-        tcg_out_ext16s(s, data_reg, TCG_REG_EAX, P_REXW);
+        tcg_out_ext16s(s, data_reg, TCG_REG_EAX, rexw);
         break;
 #if TCG_TARGET_REG_BITS == 64
     case MO_SL:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
     tcg_out_qemu_ld_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, is64, opc);
 
     /* Record the current context of a load into ldst label */
-    add_qemu_ldst_label(s, true, oi, datalo, datahi, addrlo, addrhi,
+    add_qemu_ldst_label(s, true, is64, oi, datalo, datahi, addrlo, addrhi,
                         s->code_ptr, label_ptr);
 #else
     {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
     tcg_out_qemu_st_direct(s, datalo, datahi, TCG_REG_L1, 0, 0, opc);
 
     /* Record the current context of a store into ldst label */
-    add_qemu_ldst_label(s, false, oi, datalo, datahi, addrlo, addrhi,
+    add_qemu_ldst_label(s, false, is64, oi, datalo, datahi, addrlo, addrhi,
                         s->code_ptr, label_ptr);
 #else
     {
-- 
2.17.2

This preserves the invariant that all TCG_TYPE_I32 values are
zero-extended in the 64-bit host register.

Reviewed-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.h     | 5 +++--
 tcg/i386/tcg-target.inc.c | 6 ++++++
 2 files changed, 9 insertions(+), 2 deletions(-)

diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_direct_jump      1
 
 #if TCG_TARGET_REG_BITS == 64
-#define TCG_TARGET_HAS_extrl_i64_i32    0
-#define TCG_TARGET_HAS_extrh_i64_i32    0
+/* Keep target addresses zero-extended in a register.  */
+#define TCG_TARGET_HAS_extrl_i64_i32    (TARGET_LONG_BITS == 32)
+#define TCG_TARGET_HAS_extrh_i64_i32    (TARGET_LONG_BITS == 32)
 #define TCG_TARGET_HAS_div2_i64         1
 #define TCG_TARGET_HAS_rot_i64          1
 #define TCG_TARGET_HAS_ext8s_i64        1
diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_op(TCGContext *s, TCGOpcode opc,
         break;
     case INDEX_op_extu_i32_i64:
     case INDEX_op_ext32u_i64:
+    case INDEX_op_extrl_i64_i32:
         tcg_out_ext32u(s, a0, a1);
         break;
     case INDEX_op_ext_i32_i64:
     case INDEX_op_ext32s_i64:
         tcg_out_ext32s(s, a0, a1);
         break;
+    case INDEX_op_extrh_i64_i32:
+        tcg_out_shifti(s, SHIFT_SHR + P_REXW, a0, 32);
+        break;
 #endif
 
     OP_32_64(deposit):
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
     case INDEX_op_neg_i64:
     case INDEX_op_not_i32:
     case INDEX_op_not_i64:
+    case INDEX_op_extrh_i64_i32:
         return &r_0;
 
     case INDEX_op_ext8s_i32:
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
     case INDEX_op_ext32u_i64:
     case INDEX_op_ext_i32_i64:
     case INDEX_op_extu_i32_i64:
+    case INDEX_op_extrl_i64_i32:
     case INDEX_op_extract_i32:
     case INDEX_op_extract_i64:
     case INDEX_op_sextract_i32:
-- 
2.17.2

We now have an invariant that all TCG_TYPE_I32 values are
zero-extended, which means that we do not need to extend
them again during qemu_ld/st, either explicitly via a separate
tcg_out_ext32u or implicitly via P_ADDR32.

Reviewed-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.inc.c | 103 +++++++++++++++-----------------------
 1 file changed, 40 insertions(+), 63 deletions(-)

diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static inline int tcg_target_const_match(tcg_target_long val, TCGType type,
 #define P_EXT38         0x200           /* 0x0f 0x38 opcode prefix */
 #define P_DATA16        0x400           /* 0x66 opcode prefix */
 #if TCG_TARGET_REG_BITS == 64
-# define P_ADDR32       0x800           /* 0x67 opcode prefix */
 # define P_REXW         0x1000          /* Set REX.W = 1 */
 # define P_REXB_R       0x2000          /* REG field as byte register */
 # define P_REXB_RM      0x4000          /* R/M field as byte register */
 # define P_GS           0x8000          /* gs segment override */
 #else
-# define P_ADDR32	0
 # define P_REXW		0
 # define P_REXB_R	0
 # define P_REXB_RM	0
@@ -XXX,XX +XXX,XX @@ static void tcg_out_opc(TCGContext *s, int opc, int r, int rm, int x)
         tcg_debug_assert((opc & P_REXW) == 0);
         tcg_out8(s, 0x66);
     }
-    if (opc & P_ADDR32) {
-        tcg_out8(s, 0x67);
-    }
     if (opc & P_SIMDF3) {
         tcg_out8(s, 0xf3);
     } else if (opc & P_SIMDF2) {
@@ -XXX,XX +XXX,XX @@ static inline void tcg_out_tlb_load(TCGContext *s, TCGReg addrlo, TCGReg addrhi,
     tcg_out_modrm_offset(s, OPC_CMP_GvEv + trexw, r1, r0, 0);
 
     /* Prepare for both the fast path add of the tlb addend, and the slow
-       path function argument setup.  There are two cases worth note:
-       For 32-bit guest and x86_64 host, MOVL zero-extends the guest address
-       before the fastpath ADDQ below.  For 64-bit guest and x32 host, MOVQ
-       copies the entire guest address for the slow path, while truncation
-       for the 32-bit host happens with the fastpath ADDL below.  */
+       path function argument setup.  */
     tcg_out_mov(s, ttype, r1, addrlo);
 
     /* jne slow_path */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
 #else
     {
         int32_t offset = guest_base;
-        TCGReg base = addrlo;
         int index = -1;
         int seg = 0;
 
-        /* For a 32-bit guest, the high 32 bits may contain garbage.
-           We can do this with the ADDR32 prefix if we're not using
-           a guest base, or when using segmentation.  Otherwise we
-           need to zero-extend manually.  */
+        /*
+         * Recall we store 32-bit values zero-extended.  No need for
+         * further manual extension or an addr32 (0x67) prefix.
+         */
         if (guest_base == 0 || guest_base_flags) {
             seg = guest_base_flags;
             offset = 0;
-            if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-                seg |= P_ADDR32;
-            }
-        } else if (TCG_TARGET_REG_BITS == 64) {
-            if (TARGET_LONG_BITS == 32) {
-                tcg_out_ext32u(s, TCG_REG_L0, base);
-                base = TCG_REG_L0;
-            }
-            if (offset != guest_base) {
-                tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
-                index = TCG_REG_L1;
-                offset = 0;
-            }
+        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
+            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
+            index = TCG_REG_L1;
+            offset = 0;
         }
 
         tcg_out_qemu_ld_direct(s, datalo, datahi,
-                               base, index, offset, seg, is64, opc);
+                               addrlo, index, offset, seg, is64, opc);
     }
 #endif
 }
 
 static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
-                                   TCGReg base, intptr_t ofs, int seg,
-                                   TCGMemOp memop)
+                                   TCGReg base, int index, intptr_t ofs,
+                                   int seg, TCGMemOp memop)
 {
     /* ??? Ideally we wouldn't need a scratch register.  For user-only,
        we could perform the bswap twice to restore the original value
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
             tcg_out_mov(s, TCG_TYPE_I32, scratch, datalo);
             datalo = scratch;
         }
-        tcg_out_modrm_offset(s, OPC_MOVB_EvGv + P_REXB_R + seg,
-                             datalo, base, ofs);
+        tcg_out_modrm_sib_offset(s, OPC_MOVB_EvGv + P_REXB_R + seg,
+                                 datalo, base, index, 0, ofs);
         break;
     case MO_16:
         if (bswap) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
             tcg_out_rolw_8(s, scratch);
             datalo = scratch;
         }
-        tcg_out_modrm_offset(s, movop + P_DATA16 + seg, datalo, base, ofs);
+        tcg_out_modrm_sib_offset(s, movop + P_DATA16 + seg, datalo,
+                                 base, index, 0, ofs);
         break;
     case MO_32:
         if (bswap) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
             tcg_out_bswap32(s, scratch);
             datalo = scratch;
         }
-        tcg_out_modrm_offset(s, movop + seg, datalo, base, ofs);
+        tcg_out_modrm_sib_offset(s, movop + seg, datalo, base, index, 0, ofs);
         break;
     case MO_64:
         if (TCG_TARGET_REG_BITS == 64) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
                 tcg_out_bswap64(s, scratch);
                 datalo = scratch;
             }
-            tcg_out_modrm_offset(s, movop + P_REXW + seg, datalo, base, ofs);
+            tcg_out_modrm_sib_offset(s, movop + P_REXW + seg, datalo,
+                                     base, index, 0, ofs);
         } else if (bswap) {
             tcg_out_mov(s, TCG_TYPE_I32, scratch, datahi);
             tcg_out_bswap32(s, scratch);
-            tcg_out_modrm_offset(s, OPC_MOVL_EvGv + seg, scratch, base, ofs);
+            tcg_out_modrm_sib_offset(s, OPC_MOVL_EvGv + seg, scratch,
+                                     base, index, 0, ofs);
             tcg_out_mov(s, TCG_TYPE_I32, scratch, datalo);
             tcg_out_bswap32(s, scratch);
-            tcg_out_modrm_offset(s, OPC_MOVL_EvGv + seg, scratch, base, ofs+4);
+            tcg_out_modrm_sib_offset(s, OPC_MOVL_EvGv + seg, scratch,
+                                     base, index, 0, ofs + 4);
         } else {
             if (real_bswap) {
                 int t = datalo;
                 datalo = datahi;
                 datahi = t;
             }
-            tcg_out_modrm_offset(s, movop + seg, datalo, base, ofs);
-            tcg_out_modrm_offset(s, movop + seg, datahi, base, ofs+4);
+            tcg_out_modrm_sib_offset(s, movop + seg, datalo,
+                                     base, index, 0, ofs);
+            tcg_out_modrm_sib_offset(s, movop + seg, datahi,
+                                     base, index, 0, ofs + 4);
         }
         break;
     default:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
                      label_ptr, offsetof(CPUTLBEntry, addr_write));
 
     /* TLB Hit.  */
-    tcg_out_qemu_st_direct(s, datalo, datahi, TCG_REG_L1, 0, 0, opc);
+    tcg_out_qemu_st_direct(s, datalo, datahi, TCG_REG_L1, -1, 0, 0, opc);
 
     /* Record the current context of a store into ldst label */
     add_qemu_ldst_label(s, false, is64, oi, datalo, datahi, addrlo, addrhi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
 #else
     {
         int32_t offset = guest_base;
-        TCGReg base = addrlo;
+        int index = -1;
         int seg = 0;
 
-        /* See comment in tcg_out_qemu_ld re zero-extension of addrlo.  */
+        /*
+         * Recall we store 32-bit values zero-extended.  No need for
+         * further manual extension or an addr32 (0x67) prefix.
+         */
         if (guest_base == 0 || guest_base_flags) {
             seg = guest_base_flags;
             offset = 0;
-            if (TCG_TARGET_REG_BITS > TARGET_LONG_BITS) {
-                seg |= P_ADDR32;
-            }
-        } else if (TCG_TARGET_REG_BITS == 64) {
-            /* ??? Note that we can't use the same SIB addressing scheme
-               as for loads, since we require L0 free for bswap.  */
-            if (offset != guest_base) {
-                if (TARGET_LONG_BITS == 32) {
-                    tcg_out_ext32u(s, TCG_REG_L0, base);
-                    base = TCG_REG_L0;
-                }
-                tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
-                tgen_arithr(s, ARITH_ADD + P_REXW, TCG_REG_L1, base);
-                base = TCG_REG_L1;
-                offset = 0;
-            } else if (TARGET_LONG_BITS == 32) {
-                tcg_out_ext32u(s, TCG_REG_L1, base);
-                base = TCG_REG_L1;
-            }
+        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
+            /* ??? Note that we require L0 free for bswap.  */
+            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
+            index = TCG_REG_L1;
+            offset = 0;
         }
 
-        tcg_out_qemu_st_direct(s, datalo, datahi, base, offset, seg, opc);
+        tcg_out_qemu_st_direct(s, datalo, datahi,
+                               addrlo, index, offset, seg, opc);
     }
 #endif
 }
-- 
2.17.2

These values are constant between all qemu_ld/st invocations;
there is no need to figure this out each time.  If we cannot
use a segment or an offset directly for guest_base, load the
value into a register in the prologue.

Reviewed-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.inc.c | 101 +++++++++++++++-----------------------
 1 file changed, 40 insertions(+), 61 deletions(-)

diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st_slow_path(TCGContext *s, TCGLabelQemuLdst *l)
     tcg_out_push(s, retaddr);
     tcg_out_jmp(s, qemu_st_helpers[opc & (MO_BSWAP | MO_SIZE)]);
 }
-#elif defined(__x86_64__) && defined(__linux__)
-# include <asm/prctl.h>
-# include <sys/prctl.h>
-
+#elif TCG_TARGET_REG_BITS == 32
+# define x86_guest_base_seg     0
+# define x86_guest_base_index   -1
+# define x86_guest_base_offset  guest_base
+#else
+static int x86_guest_base_seg;
+static int x86_guest_base_index = -1;
+static int32_t x86_guest_base_offset;
+# if defined(__x86_64__) && defined(__linux__)
+#  include <asm/prctl.h>
+#  include <sys/prctl.h>
 int arch_prctl(int code, unsigned long addr);
-
-static int guest_base_flags;
-static inline void setup_guest_base_seg(void)
+static inline int setup_guest_base_seg(void)
 {
     if (arch_prctl(ARCH_SET_GS, guest_base) == 0) {
-        guest_base_flags = P_GS;
+        return P_GS;
     }
+    return 0;
 }
-#else
-# define guest_base_flags 0
-static inline void setup_guest_base_seg(void) { }
+# else
+static inline int setup_guest_base_seg(void)
+{
+    return 0;
+}
+# endif
 #endif /* SOFTMMU */
 
 static void tcg_out_qemu_ld_direct(TCGContext *s, TCGReg datalo, TCGReg datahi,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is64)
     add_qemu_ldst_label(s, true, is64, oi, datalo, datahi, addrlo, addrhi,
                         s->code_ptr, label_ptr);
 #else
-    {
-        int32_t offset = guest_base;
-        int index = -1;
-        int seg = 0;
-
-        /*
-         * Recall we store 32-bit values zero-extended.  No need for
-         * further manual extension or an addr32 (0x67) prefix.
-         */
-        if (guest_base == 0 || guest_base_flags) {
-            seg = guest_base_flags;
-            offset = 0;
-        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
-            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
-            index = TCG_REG_L1;
-            offset = 0;
-        }
-
-        tcg_out_qemu_ld_direct(s, datalo, datahi,
-                               addrlo, index, offset, seg, is64, opc);
-    }
+    tcg_out_qemu_ld_direct(s, datalo, datahi, addrlo, x86_guest_base_index,
+                           x86_guest_base_offset, x86_guest_base_seg,
+                           is64, opc);
 #endif
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is64)
     add_qemu_ldst_label(s, false, is64, oi, datalo, datahi, addrlo, addrhi,
                         s->code_ptr, label_ptr);
 #else
-    {
-        int32_t offset = guest_base;
-        int index = -1;
-        int seg = 0;
-
-        /*
-         * Recall we store 32-bit values zero-extended.  No need for
-         * further manual extension or an addr32 (0x67) prefix.
-         */
-        if (guest_base == 0 || guest_base_flags) {
-            seg = guest_base_flags;
-            offset = 0;
-        } else if (TCG_TARGET_REG_BITS == 64 && offset != guest_base) {
-            /* ??? Note that we require L0 free for bswap.  */
-            tcg_out_movi(s, TCG_TYPE_I64, TCG_REG_L1, guest_base);
-            index = TCG_REG_L1;
-            offset = 0;
-        }
-
-        tcg_out_qemu_st_direct(s, datalo, datahi,
-                               addrlo, index, offset, seg, opc);
-    }
+    tcg_out_qemu_st_direct(s, datalo, datahi, addrlo, x86_guest_base_index,
+                           x86_guest_base_offset, x86_guest_base_seg, opc);
 #endif
 }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_target_qemu_prologue(TCGContext *s)
 		         (ARRAY_SIZE(tcg_target_callee_save_regs) + 2) * 4
 			 + stack_addend);
 #else
+# if !defined(CONFIG_SOFTMMU) && TCG_TARGET_REG_BITS == 64
+    if (guest_base) {
+        int seg = setup_guest_base_seg();
+        if (seg != 0) {
+            x86_guest_base_seg = seg;
+        } else if (guest_base == (int32_t)guest_base) {
+            x86_guest_base_offset = guest_base;
+        } else {
+            /* Choose R12 because, as a base, it requires a SIB byte. */
+            x86_guest_base_index = TCG_REG_R12;
+            tcg_out_mov(s, TCG_TYPE_PTR, x86_guest_base_index, guest_base);
+            tcg_regset_set_reg(s->reserved_regs, x86_guest_base_index);
+        }
+    }
+# endif
     tcg_out_mov(s, TCG_TYPE_PTR, TCG_AREG0, tcg_target_call_iarg_regs[0]);
     tcg_out_addi(s, TCG_REG_ESP, -stack_addend);
     /* jmp *tb.  */
@@ -XXX,XX +XXX,XX @@ static void tcg_target_qemu_prologue(TCGContext *s)
         tcg_out_pop(s, tcg_target_callee_save_regs[i]);
     }
     tcg_out_opc(s, OPC_RET, 0, 0, 0);
-
-#if !defined(CONFIG_SOFTMMU)
-    /* Try to set up a segment register to point to guest_base.  */
-    if (guest_base) {
-        setup_guest_base_seg();
-    }
-#endif
 }
 
 static void tcg_out_nop_fill(tcg_insn_unit *p, int count)
-- 
2.17.2

Based on the only current user, Sparc:

New code uses 1 constant that takes 2 insns to create, plus 8.
Old code used 2 constants that took 2 insns to create, plus 9.
The result is a new total of 10 vs an old total of 13.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-op.c | 54 ++++++++++++++++++++++++++--------------------------
 1 file changed, 27 insertions(+), 27 deletions(-)

diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i32(TCGv_i32 ret, TCGv_i32 arg)
     if (TCG_TARGET_HAS_bswap32_i32) {
         tcg_gen_op2_i32(INDEX_op_bswap32_i32, ret, arg);
     } else {
-        TCGv_i32 t0, t1;
-        t0 = tcg_temp_new_i32();
-        t1 = tcg_temp_new_i32();
+        TCGv_i32 t0 = tcg_temp_new_i32();
+        TCGv_i32 t1 = tcg_temp_new_i32();
+        TCGv_i32 t2 = tcg_const_i32(0x00ff00ff);
 
-        tcg_gen_shli_i32(t0, arg, 24);
+                                        /* arg = abcd */
+        tcg_gen_shri_i32(t0, arg, 8);   /*  t0 = .abc */
+        tcg_gen_and_i32(t1, arg, t2);   /*  t1 = .b.d */
+        tcg_gen_and_i32(t0, t0, t2);    /*  t0 = .a.c */
+        tcg_temp_free_i32(t2);
+        tcg_gen_shli_i32(t1, t1, 8);    /*  t1 = b.d. */
+        tcg_gen_or_i32(ret, t0, t1);    /* ret = badc */
 
-        tcg_gen_andi_i32(t1, arg, 0x0000ff00);
-        tcg_gen_shli_i32(t1, t1, 8);
-        tcg_gen_or_i32(t0, t0, t1);
+        tcg_gen_shri_i32(t0, ret, 16);  /*  t0 = ..ba */
+        tcg_gen_shli_i32(t1, ret, 16);  /*  t1 = dc.. */
+        tcg_gen_or_i32(ret, t0, t1);    /* ret = dcba */
 
-        tcg_gen_shri_i32(t1, arg, 8);
-        tcg_gen_andi_i32(t1, t1, 0x0000ff00);
-        tcg_gen_or_i32(t0, t0, t1);
-
-        tcg_gen_shri_i32(t1, arg, 24);
-        tcg_gen_or_i32(ret, t0, t1);
         tcg_temp_free_i32(t0);
         tcg_temp_free_i32(t1);
     }
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap32_i64(TCGv_i64 ret, TCGv_i64 arg)
     } else if (TCG_TARGET_HAS_bswap32_i64) {
         tcg_gen_op2_i64(INDEX_op_bswap32_i64, ret, arg);
     } else {
-        TCGv_i64 t0, t1;
-        t0 = tcg_temp_new_i64();
-        t1 = tcg_temp_new_i64();
+        TCGv_i64 t0 = tcg_temp_new_i64();
+        TCGv_i64 t1 = tcg_temp_new_i64();
+        TCGv_i64 t2 = tcg_const_i64(0x00ff00ff);
 
-        tcg_gen_shli_i64(t0, arg, 24);
-        tcg_gen_ext32u_i64(t0, t0);
+                                        /* arg = ....abcd */
+        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .....abc */
+        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .....b.d */
+        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .....a.c */
+        tcg_temp_free_i64(t2);
+        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = ....b.d. */
+        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....badc */
 
-        tcg_gen_andi_i64(t1, arg, 0x0000ff00);
-        tcg_gen_shli_i64(t1, t1, 8);
-        tcg_gen_or_i64(t0, t0, t1);
+        tcg_gen_shli_i64(t1, ret, 48);  /*  t1 = dc...... */
+        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ......ba */
+        tcg_gen_shri_i64(t1, ret, 32);  /*  t1 = ....dc.. */
+        tcg_gen_or_i64(ret, t0, t1);    /* ret = ....dcba */
 
-        tcg_gen_shri_i64(t1, arg, 8);
-        tcg_gen_andi_i64(t1, t1, 0x0000ff00);
-        tcg_gen_or_i64(t0, t0, t1);
-
-        tcg_gen_shri_i64(t1, arg, 24);
-        tcg_gen_or_i64(ret, t0, t1);
         tcg_temp_free_i64(t0);
         tcg_temp_free_i64(t1);
     }
-- 
2.17.2

Based on the only current user, Sparc:

New code uses 2 constants that take 2 insns to load from constant pool,
plus 13.  Old code used 6 constants that took 1 or 2 insns to create,
plus 21.  The result is a new total of 17 vs an old total of 29.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-op.c | 43 ++++++++++++++++++-------------------------
 1 file changed, 18 insertions(+), 25 deletions(-)

diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ void tcg_gen_bswap64_i64(TCGv_i64 ret, TCGv_i64 arg)
     } else {
         TCGv_i64 t0 = tcg_temp_new_i64();
         TCGv_i64 t1 = tcg_temp_new_i64();
+        TCGv_i64 t2 = tcg_temp_new_i64();
 
-        tcg_gen_shli_i64(t0, arg, 56);
+                                        /* arg = abcdefgh */
+        tcg_gen_movi_i64(t2, 0x00ff00ff00ff00ffull);
+        tcg_gen_shri_i64(t0, arg, 8);   /*  t0 = .abcdefg */
+        tcg_gen_and_i64(t1, arg, t2);   /*  t1 = .b.d.f.h */
+        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = .a.c.e.g */
+        tcg_gen_shli_i64(t1, t1, 8);    /*  t1 = b.d.f.h. */
+        tcg_gen_or_i64(ret, t0, t1);    /* ret = badcfehg */
 
-        tcg_gen_andi_i64(t1, arg, 0x0000ff00);
-        tcg_gen_shli_i64(t1, t1, 40);
-        tcg_gen_or_i64(t0, t0, t1);
+        tcg_gen_movi_i64(t2, 0x0000ffff0000ffffull);
+        tcg_gen_shri_i64(t0, ret, 16);  /*  t0 = ..badcfe */
+        tcg_gen_and_i64(t1, ret, t2);   /*  t1 = ..dc..hg */
+        tcg_gen_and_i64(t0, t0, t2);    /*  t0 = ..ba..fe */
+        tcg_gen_shli_i64(t1, t1, 16);   /*  t1 = dc..hg.. */
+        tcg_gen_or_i64(ret, t0, t1);    /* ret = dcbahgfe */
 
-        tcg_gen_andi_i64(t1, arg, 0x00ff0000);
-        tcg_gen_shli_i64(t1, t1, 24);
-        tcg_gen_or_i64(t0, t0, t1);
+        tcg_gen_shri_i64(t0, ret, 32);  /*  t0 = ....dcba */
+        tcg_gen_shli_i64(t1, ret, 32);  /*  t1 = hgfe.... */
+        tcg_gen_or_i64(ret, t0, t1);    /* ret = hgfedcba */
 
-        tcg_gen_andi_i64(t1, arg, 0xff000000);
-        tcg_gen_shli_i64(t1, t1, 8);
-        tcg_gen_or_i64(t0, t0, t1);
-
-        tcg_gen_shri_i64(t1, arg, 8);
-        tcg_gen_andi_i64(t1, t1, 0xff000000);
-        tcg_gen_or_i64(t0, t0, t1);
-
-        tcg_gen_shri_i64(t1, arg, 24);
-        tcg_gen_andi_i64(t1, t1, 0x00ff0000);
-        tcg_gen_or_i64(t0, t0, t1);
-
-        tcg_gen_shri_i64(t1, arg, 40);
-        tcg_gen_andi_i64(t1, t1, 0x0000ff00);
-        tcg_gen_or_i64(t0, t0, t1);
-
-        tcg_gen_shri_i64(t1, arg, 56);
-        tcg_gen_or_i64(ret, t0, t1);
         tcg_temp_free_i64(t0);
         tcg_temp_free_i64(t1);
+        tcg_temp_free_i64(t2);
     }
 }
 
-- 
2.17.2

Somehow we forgot these operations, once upon a time.
This will allow immediate stores to have their bswap
optimized away.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static TCGArg do_constant_folding_2(TCGOpcode op, TCGArg x, TCGArg y)
     CASE_OP_32_64(ext16u):
         return (uint16_t)x;
 
+    CASE_OP_32_64(bswap16):
+        return bswap16(x);
+
+    CASE_OP_32_64(bswap32):
+        return bswap32(x);
+
+    case INDEX_op_bswap64_i64:
+        return bswap64(x);
+
     case INDEX_op_ext_i32_i64:
     case INDEX_op_ext32s_i64:
         return (int32_t)x;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64(ext16s):
         CASE_OP_32_64(ext16u):
         CASE_OP_32_64(ctpop):
+        CASE_OP_32_64(bswap16):
+        CASE_OP_32_64(bswap32):
+        case INDEX_op_bswap64_i64:
         case INDEX_op_ext32s_i64:
         case INDEX_op_ext32u_i64:
         case INDEX_op_ext_i32_i64:
-- 
2.17.2

For now, defined universally as true, since we previously required
backends to implement swapped memory operations.  Future patches
may now remove that support where it is onerous.

diff --git a/tcg/aarch64/tcg-target.h b/tcg/aarch64/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/aarch64/tcg-target.h
+++ b/tcg/aarch64/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
 #define TCG_TARGET_HAS_mul_vec          1
 
 #define TCG_TARGET_DEFAULT_MO (0)
+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 
 static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
 {
diff --git a/tcg/arm/tcg-target.h b/tcg/arm/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/arm/tcg-target.h
+++ b/tcg/arm/tcg-target.h
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 #define TCG_TARGET_DEFAULT_MO (0)
+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 
 static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
 {
diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -XXX,XX +XXX,XX @@ static inline void tb_target_set_jmp_target(uintptr_t tc_ptr,
 
 #define TCG_TARGET_DEFAULT_MO (TCG_MO_ALL & ~TCG_MO_ST_LD)
 
+#define TCG_TARGET_HAS_MEMORY_BSWAP  1
+
 #ifdef CONFIG_SOFTMMU
 #define TCG_TARGET_NEED_LDST_LABELS
 #endif
diff --git a/tcg/mips/tcg-target.h b/tcg/mips/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.h
+++ b/tcg/mips/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool use_mips32r2_instructions;
 #endif
 
 #define TCG_TARGET_DEFAULT_MO (0)
+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 
 static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
 {
diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ void flush_icache_range(uintptr_t start, uintptr_t stop);
 void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t);
 
 #define TCG_TARGET_DEFAULT_MO (0)
+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 
 #ifdef CONFIG_SOFTMMU
 #define TCG_TARGET_NEED_LDST_LABELS
diff --git a/tcg/s390/tcg-target.h b/tcg/s390/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/s390/tcg-target.h
+++ b/tcg/s390/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern uint64_t s390_facilities;
 #define TCG_TARGET_CALL_STACK_OFFSET	160
 
 #define TCG_TARGET_EXTEND_ARGS 1
+#define TCG_TARGET_HAS_MEMORY_BSWAP   1
 
 #define TCG_TARGET_DEFAULT_MO (TCG_MO_ALL & ~TCG_MO_ST_LD)
 
diff --git a/tcg/sparc/tcg-target.h b/tcg/sparc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/sparc/tcg-target.h
+++ b/tcg/sparc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool use_vis3_instructions;
 #define TCG_AREG0 TCG_REG_I0
 
 #define TCG_TARGET_DEFAULT_MO (0)
+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
 
 static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
 {
diff --git a/tcg/tci/tcg-target.h b/tcg/tci/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tci/tcg-target.h
+++ b/tcg/tci/tcg-target.h
@@ -XXX,XX +XXX,XX @@ static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
    We prefer consistency across hosts on this.  */
 #define TCG_TARGET_DEFAULT_MO  (0)
 
+#define TCG_TARGET_HAS_MEMORY_BSWAP     1
+
 static inline void tb_target_set_jmp_target(uintptr_t tc_ptr,
                                             uintptr_t jmp_addr, uintptr_t addr)
 {
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -XXX,XX +XXX,XX @@ static void tcg_gen_req_mo(TCGBar type)
 
 void tcg_gen_qemu_ld_i32(TCGv_i32 val, TCGv addr, TCGArg idx, TCGMemOp memop)
 {
+    TCGMemOp orig_memop;
+
     tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 0, 0);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
                                addr, trace_mem_get_info(memop, 0));
+
+    orig_memop = memop;
+    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
+        memop &= ~MO_BSWAP;
+        /* The bswap primitive requires zero-extended input.  */
+        if ((memop & MO_SSIZE) == MO_SW) {
+            memop &= ~MO_SIGN;
+        }
+    }
+
     gen_ldst_i32(INDEX_op_qemu_ld_i32, val, addr, memop, idx);
+
+    if ((orig_memop ^ memop) & MO_BSWAP) {
+        switch (orig_memop & MO_SIZE) {
+        case MO_16:
+            tcg_gen_bswap16_i32(val, val);
+            if (orig_memop & MO_SIGN) {
+                tcg_gen_ext16s_i32(val, val);
+            }
+            break;
+        case MO_32:
+            tcg_gen_bswap32_i32(val, val);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+    }
 }
 
 void tcg_gen_qemu_st_i32(TCGv_i32 val, TCGv addr, TCGArg idx, TCGMemOp memop)
 {
+    TCGv_i32 swap = NULL;
+
     tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 0, 1);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
                                addr, trace_mem_get_info(memop, 1));
+
+    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
+        swap = tcg_temp_new_i32();
+        switch (memop & MO_SIZE) {
+        case MO_16:
+            tcg_gen_ext16u_i32(swap, val);
+            tcg_gen_bswap16_i32(swap, swap);
+            break;
+        case MO_32:
+            tcg_gen_bswap32_i32(swap, val);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        val = swap;
+        memop &= ~MO_BSWAP;
+    }
+
     gen_ldst_i32(INDEX_op_qemu_st_i32, val, addr, memop, idx);
+
+    if (swap) {
+        tcg_temp_free_i32(swap);
+    }
 }
 
 void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, TCGMemOp memop)
 {
-    tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
+    TCGMemOp orig_memop;
+
     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
         tcg_gen_qemu_ld_i32(TCGV_LOW(val), addr, idx, memop);
         if (memop & MO_SIGN) {
@@ -XXX,XX +XXX,XX @@ void tcg_gen_qemu_ld_i64(TCGv_i64 val, TCGv addr, TCGArg idx, TCGMemOp memop)
         return;
     }
 
+    tcg_gen_req_mo(TCG_MO_LD_LD | TCG_MO_ST_LD);
     memop = tcg_canonicalize_memop(memop, 1, 0);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
                                addr, trace_mem_get_info(memop, 0));
+
+    orig_memop = memop;
+    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
+        memop &= ~MO_BSWAP;
+        /* The bswap primitive requires zero-extended input.  */
+        if ((memop & MO_SIGN) && (memop & MO_SIZE) < MO_64) {
+            memop &= ~MO_SIGN;
+        }
+    }
+
     gen_ldst_i64(INDEX_op_qemu_ld_i64, val, addr, memop, idx);
+
+    if ((orig_memop ^ memop) & MO_BSWAP) {
+        switch (orig_memop & MO_SIZE) {
+        case MO_16:
+            tcg_gen_bswap16_i64(val, val);
+            if (orig_memop & MO_SIGN) {
+                tcg_gen_ext16s_i64(val, val);
+            }
+            break;
+        case MO_32:
+            tcg_gen_bswap32_i64(val, val);
+            if (orig_memop & MO_SIGN) {
+                tcg_gen_ext32s_i64(val, val);
+            }
+            break;
+        case MO_64:
+            tcg_gen_bswap64_i64(val, val);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+    }
 }
 
 void tcg_gen_qemu_st_i64(TCGv_i64 val, TCGv addr, TCGArg idx, TCGMemOp memop)
 {
-    tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
+    TCGv_i64 swap = NULL;
+
     if (TCG_TARGET_REG_BITS == 32 && (memop & MO_SIZE) < MO_64) {
         tcg_gen_qemu_st_i32(TCGV_LOW(val), addr, idx, memop);
         return;
     }
 
+    tcg_gen_req_mo(TCG_MO_LD_ST | TCG_MO_ST_ST);
     memop = tcg_canonicalize_memop(memop, 1, 1);
     trace_guest_mem_before_tcg(tcg_ctx->cpu, cpu_env,
                                addr, trace_mem_get_info(memop, 1));
+
+    if (!TCG_TARGET_HAS_MEMORY_BSWAP && (memop & MO_BSWAP)) {
+        swap = tcg_temp_new_i64();
+        switch (memop & MO_SIZE) {
+        case MO_16:
+            tcg_gen_ext16u_i64(swap, val);
+            tcg_gen_bswap16_i64(swap, swap);
+            break;
+        case MO_32:
+            tcg_gen_ext32u_i64(swap, val);
+            tcg_gen_bswap32_i64(swap, swap);
+            break;
+        case MO_64:
+            tcg_gen_bswap64_i64(swap, val);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        val = swap;
+        memop &= ~MO_BSWAP;
+    }
+
     gen_ldst_i64(INDEX_op_qemu_st_i64, val, addr, memop, idx);
+
+    if (swap) {
+        tcg_temp_free_i64(swap);
+    }
 }
 
 static void tcg_gen_ext_i32(TCGv_i32 ret, TCGv_i32 val, TCGMemOp opc)
-- 
2.17.2

From: Alistair Francis <Alistair.Francis@wdc.com>

Instead of hard coding 31 for the shift right use TCG_TARGET_REG_BITS - 1.

Signed-off-by: Alistair Francis <alistair.francis@wdc.com>
Message-Id: <7dfbddf7014a595150aa79011ddb342c3cc17ec3.1544648105.git.alistair.francis@wdc.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/mips/tcg-target.inc.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tcg/mips/tcg-target.inc.c b/tcg/mips/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/mips/tcg-target.inc.c
+++ b/tcg/mips/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void tcg_out_addsub2(TCGContext *s, TCGReg rl, TCGReg rh, TCGReg al,
             tcg_out_opc_imm(s, OPC_ADDIU, rl, al, bl);
             tcg_out_opc_imm(s, OPC_SLTIU, TCG_TMP0, rl, bl);
         } else if (rl == al && rl == bl) {
-            tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, al, 31);
+            tcg_out_opc_sa(s, OPC_SRL, TCG_TMP0, al, TCG_TARGET_REG_BITS - 1);
             tcg_out_opc_reg(s, OPC_ADDU, rl, al, bl);
         } else {
             tcg_out_opc_reg(s, OPC_ADDU, rl, al, bl);
-- 
2.17.2

From: "Emilio G. Cota" <cota@braap.org>

It's unused since 75e8b9b7aa0b95a761b9add7e2f09248b101a392.

Signed-off-by: Emilio G. Cota <cota@braap.org>
Message-Id: <20181209193749.12277-9-cota@braap.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg.h      |  4 ++--
 tcg/optimize.c |  4 ++--
 tcg/tcg.c      | 10 ++++------
 3 files changed, 8 insertions(+), 10 deletions(-)

diff --git a/tcg/tcg.h b/tcg/tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -XXX,XX +XXX,XX @@ void tcg_gen_callN(void *func, TCGTemp *ret, int nargs, TCGTemp **args);
 
 TCGOp *tcg_emit_op(TCGOpcode opc);
 void tcg_op_remove(TCGContext *s, TCGOp *op);
-TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *op, TCGOpcode opc, int narg);
-TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *op, TCGOpcode opc, int narg);
+TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *op, TCGOpcode opc);
+TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *op, TCGOpcode opc);
 
 void tcg_optimize(TCGContext *s);
 
diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 uint64_t a = ((uint64_t)ah << 32) | al;
                 uint64_t b = ((uint64_t)bh << 32) | bl;
                 TCGArg rl, rh;
-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32, 2);
+                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32);
 
                 if (opc == INDEX_op_add2_i32) {
                     a += b;
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
                 uint32_t b = arg_info(op->args[3])->val;
                 uint64_t r = (uint64_t)a * b;
                 TCGArg rl, rh;
-                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32, 2);
+                TCGOp *op2 = tcg_op_insert_before(s, op, INDEX_op_movi_i32);
 
                 rl = op->args[0];
                 rh = op->args[1];
diff --git a/tcg/tcg.c b/tcg/tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -XXX,XX +XXX,XX @@ TCGOp *tcg_emit_op(TCGOpcode opc)
     return op;
 }
 
-TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *old_op,
-                            TCGOpcode opc, int nargs)
+TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *old_op, TCGOpcode opc)
 {
     TCGOp *new_op = tcg_op_alloc(opc);
     QTAILQ_INSERT_BEFORE(old_op, new_op, link);
     return new_op;
 }
 
-TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op,
-                           TCGOpcode opc, int nargs)
+TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op, TCGOpcode opc)
 {
     TCGOp *new_op = tcg_op_alloc(opc);
     QTAILQ_INSERT_AFTER(&s->ops, old_op, new_op, link);
@@ -XXX,XX +XXX,XX @@ static bool liveness_pass_2(TCGContext *s)
                     TCGOpcode lopc = (arg_ts->type == TCG_TYPE_I32
                                       ? INDEX_op_ld_i32
                                       : INDEX_op_ld_i64);
-                    TCGOp *lop = tcg_op_insert_before(s, op, lopc, 3);
+                    TCGOp *lop = tcg_op_insert_before(s, op, lopc);
 
                     lop->args[0] = temp_arg(dir_ts);
                     lop->args[1] = temp_arg(arg_ts->mem_base);
@@ -XXX,XX +XXX,XX @@ static bool liveness_pass_2(TCGContext *s)
                 TCGOpcode sopc = (arg_ts->type == TCG_TYPE_I32
                                   ? INDEX_op_st_i32
                                   : INDEX_op_st_i64);
-                TCGOp *sop = tcg_op_insert_after(s, op, sopc, 3);
+                TCGOp *sop = tcg_op_insert_after(s, op, sopc);
 
                 sop->args[0] = temp_arg(dir_ts);
                 sop->args[1] = temp_arg(arg_ts->mem_base);
-- 
2.17.2

From: "Emilio G. Cota" <cota@braap.org>

Before moving them all to include/qemu/xxhash.h.

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/tb-hash-xx.h | 41 +++++++++++++++++++++++++++++----------
 include/exec/tb-hash.h    |  2 +-
 tests/qht-bench.c         |  2 +-
 util/qsp.c                | 12 ++++++------
 4 files changed, 39 insertions(+), 18 deletions(-)

diff --git a/include/exec/tb-hash-xx.h b/include/exec/tb-hash-xx.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/tb-hash-xx.h
+++ b/include/exec/tb-hash-xx.h
@@ -XXX,XX +XXX,XX @@
 #define PRIME32_4    668265263U
 #define PRIME32_5    374761393U
 
-#define TB_HASH_XX_SEED 1
+#define QEMU_XXHASH_SEED 1
 
 /*
  * xxhash32, customized for input variables that are not guaranteed to be
  * contiguous in memory.
  */
 static inline uint32_t
-tb_hash_func7(uint64_t a0, uint64_t b0, uint32_t e, uint32_t f, uint32_t g)
+qemu_xxhash7(uint64_t ab, uint64_t cd, uint32_t e, uint32_t f, uint32_t g)
 {
-    uint32_t v1 = TB_HASH_XX_SEED + PRIME32_1 + PRIME32_2;
-    uint32_t v2 = TB_HASH_XX_SEED + PRIME32_2;
-    uint32_t v3 = TB_HASH_XX_SEED + 0;
-    uint32_t v4 = TB_HASH_XX_SEED - PRIME32_1;
-    uint32_t a = a0 >> 32;
-    uint32_t b = a0;
-    uint32_t c = b0 >> 32;
-    uint32_t d = b0;
+    uint32_t v1 = QEMU_XXHASH_SEED + PRIME32_1 + PRIME32_2;
+    uint32_t v2 = QEMU_XXHASH_SEED + PRIME32_2;
+    uint32_t v3 = QEMU_XXHASH_SEED + 0;
+    uint32_t v4 = QEMU_XXHASH_SEED - PRIME32_1;
+    uint32_t a = ab >> 32;
+    uint32_t b = ab;
+    uint32_t c = cd >> 32;
+    uint32_t d = cd;
     uint32_t h32;
 
     v1 += a * PRIME32_2;
@@ -XXX,XX +XXX,XX @@ tb_hash_func7(uint64_t a0, uint64_t b0, uint32_t e, uint32_t f, uint32_t g)
     return h32;
 }
 
+static inline uint32_t qemu_xxhash2(uint64_t ab)
+{
+    return qemu_xxhash7(ab, 0, 0, 0, 0);
+}
+
+static inline uint32_t qemu_xxhash4(uint64_t ab, uint64_t cd)
+{
+    return qemu_xxhash7(ab, cd, 0, 0, 0);
+}
+
+static inline uint32_t qemu_xxhash5(uint64_t ab, uint64_t cd, uint32_t e)
+{
+    return qemu_xxhash7(ab, cd, e, 0, 0);
+}
+
+static inline uint32_t qemu_xxhash6(uint64_t ab, uint64_t cd, uint32_t e,
+                                    uint32_t f)
+{
+    return qemu_xxhash7(ab, cd, e, f, 0);
+}
+
 #endif /* EXEC_TB_HASH_XX_H */
diff --git a/include/exec/tb-hash.h b/include/exec/tb-hash.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/tb-hash.h
+++ b/include/exec/tb-hash.h
@@ -XXX,XX +XXX,XX @@ static inline
 uint32_t tb_hash_func(tb_page_addr_t phys_pc, target_ulong pc, uint32_t flags,
                       uint32_t cf_mask, uint32_t trace_vcpu_dstate)
 {
-    return tb_hash_func7(phys_pc, pc, flags, cf_mask, trace_vcpu_dstate);
+    return qemu_xxhash7(phys_pc, pc, flags, cf_mask, trace_vcpu_dstate);
 }
 
 #endif
diff --git a/tests/qht-bench.c b/tests/qht-bench.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/qht-bench.c
+++ b/tests/qht-bench.c
@@ -XXX,XX +XXX,XX @@ static bool is_equal(const void *ap, const void *bp)
 
 static uint32_t h(unsigned long v)
 {
-    return tb_hash_func7(v, 0, 0, 0, 0);
+    return qemu_xxhash2(v);
 }
 
 static uint32_t hval(unsigned long v)
diff --git a/util/qsp.c b/util/qsp.c
index XXXXXXX..XXXXXXX 100644
--- a/util/qsp.c
+++ b/util/qsp.c
@@ -XXX,XX +XXX,XX @@ QemuCondWaitFunc qemu_cond_wait_func = qemu_cond_wait_impl;
  * without it we still get a pretty unique hash.
  */
 static inline
-uint32_t do_qsp_callsite_hash(const QSPCallSite *callsite, uint64_t a)
+uint32_t do_qsp_callsite_hash(const QSPCallSite *callsite, uint64_t ab)
 {
-    uint64_t b = (uint64_t)(uintptr_t)callsite->obj;
+    uint64_t cd = (uint64_t)(uintptr_t)callsite->obj;
     uint32_t e = callsite->line;
     uint32_t f = callsite->type;
 
-    return tb_hash_func7(a, b, e, f, 0);
+    return qemu_xxhash6(ab, cd, e, f);
 }
 
 static inline
@@ -XXX,XX +XXX,XX @@ static uint32_t qsp_entry_no_thread_hash(const QSPEntry *entry)
 static uint32_t qsp_entry_no_thread_obj_hash(const QSPEntry *entry)
 {
     const QSPCallSite *callsite = entry->callsite;
-    uint64_t a = g_str_hash(callsite->file);
-    uint64_t b = callsite->line;
+    uint64_t ab = g_str_hash(callsite->file);
+    uint64_t cd = callsite->line;
     uint32_t e = callsite->type;
 
-    return tb_hash_func7(a, b, e, 0, 0);
+    return qemu_xxhash5(ab, cd, e);
 }
 
 static bool qsp_callsite_cmp(const void *ap, const void *bp)
-- 
2.17.2

From: "Emilio G. Cota" <cota@braap.org>

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/tb-hash.h                       | 2 +-
 include/{exec/tb-hash-xx.h => qemu/xxhash.h} | 6 +++---
 tests/qht-bench.c                            | 2 +-
 util/qsp.c                                   | 2 +-
 4 files changed, 6 insertions(+), 6 deletions(-)
 rename include/{exec/tb-hash-xx.h => qemu/xxhash.h} (97%)

diff --git a/include/exec/tb-hash.h b/include/exec/tb-hash.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/tb-hash.h
+++ b/include/exec/tb-hash.h
@@ -XXX,XX +XXX,XX @@
 #ifndef EXEC_TB_HASH_H
 #define EXEC_TB_HASH_H
 
-#include "exec/tb-hash-xx.h"
+#include "qemu/xxhash.h"
 
 #ifdef CONFIG_SOFTMMU
 
diff --git a/include/exec/tb-hash-xx.h b/include/qemu/xxhash.h
similarity index 97%
rename from include/exec/tb-hash-xx.h
rename to include/qemu/xxhash.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/tb-hash-xx.h
+++ b/include/qemu/xxhash.h
@@ -XXX,XX +XXX,XX @@
  * - xxHash source repository : https://github.com/Cyan4973/xxHash
  */
 
-#ifndef EXEC_TB_HASH_XX_H
-#define EXEC_TB_HASH_XX_H
+#ifndef QEMU_XXHASH_H
+#define QEMU_XXHASH_H
 
 #include "qemu/bitops.h"
 
@@ -XXX,XX +XXX,XX @@ static inline uint32_t qemu_xxhash6(uint64_t ab, uint64_t cd, uint32_t e,
     return qemu_xxhash7(ab, cd, e, f, 0);
 }
 
-#endif /* EXEC_TB_HASH_XX_H */
+#endif /* QEMU_XXHASH_H */
diff --git a/tests/qht-bench.c b/tests/qht-bench.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/qht-bench.c
+++ b/tests/qht-bench.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/atomic.h"
 #include "qemu/qht.h"
 #include "qemu/rcu.h"
-#include "exec/tb-hash-xx.h"
+#include "qemu/xxhash.h"
 
 struct thread_stats {
     size_t rd;
diff --git a/util/qsp.c b/util/qsp.c
index XXXXXXX..XXXXXXX 100644
--- a/util/qsp.c
+++ b/util/qsp.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/timer.h"
 #include "qemu/qht.h"
 #include "qemu/rcu.h"
-#include "exec/tb-hash-xx.h"
+#include "qemu/xxhash.h"
 
 enum QSPType {
     QSP_MUTEX,
-- 
2.17.2

From: "Emilio G. Cota" <cota@braap.org>

Change the order in which we extract a/b and c/d to
match the output of the upstream xxhash32.

Tested with:
  https://github.com/cota/xxhash/tree/qemu

Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Tested-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Emilio G. Cota <cota@braap.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/qemu/xxhash.h | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/include/qemu/xxhash.h b/include/qemu/xxhash.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/xxhash.h
+++ b/include/qemu/xxhash.h
@@ -XXX,XX +XXX,XX @@ qemu_xxhash7(uint64_t ab, uint64_t cd, uint32_t e, uint32_t f, uint32_t g)
     uint32_t v2 = QEMU_XXHASH_SEED + PRIME32_2;
     uint32_t v3 = QEMU_XXHASH_SEED + 0;
     uint32_t v4 = QEMU_XXHASH_SEED - PRIME32_1;
-    uint32_t a = ab >> 32;
-    uint32_t b = ab;
-    uint32_t c = cd >> 32;
-    uint32_t d = cd;
+    uint32_t a = ab;
+    uint32_t b = ab >> 32;
+    uint32_t c = cd;
+    uint32_t d = cd >> 32;
     uint32_t h32;
 
     v1 += a * PRIME32_2;
-- 
2.17.2

I didn't get this fix pushed back into the patch set that I actually
sent last week.  The patch is in target-arm.next, and I'm sure you
would have eventually seen the error in testing.

r~
---
 target/arm/kvm64.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
                               ARM64_SYS_REG(3, 0, 0, 6, 0));
         err |= read_sys_reg64(fdarray[2], &ahcf->isar.id_aa64isar1,
                               ARM64_SYS_REG(3, 0, 0, 6, 1));
-        err |= read_sys_reg64(fdarray[2], &achf->isar.id_aa64mmfr0,
+        err |= read_sys_reg64(fdarray[2], &ahcf->isar.id_aa64mmfr0,
                               ARM64_SYS_REG(3, 0, 0, 7, 0));
-        err |= read_sys_reg64(fdarray[2], &achf->isar.id_aa64mmfr1,
+        err |= read_sys_reg64(fdarray[2], &ahcf->isar.id_aa64mmfr1,
                               ARM64_SYS_REG(3, 0, 0, 7, 1));
 
         /*
-- 
2.17.2

The following changes since commit 9e5319ca52a5b9e84d55ad9c36e2c0b317a122bb:

Merge remote-tracking branch 'remotes/bonzini/tags/for-upstream' into staging (2019-10-04 18:32:34 +0100)

are available in the Git repository at:

https://github.com/rth7680/qemu.git tags/pull-tcg-20191013

for you to fetch changes up to d2f86bba6931388e275e8eb4ccd1dbcc7cae6328:

cpus: kick all vCPUs when running thread=single (2019-10-07 14:08:58 -0400)

----------------------------------------------------------------
Host vector support for tcg/ppc.
Fix thread=single cpu kicking.

----------------------------------------------------------------
Alex Bennée (1):
      cpus: kick all vCPUs when running thread=single

Richard Henderson (22):
      tcg/ppc: Introduce Altivec registers
      tcg/ppc: Introduce macro VX4()
      tcg/ppc: Introduce macros VRT(), VRA(), VRB(), VRC()
      tcg/ppc: Create TCGPowerISA and have_isa
      tcg/ppc: Replace HAVE_ISA_2_06
      tcg/ppc: Replace HAVE_ISEL macro with a variable
      tcg/ppc: Enable tcg backend vector compilation
      tcg/ppc: Add support for load/store/logic/comparison
      tcg/ppc: Add support for vector maximum/minimum
      tcg/ppc: Add support for vector add/subtract
      tcg/ppc: Add support for vector saturated add/subtract
      tcg/ppc: Support vector shift by immediate
      tcg/ppc: Support vector multiply
      tcg/ppc: Support vector dup2
      tcg/ppc: Enable Altivec detection
      tcg/ppc: Update vector support for VSX
      tcg/ppc: Update vector support for v2.07 Altivec
      tcg/ppc: Update vector support for v2.07 VSX
      tcg/ppc: Update vector support for v2.07 FP
      tcg/ppc: Update vector support for v3.00 Altivec
      tcg/ppc: Update vector support for v3.00 load/store
      tcg/ppc: Update vector support for v3.00 dup/dupi

tcg/ppc/tcg-target.h     |   51 ++-
 tcg/ppc/tcg-target.opc.h |   13 +
 cpus.c                   |   24 +-
 tcg/ppc/tcg-target.inc.c | 1118 ++++++++++++++++++++++++++++++++++++++++++----
 4 files changed, 1119 insertions(+), 87 deletions(-)
 create mode 100644 tcg/ppc/tcg-target.opc.h

Altivec supports 32 128-bit vector registers, whose names are
by convention v0 through v31.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     | 11 ++++-
 tcg/ppc/tcg-target.inc.c | 88 +++++++++++++++++++++++++---------------
 2 files changed, 65 insertions(+), 34 deletions(-)

diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@
 # define TCG_TARGET_REG_BITS  32
 #endif
 
-#define TCG_TARGET_NB_REGS 32
+#define TCG_TARGET_NB_REGS 64
 #define TCG_TARGET_INSN_UNIT_SIZE 4
 #define TCG_TARGET_TLB_DISPLACEMENT_BITS 16
 
@@ -XXX,XX +XXX,XX @@ typedef enum {
     TCG_REG_R24, TCG_REG_R25, TCG_REG_R26, TCG_REG_R27,
     TCG_REG_R28, TCG_REG_R29, TCG_REG_R30, TCG_REG_R31,
 
+    TCG_REG_V0,  TCG_REG_V1,  TCG_REG_V2,  TCG_REG_V3,
+    TCG_REG_V4,  TCG_REG_V5,  TCG_REG_V6,  TCG_REG_V7,
+    TCG_REG_V8,  TCG_REG_V9,  TCG_REG_V10, TCG_REG_V11,
+    TCG_REG_V12, TCG_REG_V13, TCG_REG_V14, TCG_REG_V15,
+    TCG_REG_V16, TCG_REG_V17, TCG_REG_V18, TCG_REG_V19,
+    TCG_REG_V20, TCG_REG_V21, TCG_REG_V22, TCG_REG_V23,
+    TCG_REG_V24, TCG_REG_V25, TCG_REG_V26, TCG_REG_V27,
+    TCG_REG_V28, TCG_REG_V29, TCG_REG_V30, TCG_REG_V31,
+
     TCG_REG_CALL_STACK = TCG_REG_R1,
     TCG_AREG0 = TCG_REG_R27
 } TCGReg;
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@
 # define TCG_REG_TMP1   TCG_REG_R12
 #endif
 
+#define TCG_VEC_TMP1    TCG_REG_V0
+#define TCG_VEC_TMP2    TCG_REG_V1
+
 #define TCG_REG_TB     TCG_REG_R31
 #define USE_REG_TB     (TCG_TARGET_REG_BITS == 64)
 
@@ -XXX,XX +XXX,XX @@ bool have_isa_3_00;
 #endif
 
 #ifdef CONFIG_DEBUG_TCG
-static const char * const tcg_target_reg_names[TCG_TARGET_NB_REGS] = {
-    "r0",
-    "r1",
-    "r2",
-    "r3",
-    "r4",
-    "r5",
-    "r6",
-    "r7",
-    "r8",
-    "r9",
-    "r10",
-    "r11",
-    "r12",
-    "r13",
-    "r14",
-    "r15",
-    "r16",
-    "r17",
-    "r18",
-    "r19",
-    "r20",
-    "r21",
-    "r22",
-    "r23",
-    "r24",
-    "r25",
-    "r26",
-    "r27",
-    "r28",
-    "r29",
-    "r30",
-    "r31"
+static const char tcg_target_reg_names[TCG_TARGET_NB_REGS][4] = {
+    "r0",  "r1",  "r2",  "r3",  "r4",  "r5",  "r6",  "r7",
+    "r8",  "r9",  "r10", "r11", "r12", "r13", "r14", "r15",
+    "r16", "r17", "r18", "r19", "r20", "r21", "r22", "r23",
+    "r24", "r25", "r26", "r27", "r28", "r29", "r30", "r31",
+    "v0",  "v1",  "v2",  "v3",  "v4",  "v5",  "v6",  "v7",
+    "v8",  "v9",  "v10", "v11", "v12", "v13", "v14", "v15",
+    "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+    "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31",
 };
 #endif
 
@@ -XXX,XX +XXX,XX @@ static const int tcg_target_reg_alloc_order[] = {
     TCG_REG_R5,
     TCG_REG_R4,
     TCG_REG_R3,
+
+    /* V0 and V1 reserved as temporaries; V20 - V31 are call-saved */
+    TCG_REG_V2,   /* call clobbered, vectors */
+    TCG_REG_V3,
+    TCG_REG_V4,
+    TCG_REG_V5,
+    TCG_REG_V6,
+    TCG_REG_V7,
+    TCG_REG_V8,
+    TCG_REG_V9,
+    TCG_REG_V10,
+    TCG_REG_V11,
+    TCG_REG_V12,
+    TCG_REG_V13,
+    TCG_REG_V14,
+    TCG_REG_V15,
+    TCG_REG_V16,
+    TCG_REG_V17,
+    TCG_REG_V18,
+    TCG_REG_V19,
 };
 
 static const int tcg_target_call_iarg_regs[] = {
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R11);
     tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R12);
 
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V0);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V1);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V2);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V3);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V4);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V5);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V6);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V7);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V8);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V9);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V10);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V11);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V12);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V13);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V14);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V15);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V16);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V17);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V18);
+    tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_V19);
+
     s->reserved_regs = 0;
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R0); /* tcg temp */
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R1); /* stack pointer */
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_R13); /* thread pointer */
 #endif
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP1); /* mem temp */
+    tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP1);
+    tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP2);
     if (USE_REG_TB) {
         tcg_regset_set_reg(s->reserved_regs, TCG_REG_TB);  /* tb->tc_ptr */
     }
-- 
2.17.1

Introduce an enum to hold base < 2.06 < 3.00.  Use macros to
preserve the existing have_isa_2_06 and have_isa_3_00 predicates.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.h     | 12 ++++++++++--
 tcg/ppc/tcg-target.inc.c |  8 ++++----
 2 files changed, 14 insertions(+), 6 deletions(-)

diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
     TCG_AREG0 = TCG_REG_R27
 } TCGReg;
 
-extern bool have_isa_2_06;
-extern bool have_isa_3_00;
+typedef enum {
+    tcg_isa_base,
+    tcg_isa_2_06,
+    tcg_isa_3_00,
+} TCGPowerISA;
+
+extern TCGPowerISA have_isa;
+
+#define have_isa_2_06  (have_isa >= tcg_isa_2_06)
+#define have_isa_3_00  (have_isa >= tcg_isa_3_00)
 
 /* optional instructions automatically implemented */
 #define TCG_TARGET_HAS_ext8u_i32        0 /* andi */
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@
 
 static tcg_insn_unit *tb_ret_addr;
 
-bool have_isa_2_06;
-bool have_isa_3_00;
+TCGPowerISA have_isa;
 
 #define HAVE_ISA_2_06  have_isa_2_06
 #define HAVE_ISEL      have_isa_2_06
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     unsigned long hwcap = qemu_getauxval(AT_HWCAP);
     unsigned long hwcap2 = qemu_getauxval(AT_HWCAP2);
 
+    have_isa = tcg_isa_base;
     if (hwcap & PPC_FEATURE_ARCH_2_06) {
-        have_isa_2_06 = true;
+        have_isa = tcg_isa_2_06;
     }
 #ifdef PPC_FEATURE2_ARCH_3_00
     if (hwcap2 & PPC_FEATURE2_ARCH_3_00) {
-        have_isa_3_00 = true;
+        have_isa = tcg_isa_3_00;
     }
 #endif
 
-- 
2.17.1

This is identical to have_isa_2_06, so replace it.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static tcg_insn_unit *tb_ret_addr;
 
 TCGPowerISA have_isa;
 
-#define HAVE_ISA_2_06  have_isa_2_06
 #define HAVE_ISEL      have_isa_2_06
 
 #ifndef CONFIG_SOFTMMU
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_ld(TCGContext *s, const TCGArg *args, bool is_64)
         }
     } else {
         uint32_t insn = qemu_ldx_opc[opc & (MO_BSWAP | MO_SSIZE)];
-        if (!HAVE_ISA_2_06 && insn == LDBRX) {
+        if (!have_isa_2_06 && insn == LDBRX) {
             tcg_out32(s, ADDI | TAI(TCG_REG_R0, addrlo, 4));
             tcg_out32(s, LWBRX | TAB(datalo, rbase, addrlo));
             tcg_out32(s, LWBRX | TAB(TCG_REG_R0, rbase, TCG_REG_R0));
@@ -XXX,XX +XXX,XX @@ static void tcg_out_qemu_st(TCGContext *s, const TCGArg *args, bool is_64)
         }
     } else {
         uint32_t insn = qemu_stx_opc[opc & (MO_BSWAP | MO_SIZE)];
-        if (!HAVE_ISA_2_06 && insn == STDBRX) {
+        if (!have_isa_2_06 && insn == STDBRX) {
             tcg_out32(s, STWBRX | SAB(datalo, rbase, addrlo));
             tcg_out32(s, ADDI | TAI(TCG_REG_TMP1, addrlo, 4));
             tcg_out_shri64(s, TCG_REG_R0, datalo, 32);
-- 
2.17.1

Previously we've been hard-coding knowledge that Power7 has ISEL, but
it was an optional instruction before that.  Use the AT_HWCAP2 bit,
when present, to properly determine support.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 17 ++++++++++++-----
 1 file changed, 12 insertions(+), 5 deletions(-)

diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@
 static tcg_insn_unit *tb_ret_addr;
 
 TCGPowerISA have_isa;
-
-#define HAVE_ISEL      have_isa_2_06
+static bool have_isel;
 
 #ifndef CONFIG_SOFTMMU
 #define TCG_GUEST_BASE_REG 30
@@ -XXX,XX +XXX,XX @@ static void tcg_out_setcond(TCGContext *s, TCGType type, TCGCond cond,
     /* If we have ISEL, we can implement everything with 3 or 4 insns.
        All other cases below are also at least 3 insns, so speed up the
        code generator by not considering them and always using ISEL.  */
-    if (HAVE_ISEL) {
+    if (have_isel) {
         int isel, tab;
 
         tcg_out_cmp(s, cond, arg1, arg2, const_arg2, 7, type);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movcond(TCGContext *s, TCGType type, TCGCond cond,
 
     tcg_out_cmp(s, cond, c1, c2, const_c2, 7, type);
 
-    if (HAVE_ISEL) {
+    if (have_isel) {
         int isel = tcg_to_isel[cond];
 
         /* Swap the V operands if the operation indicates inversion.  */
@@ -XXX,XX +XXX,XX @@ static void tcg_out_cntxz(TCGContext *s, TCGType type, uint32_t opc,
     } else {
         tcg_out_cmp(s, TCG_COND_EQ, a1, 0, 1, 7, type);
         /* Note that the only other valid constant for a2 is 0.  */
-        if (HAVE_ISEL) {
+        if (have_isel) {
             tcg_out32(s, opc | RA(TCG_REG_R0) | RS(a1));
             tcg_out32(s, tcg_to_isel[TCG_COND_EQ] | TAB(a0, a2, TCG_REG_R0));
         } else if (!const_a2 && a0 == a2) {
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     }
 #endif
 
+#ifdef PPC_FEATURE2_HAS_ISEL
+    /* Prefer explicit instruction from the kernel. */
+    have_isel = (hwcap2 & PPC_FEATURE2_HAS_ISEL) != 0;
+#else
+    /* Fall back to knowing Power7 (2.06) has ISEL. */
+    have_isel = have_isa_2_06;
+#endif
+
     tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
     tcg_target_available_regs[TCG_TYPE_I64] = 0xffffffff;
 
-- 
2.17.1

Introduce all of the flags required to enable tcg backend vector support,
and a runtime flag to indicate the host supports Altivec instructions.

For now, do not actually set have_isa_altivec to true, because we have not
yet added all of the code to actually generate all of the required insns.
However, we must define these flags in order to disable ifndefs that create
stub versions of the functions added here.

The change to tcg_out_movi works around a buglet in tcg.c wherein if we
do not define tcg_out_dupi_vec we get a declared but not defined Werror,
but if we only declare it we get a defined but not used Werror.  We need
to this change to tcg_out_movi eventually anyway, so it's no biggie.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     | 25 ++++++++++++++++
 tcg/ppc/tcg-target.opc.h |  5 ++++
 tcg/ppc/tcg-target.inc.c | 62 ++++++++++++++++++++++++++++++++++++++--
 3 files changed, 89 insertions(+), 3 deletions(-)
 create mode 100644 tcg/ppc/tcg-target.opc.h

diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
 } TCGPowerISA;
 
 extern TCGPowerISA have_isa;
+extern bool have_altivec;
 
 #define have_isa_2_06  (have_isa >= tcg_isa_2_06)
 #define have_isa_3_00  (have_isa >= tcg_isa_3_00)
@@ -XXX,XX +XXX,XX @@ extern TCGPowerISA have_isa;
 #define TCG_TARGET_HAS_mulsh_i64        1
 #endif
 
+/*
+ * While technically Altivec could support V64, it has no 64-bit store
+ * instruction and substituting two 32-bit stores makes the generated
+ * code quite large.
+ */
+#define TCG_TARGET_HAS_v64              0
+#define TCG_TARGET_HAS_v128             have_altivec
+#define TCG_TARGET_HAS_v256             0
+
+#define TCG_TARGET_HAS_andc_vec         0
+#define TCG_TARGET_HAS_orc_vec          0
+#define TCG_TARGET_HAS_not_vec          0
+#define TCG_TARGET_HAS_neg_vec          0
+#define TCG_TARGET_HAS_abs_vec          0
+#define TCG_TARGET_HAS_shi_vec          0
+#define TCG_TARGET_HAS_shs_vec          0
+#define TCG_TARGET_HAS_shv_vec          0
+#define TCG_TARGET_HAS_cmp_vec          0
+#define TCG_TARGET_HAS_mul_vec          0
+#define TCG_TARGET_HAS_sat_vec          0
+#define TCG_TARGET_HAS_minmax_vec       0
+#define TCG_TARGET_HAS_bitsel_vec       0
+#define TCG_TARGET_HAS_cmpsel_vec       0
+
 void flush_icache_range(uintptr_t start, uintptr_t stop);
 void tb_target_set_jmp_target(uintptr_t, uintptr_t, uintptr_t);
 
diff --git a/tcg/ppc/tcg-target.opc.h b/tcg/ppc/tcg-target.opc.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tcg/ppc/tcg-target.opc.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Target-specific opcodes for host vector expansion.  These will be
+ * emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
+ * consider these to be UNSPEC with names.
+ */
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static tcg_insn_unit *tb_ret_addr;
 
 TCGPowerISA have_isa;
 static bool have_isel;
+bool have_altivec;
 
 #ifndef CONFIG_SOFTMMU
 #define TCG_GUEST_BASE_REG 30
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
     }
 }
 
-static inline void tcg_out_movi(TCGContext *s, TCGType type, TCGReg ret,
-                                tcg_target_long arg)
+static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
+                             tcg_target_long val)
 {
-    tcg_out_movi_int(s, type, ret, arg, false);
+    g_assert_not_reached();
+}
+
+static void tcg_out_movi(TCGContext *s, TCGType type, TCGReg ret,
+                         tcg_target_long arg)
+{
+    switch (type) {
+    case TCG_TYPE_I32:
+    case TCG_TYPE_I64:
+        tcg_debug_assert(ret < TCG_REG_V0);
+        tcg_out_movi_int(s, type, ret, arg, false);
+        break;
+
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+        tcg_debug_assert(ret >= TCG_REG_V0);
+        tcg_out_dupi_vec(s, type, ret, arg);
+        break;
+
+    default:
+        g_assert_not_reached();
+    }
 }
 
 static bool mask_operand(uint32_t c, int *mb, int *me)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
     }
 }
 
+int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+{
+    g_assert_not_reached();
+}
+
+static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
+                            TCGReg dst, TCGReg src)
+{
+    g_assert_not_reached();
+}
+
+static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
+                             TCGReg out, TCGReg base, intptr_t offset)
+{
+    g_assert_not_reached();
+}
+
+static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+                           unsigned vecl, unsigned vece,
+                           const TCGArg *args, const int *const_args)
+{
+    g_assert_not_reached();
+}
+
+void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+                       TCGArg a0, ...)
+{
+    g_assert_not_reached();
+}
+
 static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
 {
     static const TCGTargetOpDef r = { .args_ct_str = { "r" } };
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
 
     tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
     tcg_target_available_regs[TCG_TYPE_I64] = 0xffffffff;
+    if (have_altivec) {
+        tcg_target_available_regs[TCG_TYPE_V64] = 0xffffffff00000000ull;
+        tcg_target_available_regs[TCG_TYPE_V128] = 0xffffffff00000000ull;
+    }
 
     tcg_target_call_clobber_regs = 0;
     tcg_regset_set_reg(tcg_target_call_clobber_regs, TCG_REG_R0);
-- 
2.17.1

Add various bits and peaces related mostly to load and store
operations. In that context, logic, compare, and splat Altivec
instructions are used, and, therefore, the support for emitting
them is included in this patch too.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     |   6 +-
 tcg/ppc/tcg-target.inc.c | 472 ++++++++++++++++++++++++++++++++++++---
 2 files changed, 442 insertions(+), 36 deletions(-)

diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
 #define TCG_TARGET_HAS_v128             have_altivec
 #define TCG_TARGET_HAS_v256             0
 
-#define TCG_TARGET_HAS_andc_vec         0
+#define TCG_TARGET_HAS_andc_vec         1
 #define TCG_TARGET_HAS_orc_vec          0
-#define TCG_TARGET_HAS_not_vec          0
+#define TCG_TARGET_HAS_not_vec          1
 #define TCG_TARGET_HAS_neg_vec          0
 #define TCG_TARGET_HAS_abs_vec          0
 #define TCG_TARGET_HAS_shi_vec          0
 #define TCG_TARGET_HAS_shs_vec          0
 #define TCG_TARGET_HAS_shv_vec          0
-#define TCG_TARGET_HAS_cmp_vec          0
+#define TCG_TARGET_HAS_cmp_vec          1
 #define TCG_TARGET_HAS_mul_vec          0
 #define TCG_TARGET_HAS_sat_vec          0
 #define TCG_TARGET_HAS_minmax_vec       0
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static const char *target_parse_constraint(TCGArgConstraint *ct,
         ct->ct |= TCG_CT_REG;
         ct->u.regs = 0xffffffff;
         break;
+    case 'v':
+        ct->ct |= TCG_CT_REG;
+        ct->u.regs = 0xffffffff00000000ull;
+        break;
     case 'L':                   /* qemu_ld constraint */
         ct->ct |= TCG_CT_REG;
         ct->u.regs = 0xffffffff;
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 
 #define NOP    ORI  /* ori 0,0,0 */
 
+#define LVX        XO31(103)
+#define LVEBX      XO31(7)
+#define LVEHX      XO31(39)
+#define LVEWX      XO31(71)
+
+#define STVX       XO31(231)
+#define STVEWX     XO31(199)
+
+#define VCMPEQUB   VX4(6)
+#define VCMPEQUH   VX4(70)
+#define VCMPEQUW   VX4(134)
+#define VCMPGTSB   VX4(774)
+#define VCMPGTSH   VX4(838)
+#define VCMPGTSW   VX4(902)
+#define VCMPGTUB   VX4(518)
+#define VCMPGTUH   VX4(582)
+#define VCMPGTUW   VX4(646)
+
+#define VAND       VX4(1028)
+#define VANDC      VX4(1092)
+#define VNOR       VX4(1284)
+#define VOR        VX4(1156)
+#define VXOR       VX4(1220)
+
+#define VSPLTB     VX4(524)
+#define VSPLTH     VX4(588)
+#define VSPLTW     VX4(652)
+#define VSPLTISB   VX4(780)
+#define VSPLTISH   VX4(844)
+#define VSPLTISW   VX4(908)
+
+#define VSLDOI     VX4(44)
+
 #define RT(r) ((r)<<21)
 #define RS(r) ((r)<<21)
 #define RA(r) ((r)<<16)
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
                         intptr_t value, intptr_t addend)
 {
     tcg_insn_unit *target;
+    int16_t lo;
+    int32_t hi;
 
     value += addend;
     target = (tcg_insn_unit *)value;
@@ -XXX,XX +XXX,XX @@ static bool patch_reloc(tcg_insn_unit *code_ptr, int type,
         }
         *code_ptr = (*code_ptr & ~0xfffc) | (value & 0xfffc);
         break;
+    case R_PPC_ADDR32:
+        /*
+         * We are abusing this relocation type.  Again, this points to
+         * a pair of insns, lis + load.  This is an absolute address
+         * relocation for PPC32 so the lis cannot be removed.
+         */
+        lo = value;
+        hi = value - lo;
+        if (hi + lo != value) {
+            return false;
+        }
+        code_ptr[0] = deposit32(code_ptr[0], 0, 16, hi >> 16);
+        code_ptr[1] = deposit32(code_ptr[1], 0, 16, lo);
+        break;
     default:
         g_assert_not_reached();
     }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
 
 static bool tcg_out_mov(TCGContext *s, TCGType type, TCGReg ret, TCGReg arg)
 {
-    tcg_debug_assert(TCG_TARGET_REG_BITS == 64 || type == TCG_TYPE_I32);
-    if (ret != arg) {
-        tcg_out32(s, OR | SAB(arg, ret, arg));
+    if (ret == arg) {
+        return true;
+    }
+    switch (type) {
+    case TCG_TYPE_I64:
+        tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
+        /* fallthru */
+    case TCG_TYPE_I32:
+        if (ret < TCG_REG_V0 && arg < TCG_REG_V0) {
+            tcg_out32(s, OR | SAB(arg, ret, arg));
+            break;
+        } else if (ret < TCG_REG_V0 || arg < TCG_REG_V0) {
+            /* Altivec does not support vector/integer moves.  */
+            return false;
+        }
+        /* fallthru */
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+        tcg_debug_assert(ret >= TCG_REG_V0 && arg >= TCG_REG_V0);
+        tcg_out32(s, VOR | VRT(ret) | VRA(arg) | VRB(arg));
+        break;
+    default:
+        g_assert_not_reached();
     }
     return true;
 }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_movi_int(TCGContext *s, TCGType type, TCGReg ret,
 static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
                              tcg_target_long val)
 {
-    g_assert_not_reached();
+    uint32_t load_insn;
+    int rel, low;
+    intptr_t add;
+
+    low = (int8_t)val;
+    if (low >= -16 && low < 16) {
+        if (val == (tcg_target_long)dup_const(MO_8, low)) {
+            tcg_out32(s, VSPLTISB | VRT(ret) | ((val & 31) << 16));
+            return;
+        }
+        if (val == (tcg_target_long)dup_const(MO_16, low)) {
+            tcg_out32(s, VSPLTISH | VRT(ret) | ((val & 31) << 16));
+            return;
+        }
+        if (val == (tcg_target_long)dup_const(MO_32, low)) {
+            tcg_out32(s, VSPLTISW | VRT(ret) | ((val & 31) << 16));
+            return;
+        }
+    }
+
+    /*
+     * Otherwise we must load the value from the constant pool.
+     */
+    if (USE_REG_TB) {
+        rel = R_PPC_ADDR16;
+        add = -(intptr_t)s->code_gen_ptr;
+    } else {
+        rel = R_PPC_ADDR32;
+        add = 0;
+    }
+
+    load_insn = LVX | VRT(ret) | RB(TCG_REG_TMP1);
+    if (TCG_TARGET_REG_BITS == 64) {
+        new_pool_l2(s, rel, s->code_ptr, add, val, val);
+    } else {
+        new_pool_l4(s, rel, s->code_ptr, add, val, val, val, val);
+    }
+
+    if (USE_REG_TB) {
+        tcg_out32(s, ADDI | TAI(TCG_REG_TMP1, 0, 0));
+        load_insn |= RA(TCG_REG_TB);
+    } else {
+        tcg_out32(s, ADDIS | TAI(TCG_REG_TMP1, 0, 0));
+        tcg_out32(s, ADDI | TAI(TCG_REG_TMP1, TCG_REG_TMP1, 0));
+    }
+    tcg_out32(s, load_insn);
 }
 
 static void tcg_out_movi(TCGContext *s, TCGType type, TCGReg ret,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
         align = 3;
         /* FALLTHRU */
     default:
-        if (rt != TCG_REG_R0) {
+        if (rt > TCG_REG_R0 && rt < TCG_REG_V0) {
             rs = rt;
             break;
         }
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
     }
 
     /* For unaligned, or very large offsets, use the indexed form.  */
-    if (offset & align || offset != (int32_t)offset) {
+    if (offset & align || offset != (int32_t)offset || opi == 0) {
         if (rs == base) {
             rs = TCG_REG_R0;
         }
         tcg_debug_assert(!is_store || rs != rt);
         tcg_out_movi(s, TCG_TYPE_PTR, rs, orig);
-        tcg_out32(s, opx | TAB(rt, base, rs));
+        tcg_out32(s, opx | TAB(rt & 31, base, rs));
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
         base = rs;
     }
     if (opi != ADDI || base != rt || l0 != 0) {
-        tcg_out32(s, opi | TAI(rt, base, l0));
+        tcg_out32(s, opi | TAI(rt & 31, base, l0));
     }
 }
 
-static inline void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
-                              TCGReg arg1, intptr_t arg2)
+static void tcg_out_vsldoi(TCGContext *s, TCGReg ret,
+                           TCGReg va, TCGReg vb, int shb)
 {
-    int opi, opx;
-
-    tcg_debug_assert(TCG_TARGET_REG_BITS == 64 || type == TCG_TYPE_I32);
-    if (type == TCG_TYPE_I32) {
-        opi = LWZ, opx = LWZX;
-    } else {
-        opi = LD, opx = LDX;
-    }
-    tcg_out_mem_long(s, opi, opx, ret, arg1, arg2);
+    tcg_out32(s, VSLDOI | VRT(ret) | VRA(va) | VRB(vb) | (shb << 6));
 }
 
-static inline void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
-                              TCGReg arg1, intptr_t arg2)
+static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
+                       TCGReg base, intptr_t offset)
 {
-    int opi, opx;
+    int shift;
 
-    tcg_debug_assert(TCG_TARGET_REG_BITS == 64 || type == TCG_TYPE_I32);
-    if (type == TCG_TYPE_I32) {
-        opi = STW, opx = STWX;
-    } else {
-        opi = STD, opx = STDX;
+    switch (type) {
+    case TCG_TYPE_I32:
+        if (ret < TCG_REG_V0) {
+            tcg_out_mem_long(s, LWZ, LWZX, ret, base, offset);
+            break;
+        }
+        tcg_debug_assert((offset & 3) == 0);
+        tcg_out_mem_long(s, 0, LVEWX, ret, base, offset);
+        shift = (offset - 4) & 0xc;
+        if (shift) {
+            tcg_out_vsldoi(s, ret, ret, ret, shift);
+        }
+        break;
+    case TCG_TYPE_I64:
+        if (ret < TCG_REG_V0) {
+            tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
+            tcg_out_mem_long(s, LD, LDX, ret, base, offset);
+            break;
+        }
+        /* fallthru */
+    case TCG_TYPE_V64:
+        tcg_debug_assert(ret >= TCG_REG_V0);
+        tcg_debug_assert((offset & 7) == 0);
+        tcg_out_mem_long(s, 0, LVX, ret, base, offset & -16);
+        if (offset & 8) {
+            tcg_out_vsldoi(s, ret, ret, ret, 8);
+        }
+        break;
+    case TCG_TYPE_V128:
+        tcg_debug_assert(ret >= TCG_REG_V0);
+        tcg_debug_assert((offset & 15) == 0);
+        tcg_out_mem_long(s, 0, LVX, ret, base, offset);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
+                              TCGReg base, intptr_t offset)
+{
+    int shift;
+
+    switch (type) {
+    case TCG_TYPE_I32:
+        if (arg < TCG_REG_V0) {
+            tcg_out_mem_long(s, STW, STWX, arg, base, offset);
+            break;
+        }
+        tcg_debug_assert((offset & 3) == 0);
+        shift = (offset - 4) & 0xc;
+        if (shift) {
+            tcg_out_vsldoi(s, TCG_VEC_TMP1, arg, arg, shift);
+            arg = TCG_VEC_TMP1;
+        }
+        tcg_out_mem_long(s, 0, STVEWX, arg, base, offset);
+        break;
+    case TCG_TYPE_I64:
+        if (arg < TCG_REG_V0) {
+            tcg_debug_assert(TCG_TARGET_REG_BITS == 64);
+            tcg_out_mem_long(s, STD, STDX, arg, base, offset);
+            break;
+        }
+        /* fallthru */
+    case TCG_TYPE_V64:
+        tcg_debug_assert(arg >= TCG_REG_V0);
+        tcg_debug_assert((offset & 7) == 0);
+        if (offset & 8) {
+            tcg_out_vsldoi(s, TCG_VEC_TMP1, arg, arg, 8);
+            arg = TCG_VEC_TMP1;
+        }
+        tcg_out_mem_long(s, 0, STVEWX, arg, base, offset);
+        tcg_out_mem_long(s, 0, STVEWX, arg, base, offset + 4);
+        break;
+    case TCG_TYPE_V128:
+        tcg_debug_assert(arg >= TCG_REG_V0);
+        tcg_out_mem_long(s, 0, STVX, arg, base, offset);
+        break;
+    default:
+        g_assert_not_reached();
     }
-    tcg_out_mem_long(s, opi, opx, arg, arg1, arg2);
 }
 
 static inline bool tcg_out_sti(TCGContext *s, TCGType type, TCGArg val,
@@ -XXX,XX +XXX,XX @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
 
 int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
 {
-    g_assert_not_reached();
+    switch (opc) {
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_andc_vec:
+    case INDEX_op_not_vec:
+        return 1;
+    case INDEX_op_cmp_vec:
+        return vece <= MO_32 ? -1 : 0;
+    default:
+        return 0;
+    }
 }
 
 static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
                             TCGReg dst, TCGReg src)
 {
-    g_assert_not_reached();
+    tcg_debug_assert(dst >= TCG_REG_V0);
+    tcg_debug_assert(src >= TCG_REG_V0);
+
+    /*
+     * Recall we use (or emulate) VSX integer loads, so the integer is
+     * right justified within the left (zero-index) double-word.
+     */
+    switch (vece) {
+    case MO_8:
+        tcg_out32(s, VSPLTB | VRT(dst) | VRB(src) | (7 << 16));
+        break;
+    case MO_16:
+        tcg_out32(s, VSPLTH | VRT(dst) | VRB(src) | (3 << 16));
+        break;
+    case MO_32:
+        tcg_out32(s, VSPLTW | VRT(dst) | VRB(src) | (1 << 16));
+        break;
+    case MO_64:
+        tcg_out_vsldoi(s, TCG_VEC_TMP1, src, src, 8);
+        tcg_out_vsldoi(s, dst, TCG_VEC_TMP1, src, 8);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
 }
 
 static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
                              TCGReg out, TCGReg base, intptr_t offset)
 {
-    g_assert_not_reached();
+    int elt;
+
+    tcg_debug_assert(out >= TCG_REG_V0);
+    switch (vece) {
+    case MO_8:
+        tcg_out_mem_long(s, 0, LVEBX, out, base, offset);
+        elt = extract32(offset, 0, 4);
+#ifndef HOST_WORDS_BIGENDIAN
+        elt ^= 15;
+#endif
+        tcg_out32(s, VSPLTB | VRT(out) | VRB(out) | (elt << 16));
+        break;
+    case MO_16:
+        tcg_debug_assert((offset & 1) == 0);
+        tcg_out_mem_long(s, 0, LVEHX, out, base, offset);
+        elt = extract32(offset, 1, 3);
+#ifndef HOST_WORDS_BIGENDIAN
+        elt ^= 7;
+#endif
+        tcg_out32(s, VSPLTH | VRT(out) | VRB(out) | (elt << 16));
+        break;
+    case MO_32:
+        tcg_debug_assert((offset & 3) == 0);
+        tcg_out_mem_long(s, 0, LVEWX, out, base, offset);
+        elt = extract32(offset, 2, 2);
+#ifndef HOST_WORDS_BIGENDIAN
+        elt ^= 3;
+#endif
+        tcg_out32(s, VSPLTW | VRT(out) | VRB(out) | (elt << 16));
+        break;
+    case MO_64:
+        tcg_debug_assert((offset & 7) == 0);
+        tcg_out_mem_long(s, 0, LVX, out, base, offset & -16);
+        tcg_out_vsldoi(s, TCG_VEC_TMP1, out, out, 8);
+        elt = extract32(offset, 3, 1);
+#ifndef HOST_WORDS_BIGENDIAN
+        elt = !elt;
+#endif
+        if (elt) {
+            tcg_out_vsldoi(s, out, out, TCG_VEC_TMP1, 8);
+        } else {
+            tcg_out_vsldoi(s, out, TCG_VEC_TMP1, out, 8);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
 }
 
 static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
                            unsigned vecl, unsigned vece,
                            const TCGArg *args, const int *const_args)
 {
-    g_assert_not_reached();
+    static const uint32_t
+        eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
+        gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
+        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 };
+
+    TCGType type = vecl + TCG_TYPE_V64;
+    TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
+    uint32_t insn;
+
+    switch (opc) {
+    case INDEX_op_ld_vec:
+        tcg_out_ld(s, type, a0, a1, a2);
+        return;
+    case INDEX_op_st_vec:
+        tcg_out_st(s, type, a0, a1, a2);
+        return;
+    case INDEX_op_dupm_vec:
+        tcg_out_dupm_vec(s, type, vece, a0, a1, a2);
+        return;
+
+    case INDEX_op_and_vec:
+        insn = VAND;
+        break;
+    case INDEX_op_or_vec:
+        insn = VOR;
+        break;
+    case INDEX_op_xor_vec:
+        insn = VXOR;
+        break;
+    case INDEX_op_andc_vec:
+        insn = VANDC;
+        break;
+    case INDEX_op_not_vec:
+        insn = VNOR;
+        a2 = a1;
+        break;
+
+    case INDEX_op_cmp_vec:
+        switch (args[3]) {
+        case TCG_COND_EQ:
+            insn = eq_op[vece];
+            break;
+        case TCG_COND_GT:
+            insn = gts_op[vece];
+            break;
+        case TCG_COND_GTU:
+            insn = gtu_op[vece];
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        break;
+
+    case INDEX_op_mov_vec:  /* Always emitted via tcg_out_mov.  */
+    case INDEX_op_dupi_vec: /* Always emitted via tcg_out_movi.  */
+    case INDEX_op_dup_vec:  /* Always emitted via tcg_out_dup_vec.  */
+    default:
+        g_assert_not_reached();
+    }
+
+    tcg_debug_assert(insn != 0);
+    tcg_out32(s, insn | VRT(a0) | VRA(a1) | VRB(a2));
+}
+
+static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
+                           TCGv_vec v1, TCGv_vec v2, TCGCond cond)
+{
+    bool need_swap = false, need_inv = false;
+
+    tcg_debug_assert(vece <= MO_32);
+
+    switch (cond) {
+    case TCG_COND_EQ:
+    case TCG_COND_GT:
+    case TCG_COND_GTU:
+        break;
+    case TCG_COND_NE:
+    case TCG_COND_LE:
+    case TCG_COND_LEU:
+        need_inv = true;
+        break;
+    case TCG_COND_LT:
+    case TCG_COND_LTU:
+        need_swap = true;
+        break;
+    case TCG_COND_GE:
+    case TCG_COND_GEU:
+        need_swap = need_inv = true;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+
+    if (need_inv) {
+        cond = tcg_invert_cond(cond);
+    }
+    if (need_swap) {
+        TCGv_vec t1;
+        t1 = v1, v1 = v2, v2 = t1;
+        cond = tcg_swap_cond(cond);
+    }
+
+    vec_gen_4(INDEX_op_cmp_vec, type, vece, tcgv_vec_arg(v0),
+              tcgv_vec_arg(v1), tcgv_vec_arg(v2), cond);
+
+    if (need_inv) {
+        tcg_gen_not_vec(vece, v0, v0);
+    }
 }
 
 void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                        TCGArg a0, ...)
 {
-    g_assert_not_reached();
+    va_list va;
+    TCGv_vec v0, v1, v2;
+
+    va_start(va, a0);
+    v0 = temp_tcgv_vec(arg_temp(a0));
+    v1 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+    v2 = temp_tcgv_vec(arg_temp(va_arg(va, TCGArg)));
+
+    switch (opc) {
+    case INDEX_op_cmp_vec:
+        expand_vec_cmp(type, vece, v0, v1, v2, va_arg(va, TCGArg));
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    va_end(va);
 }
 
 static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
         = { .args_ct_str = { "r", "r", "r", "r", "rI", "rZM" } };
     static const TCGTargetOpDef sub2
         = { .args_ct_str = { "r", "r", "rI", "rZM", "r", "r" } };
+    static const TCGTargetOpDef v_r = { .args_ct_str = { "v", "r" } };
+    static const TCGTargetOpDef v_v = { .args_ct_str = { "v", "v" } };
+    static const TCGTargetOpDef v_v_v = { .args_ct_str = { "v", "v", "v" } };
 
     switch (op) {
     case INDEX_op_goto_ptr:
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
         return (TCG_TARGET_REG_BITS == 64 ? &S_S
                 : TARGET_LONG_BITS == 32 ? &S_S_S : &S_S_S_S);
 
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_andc_vec:
+    case INDEX_op_orc_vec:
+    case INDEX_op_cmp_vec:
+        return &v_v_v;
+    case INDEX_op_not_vec:
+    case INDEX_op_dup_vec:
+        return &v_v;
+    case INDEX_op_ld_vec:
+    case INDEX_op_st_vec:
+    case INDEX_op_dupm_vec:
+        return &v_r;
+
     default:
         return NULL;
     }
-- 
2.17.1

Add support for vector maximum/minimum using Altivec instructions
VMAXSB, VMAXSH, VMAXSW, VMAXUB, VMAXUH, VMAXUW, and
VMINSB, VMINSH, VMINSW, VMINUB, VMINUH, VMINUW.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     |  2 +-
 tcg/ppc/tcg-target.inc.c | 40 +++++++++++++++++++++++++++++++++++++++-
 2 files changed, 40 insertions(+), 2 deletions(-)

Add support for vector add/subtract using Altivec instructions:
VADDUBM, VADDUHM, VADDUWM, VSUBUBM, VSUBUHM, VSUBUWM.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.inc.c | 20 ++++++++++++++++++++
 1 file changed, 20 insertions(+)

Add support for vector saturated add/subtract using Altivec
instructions:
VADDSBS, VADDSHS, VADDSWS, VADDUBS, VADDUHS, VADDUWS, and
VSUBSBS, VSUBSHS, VSUBSWS, VSUBUBS, VSUBUHS, VSUBUWS.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     |  2 +-
 tcg/ppc/tcg-target.inc.c | 36 ++++++++++++++++++++++++++++++++++++
 2 files changed, 37 insertions(+), 1 deletion(-)

For Altivec, this is done via vector shift by vector,
and loading the immediate into a register.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     |  2 +-
 tcg/ppc/tcg-target.inc.c | 58 ++++++++++++++++++++++++++++++++++++++--
 2 files changed, 57 insertions(+), 3 deletions(-)

For Altivec, this is always an expansion.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     |   2 +-
 tcg/ppc/tcg-target.opc.h |   8 +++
 tcg/ppc/tcg-target.inc.c | 113 ++++++++++++++++++++++++++++++++++++++-
 3 files changed, 121 insertions(+), 2 deletions(-)

This is only used for 32-bit hosts.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.inc.c | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
         }
         break;
 
+    case INDEX_op_dup2_vec:
+        assert(TCG_TARGET_REG_BITS == 32);
+        /* With inputs a1 = xLxx, a2 = xHxx  */
+        tcg_out32(s, VMRGHW | VRT(a0) | VRA(a2) | VRB(a1));  /* a0  = xxHL */
+        tcg_out_vsldoi(s, TCG_VEC_TMP1, a0, a0, 8);          /* tmp = HLxx */
+        tcg_out_vsldoi(s, a0, a0, TCG_VEC_TMP1, 8);          /* a0  = HLHL */
+        return;
+
     case INDEX_op_ppc_mrgh_vec:
         insn = mrgh_op[vece];
         break;
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
     case INDEX_op_ppc_mulou_vec:
     case INDEX_op_ppc_pkum_vec:
     case INDEX_op_ppc_rotl_vec:
+    case INDEX_op_dup2_vec:
         return &v_v_v;
     case INDEX_op_not_vec:
     case INDEX_op_dup_vec:
-- 
2.17.1

The VSX instruction set instructions include double-word loads and
stores, double-word load and splat, double-word permute, and bit
select.  All of which require multiple operations in the Altivec
instruction set.

Because the VSX registers map %vsr32 to %vr0, and we have no current
intention or need to use vector registers outside %vr0-%vr19, force
on the {ax,bx,cx,tx} bits within the added VSX insns so that we don't
have to otherwise modify the VR[TABC] macros.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Aleksandar Markovic <amarkovic@wavecomp.com>
---
 tcg/ppc/tcg-target.h     |  5 ++--
 tcg/ppc/tcg-target.inc.c | 52 ++++++++++++++++++++++++++++++++++++----
 2 files changed, 51 insertions(+), 6 deletions(-)

diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
 
 extern TCGPowerISA have_isa;
 extern bool have_altivec;
+extern bool have_vsx;
 
 #define have_isa_2_06  (have_isa >= tcg_isa_2_06)
 #define have_isa_3_00  (have_isa >= tcg_isa_3_00)
@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
  * instruction and substituting two 32-bit stores makes the generated
  * code quite large.
  */
-#define TCG_TARGET_HAS_v64              0
+#define TCG_TARGET_HAS_v64              have_vsx
 #define TCG_TARGET_HAS_v128             have_altivec
 #define TCG_TARGET_HAS_v256             0
 
@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
 #define TCG_TARGET_HAS_mul_vec          1
 #define TCG_TARGET_HAS_sat_vec          1
 #define TCG_TARGET_HAS_minmax_vec       1
-#define TCG_TARGET_HAS_bitsel_vec       0
+#define TCG_TARGET_HAS_bitsel_vec       have_vsx
 #define TCG_TARGET_HAS_cmpsel_vec       0
 
 void flush_icache_range(uintptr_t start, uintptr_t stop);
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static tcg_insn_unit *tb_ret_addr;
 TCGPowerISA have_isa;
 static bool have_isel;
 bool have_altivec;
+bool have_vsx;
 
 #ifndef CONFIG_SOFTMMU
 #define TCG_GUEST_BASE_REG 30
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 #define LVEBX      XO31(7)
 #define LVEHX      XO31(39)
 #define LVEWX      XO31(71)
+#define LXSDX      (XO31(588) | 1)  /* v2.06, force tx=1 */
+#define LXVDSX     (XO31(332) | 1)  /* v2.06, force tx=1 */
 
 #define STVX       XO31(231)
 #define STVEWX     XO31(199)
+#define STXSDX     (XO31(716) | 1)  /* v2.06, force sx=1 */
 
 #define VADDSBS    VX4(768)
 #define VADDUBS    VX4(512)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 
 #define VSLDOI     VX4(44)
 
+#define XXPERMDI   (OPCD(60) | (10 << 3) | 7)  /* v2.06, force ax=bx=tx=1 */
+#define XXSEL      (OPCD(60) | (3 << 4) | 0xf) /* v2.06, force ax=bx=cx=tx=1 */
+
 #define RT(r) ((r)<<21)
 #define RS(r) ((r)<<21)
 #define RA(r) ((r)<<16)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_dupi_vec(TCGContext *s, TCGType type, TCGReg ret,
         add = 0;
     }
 
-    load_insn = LVX | VRT(ret) | RB(TCG_REG_TMP1);
-    if (TCG_TARGET_REG_BITS == 64) {
-        new_pool_l2(s, rel, s->code_ptr, add, val, val);
+    if (have_vsx) {
+        load_insn = type == TCG_TYPE_V64 ? LXSDX : LXVDSX;
+        load_insn |= VRT(ret) | RB(TCG_REG_TMP1);
+        if (TCG_TARGET_REG_BITS == 64) {
+            new_pool_label(s, val, rel, s->code_ptr, add);
+        } else {
+            new_pool_l2(s, rel, s->code_ptr, add, val, val);
+        }
     } else {
-        new_pool_l4(s, rel, s->code_ptr, add, val, val, val, val);
+        load_insn = LVX | VRT(ret) | RB(TCG_REG_TMP1);
+        if (TCG_TARGET_REG_BITS == 64) {
+            new_pool_l2(s, rel, s->code_ptr, add, val, val);
+        } else {
+            new_pool_l4(s, rel, s->code_ptr, add, val, val, val, val);
+        }
     }
 
     if (USE_REG_TB) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
         /* fallthru */
     case TCG_TYPE_V64:
         tcg_debug_assert(ret >= TCG_REG_V0);
+        if (have_vsx) {
+            tcg_out_mem_long(s, 0, LXSDX, ret, base, offset);
+            break;
+        }
         tcg_debug_assert((offset & 7) == 0);
         tcg_out_mem_long(s, 0, LVX, ret, base, offset & -16);
         if (offset & 8) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
         /* fallthru */
     case TCG_TYPE_V64:
         tcg_debug_assert(arg >= TCG_REG_V0);
+        if (have_vsx) {
+            tcg_out_mem_long(s, 0, STXSDX, arg, base, offset);
+            break;
+        }
         tcg_debug_assert((offset & 7) == 0);
         if (offset & 8) {
             tcg_out_vsldoi(s, TCG_VEC_TMP1, arg, arg, 8);
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
     case INDEX_op_shri_vec:
     case INDEX_op_sari_vec:
         return vece <= MO_32 ? -1 : 0;
+    case INDEX_op_bitsel_vec:
+        return have_vsx;
     default:
         return 0;
     }
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
         tcg_out32(s, VSPLTW | VRT(dst) | VRB(src) | (1 << 16));
         break;
     case MO_64:
+        if (have_vsx) {
+            tcg_out32(s, XXPERMDI | VRT(dst) | VRA(src) | VRB(src));
+            break;
+        }
         tcg_out_vsldoi(s, TCG_VEC_TMP1, src, src, 8);
         tcg_out_vsldoi(s, dst, TCG_VEC_TMP1, src, 8);
         break;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
         tcg_out32(s, VSPLTW | VRT(out) | VRB(out) | (elt << 16));
         break;
     case MO_64:
+        if (have_vsx) {
+            tcg_out_mem_long(s, 0, LXVDSX, out, base, offset);
+            break;
+        }
         tcg_debug_assert((offset & 7) == 0);
         tcg_out_mem_long(s, 0, LVX, out, base, offset & -16);
         tcg_out_vsldoi(s, TCG_VEC_TMP1, out, out, 8);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
         }
         break;
 
+    case INDEX_op_bitsel_vec:
+        tcg_out32(s, XXSEL | VRT(a0) | VRC(a1) | VRB(a2) | VRA(args[3]));
+        return;
+
     case INDEX_op_dup2_vec:
         assert(TCG_TARGET_REG_BITS == 32);
         /* With inputs a1 = xLxx, a2 = xHxx  */
@@ -XXX,XX +XXX,XX @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
     case INDEX_op_st_vec:
     case INDEX_op_dupm_vec:
         return &v_r;
+    case INDEX_op_bitsel_vec:
     case INDEX_op_ppc_msum_vec:
         return &v_v_v_v;
 
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
 
     if (hwcap & PPC_FEATURE_HAS_ALTIVEC) {
         have_altivec = true;
+        /* We only care about the portion of VSX that overlaps Altivec. */
+        if (hwcap & PPC_FEATURE_HAS_VSX) {
+            have_vsx = true;
+        }
     }
 
     tcg_target_available_regs[TCG_TYPE_I32] = 0xffffffff;
-- 
2.17.1

These new instructions are conditional only on MSR.VEC and
are thus part of the Altivec instruction set, and not VSX.
This includes lots of double-word arithmetic and a few extra
logical operations.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.h     |  4 +-
 tcg/ppc/tcg-target.inc.c | 85 ++++++++++++++++++++++++++++++----------
 2 files changed, 67 insertions(+), 22 deletions(-)

diff --git a/tcg/ppc/tcg-target.h b/tcg/ppc/tcg-target.h
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.h
+++ b/tcg/ppc/tcg-target.h
@@ -XXX,XX +XXX,XX @@ typedef enum {
 typedef enum {
     tcg_isa_base,
     tcg_isa_2_06,
+    tcg_isa_2_07,
     tcg_isa_3_00,
 } TCGPowerISA;
 
@@ -XXX,XX +XXX,XX @@ extern bool have_altivec;
 extern bool have_vsx;
 
 #define have_isa_2_06  (have_isa >= tcg_isa_2_06)
+#define have_isa_2_07  (have_isa >= tcg_isa_2_07)
 #define have_isa_3_00  (have_isa >= tcg_isa_3_00)
 
 /* optional instructions automatically implemented */
@@ -XXX,XX +XXX,XX @@ extern bool have_vsx;
 #define TCG_TARGET_HAS_v256             0
 
 #define TCG_TARGET_HAS_andc_vec         1
-#define TCG_TARGET_HAS_orc_vec          0
+#define TCG_TARGET_HAS_orc_vec          have_isa_2_07
 #define TCG_TARGET_HAS_not_vec          1
 #define TCG_TARGET_HAS_neg_vec          0
 #define TCG_TARGET_HAS_abs_vec          0
diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 #define VADDSWS    VX4(896)
 #define VADDUWS    VX4(640)
 #define VADDUWM    VX4(128)
+#define VADDUDM    VX4(192)       /* v2.07 */
 
 #define VSUBSBS    VX4(1792)
 #define VSUBUBS    VX4(1536)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 #define VSUBSWS    VX4(1920)
 #define VSUBUWS    VX4(1664)
 #define VSUBUWM    VX4(1152)
+#define VSUBUDM    VX4(1216)      /* v2.07 */
 
 #define VMAXSB     VX4(258)
 #define VMAXSH     VX4(322)
 #define VMAXSW     VX4(386)
+#define VMAXSD     VX4(450)       /* v2.07 */
 #define VMAXUB     VX4(2)
 #define VMAXUH     VX4(66)
 #define VMAXUW     VX4(130)
+#define VMAXUD     VX4(194)       /* v2.07 */
 #define VMINSB     VX4(770)
 #define VMINSH     VX4(834)
 #define VMINSW     VX4(898)
+#define VMINSD     VX4(962)       /* v2.07 */
 #define VMINUB     VX4(514)
 #define VMINUH     VX4(578)
 #define VMINUW     VX4(642)
+#define VMINUD     VX4(706)       /* v2.07 */
 
 #define VCMPEQUB   VX4(6)
 #define VCMPEQUH   VX4(70)
 #define VCMPEQUW   VX4(134)
+#define VCMPEQUD   VX4(199)       /* v2.07 */
 #define VCMPGTSB   VX4(774)
 #define VCMPGTSH   VX4(838)
 #define VCMPGTSW   VX4(902)
+#define VCMPGTSD   VX4(967)       /* v2.07 */
 #define VCMPGTUB   VX4(518)
 #define VCMPGTUH   VX4(582)
 #define VCMPGTUW   VX4(646)
+#define VCMPGTUD   VX4(711)       /* v2.07 */
 
 #define VSLB       VX4(260)
 #define VSLH       VX4(324)
 #define VSLW       VX4(388)
+#define VSLD       VX4(1476)      /* v2.07 */
 #define VSRB       VX4(516)
 #define VSRH       VX4(580)
 #define VSRW       VX4(644)
+#define VSRD       VX4(1732)      /* v2.07 */
 #define VSRAB      VX4(772)
 #define VSRAH      VX4(836)
 #define VSRAW      VX4(900)
+#define VSRAD      VX4(964)       /* v2.07 */
 #define VRLB       VX4(4)
 #define VRLH       VX4(68)
 #define VRLW       VX4(132)
+#define VRLD       VX4(196)       /* v2.07 */
 
 #define VMULEUB    VX4(520)
 #define VMULEUH    VX4(584)
+#define VMULEUW    VX4(648)       /* v2.07 */
 #define VMULOUB    VX4(8)
 #define VMULOUH    VX4(72)
+#define VMULOUW    VX4(136)       /* v2.07 */
+#define VMULUWM    VX4(137)       /* v2.07 */
 #define VMSUMUHM   VX4(38)
 
 #define VMRGHB     VX4(12)
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 #define VNOR       VX4(1284)
 #define VOR        VX4(1156)
 #define VXOR       VX4(1220)
+#define VEQV       VX4(1668)      /* v2.07 */
+#define VNAND      VX4(1412)      /* v2.07 */
+#define VORC       VX4(1348)      /* v2.07 */
 
 #define VSPLTB     VX4(524)
 #define VSPLTH     VX4(588)
@@ -XXX,XX +XXX,XX @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
     case INDEX_op_andc_vec:
     case INDEX_op_not_vec:
         return 1;
+    case INDEX_op_orc_vec:
+        return have_isa_2_07;
     case INDEX_op_add_vec:
     case INDEX_op_sub_vec:
     case INDEX_op_smax_vec:
     case INDEX_op_smin_vec:
     case INDEX_op_umax_vec:
     case INDEX_op_umin_vec:
+    case INDEX_op_shlv_vec:
+    case INDEX_op_shrv_vec:
+    case INDEX_op_sarv_vec:
+        return vece <= MO_32 || have_isa_2_07;
     case INDEX_op_ssadd_vec:
     case INDEX_op_sssub_vec:
     case INDEX_op_usadd_vec:
     case INDEX_op_ussub_vec:
-    case INDEX_op_shlv_vec:
-    case INDEX_op_shrv_vec:
-    case INDEX_op_sarv_vec:
         return vece <= MO_32;
     case INDEX_op_cmp_vec:
-    case INDEX_op_mul_vec:
     case INDEX_op_shli_vec:
     case INDEX_op_shri_vec:
     case INDEX_op_sari_vec:
-        return vece <= MO_32 ? -1 : 0;
+        return vece <= MO_32 || have_isa_2_07 ? -1 : 0;
+    case INDEX_op_mul_vec:
+        switch (vece) {
+        case MO_8:
+        case MO_16:
+            return -1;
+        case MO_32:
+            return have_isa_2_07 ? 1 : -1;
+        }
+        return 0;
     case INDEX_op_bitsel_vec:
         return have_vsx;
     default:
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
                            const TCGArg *args, const int *const_args)
 {
     static const uint32_t
-        add_op[4] = { VADDUBM, VADDUHM, VADDUWM, 0 },
-        sub_op[4] = { VSUBUBM, VSUBUHM, VSUBUWM, 0 },
-        eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, 0 },
-        gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, 0 },
-        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, 0 },
+        add_op[4] = { VADDUBM, VADDUHM, VADDUWM, VADDUDM },
+        sub_op[4] = { VSUBUBM, VSUBUHM, VSUBUWM, VSUBUDM },
+        eq_op[4]  = { VCMPEQUB, VCMPEQUH, VCMPEQUW, VCMPEQUD },
+        gts_op[4] = { VCMPGTSB, VCMPGTSH, VCMPGTSW, VCMPGTSD },
+        gtu_op[4] = { VCMPGTUB, VCMPGTUH, VCMPGTUW, VCMPGTUD },
         ssadd_op[4] = { VADDSBS, VADDSHS, VADDSWS, 0 },
         usadd_op[4] = { VADDUBS, VADDUHS, VADDUWS, 0 },
         sssub_op[4] = { VSUBSBS, VSUBSHS, VSUBSWS, 0 },
         ussub_op[4] = { VSUBUBS, VSUBUHS, VSUBUWS, 0 },
-        umin_op[4] = { VMINUB, VMINUH, VMINUW, 0 },
-        smin_op[4] = { VMINSB, VMINSH, VMINSW, 0 },
-        umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, 0 },
-        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, 0 },
-        shlv_op[4] = { VSLB, VSLH, VSLW, 0 },
-        shrv_op[4] = { VSRB, VSRH, VSRW, 0 },
-        sarv_op[4] = { VSRAB, VSRAH, VSRAW, 0 },
+        umin_op[4] = { VMINUB, VMINUH, VMINUW, VMINUD },
+        smin_op[4] = { VMINSB, VMINSH, VMINSW, VMINSD },
+        umax_op[4] = { VMAXUB, VMAXUH, VMAXUW, VMAXUD },
+        smax_op[4] = { VMAXSB, VMAXSH, VMAXSW, VMAXSD },
+        shlv_op[4] = { VSLB, VSLH, VSLW, VSLD },
+        shrv_op[4] = { VSRB, VSRH, VSRW, VSRD },
+        sarv_op[4] = { VSRAB, VSRAH, VSRAW, VSRAD },
         mrgh_op[4] = { VMRGHB, VMRGHH, VMRGHW, 0 },
         mrgl_op[4] = { VMRGLB, VMRGLH, VMRGLW, 0 },
-        muleu_op[4] = { VMULEUB, VMULEUH, 0, 0 },
-        mulou_op[4] = { VMULOUB, VMULOUH, 0, 0 },
+        muleu_op[4] = { VMULEUB, VMULEUH, VMULEUW, 0 },
+        mulou_op[4] = { VMULOUB, VMULOUH, VMULOUW, 0 },
         pkum_op[4] = { VPKUHUM, VPKUWUM, 0, 0 },
-        rotl_op[4] = { VRLB, VRLH, VRLW, 0 };
+        rotl_op[4] = { VRLB, VRLH, VRLW, VRLD };
 
     TCGType type = vecl + TCG_TYPE_V64;
     TCGArg a0 = args[0], a1 = args[1], a2 = args[2];
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
     case INDEX_op_sub_vec:
         insn = sub_op[vece];
         break;
+    case INDEX_op_mul_vec:
+        tcg_debug_assert(vece == MO_32 && have_isa_2_07);
+        insn = VMULUWM;
+        break;
     case INDEX_op_ssadd_vec:
         insn = ssadd_op[vece];
         break;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
         insn = VNOR;
         a2 = a1;
         break;
+    case INDEX_op_orc_vec:
+        insn = VORC;
+        break;
 
     case INDEX_op_cmp_vec:
         switch (args[3]) {
@@ -XXX,XX +XXX,XX @@ static void expand_vec_cmp(TCGType type, unsigned vece, TCGv_vec v0,
 {
     bool need_swap = false, need_inv = false;
 
-    tcg_debug_assert(vece <= MO_32);
+    tcg_debug_assert(vece <= MO_32 || have_isa_2_07);
 
     switch (cond) {
     case TCG_COND_EQ:
@@ -XXX,XX +XXX,XX @@ static void expand_vec_mul(TCGType type, unsigned vece, TCGv_vec v0,
 	break;
 
     case MO_32:
+        tcg_debug_assert(!have_isa_2_07);
         t3 = tcg_temp_new_vec(type);
         t4 = tcg_temp_new_vec(type);
         tcg_gen_dupi_vec(MO_8, t4, -16);
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     if (hwcap & PPC_FEATURE_ARCH_2_06) {
         have_isa = tcg_isa_2_06;
     }
+#ifdef PPC_FEATURE2_ARCH_2_07
+    if (hwcap2 & PPC_FEATURE2_ARCH_2_07) {
+        have_isa = tcg_isa_2_07;
+    }
+#endif
 #ifdef PPC_FEATURE2_ARCH_3_00
     if (hwcap2 & PPC_FEATURE2_ARCH_3_00) {
         have_isa = tcg_isa_3_00;
-- 
2.17.1

These new instructions are conditional only on MSR.VSX and
are thus part of the VSX instruction set, and not Altivec.
This includes double-word loads and stores.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 11 +++++++++++
 1 file changed, 11 insertions(+)

These new instructions are conditional on MSR.FP when TX=0 and
MSR.VEC when TX=1.  Since we only care about the Altivec registers,
and force TX=1, we can consider these to be Altivec instructions.
Since Altivec is true for any use of vector types, we only need
test have_isa_2_07.

This includes moves to and from the integer registers.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 32 ++++++++++++++++++++++++++------
 1 file changed, 26 insertions(+), 6 deletions(-)

These new instructions are conditional only on MSR.VEC and
are thus part of the Altivec instruction set, and not VSX.
This includes negation and compare not equal.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.h     |  2 +-
 tcg/ppc/tcg-target.inc.c | 23 +++++++++++++++++++++++
 2 files changed, 24 insertions(+), 1 deletion(-)

These new instructions are a mix of those like LXSD that are
only conditional only on MSR.VEC and those like LXV that are
conditional on MSR.VEC for TX=1.  Thus, in the end, we can
consider all of these as Altivec instructions.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 47 ++++++++++++++++++++++++++++++++--------
 1 file changed, 38 insertions(+), 9 deletions(-)

diff --git a/tcg/ppc/tcg-target.inc.c b/tcg/ppc/tcg-target.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/ppc/tcg-target.inc.c
+++ b/tcg/ppc/tcg-target.inc.c
@@ -XXX,XX +XXX,XX @@ static int tcg_target_const_match(tcg_target_long val, TCGType type,
 #define LXSDX      (XO31(588) | 1)  /* v2.06, force tx=1 */
 #define LXVDSX     (XO31(332) | 1)  /* v2.06, force tx=1 */
 #define LXSIWZX    (XO31(12) | 1)   /* v2.07, force tx=1 */
+#define LXV        (OPCD(61) | 8 | 1)  /* v3.00, force tx=1 */
+#define LXSD       (OPCD(57) | 2)   /* v3.00 */
+#define LXVWSX     (XO31(364) | 1)  /* v3.00, force tx=1 */
 
 #define STVX       XO31(231)
 #define STVEWX     XO31(199)
 #define STXSDX     (XO31(716) | 1)  /* v2.06, force sx=1 */
 #define STXSIWX    (XO31(140) | 1)  /* v2.07, force sx=1 */
+#define STXV       (OPCD(61) | 8 | 5) /* v3.00, force sx=1 */
+#define STXSD      (OPCD(61) | 2)   /* v3.00 */
 
 #define VADDSBS    VX4(768)
 #define VADDUBS    VX4(512)
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
                              TCGReg base, tcg_target_long offset)
 {
     tcg_target_long orig = offset, l0, l1, extra = 0, align = 0;
-    bool is_store = false;
+    bool is_int_store = false;
     TCGReg rs = TCG_REG_TMP1;
 
     switch (opi) {
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
             break;
         }
         break;
+    case LXSD:
+    case STXSD:
+        align = 3;
+        break;
+    case LXV:
+    case STXV:
+        align = 15;
+        break;
     case STD:
         align = 3;
         /* FALLTHRU */
     case STB: case STH: case STW:
-        is_store = true;
+        is_int_store = true;
         break;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tcg_out_mem_long(TCGContext *s, int opi, int opx, TCGReg rt,
         if (rs == base) {
             rs = TCG_REG_R0;
         }
-        tcg_debug_assert(!is_store || rs != rt);
+        tcg_debug_assert(!is_int_store || rs != rt);
         tcg_out_movi(s, TCG_TYPE_PTR, rs, orig);
         tcg_out32(s, opx | TAB(rt & 31, base, rs));
         return;
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
     case TCG_TYPE_V64:
         tcg_debug_assert(ret >= TCG_REG_V0);
         if (have_vsx) {
-            tcg_out_mem_long(s, 0, LXSDX, ret, base, offset);
+            tcg_out_mem_long(s, have_isa_3_00 ? LXSD : 0, LXSDX,
+                             ret, base, offset);
             break;
         }
         tcg_debug_assert((offset & 7) == 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
     case TCG_TYPE_V128:
         tcg_debug_assert(ret >= TCG_REG_V0);
         tcg_debug_assert((offset & 15) == 0);
-        tcg_out_mem_long(s, 0, LVX, ret, base, offset);
+        tcg_out_mem_long(s, have_isa_3_00 ? LXV : 0,
+                         LVX, ret, base, offset);
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
     case TCG_TYPE_V64:
         tcg_debug_assert(arg >= TCG_REG_V0);
         if (have_vsx) {
-            tcg_out_mem_long(s, 0, STXSDX, arg, base, offset);
+            tcg_out_mem_long(s, have_isa_3_00 ? STXSD : 0,
+                             STXSDX, arg, base, offset);
             break;
         }
         tcg_debug_assert((offset & 7) == 0);
@@ -XXX,XX +XXX,XX @@ static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
         break;
     case TCG_TYPE_V128:
         tcg_debug_assert(arg >= TCG_REG_V0);
-        tcg_out_mem_long(s, 0, STVX, arg, base, offset);
+        tcg_out_mem_long(s, have_isa_3_00 ? STXV : 0,
+                         STVX, arg, base, offset);
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
     tcg_debug_assert(out >= TCG_REG_V0);
     switch (vece) {
     case MO_8:
-        tcg_out_mem_long(s, 0, LVEBX, out, base, offset);
+        if (have_isa_3_00) {
+            tcg_out_mem_long(s, LXV, LVX, out, base, offset & -16);
+        } else {
+            tcg_out_mem_long(s, 0, LVEBX, out, base, offset);
+        }
         elt = extract32(offset, 0, 4);
 #ifndef HOST_WORDS_BIGENDIAN
         elt ^= 15;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
         break;
     case MO_16:
         tcg_debug_assert((offset & 1) == 0);
-        tcg_out_mem_long(s, 0, LVEHX, out, base, offset);
+        if (have_isa_3_00) {
+            tcg_out_mem_long(s, LXV | 8, LVX, out, base, offset & -16);
+        } else {
+            tcg_out_mem_long(s, 0, LVEHX, out, base, offset);
+        }
         elt = extract32(offset, 1, 3);
 #ifndef HOST_WORDS_BIGENDIAN
         elt ^= 7;
@@ -XXX,XX +XXX,XX @@ static bool tcg_out_dupm_vec(TCGContext *s, TCGType type, unsigned vece,
         tcg_out32(s, VSPLTH | VRT(out) | VRB(out) | (elt << 16));
         break;
     case MO_32:
+        if (have_isa_3_00) {
+            tcg_out_mem_long(s, 0, LXVWSX, out, base, offset);
+            break;
+        }
         tcg_debug_assert((offset & 3) == 0);
         tcg_out_mem_long(s, 0, LVEWX, out, base, offset);
         elt = extract32(offset, 2, 2);
-- 
2.17.1

These new instructions are conditional on MSR.VEC for TX=1,
so we can consider these Altivec instructions.

Reviewed-by: Aleksandar Markovic <amarkovic@wavecomp.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/ppc/tcg-target.inc.c | 28 ++++++++++++++++++++++++++--
 1 file changed, 26 insertions(+), 2 deletions(-)

From: Alex Bennée <alex.bennee@linaro.org>

qemu_cpu_kick is used for a number of reasons including to indicate
there is work to be done. However when thread=single the old
qemu_cpu_kick_rr_cpu only advanced the vCPU to the next executing one
which can lead to a hang in the case that:

a) the kick is from outside the vCPUs (e.g. iothread)
  b) the timers are paused (i.e. iothread calling run_on_cpu)

To avoid this lets split qemu_cpu_kick_rr into two functions. One for
the timer which continues to advance to the next timeslice and another
for all other kicks.

Message-Id: <20191001160426.26644-1-alex.bennee@linaro.org>
Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Alex Bennée <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 cpus.c | 24 ++++++++++++++++++------
 1 file changed, 18 insertions(+), 6 deletions(-)

diff --git a/cpus.c b/cpus.c
index XXXXXXX..XXXXXXX 100644
--- a/cpus.c
+++ b/cpus.c
@@ -XXX,XX +XXX,XX @@ static inline int64_t qemu_tcg_next_kick(void)
     return qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) + TCG_KICK_PERIOD;
 }
 
-/* Kick the currently round-robin scheduled vCPU */
-static void qemu_cpu_kick_rr_cpu(void)
+/* Kick the currently round-robin scheduled vCPU to next */
+static void qemu_cpu_kick_rr_next_cpu(void)
 {
     CPUState *cpu;
     do {
@@ -XXX,XX +XXX,XX @@ static void qemu_cpu_kick_rr_cpu(void)
     } while (cpu != atomic_mb_read(&tcg_current_rr_cpu));
 }
 
+/* Kick all RR vCPUs */
+static void qemu_cpu_kick_rr_cpus(void)
+{
+    CPUState *cpu;
+
+    CPU_FOREACH(cpu) {
+        cpu_exit(cpu);
+    };
+}
+
 static void do_nothing(CPUState *cpu, run_on_cpu_data unused)
 {
 }
@@ -XXX,XX +XXX,XX @@ void qemu_timer_notify_cb(void *opaque, QEMUClockType type)
 static void kick_tcg_thread(void *opaque)
 {
     timer_mod(tcg_kick_vcpu_timer, qemu_tcg_next_kick());
-    qemu_cpu_kick_rr_cpu();
+    qemu_cpu_kick_rr_next_cpu();
 }
 
 static void start_tcg_kick_timer(void)
@@ -XXX,XX +XXX,XX @@ void qemu_cpu_kick(CPUState *cpu)
 {
     qemu_cond_broadcast(cpu->halt_cond);
     if (tcg_enabled()) {
-        cpu_exit(cpu);
-        /* NOP unless doing single-thread RR */
-        qemu_cpu_kick_rr_cpu();
+        if (qemu_tcg_mttcg_enabled()) {
+            cpu_exit(cpu);
+        } else {
+            qemu_cpu_kick_rr_cpus();
+        }
     } else {
         if (hax_enabled()) {
             /*
-- 
2.17.1