From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511299943034970.3376404776066;
 Tue, 21 Nov 2017 13:32:23 -0800 (PST)
Received: from localhost ([::1]:36598 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHG9R-0007hM-4s
	for importer@patchew.org; Tue, 21 Nov 2017 16:32:17 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:53880)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG51-0004Gc-8b
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:46 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG4y-0007cQ-5E
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:43 -0500
Received: from mail-wm0-x244.google.com ([2a00:1450:400c:c09::244]:44104)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG4x-0007bV-Nu
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:40 -0500
Received: by mail-wm0-x244.google.com with SMTP id r68so6351915wmr.3
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:39 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.36 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:37 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=Y+atx2M14YL5KBwzXcmdZ2PYIm+GY9wwqd8Y7EyXQVg=;
	b=F0nrFDKZ50y6Dx35arkM3tzRmOLABzPYz6aQ0GoGbt3Zcqz3juOpHP64bQVMwL47PJ
	I/QWZVOYaXt51lxWJW5gevd5mcUYMn8a97Moth982qT1TvxidbdRaGjy+5GpxZ9AJkxM
	SRpo88B97DLKx9hFZH2YEcPWCKRzbUge56IM8=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=Y+atx2M14YL5KBwzXcmdZ2PYIm+GY9wwqd8Y7EyXQVg=;
	b=M15alX9Bj0k4/vURhhFo/jKv+RqjXwserh10AL7nm+RwG6Zsm9h0tkael8S7FCJMCa
	vTTC2OfLBu/I22hPH+r5vuqYvtJgeuuA3eZ4YejmM3FVYH+vlD9EKHB1MfzSEij5WJKI
	R1HwyUC78143drD4bHlDtg8o1y9vt9nj1L4xqmzSBst8tp9VNQr5owaCAK7yJHlokcPs
	CMc28Efo2QEekOMlmlyRyOlfrjbgXNbBDy/d9p/yt7RnQX9mzQGS854kIC2XP2PdjDae
	JhKexeGevHPd9AkHbIhjWbCdSdmHpiczFtN5MMAqAHy9Be0DbtQ/XLFs+yFauGx6yW1I
	XJzw==
X-Gm-Message-State: AJaThX7hcFjoN0wze0RWzveF0sMu3pgASWE0XgRhPMUWlNVjsKnMNJ8i
	yCTZdD3Tb+T2HJkGoBcxSjqiUMsLtYw=
X-Google-Smtp-Source: 
 AGs4zMZLNslWCdUWs39ji6okeii6v8G4TYqDY/jkhXHB66dXovbd+HSvxZbI2xpc88cVrIBo8fzeIA==
X-Received: by 10.28.88.65 with SMTP id m62mr2361972wmb.111.1511299657995;
	Tue, 21 Nov 2017 13:27:37 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:09 +0100
Message-Id: <20171121212534.5177-2-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::244
Subject: [Qemu-devel] [PATCH v6 01/26] tcg: Remove TCGV_UNUSED* and
 TCGV_IS_UNUSED*
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

These are now trivial sets and tests against NULL.  Unwrap.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-op.h                 |  4 ---
 tcg/tcg.h                    |  9 -------
 target/alpha/translate.c     | 22 ++++++++--------
 target/arm/translate-a64.c   | 35 +++++++++++-------------
 target/arm/translate.c       | 29 ++++++++++----------
 target/cris/translate.c      |  2 +-
 target/hppa/translate.c      | 63 ++++++++++++++++++++++------------------=
----
 target/i386/translate.c      | 13 +++++----
 target/m68k/translate.c      | 14 +++++-----
 target/mips/translate.c      |  2 +-
 target/nios2/translate.c     |  6 ++---
 target/ppc/translate.c       |  2 +-
 target/s390x/translate.c     | 42 ++++++++++++++---------------
 target/sh4/translate.c       |  2 +-
 target/sparc/translate.c     |  2 +-
 target/tilegx/translate.c    | 10 +++----
 target/unicore32/translate.c |  4 +--
 tcg/tcg.c                    |  4 +--
 18 files changed, 122 insertions(+), 143 deletions(-)

diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index 3129159907..ca07b32b65 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -807,8 +807,6 @@ void tcg_gen_lookup_and_goto_ptr(void);
 #define tcg_global_mem_new tcg_global_mem_new_i32
 #define tcg_temp_local_new() tcg_temp_local_new_i32()
 #define tcg_temp_free tcg_temp_free_i32
-#define TCGV_UNUSED(x) TCGV_UNUSED_I32(x)
-#define TCGV_IS_UNUSED(x) TCGV_IS_UNUSED_I32(x)
 #define tcg_gen_qemu_ld_tl tcg_gen_qemu_ld_i32
 #define tcg_gen_qemu_st_tl tcg_gen_qemu_st_i32
 #else
@@ -817,8 +815,6 @@ void tcg_gen_lookup_and_goto_ptr(void);
 #define tcg_global_mem_new tcg_global_mem_new_i64
 #define tcg_temp_local_new() tcg_temp_local_new_i64()
 #define tcg_temp_free tcg_temp_free_i64
-#define TCGV_UNUSED(x) TCGV_UNUSED_I64(x)
-#define TCGV_IS_UNUSED(x) TCGV_IS_UNUSED_I64(x)
 #define tcg_gen_qemu_ld_tl tcg_gen_qemu_ld_i64
 #define tcg_gen_qemu_st_tl tcg_gen_qemu_st_i64
 #endif
diff --git a/tcg/tcg.h b/tcg/tcg.h
index cb7b329876..c21194c858 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -428,15 +428,6 @@ typedef TCGv_ptr TCGv_env;
 #error Unhandled TARGET_LONG_BITS value
 #endif
=20
-/* See the comment before tcgv_i32_temp.  */
-#define TCGV_UNUSED_I32(x) (x =3D (TCGv_i32)NULL)
-#define TCGV_UNUSED_I64(x) (x =3D (TCGv_i64)NULL)
-#define TCGV_UNUSED_PTR(x) (x =3D (TCGv_ptr)NULL)
-
-#define TCGV_IS_UNUSED_I32(x) ((x) =3D=3D (TCGv_i32)NULL)
-#define TCGV_IS_UNUSED_I64(x) ((x) =3D=3D (TCGv_i64)NULL)
-#define TCGV_IS_UNUSED_PTR(x) ((x) =3D=3D (TCGv_ptr)NULL)
-
 /* call flags */
 /* Helper does not read globals (either directly or through an exception).=
 It
    implies TCG_CALL_NO_WRITE_GLOBALS. */
diff --git a/target/alpha/translate.c b/target/alpha/translate.c
index 629f35ec8e..73a1b5e63e 100644
--- a/target/alpha/translate.c
+++ b/target/alpha/translate.c
@@ -156,7 +156,7 @@ void alpha_translate_init(void)
=20
 static TCGv load_zero(DisasContext *ctx)
 {
-    if (TCGV_IS_UNUSED_I64(ctx->zero)) {
+    if (!ctx->zero) {
         ctx->zero =3D tcg_const_i64(0);
     }
     return ctx->zero;
@@ -164,7 +164,7 @@ static TCGv load_zero(DisasContext *ctx)
=20
 static TCGv dest_sink(DisasContext *ctx)
 {
-    if (TCGV_IS_UNUSED_I64(ctx->sink)) {
+    if (!ctx->sink) {
         ctx->sink =3D tcg_temp_new();
     }
     return ctx->sink;
@@ -172,18 +172,18 @@ static TCGv dest_sink(DisasContext *ctx)
=20
 static void free_context_temps(DisasContext *ctx)
 {
-    if (!TCGV_IS_UNUSED_I64(ctx->sink)) {
+    if (ctx->sink) {
         tcg_gen_discard_i64(ctx->sink);
         tcg_temp_free(ctx->sink);
-        TCGV_UNUSED_I64(ctx->sink);
+        ctx->sink =3D NULL;
     }
-    if (!TCGV_IS_UNUSED_I64(ctx->zero)) {
+    if (ctx->zero) {
         tcg_temp_free(ctx->zero);
-        TCGV_UNUSED_I64(ctx->zero);
+        ctx->zero =3D NULL;
     }
-    if (!TCGV_IS_UNUSED_I64(ctx->lit)) {
+    if (ctx->lit) {
         tcg_temp_free(ctx->lit);
-        TCGV_UNUSED_I64(ctx->lit);
+        ctx->lit =3D NULL;
     }
 }
=20
@@ -2948,9 +2948,9 @@ static int alpha_tr_init_disas_context(DisasContextBa=
se *dcbase,
     /* Similarly for flush-to-zero.  */
     ctx->tb_ftz =3D -1;
=20
-    TCGV_UNUSED_I64(ctx->zero);
-    TCGV_UNUSED_I64(ctx->sink);
-    TCGV_UNUSED_I64(ctx->lit);
+    ctx->zero =3D NULL;
+    ctx->sink =3D NULL;
+    ctx->lit =3D NULL;
=20
     /* Bound the number of insns to execute to those left on the page.  */
     if (in_superpage(ctx, ctx->base.pc_first)) {
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index 625ef2dfd2..460bab5987 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -405,10 +405,7 @@ static void unallocated_encoding(DisasContext *s)
 static void init_tmp_a64_array(DisasContext *s)
 {
 #ifdef CONFIG_DEBUG_TCG
-    int i;
-    for (i =3D 0; i < ARRAY_SIZE(s->tmp_a64); i++) {
-        TCGV_UNUSED_I64(s->tmp_a64[i]);
-    }
+    memset(s->tmp_a64, 0, sizeof(s->tmp_a64));
 #endif
     s->tmp_a64_count =3D 0;
 }
@@ -6276,7 +6273,7 @@ static void disas_simd_scalar_pairwise(DisasContext *=
s, uint32_t insn)
             return;
         }
=20
-        TCGV_UNUSED_PTR(fpst);
+        fpst =3D NULL;
         break;
     case 0xc: /* FMAXNMP */
     case 0xd: /* FADDP */
@@ -6371,7 +6368,7 @@ static void disas_simd_scalar_pairwise(DisasContext *=
s, uint32_t insn)
         tcg_temp_free_i32(tcg_res);
     }
=20
-    if (!TCGV_IS_UNUSED_PTR(fpst)) {
+    if (fpst) {
         tcg_temp_free_ptr(fpst);
     }
 }
@@ -6387,7 +6384,7 @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res,=
 TCGv_i64 tcg_src,
                                     bool is_u, int size, int shift)
 {
     bool extended_result =3D false;
-    bool round =3D !TCGV_IS_UNUSED_I64(tcg_rnd);
+    bool round =3D tcg_rnd !=3D NULL;
     int ext_lshift =3D 0;
     TCGv_i64 tcg_src_hi;
=20
@@ -6533,7 +6530,7 @@ static void handle_scalar_simd_shri(DisasContext *s,
         uint64_t round_const =3D 1ULL << (shift - 1);
         tcg_round =3D tcg_const_i64(round_const);
     } else {
-        TCGV_UNUSED_I64(tcg_round);
+        tcg_round =3D NULL;
     }
=20
     tcg_rn =3D read_fp_dreg(s, rn);
@@ -6649,7 +6646,7 @@ static void handle_vec_simd_sqshrn(DisasContext *s, b=
ool is_scalar, bool is_q,
         uint64_t round_const =3D 1ULL << (shift - 1);
         tcg_round =3D tcg_const_i64(round_const);
     } else {
-        TCGV_UNUSED_I64(tcg_round);
+        tcg_round =3D NULL;
     }
=20
     for (i =3D 0; i < elements; i++) {
@@ -8239,8 +8236,8 @@ static void disas_simd_scalar_two_reg_misc(DisasConte=
xt *s, uint32_t insn)
         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
         tcg_fpstatus =3D get_fpstatus_ptr();
     } else {
-        TCGV_UNUSED_I32(tcg_rmode);
-        TCGV_UNUSED_PTR(tcg_fpstatus);
+        tcg_rmode =3D NULL;
+        tcg_fpstatus =3D NULL;
     }
=20
     if (size =3D=3D 3) {
@@ -8360,7 +8357,7 @@ static void handle_vec_simd_shri(DisasContext *s, boo=
l is_q, bool is_u,
         uint64_t round_const =3D 1ULL << (shift - 1);
         tcg_round =3D tcg_const_i64(round_const);
     } else {
-        TCGV_UNUSED_I64(tcg_round);
+        tcg_round =3D NULL;
     }
=20
     for (i =3D 0; i < elements; i++) {
@@ -8502,7 +8499,7 @@ static void handle_vec_simd_shrn(DisasContext *s, boo=
l is_q,
         uint64_t round_const =3D 1ULL << (shift - 1);
         tcg_round =3D tcg_const_i64(round_const);
     } else {
-        TCGV_UNUSED_I64(tcg_round);
+        tcg_round =3D NULL;
     }
=20
     for (i =3D 0; i < elements; i++) {
@@ -9168,7 +9165,7 @@ static void handle_simd_3same_pair(DisasContext *s, i=
nt is_q, int u, int opcode,
     if (opcode >=3D 0x58) {
         fpst =3D get_fpstatus_ptr();
     } else {
-        TCGV_UNUSED_PTR(fpst);
+        fpst =3D NULL;
     }
=20
     if (!fp_access_check(s)) {
@@ -9305,7 +9302,7 @@ static void handle_simd_3same_pair(DisasContext *s, i=
nt is_q, int u, int opcode,
         }
     }
=20
-    if (!TCGV_IS_UNUSED_PTR(fpst)) {
+    if (fpst) {
         tcg_temp_free_ptr(fpst);
     }
 }
@@ -10226,13 +10223,13 @@ static void disas_simd_two_reg_misc(DisasContext =
*s, uint32_t insn)
     if (need_fpstatus) {
         tcg_fpstatus =3D get_fpstatus_ptr();
     } else {
-        TCGV_UNUSED_PTR(tcg_fpstatus);
+        tcg_fpstatus =3D NULL;
     }
     if (need_rmode) {
         tcg_rmode =3D tcg_const_i32(arm_rmode_to_sf(rmode));
         gen_helper_set_rmode(tcg_rmode, tcg_rmode, cpu_env);
     } else {
-        TCGV_UNUSED_I32(tcg_rmode);
+        tcg_rmode =3D NULL;
     }
=20
     if (size =3D=3D 3) {
@@ -10593,7 +10590,7 @@ static void disas_simd_indexed(DisasContext *s, uin=
t32_t insn)
     if (is_fp) {
         fpst =3D get_fpstatus_ptr();
     } else {
-        TCGV_UNUSED_PTR(fpst);
+        fpst =3D NULL;
     }
=20
     if (size =3D=3D 3) {
@@ -10917,7 +10914,7 @@ static void disas_simd_indexed(DisasContext *s, uin=
t32_t insn)
         }
     }
=20
-    if (!TCGV_IS_UNUSED_PTR(fpst)) {
+    if (fpst) {
         tcg_temp_free_ptr(fpst);
     }
 }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index 4afb0c86ec..0b74ce7dec 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -2165,8 +2165,8 @@ static int disas_iwmmxt_insn(DisasContext *s, uint32_=
t insn)
             tmp3 =3D tcg_const_i32((insn & 1) << 5);
             break;
         default:
-            TCGV_UNUSED_I32(tmp2);
-            TCGV_UNUSED_I32(tmp3);
+            tmp2 =3D NULL;
+            tmp3 =3D NULL;
         }
         gen_helper_iwmmxt_insr(cpu_M0, cpu_M0, tmp, tmp2, tmp3);
         tcg_temp_free_i32(tmp3);
@@ -4935,7 +4935,7 @@ static int disas_neon_ls_insn(DisasContext *s, uint32=
_t insn)
                         }
                     } else /* size =3D=3D 0 */ {
                         if (load) {
-                            TCGV_UNUSED_I32(tmp2);
+                            tmp2 =3D NULL;
                             for (n =3D 0; n < 4; n++) {
                                 tmp =3D tcg_temp_new_i32();
                                 gen_aa32_ld8u(s, tmp, addr, get_mem_index(=
s));
@@ -6639,11 +6639,11 @@ static int disas_neon_data_insn(DisasContext *s, ui=
nt32_t insn)
                     tmp =3D neon_load_reg(rn, 1);
                     neon_store_scratch(2, tmp);
                 }
-                TCGV_UNUSED_I32(tmp3);
+                tmp3 =3D NULL;
                 for (pass =3D 0; pass < 2; pass++) {
                     if (src1_wide) {
                         neon_load_reg64(cpu_V0, rn + pass);
-                        TCGV_UNUSED_I32(tmp);
+                        tmp =3D NULL;
                     } else {
                         if (pass =3D=3D 1 && rd =3D=3D rn) {
                             tmp =3D neon_load_scratch(2);
@@ -6656,7 +6656,7 @@ static int disas_neon_data_insn(DisasContext *s, uint=
32_t insn)
                     }
                     if (src2_wide) {
                         neon_load_reg64(cpu_V1, rm + pass);
-                        TCGV_UNUSED_I32(tmp2);
+                        tmp2 =3D NULL;
                     } else {
                         if (pass =3D=3D 1 && rd =3D=3D rm) {
                             tmp2 =3D neon_load_scratch(2);
@@ -7074,7 +7074,7 @@ static int disas_neon_data_insn(DisasContext *s, uint=
32_t insn)
                     if (rm & 1) {
                         return 1;
                     }
-                    TCGV_UNUSED_I32(tmp2);
+                    tmp2 =3D NULL;
                     for (pass =3D 0; pass < 2; pass++) {
                         neon_load_reg64(cpu_V0, rm + pass);
                         tmp =3D tcg_temp_new_i32();
@@ -7213,7 +7213,7 @@ static int disas_neon_data_insn(DisasContext *s, uint=
32_t insn)
                         if (neon_2rm_is_float_op(op)) {
                             tcg_gen_ld_f32(cpu_F0s, cpu_env,
                                            neon_reg_offset(rm, pass));
-                            TCGV_UNUSED_I32(tmp);
+                            tmp =3D NULL;
                         } else {
                             tmp =3D neon_load_reg(rm, pass);
                         }
@@ -8662,7 +8662,7 @@ static void disas_arm_insn(DisasContext *s, unsigned =
int insn)
             rn =3D (insn >> 16) & 0xf;
             tmp =3D load_reg(s, rn);
         } else {
-            TCGV_UNUSED_I32(tmp);
+            tmp =3D NULL;
         }
         rd =3D (insn >> 12) & 0xf;
         switch(op1) {
@@ -9501,7 +9501,7 @@ static void disas_arm_insn(DisasContext *s, unsigned =
int insn)
=20
                 /* compute total size */
                 loaded_base =3D 0;
-                TCGV_UNUSED_I32(loaded_var);
+                loaded_var =3D NULL;
                 n =3D 0;
                 for(i=3D0;i<16;i++) {
                     if (insn & (1 << i))
@@ -10043,7 +10043,7 @@ static int disas_thumb2_insn(DisasContext *s, uint3=
2_t insn)
                     tcg_gen_addi_i32(addr, addr, -offset);
                 }
=20
-                TCGV_UNUSED_I32(loaded_var);
+                loaded_var =3D NULL;
                 for (i =3D 0; i < 16; i++) {
                     if ((insn & (1 << i)) =3D=3D 0)
                         continue;
@@ -11324,7 +11324,7 @@ static void disas_thumb_insn(DisasContext *s, uint3=
2_t insn)
         } else if (op !=3D 0xf) { /* mvn doesn't read its first operand */
             tmp =3D load_reg(s, rd);
         } else {
-            TCGV_UNUSED_I32(tmp);
+            tmp =3D NULL;
         }
=20
         tmp2 =3D load_reg(s, rm);
@@ -11655,7 +11655,7 @@ static void disas_thumb_insn(DisasContext *s, uint3=
2_t insn)
                     tcg_gen_addi_i32(addr, addr, 4);
                 }
             }
-            TCGV_UNUSED_I32(tmp);
+            tmp =3D NULL;
             if (insn & (1 << 8)) {
                 if (insn & (1 << 11)) {
                     /* pop pc */
@@ -11800,8 +11800,7 @@ static void disas_thumb_insn(DisasContext *s, uint3=
2_t insn)
     case 12:
     {
         /* load/store multiple */
-        TCGv_i32 loaded_var;
-        TCGV_UNUSED_I32(loaded_var);
+        TCGv_i32 loaded_var =3D NULL;
         rn =3D (insn >> 8) & 0x7;
         addr =3D load_reg(s, rn);
         for (i =3D 0; i < 8; i++) {
diff --git a/target/cris/translate.c b/target/cris/translate.c
index 2831419845..74822ed31f 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -2603,7 +2603,7 @@ static int dec_movem_mr(CPUCRISState *env, DisasConte=
xt *dc)
         tcg_gen_addi_tl(addr, cpu_R[dc->op1], i * 8);
         gen_load(dc, tmp32, addr, 4, 0);
     } else {
-        TCGV_UNUSED(tmp32);
+        tmp32 =3D NULL;
     }
     tcg_temp_free(addr);
=20
diff --git a/target/hppa/translate.c b/target/hppa/translate.c
index 53aa1f88c4..31d9a2a31b 100644
--- a/target/hppa/translate.c
+++ b/target/hppa/translate.c
@@ -125,7 +125,7 @@ void hppa_translate_init(void)
=20
     int i;
=20
-    TCGV_UNUSED(cpu_gr[0]);
+    cpu_gr[0] =3D NULL;
     for (i =3D 1; i < 32; i++) {
         cpu_gr[i] =3D tcg_global_mem_new(cpu_env,
                                        offsetof(CPUHPPAState, gr[i]),
@@ -140,28 +140,31 @@ void hppa_translate_init(void)
=20
 static DisasCond cond_make_f(void)
 {
-    DisasCond r =3D { .c =3D TCG_COND_NEVER };
-    TCGV_UNUSED(r.a0);
-    TCGV_UNUSED(r.a1);
-    return r;
+    return (DisasCond){
+        .c =3D TCG_COND_NEVER,
+        .a0 =3D NULL,
+        .a1 =3D NULL,
+    };
 }
=20
 static DisasCond cond_make_n(void)
 {
-    DisasCond r =3D { .c =3D TCG_COND_NE, .a0_is_n =3D true, .a1_is_0 =3D =
true };
-    r.a0 =3D cpu_psw_n;
-    TCGV_UNUSED(r.a1);
-    return r;
+    return (DisasCond){
+        .c =3D TCG_COND_NE,
+        .a0 =3D cpu_psw_n,
+        .a0_is_n =3D true,
+        .a1 =3D NULL,
+        .a1_is_0 =3D true
+    };
 }
=20
 static DisasCond cond_make_0(TCGCond c, TCGv a0)
 {
-    DisasCond r =3D { .c =3D c, .a1_is_0 =3D true };
+    DisasCond r =3D { .c =3D c, .a1 =3D NULL, .a1_is_0 =3D true };
=20
     assert (c !=3D TCG_COND_NEVER && c !=3D TCG_COND_ALWAYS);
     r.a0 =3D tcg_temp_new();
     tcg_gen_mov_tl(r.a0, a0);
-    TCGV_UNUSED(r.a1);
=20
     return r;
 }
@@ -199,8 +202,8 @@ static void cond_free(DisasCond *cond)
         }
         cond->a0_is_n =3D false;
         cond->a1_is_0 =3D false;
-        TCGV_UNUSED(cond->a0);
-        TCGV_UNUSED(cond->a1);
+        cond->a0 =3D NULL;
+        cond->a1 =3D NULL;
         /* fallthru */
     case TCG_COND_ALWAYS:
         cond->c =3D TCG_COND_NEVER;
@@ -716,9 +719,8 @@ static DisasCond do_sed_cond(unsigned orig, TCGv res)
 static DisasCond do_unit_cond(unsigned cf, TCGv res, TCGv in1, TCGv in2)
 {
     DisasCond cond;
-    TCGv tmp, cb;
+    TCGv tmp, cb =3D NULL;
=20
-    TCGV_UNUSED(cb);
     if (cf & 8) {
         /* Since we want to test lots of carry-out bits all at once, do not
          * do our normal thing and compute carry-in of bit B+1 since that
@@ -826,8 +828,8 @@ static DisasJumpType do_add(DisasContext *ctx, unsigned=
 rt, TCGv in1, TCGv in2,
     DisasCond cond;
=20
     dest =3D tcg_temp_new();
-    TCGV_UNUSED(cb);
-    TCGV_UNUSED(cb_msb);
+    cb =3D NULL;
+    cb_msb =3D NULL;
=20
     if (shift) {
         tmp =3D get_temp(ctx);
@@ -856,7 +858,7 @@ static DisasJumpType do_add(DisasContext *ctx, unsigned=
 rt, TCGv in1, TCGv in2,
     }
=20
     /* Compute signed overflow if required.  */
-    TCGV_UNUSED(sv);
+    sv =3D NULL;
     if (is_tsv || c =3D=3D 6) {
         sv =3D do_add_sv(ctx, dest, in1, in2);
         if (is_tsv) {
@@ -919,7 +921,7 @@ static DisasJumpType do_sub(DisasContext *ctx, unsigned=
 rt, TCGv in1, TCGv in2,
     tcg_temp_free(zero);
=20
     /* Compute signed overflow if required.  */
-    TCGV_UNUSED(sv);
+    sv =3D NULL;
     if (is_tsv || c =3D=3D 6) {
         sv =3D do_sub_sv(ctx, dest, in1, in2);
         if (is_tsv) {
@@ -965,7 +967,7 @@ static DisasJumpType do_cmpclr(DisasContext *ctx, unsig=
ned rt, TCGv in1,
     tcg_gen_sub_tl(dest, in1, in2);
=20
     /* Compute signed overflow if required.  */
-    TCGV_UNUSED(sv);
+    sv =3D NULL;
     if ((cf >> 1) =3D=3D 6) {
         sv =3D do_sub_sv(ctx, dest, in1, in2);
     }
@@ -2070,8 +2072,7 @@ static DisasJumpType trans_ds(DisasContext *ctx, uint=
32_t insn,
=20
     /* Install the new nullification.  */
     if (cf) {
-        TCGv sv;
-        TCGV_UNUSED(sv);
+        TCGv sv =3D NULL;
         if (cf >> 1 =3D=3D 6) {
             /* ??? The lshift is supposed to contribute to overflow.  */
             sv =3D do_add_sv(ctx, dest, add1, add2);
@@ -2542,7 +2543,7 @@ static DisasJumpType trans_cmpb(DisasContext *ctx, ui=
nt32_t insn,
=20
     tcg_gen_sub_tl(dest, in1, in2);
=20
-    TCGV_UNUSED(sv);
+    sv =3D NULL;
     if (c =3D=3D 6) {
         sv =3D do_sub_sv(ctx, dest, in1, in2);
     }
@@ -2571,8 +2572,8 @@ static DisasJumpType trans_addb(DisasContext *ctx, ui=
nt32_t insn,
     }
     in2 =3D load_gpr(ctx, r);
     dest =3D dest_gpr(ctx, r);
-    TCGV_UNUSED(sv);
-    TCGV_UNUSED(cb_msb);
+    sv =3D NULL;
+    cb_msb =3D NULL;
=20
     switch (c) {
     default:
@@ -3732,18 +3733,16 @@ static int hppa_tr_init_disas_context(DisasContextB=
ase *dcbase,
 {
     DisasContext *ctx =3D container_of(dcbase, DisasContext, base);
     TranslationBlock *tb =3D ctx->base.tb;
-    int i, bound;
+    int bound;
=20
     ctx->cs =3D cs;
     ctx->iaoq_f =3D tb->pc;
     ctx->iaoq_b =3D tb->cs_base;
     ctx->iaoq_n =3D -1;
-    TCGV_UNUSED(ctx->iaoq_n_var);
+    ctx->iaoq_n_var =3D NULL;
=20
     ctx->ntemps =3D 0;
-    for (i =3D 0; i < ARRAY_SIZE(ctx->temps); ++i) {
-        TCGV_UNUSED(ctx->temps[i]);
-    }
+    memset(ctx->temps, 0, sizeof(ctx->temps));
=20
     bound =3D -(tb->pc | TARGET_PAGE_MASK) / 4;
     return MIN(max_insns, bound);
@@ -3804,7 +3803,7 @@ static void hppa_tr_translate_insn(DisasContextBase *=
dcbase, CPUState *cs)
             tcg_gen_addi_tl(ctx->iaoq_n_var, cpu_iaoq_b, 4);
         } else {
             ctx->iaoq_n =3D ctx->iaoq_b + 4;
-            TCGV_UNUSED(ctx->iaoq_n_var);
+            ctx->iaoq_n_var =3D NULL;
         }
=20
         if (unlikely(ctx->null_cond.c =3D=3D TCG_COND_ALWAYS)) {
@@ -3819,7 +3818,7 @@ static void hppa_tr_translate_insn(DisasContextBase *=
dcbase, CPUState *cs)
     /* Free any temporaries allocated.  */
     for (i =3D 0, n =3D ctx->ntemps; i < n; ++i) {
         tcg_temp_free(ctx->temps[i]);
-        TCGV_UNUSED(ctx->temps[i]);
+        ctx->temps[i] =3D NULL;
     }
     ctx->ntemps =3D 0;
=20
diff --git a/target/i386/translate.c b/target/i386/translate.c
index 088a9d9766..8c5f12985a 100644
--- a/target/i386/translate.c
+++ b/target/i386/translate.c
@@ -689,7 +689,7 @@ static void gen_compute_eflags(DisasContext *s)
         return;
     }
=20
-    TCGV_UNUSED(zero);
+    zero =3D NULL;
     dst =3D cpu_cc_dst;
     src1 =3D cpu_cc_src;
     src2 =3D cpu_cc_src2;
@@ -2050,9 +2050,8 @@ static AddressParts gen_lea_modrm_0(CPUX86State *env,=
 DisasContext *s,
 /* Compute the address, with a minimum number of TCG ops.  */
 static TCGv gen_lea_modrm_1(AddressParts a)
 {
-    TCGv ea;
+    TCGv ea =3D NULL;
=20
-    TCGV_UNUSED(ea);
     if (a.index >=3D 0) {
         if (a.scale =3D=3D 0) {
             ea =3D cpu_regs[a.index];
@@ -2067,7 +2066,7 @@ static TCGv gen_lea_modrm_1(AddressParts a)
     } else if (a.base >=3D 0) {
         ea =3D cpu_regs[a.base];
     }
-    if (TCGV_IS_UNUSED(ea)) {
+    if (!ea) {
         tcg_gen_movi_tl(cpu_A0, a.disp);
         ea =3D cpu_A0;
     } else if (a.disp !=3D 0) {
@@ -3951,7 +3950,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b,
                     gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
=20
                     /* Re-use the carry-out from a previous round.  */
-                    TCGV_UNUSED(carry_in);
+                    carry_in =3D NULL;
                     carry_out =3D (b =3D=3D 0x1f6 ? cpu_cc_dst : cpu_cc_sr=
c2);
                     switch (s->cc_op) {
                     case CC_OP_ADCX:
@@ -3979,7 +3978,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b,
                         break;
                     }
                     /* If we can't reuse carry-out, get it out of EFLAGS. =
 */
-                    if (TCGV_IS_UNUSED(carry_in)) {
+                    if (!carry_in) {
                         if (s->cc_op !=3D CC_OP_ADCX && s->cc_op !=3D CC_O=
P_ADOX) {
                             gen_compute_eflags(s);
                         }
@@ -7672,7 +7671,7 @@ static target_ulong disas_insn(DisasContext *s, CPUSt=
ate *cpu)
                 tcg_gen_mov_tl(a0, cpu_A0);
             } else {
                 gen_op_mov_v_reg(ot, t0, rm);
-                TCGV_UNUSED(a0);
+                a0 =3D NULL;
             }
             gen_op_mov_v_reg(ot, t1, reg);
             tcg_gen_andi_tl(cpu_tmp0, t0, 3);
diff --git a/target/m68k/translate.c b/target/m68k/translate.c
index b60909222c..e78c9f208b 100644
--- a/target/m68k/translate.c
+++ b/target/m68k/translate.c
@@ -3956,8 +3956,8 @@ DISAS_INSN(bfop_reg)
     int ofs =3D extract32(ext, 6, 5);  /* big bit-endian */
     TCGv mask, tofs, tlen;
=20
-    TCGV_UNUSED(tofs);
-    TCGV_UNUSED(tlen);
+    tofs =3D NULL;
+    tlen =3D NULL;
     if ((insn & 0x0f00) =3D=3D 0x0d00) { /* bfffo */
         tofs =3D tcg_temp_new();
         tlen =3D tcg_temp_new();
@@ -3973,7 +3973,7 @@ DISAS_INSN(bfop_reg)
         }
         tcg_gen_andi_i32(QREG_CC_N, QREG_CC_N, ~maski);
         mask =3D tcg_const_i32(ror32(maski, ofs));
-        if (!TCGV_IS_UNUSED(tofs)) {
+        if (tofs) {
             tcg_gen_movi_i32(tofs, ofs);
             tcg_gen_movi_i32(tlen, len);
         }
@@ -3985,13 +3985,13 @@ DISAS_INSN(bfop_reg)
             tcg_gen_andi_i32(tmp, tmp, 31);
             mask =3D tcg_const_i32(0x7fffffffu);
             tcg_gen_shr_i32(mask, mask, tmp);
-            if (!TCGV_IS_UNUSED(tlen)) {
+            if (tlen) {
                 tcg_gen_addi_i32(tlen, tmp, 1);
             }
         } else {
             /* Immediate width */
             mask =3D tcg_const_i32(0x7fffffffu >> (len - 1));
-            if (!TCGV_IS_UNUSED(tlen)) {
+            if (tlen) {
                 tcg_gen_movi_i32(tlen, len);
             }
         }
@@ -4001,7 +4001,7 @@ DISAS_INSN(bfop_reg)
             tcg_gen_rotl_i32(QREG_CC_N, src, tmp);
             tcg_gen_andc_i32(QREG_CC_N, QREG_CC_N, mask);
             tcg_gen_rotr_i32(mask, mask, tmp);
-            if (!TCGV_IS_UNUSED(tofs)) {
+            if (tofs) {
                 tcg_gen_mov_i32(tofs, tmp);
             }
         } else {
@@ -4009,7 +4009,7 @@ DISAS_INSN(bfop_reg)
             tcg_gen_rotli_i32(QREG_CC_N, src, ofs);
             tcg_gen_andc_i32(QREG_CC_N, QREG_CC_N, mask);
             tcg_gen_rotri_i32(mask, mask, ofs);
-            if (!TCGV_IS_UNUSED(tofs)) {
+            if (tofs) {
                 tcg_gen_movi_i32(tofs, ofs);
             }
         }
diff --git a/target/mips/translate.c b/target/mips/translate.c
index b022f840c9..d05ee67e63 100644
--- a/target/mips/translate.c
+++ b/target/mips/translate.c
@@ -20453,7 +20453,7 @@ void mips_tcg_init(void)
 {
     int i;
=20
-    TCGV_UNUSED(cpu_gpr[0]);
+    cpu_gpr[0] =3D NULL;
     for (i =3D 1; i < 32; i++)
         cpu_gpr[i] =3D tcg_global_mem_new(cpu_env,
                                         offsetof(CPUMIPSState, active_tc.g=
pr[i]),
diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index 72329002ac..0afd10f08a 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -124,7 +124,7 @@ static uint8_t get_opxcode(uint32_t code)
=20
 static TCGv load_zero(DisasContext *dc)
 {
-    if (TCGV_IS_UNUSED_I32(dc->zero)) {
+    if (!dc->zero) {
         dc->zero =3D tcg_const_i32(0);
     }
     return dc->zero;
@@ -754,12 +754,12 @@ static void handle_instruction(DisasContext *dc, CPUN=
ios2State *env)
         goto illegal_op;
     }
=20
-    TCGV_UNUSED_I32(dc->zero);
+    dc->zero =3D NULL;
=20
     instr =3D &i_type_instructions[op];
     instr->handler(dc, code, instr->flags);
=20
-    if (!TCGV_IS_UNUSED_I32(dc->zero)) {
+    if (dc->zero) {
         tcg_temp_free(dc->zero);
     }
=20
diff --git a/target/ppc/translate.c b/target/ppc/translate.c
index 998fbed848..4f7b66f990 100644
--- a/target/ppc/translate.c
+++ b/target/ppc/translate.c
@@ -3495,7 +3495,7 @@ static inline void gen_bcond(DisasContext *ctx, int t=
ype)
         else
             tcg_gen_mov_tl(target, cpu_lr);
     } else {
-        TCGV_UNUSED(target);
+        target =3D NULL;
     }
     if (LK(ctx->opcode))
         gen_setlr(ctx, ctx->nip);
diff --git a/target/s390x/translate.c b/target/s390x/translate.c
index 85d0a6c3af..03eca099f6 100644
--- a/target/s390x/translate.c
+++ b/target/s390x/translate.c
@@ -440,11 +440,9 @@ static void set_cc_static(DisasContext *s)
 /* calculates cc into cc_op */
 static void gen_op_calc_cc(DisasContext *s)
 {
-    TCGv_i32 local_cc_op;
-    TCGv_i64 dummy;
+    TCGv_i32 local_cc_op =3D NULL;
+    TCGv_i64 dummy =3D NULL;
=20
-    TCGV_UNUSED_I32(local_cc_op);
-    TCGV_UNUSED_I64(dummy);
     switch (s->cc_op) {
     default:
         dummy =3D tcg_const_i64(0);
@@ -534,10 +532,10 @@ static void gen_op_calc_cc(DisasContext *s)
         tcg_abort();
     }
=20
-    if (!TCGV_IS_UNUSED_I32(local_cc_op)) {
+    if (local_cc_op) {
         tcg_temp_free_i32(local_cc_op);
     }
-    if (!TCGV_IS_UNUSED_I64(dummy)) {
+    if (dummy) {
         tcg_temp_free_i64(dummy);
     }
=20
@@ -1195,7 +1193,7 @@ static ExitStatus help_branch(DisasContext *s, DisasC=
ompare *c,
             goto egress;
         }
     } else {
-        if (TCGV_IS_UNUSED_I64(cdest)) {
+        if (!cdest) {
             /* E.g. bcr %r0 -> no branch.  */
             ret =3D NO_EXIT;
             goto egress;
@@ -1415,7 +1413,7 @@ static ExitStatus op_andi(DisasContext *s, DisasOps *=
o)
 static ExitStatus op_bas(DisasContext *s, DisasOps *o)
 {
     tcg_gen_movi_i64(o->out, pc_to_link_info(s, s->next_pc));
-    if (!TCGV_IS_UNUSED_I64(o->in2)) {
+    if (o->in2) {
         tcg_gen_mov_i64(psw_addr, o->in2);
         per_branch(s, false);
         return EXIT_PC_UPDATED;
@@ -2997,7 +2995,7 @@ static ExitStatus op_mov2(DisasContext *s, DisasOps *=
o)
 {
     o->out =3D o->in2;
     o->g_out =3D o->g_in2;
-    TCGV_UNUSED_I64(o->in2);
+    o->in2 =3D NULL;
     o->g_in2 =3D false;
     return NO_EXIT;
 }
@@ -3009,7 +3007,7 @@ static ExitStatus op_mov2e(DisasContext *s, DisasOps =
*o)
=20
     o->out =3D o->in2;
     o->g_out =3D o->g_in2;
-    TCGV_UNUSED_I64(o->in2);
+    o->in2 =3D NULL;
     o->g_in2 =3D false;
=20
     switch (s->tb->flags & FLAG_MASK_ASC) {
@@ -3043,8 +3041,8 @@ static ExitStatus op_movx(DisasContext *s, DisasOps *=
o)
     o->out2 =3D o->in2;
     o->g_out =3D o->g_in1;
     o->g_out2 =3D o->g_in2;
-    TCGV_UNUSED_I64(o->in1);
-    TCGV_UNUSED_I64(o->in2);
+    o->in1 =3D NULL;
+    o->in2 =3D NULL;
     o->g_in1 =3D o->g_in2 =3D false;
     return NO_EXIT;
 }
@@ -5801,11 +5799,11 @@ static ExitStatus translate_one(CPUS390XState *env,=
 DisasContext *s)
     s->insn =3D insn;
     s->fields =3D &f;
     o.g_out =3D o.g_out2 =3D o.g_in1 =3D o.g_in2 =3D false;
-    TCGV_UNUSED_I64(o.out);
-    TCGV_UNUSED_I64(o.out2);
-    TCGV_UNUSED_I64(o.in1);
-    TCGV_UNUSED_I64(o.in2);
-    TCGV_UNUSED_I64(o.addr1);
+    o.out =3D NULL;
+    o.out2 =3D NULL;
+    o.in1 =3D NULL;
+    o.in2 =3D NULL;
+    o.addr1 =3D NULL;
=20
     /* Implement the instruction.  */
     if (insn->help_in1) {
@@ -5828,19 +5826,19 @@ static ExitStatus translate_one(CPUS390XState *env,=
 DisasContext *s)
     }
=20
     /* Free any temporaries created by the helpers.  */
-    if (!TCGV_IS_UNUSED_I64(o.out) && !o.g_out) {
+    if (o.out && !o.g_out) {
         tcg_temp_free_i64(o.out);
     }
-    if (!TCGV_IS_UNUSED_I64(o.out2) && !o.g_out2) {
+    if (o.out2 && !o.g_out2) {
         tcg_temp_free_i64(o.out2);
     }
-    if (!TCGV_IS_UNUSED_I64(o.in1) && !o.g_in1) {
+    if (o.in1 && !o.g_in1) {
         tcg_temp_free_i64(o.in1);
     }
-    if (!TCGV_IS_UNUSED_I64(o.in2) && !o.g_in2) {
+    if (o.in2 && !o.g_in2) {
         tcg_temp_free_i64(o.in2);
     }
-    if (!TCGV_IS_UNUSED_I64(o.addr1)) {
+    if (o.addr1) {
         tcg_temp_free_i64(o.addr1);
     }
=20
diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index 703020fe87..48ea0fe7e0 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -1901,7 +1901,7 @@ static int decode_gusa(DisasContext *ctx, CPUSH4State=
 *env, int *pmax_insns)
     op_dst =3D op_src =3D op_opc =3D -1;
     mt_dst =3D -1;
     st_src =3D st_mop =3D -1;
-    TCGV_UNUSED(op_arg);
+    op_arg =3D NULL;
     i =3D 0;
=20
 #define NEXT_INSN \
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index 849a02aebd..71e0853e43 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -5922,7 +5922,7 @@ void sparc_tcg_init(void)
         *rtl[i].ptr =3D tcg_global_mem_new(cpu_env, rtl[i].off, rtl[i].nam=
e);
     }
=20
-    TCGV_UNUSED(cpu_regs[0]);
+    cpu_regs[0] =3D NULL;
     for (i =3D 1; i < 8; ++i) {
         cpu_regs[i] =3D tcg_global_mem_new(cpu_env,
                                          offsetof(CPUSPARCState, gregs[i]),
diff --git a/target/tilegx/translate.c b/target/tilegx/translate.c
index d55549dabc..d63bf5bba3 100644
--- a/target/tilegx/translate.c
+++ b/target/tilegx/translate.c
@@ -143,7 +143,7 @@ static bool check_gr(DisasContext *dc, uint8_t reg)
=20
 static TCGv load_zero(DisasContext *dc)
 {
-    if (TCGV_IS_UNUSED_I64(dc->zero)) {
+    if (!dc->zero) {
         dc->zero =3D tcg_const_i64(0);
     }
     return dc->zero;
@@ -2324,7 +2324,7 @@ static void translate_one_bundle(DisasContext *dc, ui=
nt64_t bundle)
     for (i =3D 0; i < ARRAY_SIZE(dc->wb); i++) {
         DisasContextTemp *wb =3D &dc->wb[i];
         wb->reg =3D TILEGX_R_NOREG;
-        TCGV_UNUSED_I64(wb->val);
+        wb->val =3D NULL;
     }
     dc->num_wb =3D 0;
=20
@@ -2384,9 +2384,9 @@ void gen_intermediate_code(CPUState *cs, struct Trans=
lationBlock *tb)
     dc->exit_tb =3D false;
     dc->atomic_excp =3D TILEGX_EXCP_NONE;
     dc->jmp.cond =3D TCG_COND_NEVER;
-    TCGV_UNUSED_I64(dc->jmp.dest);
-    TCGV_UNUSED_I64(dc->jmp.val1);
-    TCGV_UNUSED_I64(dc->zero);
+    dc->jmp.dest =3D NULL;
+    dc->jmp.val1 =3D NULL;
+    dc->zero =3D NULL;
=20
     if (qemu_loglevel_mask(CPU_LOG_TB_IN_ASM)) {
         qemu_log_lock();
diff --git a/target/unicore32/translate.c b/target/unicore32/translate.c
index 384aa86027..5b51f2166d 100644
--- a/target/unicore32/translate.c
+++ b/target/unicore32/translate.c
@@ -1230,7 +1230,7 @@ static void do_datap(CPUUniCore32State *env, DisasCon=
text *s, uint32_t insn)
     if (UCOP_OPCODES !=3D 0x0f && UCOP_OPCODES !=3D 0x0d) {
         tmp =3D load_reg(s, UCOP_REG_N);
     } else {
-        TCGV_UNUSED(tmp);
+        tmp =3D NULL;
     }
=20
     switch (UCOP_OPCODES) {
@@ -1652,7 +1652,7 @@ static void do_ldst_m(CPUUniCore32State *env, DisasCo=
ntext *s, uint32_t insn)
=20
     /* compute total size */
     loaded_base =3D 0;
-    TCGV_UNUSED(loaded_var);
+    loaded_var =3D NULL;
     n =3D 0;
     for (i =3D 0; i < 6; i++) {
         if (UCOP_SET(i)) {
diff --git a/tcg/tcg.c b/tcg/tcg.c
index c22f1c4441..68bcd2267b 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1358,8 +1358,8 @@ void tcg_gen_callN(void *func, TCGTemp *ret, int narg=
s, TCGTemp **args)
     TCGv_i64 retl, reth;
     TCGTemp *split_args[MAX_OPC_PARAM];
=20
-    TCGV_UNUSED_I64(retl);
-    TCGV_UNUSED_I64(reth);
+    retl =3D NULL;
+    reth =3D NULL;
     if (sizemask !=3D 0) {
         for (i =3D real_args =3D 0; i < nargs; ++i) {
             int is_64bit =3D sizemask & (1 << (i+1)*2);
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511299932992405.2848676108605;
 Tue, 21 Nov 2017 13:32:12 -0800 (PST)
Received: from localhost ([::1]:36597 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHG9M-0007dA-4P
	for importer@patchew.org; Tue, 21 Nov 2017 16:32:12 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:53904)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG51-0004Gv-Up
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:46 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG4z-0007cp-2d
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:43 -0500
Received: from mail-wm0-x22f.google.com ([2a00:1450:400c:c09::22f]:42836)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG4y-0007cM-O7
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:41 -0500
Received: by mail-wm0-x22f.google.com with SMTP id l188so4522627wma.1
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:40 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.38 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:38 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=oZeejt/o8hgAegpCo66lb3IU3GzzHtQbgQEvFUDrmEM=;
	b=kp1Gj2wYh1MMm4ctHkT/TKFpZjc1TZECLV4U9cS3wp1wCzGtCk6rYlc0wU75mTKM1U
	4BAEl6jbrhMgM0mHPzk9Gvzjy4FZ6n/w/hmT9atBhI98fUfYqvE1/wHaq6PSDjPa9Y6P
	B83TT7rxoXePKDhbD4z30U0INUn7Tx7ozvb/U=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=oZeejt/o8hgAegpCo66lb3IU3GzzHtQbgQEvFUDrmEM=;
	b=QJVIX1rvd5209uib297UN7XZMM/RQfF7MP+CvGDagnVzHK8hPx/7LJz9P8ZxlUwxUC
	A7av7PhD6SJqRgVHIMBi0ow7UHi/JYIf8mnvnJEAcOdSjPs3g4O8R+523XpTRoAAf+WW
	yySaBOSer/Xj7Davlzs8XQaRv94OOzDFTRgX+T0yBlUJUBjF1DqM5EQ9as60Nqcvl/AD
	7FgoYIyIhMAclNuEoxZBczczrFs0qDDeqm/heGMGMY25YUaA05+FbLUTXj4ctYVa14tS
	PDtSelbrsRHtrk/+XBLy/5k1AVR9mRsfdrrLm/qpShcCuy7Vjb7M0tqNcocU1uT5pQY7
	y+mA==
X-Gm-Message-State: AJaThX4+Sy7pn4+IBi8C4PF97JHEV1Ds6uh2iXJW5B0ZnZ5iIQN1rqgU
	H22ajIdUwAISIGddsV7gQwBk+x+8zKI=
X-Google-Smtp-Source: 
 AGs4zMZEB99OD3M9Mp8SVpQcVnLjnzNqGNtkBhBLe2XCE8F28j98cYtGyQ0aarIsU5SadgRwbwa2bA==
X-Received: by 10.28.235.18 with SMTP id j18mr2415271wmh.50.1511299659099;
	Tue, 21 Nov 2017 13:27:39 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:10 +0100
Message-Id: <20171121212534.5177-3-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::22f
Subject: [Qemu-devel] [PATCH v6 02/26] tcg: Dynamically allocate TCGOps
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

With no fixed array allocation, we can't overflow a buffer.
This will be important as optimizations related to host vectors
may expand the number of ops used.

Use QTAILQ to link the ops together.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/exec/gen-icount.h     |   9 ++--
 include/qemu/queue.h          |   5 ++
 target/arm/translate.h        |  10 ++--
 tcg/tcg.h                     |  35 +++++-------
 target/arm/translate-a64.c    |   2 +-
 target/arm/translate.c        |   2 +-
 target/cris/translate.c       |   2 -
 target/lm32/translate.c       |   2 -
 target/microblaze/translate.c |   4 --
 tcg/optimize.c                |  16 ++----
 tcg/tcg-op.c                  |  24 ---------
 tcg/tcg.c                     | 123 ++++++++++++++++----------------------=
----
 12 files changed, 77 insertions(+), 157 deletions(-)

diff --git a/include/exec/gen-icount.h b/include/exec/gen-icount.h
index 049bba86e9..54aaa61d65 100644
--- a/include/exec/gen-icount.h
+++ b/include/exec/gen-icount.h
@@ -5,7 +5,7 @@
=20
 /* Helpers for instruction counting code generation.  */
=20
-static int icount_start_insn_idx;
+static TCGOp *icount_start_insn;
=20
 static inline void gen_tb_start(TranslationBlock *tb)
 {
@@ -26,8 +26,8 @@ static inline void gen_tb_start(TranslationBlock *tb)
         /* We emit a movi with a dummy immediate argument. Keep the insn i=
ndex
          * of the movi so that we later (when we know the actual insn coun=
t)
          * can update the immediate argument with the actual insn count.  =
*/
-        icount_start_insn_idx =3D tcg_op_buf_count();
         tcg_gen_movi_i32(imm, 0xdeadbeef);
+        icount_start_insn =3D tcg_last_op();
=20
         tcg_gen_sub_i32(count, count, imm);
         tcg_temp_free_i32(imm);
@@ -48,14 +48,11 @@ static inline void gen_tb_end(TranslationBlock *tb, int=
 num_insns)
     if (tb_cflags(tb) & CF_USE_ICOUNT) {
         /* Update the num_insn immediate parameter now that we know
          * the actual insn count.  */
-        tcg_set_insn_param(icount_start_insn_idx, 1, num_insns);
+        tcg_set_insn_param(icount_start_insn, 1, num_insns);
     }
=20
     gen_set_label(tcg_ctx->exitreq_label);
     tcg_gen_exit_tb((uintptr_t)tb + TB_EXIT_REQUESTED);
-
-    /* Terminate the linked list.  */
-    tcg_ctx->gen_op_buf[tcg_ctx->gen_op_buf[0].prev].next =3D 0;
 }
=20
 static inline void gen_io_start(void)
diff --git a/include/qemu/queue.h b/include/qemu/queue.h
index 35292c3155..aa270d2b38 100644
--- a/include/qemu/queue.h
+++ b/include/qemu/queue.h
@@ -425,6 +425,11 @@ struct {                                              =
                  \
                 (var);                                                  \
                 (var) =3D (*(((struct headname *)((var)->field.tqe_prev))-=
>tqh_last)))
=20
+#define QTAILQ_FOREACH_REVERSE_SAFE(var, head, headname, field, prev_var) \
+        for ((var) =3D (*(((struct headname *)((head)->tqh_last))->tqh_las=
t)); \
+             (var) && ((prev_var) =3D (*(((struct headname *)((var)->field=
.tqe_prev))->tqh_last)), 1); \
+             (var) =3D (prev_var))
+
 /*
  * Tail queue access methods.
  */
diff --git a/target/arm/translate.h b/target/arm/translate.h
index 410ba79c0d..cd7313ace7 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -66,8 +66,8 @@ typedef struct DisasContext {
     bool ss_same_el;
     /* Bottom two bits of XScale c15_cpar coprocessor access control reg */
     int c15_cpar;
-    /* TCG op index of the current insn_start.  */
-    int insn_start_idx;
+    /* TCG op of the current insn_start.  */
+    TCGOp *insn_start;
 #define TMP_A64_MAX 16
     int tmp_a64_count;
     TCGv_i64 tmp_a64[TMP_A64_MAX];
@@ -117,9 +117,9 @@ static void disas_set_insn_syndrome(DisasContext *s, ui=
nt32_t syn)
     syn >>=3D ARM_INSN_START_WORD2_SHIFT;
=20
     /* We check and clear insn_start_idx to catch multiple updates.  */
-    assert(s->insn_start_idx !=3D 0);
-    tcg_set_insn_param(s->insn_start_idx, 2, syn);
-    s->insn_start_idx =3D 0;
+    assert(s->insn_start !=3D NULL);
+    tcg_set_insn_param(s->insn_start, 2, syn);
+    s->insn_start =3D NULL;
 }
=20
 /* is_jmp field values */
diff --git a/tcg/tcg.h b/tcg/tcg.h
index c21194c858..a577447846 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -29,6 +29,7 @@
 #include "cpu.h"
 #include "exec/tb-context.h"
 #include "qemu/bitops.h"
+#include "qemu/queue.h"
 #include "tcg-mo.h"
 #include "tcg-target.h"
=20
@@ -48,8 +49,6 @@
  * and up to 4 + N parameters on 64-bit archs
  * (N =3D number of input arguments + output arguments).  */
 #define MAX_OPC_PARAM (4 + (MAX_OPC_PARAM_PER_ARG * MAX_OPC_PARAM_ARGS))
-#define OPC_BUF_SIZE 640
-#define OPC_MAX_SIZE (OPC_BUF_SIZE - MAX_OP_PER_INSTR)
=20
 #define CPU_TEMP_BUF_NLONGS 128
=20
@@ -572,23 +571,18 @@ typedef struct TCGOp {
     unsigned callo  : 2;        /* 14 */
     unsigned        : 2;        /* 16 */
=20
-    /* Index of the prev/next op, or 0 for the end of the list.  */
-    unsigned prev   : 16;       /* 32 */
-    unsigned next   : 16;       /* 48 */
-
     /* Lifetime data of the operands.  */
-    unsigned life   : 16;       /* 64 */
+    unsigned life   : 16;       /* 32 */
+
+    /* Next and previous opcodes.  */
+    QTAILQ_ENTRY(TCGOp) link;
=20
     /* Arguments for the opcode.  */
     TCGArg args[MAX_OPC_PARAM];
 } TCGOp;
=20
-/* Make sure that we don't expand the structure without noticing.  */
-QEMU_BUILD_BUG_ON(sizeof(TCGOp) !=3D 8 + sizeof(TCGArg) * MAX_OPC_PARAM);
-
 /* Make sure operands fit in the bitfields above.  */
 QEMU_BUILD_BUG_ON(NB_OPS > (1 << 8));
-QEMU_BUILD_BUG_ON(OPC_BUF_SIZE > (1 << 16));
=20
 typedef struct TCGProfile {
     int64_t tb_count1;
@@ -642,8 +636,6 @@ struct TCGContext {
     int goto_tb_issue_mask;
 #endif
=20
-    int gen_next_op_idx;
-
     /* Code generation.  Note that we specifically do not use tcg_insn_unit
        here, because there's too much arithmetic throughout that relies
        on addition and subtraction working on bytes.  Rely on the GCC
@@ -674,12 +666,12 @@ struct TCGContext {
     TCGTempSet free_temps[TCG_TYPE_COUNT * 2];
     TCGTemp temps[TCG_MAX_TEMPS]; /* globals first, temps after */
=20
+    QTAILQ_HEAD(TCGOpHead, TCGOp) ops, free_ops;
+
     /* Tells which temporary holds a given register.
        It does not take into account fixed registers */
     TCGTemp *reg_to_temp[TCG_TARGET_NB_REGS];
=20
-    TCGOp gen_op_buf[OPC_BUF_SIZE];
-
     uint16_t gen_insn_end_off[TCG_MAX_INSNS];
     target_ulong gen_insn_data[TCG_MAX_INSNS][TARGET_INSN_START_WORDS];
 };
@@ -769,21 +761,21 @@ static inline TCGv_i32 TCGV_HIGH(TCGv_i64 t)
 }
 #endif
=20
-static inline void tcg_set_insn_param(int op_idx, int arg, TCGArg v)
+static inline void tcg_set_insn_param(TCGOp *op, int arg, TCGArg v)
 {
-    tcg_ctx->gen_op_buf[op_idx].args[arg] =3D v;
+    op->args[arg] =3D v;
 }
=20
-/* The number of opcodes emitted so far.  */
-static inline int tcg_op_buf_count(void)
+/* The last op that was emitted.  */
+static inline TCGOp *tcg_last_op(void)
 {
-    return tcg_ctx->gen_next_op_idx;
+    return QTAILQ_LAST(&tcg_ctx->ops, TCGOpHead);
 }
=20
 /* Test for whether to terminate the TB for using too many opcodes.  */
 static inline bool tcg_op_buf_full(void)
 {
-    return tcg_op_buf_count() >=3D OPC_MAX_SIZE;
+    return false;
 }
=20
 /* pool based memory allocation */
@@ -967,6 +959,7 @@ bool tcg_op_supported(TCGOpcode op);
=20
 void tcg_gen_callN(void *func, TCGTemp *ret, int nargs, TCGTemp **args);
=20
+TCGOp *tcg_emit_op(TCGOpcode opc);
 void tcg_op_remove(TCGContext *s, TCGOp *op);
 TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *op, TCGOpcode opc, int n=
arg);
 TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *op, TCGOpcode opc, int na=
rg);
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index 460bab5987..ba94f7d045 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -11290,8 +11290,8 @@ static void aarch64_tr_insn_start(DisasContextBase =
*dcbase, CPUState *cpu)
 {
     DisasContext *dc =3D container_of(dcbase, DisasContext, base);
=20
-    dc->insn_start_idx =3D tcg_op_buf_count();
     tcg_gen_insn_start(dc->pc, 0, 0);
+    dc->insn_start =3D tcg_last_op();
 }
=20
 static bool aarch64_tr_breakpoint_check(DisasContextBase *dcbase, CPUState=
 *cpu,
diff --git a/target/arm/translate.c b/target/arm/translate.c
index 0b74ce7dec..20c3246912 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -12065,10 +12065,10 @@ static void arm_tr_insn_start(DisasContextBase *d=
cbase, CPUState *cpu)
 {
     DisasContext *dc =3D container_of(dcbase, DisasContext, base);
=20
-    dc->insn_start_idx =3D tcg_op_buf_count();
     tcg_gen_insn_start(dc->pc,
                        (dc->condexec_cond << 4) | (dc->condexec_mask >> 1),
                        0);
+    dc->insn_start =3D tcg_last_op();
 }
=20
 static bool arm_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cp=
u,
diff --git a/target/cris/translate.c b/target/cris/translate.c
index 74822ed31f..f51a731db9 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -3297,8 +3297,6 @@ void gen_intermediate_code(CPUState *cs, struct Trans=
lationBlock *tb)
         qemu_log("--------------\n");
         qemu_log("IN: %s\n", lookup_symbol(pc_start));
         log_target_disas(cs, pc_start, dc->pc - pc_start);
-        qemu_log("\nisize=3D%d osize=3D%d\n",
-                 dc->pc - pc_start, tcg_op_buf_count());
         qemu_log_unlock();
     }
 #endif
diff --git a/target/lm32/translate.c b/target/lm32/translate.c
index b8b2b13e36..2e1c5e6d01 100644
--- a/target/lm32/translate.c
+++ b/target/lm32/translate.c
@@ -1156,8 +1156,6 @@ void gen_intermediate_code(CPUState *cs, struct Trans=
lationBlock *tb)
         qemu_log_lock();
         qemu_log("\n");
         log_target_disas(cs, pc_start, dc->pc - pc_start);
-        qemu_log("\nisize=3D%d osize=3D%d\n",
-                 dc->pc - pc_start, tcg_op_buf_count());
         qemu_log_unlock();
     }
 #endif
diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
index e7b5597c46..7628b0e25b 100644
--- a/target/microblaze/translate.c
+++ b/target/microblaze/translate.c
@@ -1808,11 +1808,7 @@ void gen_intermediate_code(CPUState *cs, struct Tran=
slationBlock *tb)
         && qemu_log_in_addr_range(pc_start)) {
         qemu_log_lock();
         qemu_log("--------------\n");
-#if DISAS_GNU
         log_target_disas(cs, pc_start, dc->pc - pc_start);
-#endif
-        qemu_log("\nisize=3D%d osize=3D%d\n",
-                 dc->pc - pc_start, tcg_op_buf_count());
         qemu_log_unlock();
     }
 #endif
diff --git a/tcg/optimize.c b/tcg/optimize.c
index 438321c6cc..e495680e95 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -602,8 +602,8 @@ static bool swap_commutative2(TCGArg *p1, TCGArg *p2)
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-    int oi, oi_next, nb_temps, nb_globals;
-    TCGOp *prev_mb =3D NULL;
+    int nb_temps, nb_globals;
+    TCGOp *op, *op_next, *prev_mb =3D NULL;
     struct tcg_temp_info *infos;
     TCGTempSet temps_used;
=20
@@ -617,17 +617,13 @@ void tcg_optimize(TCGContext *s)
     bitmap_zero(temps_used.l, nb_temps);
     infos =3D tcg_malloc(sizeof(struct tcg_temp_info) * nb_temps);
=20
-    for (oi =3D s->gen_op_buf[0].next; oi !=3D 0; oi =3D oi_next) {
+    QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
         tcg_target_ulong mask, partmask, affected;
         int nb_oargs, nb_iargs, i;
         TCGArg tmp;
-
-        TCGOp * const op =3D &s->gen_op_buf[oi];
         TCGOpcode opc =3D op->opc;
         const TCGOpDef *def =3D &tcg_op_defs[opc];
=20
-        oi_next =3D op->next;
-
         /* Count the arguments, and initialize the temps that are
            going to be used */
         if (opc =3D=3D INDEX_op_call) {
@@ -1261,9 +1257,6 @@ void tcg_optimize(TCGContext *s)
                 rh =3D op->args[1];
                 tcg_opt_gen_movi(s, op, rl, (int32_t)a);
                 tcg_opt_gen_movi(s, op2, rh, (int32_t)(a >> 32));
-
-                /* We've done all we need to do with the movi.  Skip it.  =
*/
-                oi_next =3D op2->next;
                 break;
             }
             goto do_default;
@@ -1280,9 +1273,6 @@ void tcg_optimize(TCGContext *s)
                 rh =3D op->args[1];
                 tcg_opt_gen_movi(s, op, rl, (int32_t)r);
                 tcg_opt_gen_movi(s, op2, rh, (int32_t)(r >> 32));
-
-                /* We've done all we need to do with the movi.  Skip it.  =
*/
-                oi_next =3D op2->next;
                 break;
             }
             goto do_default;
diff --git a/tcg/tcg-op.c b/tcg/tcg-op.c
index 3cad30b1f2..0c509bfe46 100644
--- a/tcg/tcg-op.c
+++ b/tcg/tcg-op.c
@@ -42,30 +42,6 @@ extern TCGv_i32 TCGV_HIGH_link_error(TCGv_i64);
 #define TCGV_HIGH TCGV_HIGH_link_error
 #endif
=20
-/* Note that this is optimized for sequential allocation during translate.
-   Up to and including filling in the forward link immediately.  We'll do
-   proper termination of the end of the list after we finish translation. =
 */
-
-static inline TCGOp *tcg_emit_op(TCGOpcode opc)
-{
-    TCGContext *ctx =3D tcg_ctx;
-    int oi =3D ctx->gen_next_op_idx;
-    int ni =3D oi + 1;
-    int pi =3D oi - 1;
-    TCGOp *op =3D &ctx->gen_op_buf[oi];
-
-    tcg_debug_assert(oi < OPC_BUF_SIZE);
-    ctx->gen_op_buf[0].prev =3D oi;
-    ctx->gen_next_op_idx =3D ni;
-
-    memset(op, 0, offsetof(TCGOp, args));
-    op->opc =3D opc;
-    op->prev =3D pi;
-    op->next =3D ni;
-
-    return op;
-}
-
 void tcg_gen_op1(TCGOpcode opc, TCGArg a1)
 {
     TCGOp *op =3D tcg_emit_op(opc);
diff --git a/tcg/tcg.c b/tcg/tcg.c
index 68bcd2267b..f26949a900 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -862,9 +862,8 @@ void tcg_func_start(TCGContext *s)
     s->goto_tb_issue_mask =3D 0;
 #endif
=20
-    s->gen_op_buf[0].next =3D 1;
-    s->gen_op_buf[0].prev =3D 0;
-    s->gen_next_op_idx =3D 1;
+    QTAILQ_INIT(&s->ops);
+    QTAILQ_INIT(&s->free_ops);
 }
=20
 static inline TCGTemp *tcg_temp_alloc(TCGContext *s)
@@ -1339,7 +1338,6 @@ bool tcg_op_supported(TCGOpcode op)
    and endian swap in tcg_reg_alloc_call(). */
 void tcg_gen_callN(void *func, TCGTemp *ret, int nargs, TCGTemp **args)
 {
-    TCGContext *s =3D tcg_ctx;
     int i, real_args, nb_rets, pi;
     unsigned sizemask, flags;
     TCGHelperInfo *info;
@@ -1395,17 +1393,7 @@ void tcg_gen_callN(void *func, TCGTemp *ret, int nar=
gs, TCGTemp **args)
     }
 #endif /* TCG_TARGET_EXTEND_ARGS */
=20
-    i =3D s->gen_next_op_idx;
-    tcg_debug_assert(i < OPC_BUF_SIZE);
-    s->gen_op_buf[0].prev =3D i;
-    s->gen_next_op_idx =3D i + 1;
-    op =3D &s->gen_op_buf[i];
-
-    /* Set links for sequential allocation during translation.  */
-    memset(op, 0, offsetof(TCGOp, args));
-    op->opc =3D INDEX_op_call;
-    op->prev =3D i - 1;
-    op->next =3D i + 1;
+    op =3D tcg_emit_op(INDEX_op_call);
=20
     pi =3D 0;
     if (ret !=3D NULL) {
@@ -1622,20 +1610,18 @@ void tcg_dump_ops(TCGContext *s)
 {
     char buf[128];
     TCGOp *op;
-    int oi;
=20
-    for (oi =3D s->gen_op_buf[0].next; oi !=3D 0; oi =3D op->next) {
+    QTAILQ_FOREACH(op, &s->ops, link) {
         int i, k, nb_oargs, nb_iargs, nb_cargs;
         const TCGOpDef *def;
         TCGOpcode c;
         int col =3D 0;
=20
-        op =3D &s->gen_op_buf[oi];
         c =3D op->opc;
         def =3D &tcg_op_defs[c];
=20
         if (c =3D=3D INDEX_op_insn_start) {
-            col +=3D qemu_log("%s ----", oi !=3D s->gen_op_buf[0].next ? "=
\n" : "");
+            col +=3D qemu_log("\n ----");
=20
             for (i =3D 0; i < TARGET_INSN_START_WORDS; ++i) {
                 target_ulong a;
@@ -1898,65 +1884,51 @@ static void process_op_defs(TCGContext *s)
=20
 void tcg_op_remove(TCGContext *s, TCGOp *op)
 {
-    int next =3D op->next;
-    int prev =3D op->prev;
-
-    /* We should never attempt to remove the list terminator.  */
-    tcg_debug_assert(op !=3D &s->gen_op_buf[0]);
-
-    s->gen_op_buf[next].prev =3D prev;
-    s->gen_op_buf[prev].next =3D next;
-
-    memset(op, 0, sizeof(*op));
+    QTAILQ_REMOVE(&s->ops, op, link);
+    QTAILQ_INSERT_TAIL(&s->free_ops, op, link);
=20
 #ifdef CONFIG_PROFILER
     atomic_set(&s->prof.del_op_count, s->prof.del_op_count + 1);
 #endif
 }
=20
-TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *old_op,
-                            TCGOpcode opc, int nargs)
+static TCGOp *tcg_op_alloc(TCGOpcode opc)
 {
-    int oi =3D s->gen_next_op_idx;
-    int prev =3D old_op->prev;
-    int next =3D old_op - s->gen_op_buf;
-    TCGOp *new_op;
+    TCGContext *s =3D tcg_ctx;
+    TCGOp *op;
=20
-    tcg_debug_assert(oi < OPC_BUF_SIZE);
-    s->gen_next_op_idx =3D oi + 1;
+    if (likely(QTAILQ_EMPTY(&s->free_ops))) {
+        op =3D tcg_malloc(sizeof(TCGOp));
+    } else {
+        op =3D QTAILQ_FIRST(&s->free_ops);
+        QTAILQ_REMOVE(&s->free_ops, op, link);
+    }
+    memset(op, 0, offsetof(TCGOp, link));
+    op->opc =3D opc;
=20
-    new_op =3D &s->gen_op_buf[oi];
-    *new_op =3D (TCGOp){
-        .opc =3D opc,
-        .prev =3D prev,
-        .next =3D next
-    };
-    s->gen_op_buf[prev].next =3D oi;
-    old_op->prev =3D oi;
+    return op;
+}
+
+TCGOp *tcg_emit_op(TCGOpcode opc)
+{
+    TCGOp *op =3D tcg_op_alloc(opc);
+    QTAILQ_INSERT_TAIL(&tcg_ctx->ops, op, link);
+    return op;
+}
=20
+TCGOp *tcg_op_insert_before(TCGContext *s, TCGOp *old_op,
+                            TCGOpcode opc, int nargs)
+{
+    TCGOp *new_op =3D tcg_op_alloc(opc);
+    QTAILQ_INSERT_BEFORE(old_op, new_op, link);
     return new_op;
 }
=20
 TCGOp *tcg_op_insert_after(TCGContext *s, TCGOp *old_op,
                            TCGOpcode opc, int nargs)
 {
-    int oi =3D s->gen_next_op_idx;
-    int prev =3D old_op - s->gen_op_buf;
-    int next =3D old_op->next;
-    TCGOp *new_op;
-
-    tcg_debug_assert(oi < OPC_BUF_SIZE);
-    s->gen_next_op_idx =3D oi + 1;
-
-    new_op =3D &s->gen_op_buf[oi];
-    *new_op =3D (TCGOp){
-        .opc =3D opc,
-        .prev =3D prev,
-        .next =3D next
-    };
-    s->gen_op_buf[next].prev =3D oi;
-    old_op->next =3D oi;
-
+    TCGOp *new_op =3D tcg_op_alloc(opc);
+    QTAILQ_INSERT_AFTER(&s->ops, old_op, new_op, link);
     return new_op;
 }
=20
@@ -2006,23 +1978,19 @@ static void tcg_la_bb_end(TCGContext *s)
 static void liveness_pass_1(TCGContext *s)
 {
     int nb_globals =3D s->nb_globals;
-    int oi, oi_prev;
+    TCGOp *op, *op_prev;
=20
     tcg_la_func_end(s);
=20
-    for (oi =3D s->gen_op_buf[0].prev; oi !=3D 0; oi =3D oi_prev) {
+    QTAILQ_FOREACH_REVERSE_SAFE(op, &s->ops, TCGOpHead, link, op_prev) {
         int i, nb_iargs, nb_oargs;
         TCGOpcode opc_new, opc_new2;
         bool have_opc_new2;
         TCGLifeData arg_life =3D 0;
         TCGTemp *arg_ts;
-
-        TCGOp * const op =3D &s->gen_op_buf[oi];
         TCGOpcode opc =3D op->opc;
         const TCGOpDef *def =3D &tcg_op_defs[opc];
=20
-        oi_prev =3D op->prev;
-
         switch (opc) {
         case INDEX_op_call:
             {
@@ -2233,8 +2201,9 @@ static void liveness_pass_1(TCGContext *s)
 static bool liveness_pass_2(TCGContext *s)
 {
     int nb_globals =3D s->nb_globals;
-    int nb_temps, i, oi, oi_next;
+    int nb_temps, i;
     bool changes =3D false;
+    TCGOp *op, *op_next;
=20
     /* Create a temporary for each indirect global.  */
     for (i =3D 0; i < nb_globals; ++i) {
@@ -2256,16 +2225,13 @@ static bool liveness_pass_2(TCGContext *s)
         its->state =3D TS_DEAD;
     }
=20
-    for (oi =3D s->gen_op_buf[0].next; oi !=3D 0; oi =3D oi_next) {
-        TCGOp *op =3D &s->gen_op_buf[oi];
+    QTAILQ_FOREACH_SAFE(op, &s->ops, link, op_next) {
         TCGOpcode opc =3D op->opc;
         const TCGOpDef *def =3D &tcg_op_defs[opc];
         TCGLifeData arg_life =3D op->life;
         int nb_iargs, nb_oargs, call_flags;
         TCGTemp *arg_ts, *dir_ts;
=20
-        oi_next =3D op->next;
-
         if (opc =3D=3D INDEX_op_call) {
             nb_oargs =3D op->callo;
             nb_iargs =3D op->calli;
@@ -3168,13 +3134,16 @@ int tcg_gen_code(TCGContext *s, TranslationBlock *t=
b)
 #ifdef CONFIG_PROFILER
     TCGProfile *prof =3D &s->prof;
 #endif
-    int i, oi, oi_next, num_insns;
+    int i, num_insns;
+    TCGOp *op;
=20
 #ifdef CONFIG_PROFILER
     {
         int n;
=20
-        n =3D s->gen_op_buf[0].prev + 1;
+        QTAILQ_FOREACH(op, &s->ops, link) {
+            n++;
+        }
         atomic_set(&prof->op_count, prof->op_count + n);
         if (n > prof->op_count_max) {
             atomic_set(&prof->op_count_max, n);
@@ -3260,11 +3229,9 @@ int tcg_gen_code(TCGContext *s, TranslationBlock *tb)
 #endif
=20
     num_insns =3D -1;
-    for (oi =3D s->gen_op_buf[0].next; oi !=3D 0; oi =3D oi_next) {
-        TCGOp * const op =3D &s->gen_op_buf[oi];
+    QTAILQ_FOREACH(op, &s->ops, link) {
         TCGOpcode opc =3D op->opc;
=20
-        oi_next =3D op->next;
 #ifdef CONFIG_PROFILER
         atomic_set(&prof->table_op_count[opc], prof->table_op_count[opc] +=
 1);
 #endif
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511299778068317.77368872129887;
 Tue, 21 Nov 2017 13:29:38 -0800 (PST)
Received: from localhost ([::1]:36581 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHG6j-0005Nd-6G
	for importer@patchew.org; Tue, 21 Nov 2017 16:29:29 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:53877)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG51-0004Gb-5q
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:44 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG4z-0007d9-KZ
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:43 -0500
Received: from mail-wm0-x241.google.com ([2a00:1450:400c:c09::241]:46812)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG4z-0007ci-EI
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:41 -0500
Received: by mail-wm0-x241.google.com with SMTP id u83so6327078wmb.5
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:41 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.39 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:39 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=JgPyalRRpbRQN5BRX+1C71j5J+ztfUwJIUUYRumX/6I=;
	b=azRl08gTZ7myVx2A3RlmuY6ujX9t8uywlcc3cvea9PBDfCbk4/sFEm5tdHJ7uPCR0F
	FE6jfdT8olyX0UNbdV0ikadBzsRP1kiX+LwHfAOm23lnQOiIJ/kJElvDWeOvrOdZm0xO
	UWES3UgoPV94928OwTqmMtXRgqVs+dTrsHH6M=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=JgPyalRRpbRQN5BRX+1C71j5J+ztfUwJIUUYRumX/6I=;
	b=lX6wk4VMBlC/ihonHZaWAYOYbVJbS6agKS0frWMLt3Gu3vLYJ4+Pn7Vr7F3E0tdZQ5
	xmbRNUZIrpXuxnH81tP7BSImyLFa/mC+zfj8sA/d0OB1A3Dpo+0zBFsep5mvf+Mtq3/9
	qLpaaalKvrbEEN2ItKFEdfAuGy+6+sDRoszzAw5f6xOTSSAyzr/a/mF/4HcYFg/PVqEw
	6YmHBebM0R7lNFiMvM6sfZIe1MgkyRWVSyIWB1L+4FC0DMtbVzzIxQyVTjVOg2MXcOZq
	+fVP1qT5NWtpCr/V7BCnzyw/rC2ELgWrB1sqzAk0zfJ/yHY3pIhZmAOUn9P7dhHCeV1G
	nmbA==
X-Gm-Message-State: AJaThX5TYi3B69fGgZefGE3PZ94gOa/N9FC6YftOxTtJo8i9P4kA9wR8
	Xdf2XmfTIulYq+kCJsIUaPGaMSu54ts=
X-Google-Smtp-Source: 
 AGs4zMbSSaAHMo4Xsku4R8SCnejkAjwBXJsPUwbZcc/akH8LNuB7voIb2tTG44RXeAHCNfHfUwQSNw==
X-Received: by 10.28.15.149 with SMTP id 143mr2604895wmp.43.1511299660147;
	Tue, 21 Nov 2017 13:27:40 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:11 +0100
Message-Id: <20171121212534.5177-4-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::241
Subject: [Qemu-devel] [PATCH v6 03/26] tcg: Generalize TCGOp parameters
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

We had two fields specific to INDEX_op_call.  Rename these and
add some macros so that the fields may be reused for other opcodes.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg.h      | 10 ++++++----
 tcg/optimize.c |  4 ++--
 tcg/tcg.c      | 22 +++++++++++-----------
 3 files changed, 19 insertions(+), 17 deletions(-)

diff --git a/tcg/tcg.h b/tcg/tcg.h
index a577447846..f25efa9795 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -566,10 +566,9 @@ typedef uint16_t TCGLifeData;
 typedef struct TCGOp {
     TCGOpcode opc   : 8;        /*  8 */
=20
-    /* The number of out and in parameter for a call.  */
-    unsigned calli  : 4;        /* 12 */
-    unsigned callo  : 2;        /* 14 */
-    unsigned        : 2;        /* 16 */
+    /* Parameters for this opcode.  See below.  */
+    unsigned param1 : 4;        /* 12 */
+    unsigned param2 : 4;        /* 16 */
=20
     /* Lifetime data of the operands.  */
     unsigned life   : 16;       /* 32 */
@@ -581,6 +580,9 @@ typedef struct TCGOp {
     TCGArg args[MAX_OPC_PARAM];
 } TCGOp;
=20
+#define TCGOP_CALLI(X)    (X)->param1
+#define TCGOP_CALLO(X)    (X)->param2
+
 /* Make sure operands fit in the bitfields above.  */
 QEMU_BUILD_BUG_ON(NB_OPS > (1 << 8));
=20
diff --git a/tcg/optimize.c b/tcg/optimize.c
index e495680e95..2cbbeefd53 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -627,8 +627,8 @@ void tcg_optimize(TCGContext *s)
         /* Count the arguments, and initialize the temps that are
            going to be used */
         if (opc =3D=3D INDEX_op_call) {
-            nb_oargs =3D op->callo;
-            nb_iargs =3D op->calli;
+            nb_oargs =3D TCGOP_CALLO(op);
+            nb_iargs =3D TCGOP_CALLI(op);
             for (i =3D 0; i < nb_oargs + nb_iargs; i++) {
                 TCGTemp *ts =3D arg_temp(op->args[i]);
                 if (ts) {
diff --git a/tcg/tcg.c b/tcg/tcg.c
index f26949a900..93caa0be93 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1430,7 +1430,7 @@ void tcg_gen_callN(void *func, TCGTemp *ret, int narg=
s, TCGTemp **args)
     } else {
         nb_rets =3D 0;
     }
-    op->callo =3D nb_rets;
+    TCGOP_CALLO(op) =3D nb_rets;
=20
     real_args =3D 0;
     for (i =3D 0; i < nargs; i++) {
@@ -1469,10 +1469,10 @@ void tcg_gen_callN(void *func, TCGTemp *ret, int na=
rgs, TCGTemp **args)
     }
     op->args[pi++] =3D (uintptr_t)func;
     op->args[pi++] =3D flags;
-    op->calli =3D real_args;
+    TCGOP_CALLI(op) =3D real_args;
=20
     /* Make sure the fields didn't overflow.  */
-    tcg_debug_assert(op->calli =3D=3D real_args);
+    tcg_debug_assert(TCGOP_CALLI(op) =3D=3D real_args);
     tcg_debug_assert(pi <=3D ARRAY_SIZE(op->args));
=20
 #if defined(__sparc__) && !defined(__arch64__) \
@@ -1634,8 +1634,8 @@ void tcg_dump_ops(TCGContext *s)
             }
         } else if (c =3D=3D INDEX_op_call) {
             /* variable number of arguments */
-            nb_oargs =3D op->callo;
-            nb_iargs =3D op->calli;
+            nb_oargs =3D TCGOP_CALLO(op);
+            nb_iargs =3D TCGOP_CALLI(op);
             nb_cargs =3D def->nb_cargs;
=20
             /* function name, flags, out args */
@@ -1996,8 +1996,8 @@ static void liveness_pass_1(TCGContext *s)
             {
                 int call_flags;
=20
-                nb_oargs =3D op->callo;
-                nb_iargs =3D op->calli;
+                nb_oargs =3D TCGOP_CALLO(op);
+                nb_iargs =3D TCGOP_CALLI(op);
                 call_flags =3D op->args[nb_oargs + nb_iargs + 1];
=20
                 /* pure functions can be removed if their result is unused=
 */
@@ -2233,8 +2233,8 @@ static bool liveness_pass_2(TCGContext *s)
         TCGTemp *arg_ts, *dir_ts;
=20
         if (opc =3D=3D INDEX_op_call) {
-            nb_oargs =3D op->callo;
-            nb_iargs =3D op->calli;
+            nb_oargs =3D TCGOP_CALLO(op);
+            nb_iargs =3D TCGOP_CALLI(op);
             call_flags =3D op->args[nb_oargs + nb_iargs + 1];
         } else {
             nb_iargs =3D def->nb_iargs;
@@ -2915,8 +2915,8 @@ static void tcg_reg_alloc_op(TCGContext *s, const TCG=
Op *op)
=20
 static void tcg_reg_alloc_call(TCGContext *s, TCGOp *op)
 {
-    const int nb_oargs =3D op->callo;
-    const int nb_iargs =3D op->calli;
+    const int nb_oargs =3D TCGOP_CALLO(op);
+    const int nb_iargs =3D TCGOP_CALLI(op);
     const TCGLifeData arg_life =3D op->life;
     int flags, nb_regs, i;
     TCGReg reg;
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300290199478.71474452526195;
 Tue, 21 Nov 2017 13:38:10 -0800 (PST)
Received: from localhost ([::1]:36629 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGEz-0004jS-7Q
	for importer@patchew.org; Tue, 21 Nov 2017 16:38:01 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:53964)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG55-0004Jy-OK
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:51 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG51-0007eZ-R9
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:47 -0500
Received: from mail-wm0-x243.google.com ([2a00:1450:400c:c09::243]:45456)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG51-0007dq-F0
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:43 -0500
Received: by mail-wm0-x243.google.com with SMTP id 9so6295789wme.4
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:43 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.40 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:40 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=WENuCFCRL3Sk/4auN2A/skkqPsLKk3iCNRgUviD4Bl0=;
	b=Y9UEeugfwR1DyT9KSendPo2uVyxkh0Cb/3ocU5dd8BNx0fg4rGeRGGoA3Aea2hqvrx
	VmArdwWLbu+tZuIFu4CIHjwYeeBFLfUBvVJ8pitA6n4gs237WPKAy5SuQa5loWpb+TRS
	Yi+mMSFSteGIosKJoaUV2gk9n4SfddJfzov7U=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=WENuCFCRL3Sk/4auN2A/skkqPsLKk3iCNRgUviD4Bl0=;
	b=dxLlJaJpjQWPgF7YrRQ3XraUdG3xZvQkbk348JKI1fn+vjr0Iwj/S3A0yFz2uNCj4U
	SY7MhxOf5FuSNggFHXfPjJCSOUXwy73B474ADe8zrJmgo2r5YT6dDvoHn+P/+W5+9oNr
	wnrGbaNY0WfcX66ZcCFLfl8iTrQ0rVMDRPDuaS8LO7iD5SzQedvgT6UkCwXoC6X825J0
	eLGwFksNvEzBBu9vbsYZnbU8ju2J0X+G7Ar3jl8fZyyt5j0o7cBRU3TF+Sb0J0gmCzl4
	jHmyQFLLH7fE0l44qgApR1754ruh9YQF3ewqYTZW2KUwCPjX/5sYQaoD4kUXN7N0Xnve
	rSsw==
X-Gm-Message-State: AJaThX7bh8m+2fomkAIBCA8kaySLbHgnyx2lzCRuKvJ896Z0fO2vBEGW
	82q6bMMMeJg45Kf9YaH3VZ3MpIBk+Ko=
X-Google-Smtp-Source: 
 AGs4zMaUoVjsBIov+LUUOxB0eZnqjXN3ygajlFrgkYtxwV7Wk1eUyivotJN4j2/7E18xKxxTiXS7TA==
X-Received: by 10.28.141.211 with SMTP id p202mr2273128wmd.61.1511299661616;
	Tue, 21 Nov 2017 13:27:41 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:12 +0100
Message-Id: <20171121212534.5177-5-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::243
Subject: [Qemu-devel] [PATCH v6 04/26] tcg: Add types and basic operations
 for host vectors
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Nothing uses or enables them yet.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 Makefile.target  |   4 +-
 tcg/tcg-op.h     |  30 +++++
 tcg/tcg-opc.h    |  26 ++++
 tcg/tcg.h        |  56 +++++++++
 tcg/tcg-op-vec.c | 362 +++++++++++++++++++++++++++++++++++++++++++++++++++=
++++
 tcg/tcg.c        | 100 ++++++++++++++-
 tcg/README       |  58 +++++++++
 7 files changed, 630 insertions(+), 6 deletions(-)
 create mode 100644 tcg/tcg-op-vec.c

diff --git a/Makefile.target b/Makefile.target
index e4244c188a..5ca758f13c 100644
--- a/Makefile.target
+++ b/Makefile.target
@@ -93,8 +93,8 @@ all: $(PROGS) stap
 # cpu emulator library
 obj-y +=3D exec.o
 obj-y +=3D accel/
-obj-$(CONFIG_TCG) +=3D tcg/tcg.o tcg/tcg-op.o tcg/optimize.o
-obj-$(CONFIG_TCG) +=3D tcg/tcg-common.o
+obj-$(CONFIG_TCG) +=3D tcg/tcg.o tcg/tcg-op.o tcg/tcg-op-vec.o
+obj-$(CONFIG_TCG) +=3D tcg/tcg-common.o tcg/optimize.o
 obj-$(CONFIG_TCG_INTERPRETER) +=3D tcg/tci.o
 obj-$(CONFIG_TCG_INTERPRETER) +=3D disas/tci.o
 obj-y +=3D fpu/softfloat.o
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index ca07b32b65..9b0560e4d3 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -35,6 +35,10 @@ void tcg_gen_op4(TCGOpcode, TCGArg, TCGArg, TCGArg, TCGA=
rg);
 void tcg_gen_op5(TCGOpcode, TCGArg, TCGArg, TCGArg, TCGArg, TCGArg);
 void tcg_gen_op6(TCGOpcode, TCGArg, TCGArg, TCGArg, TCGArg, TCGArg, TCGArg=
);
=20
+void vec_gen_2(TCGOpcode, TCGType, unsigned, TCGArg, TCGArg);
+void vec_gen_3(TCGOpcode, TCGType, unsigned, TCGArg, TCGArg, TCGArg);
+void vec_gen_4(TCGOpcode, TCGType, unsigned, TCGArg, TCGArg, TCGArg, TCGAr=
g);
+
 static inline void tcg_gen_op1_i32(TCGOpcode opc, TCGv_i32 a1)
 {
     tcg_gen_op1(opc, tcgv_i32_arg(a1));
@@ -903,6 +907,30 @@ void tcg_gen_atomic_or_fetch_i64(TCGv_i64, TCGv, TCGv_=
i64, TCGArg, TCGMemOp);
 void tcg_gen_atomic_xor_fetch_i32(TCGv_i32, TCGv, TCGv_i32, TCGArg, TCGMem=
Op);
 void tcg_gen_atomic_xor_fetch_i64(TCGv_i64, TCGv, TCGv_i64, TCGArg, TCGMem=
Op);
=20
+void tcg_gen_mov_vec(TCGv_vec, TCGv_vec);
+void tcg_gen_dup_i32_vec(unsigned vece, TCGv_vec, TCGv_i32);
+void tcg_gen_dup_i64_vec(unsigned vece, TCGv_vec, TCGv_i64);
+void tcg_gen_dup8i_vec(TCGv_vec, uint32_t);
+void tcg_gen_dup16i_vec(TCGv_vec, uint32_t);
+void tcg_gen_dup32i_vec(TCGv_vec, uint32_t);
+void tcg_gen_dup64i_vec(TCGv_vec, uint64_t);
+void tcg_gen_movi_v64(TCGv_vec, uint64_t);
+void tcg_gen_movi_v128(TCGv_vec, uint64_t, uint64_t);
+void tcg_gen_movi_v256(TCGv_vec, uint64_t, uint64_t, uint64_t, uint64_t);
+void tcg_gen_add_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_sub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_and_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_or_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_xor_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_andc_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_orc_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_not_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+void tcg_gen_neg_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+
+void tcg_gen_ld_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset);
+void tcg_gen_st_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset);
+void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
+
 #if TARGET_LONG_BITS =3D=3D 64
 #define tcg_gen_movi_tl tcg_gen_movi_i64
 #define tcg_gen_mov_tl tcg_gen_mov_i64
@@ -1001,6 +1029,7 @@ void tcg_gen_atomic_xor_fetch_i64(TCGv_i64, TCGv, TCG=
v_i64, TCGArg, TCGMemOp);
 #define tcg_gen_atomic_and_fetch_tl tcg_gen_atomic_and_fetch_i64
 #define tcg_gen_atomic_or_fetch_tl tcg_gen_atomic_or_fetch_i64
 #define tcg_gen_atomic_xor_fetch_tl tcg_gen_atomic_xor_fetch_i64
+#define tcg_gen_dup_tl_vec  tcg_gen_dup_i64_vec
 #else
 #define tcg_gen_movi_tl tcg_gen_movi_i32
 #define tcg_gen_mov_tl tcg_gen_mov_i32
@@ -1098,6 +1127,7 @@ void tcg_gen_atomic_xor_fetch_i64(TCGv_i64, TCGv, TCG=
v_i64, TCGArg, TCGMemOp);
 #define tcg_gen_atomic_and_fetch_tl tcg_gen_atomic_and_fetch_i32
 #define tcg_gen_atomic_or_fetch_tl tcg_gen_atomic_or_fetch_i32
 #define tcg_gen_atomic_xor_fetch_tl tcg_gen_atomic_xor_fetch_i32
+#define tcg_gen_dup_tl_vec  tcg_gen_dup_i32_vec
 #endif
=20
 #if UINTPTR_MAX =3D=3D UINT32_MAX
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index 956fb1e9f3..4e62eda14b 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -204,8 +204,34 @@ DEF(qemu_ld_i64, DATA64_ARGS, TLADDR_ARGS, 1,
 DEF(qemu_st_i64, 0, TLADDR_ARGS + DATA64_ARGS, 1,
     TCG_OPF_CALL_CLOBBER | TCG_OPF_SIDE_EFFECTS | TCG_OPF_64BIT)
=20
+/* Host vector support.  */
+
+#define IMPLVEC  TCG_OPF_VECTOR | IMPL(TCG_TARGET_MAYBE_vec)
+
+DEF(mov_vec, 1, 1, 0, TCG_OPF_VECTOR | TCG_OPF_NOT_PRESENT)
+DEF(movi_vec, 1, 0, 0, TCG_OPF_VECTOR | TCG_OPF_NOT_PRESENT) /* vecl defin=
es const args */
+DEF(dupi_vec, 1, 0, 1, TCG_OPF_VECTOR | TCG_OPF_NOT_PRESENT)
+
+DEF(dup_vec, 1, 1, 0, IMPLVEC)
+DEF(dup2_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_REG_BITS =3D=3D 32))
+
+DEF(ld_vec, 1, 1, 1, IMPLVEC)
+DEF(st_vec, 0, 2, 1, IMPLVEC)
+
+DEF(add_vec, 1, 2, 0, IMPLVEC)
+DEF(sub_vec, 1, 2, 0, IMPLVEC)
+DEF(neg_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_neg_vec))
+
+DEF(and_vec, 1, 2, 0, IMPLVEC)
+DEF(or_vec, 1, 2, 0, IMPLVEC)
+DEF(xor_vec, 1, 2, 0, IMPLVEC)
+DEF(andc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_andc_vec))
+DEF(orc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_orc_vec))
+DEF(not_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_not_vec))
+
 #undef TLADDR_ARGS
 #undef DATA64_ARGS
 #undef IMPL
 #undef IMPL64
+#undef IMPLVEC
 #undef DEF
diff --git a/tcg/tcg.h b/tcg/tcg.h
index f25efa9795..2acebd387a 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -170,6 +170,27 @@ typedef uint64_t TCGRegSet;
 # error "Missing unsigned widening multiply"
 #endif
=20
+#if !defined(TCG_TARGET_HAS_v64) \
+    && !defined(TCG_TARGET_HAS_v128) \
+    && !defined(TCG_TARGET_HAS_v256)
+#define TCG_TARGET_MAYBE_vec            0
+#define TCG_TARGET_HAS_neg_vec          0
+#define TCG_TARGET_HAS_not_vec          0
+#define TCG_TARGET_HAS_andc_vec         0
+#define TCG_TARGET_HAS_orc_vec          0
+#else
+#define TCG_TARGET_MAYBE_vec            1
+#endif
+#ifndef TCG_TARGET_HAS_v64
+#define TCG_TARGET_HAS_v64              0
+#endif
+#ifndef TCG_TARGET_HAS_v128
+#define TCG_TARGET_HAS_v128             0
+#endif
+#ifndef TCG_TARGET_HAS_v256
+#define TCG_TARGET_HAS_v256             0
+#endif
+
 #ifndef TARGET_INSN_START_EXTRA_WORDS
 # define TARGET_INSN_START_WORDS 1
 #else
@@ -246,6 +267,11 @@ typedef struct TCGPool {
 typedef enum TCGType {
     TCG_TYPE_I32,
     TCG_TYPE_I64,
+
+    TCG_TYPE_V64,
+    TCG_TYPE_V128,
+    TCG_TYPE_V256,
+
     TCG_TYPE_COUNT, /* number of different types */
=20
     /* An alias for the size of the host register.  */
@@ -396,6 +422,8 @@ typedef tcg_target_ulong TCGArg;
     * TCGv_i32 : 32 bit integer type
     * TCGv_i64 : 64 bit integer type
     * TCGv_ptr : a host pointer type
+    * TCGv_vec : a host vector type; the exact size is not exposed
+                 to the CPU front-end code.
     * TCGv : an integer type the same size as target_ulong
              (an alias for either TCGv_i32 or TCGv_i64)
    The compiler's type checking will complain if you mix them
@@ -418,6 +446,7 @@ typedef tcg_target_ulong TCGArg;
 typedef struct TCGv_i32_d *TCGv_i32;
 typedef struct TCGv_i64_d *TCGv_i64;
 typedef struct TCGv_ptr_d *TCGv_ptr;
+typedef struct TCGv_vec_d *TCGv_vec;
 typedef TCGv_ptr TCGv_env;
 #if TARGET_LONG_BITS =3D=3D 32
 #define TCGv TCGv_i32
@@ -583,6 +612,9 @@ typedef struct TCGOp {
 #define TCGOP_CALLI(X)    (X)->param1
 #define TCGOP_CALLO(X)    (X)->param2
=20
+#define TCGOP_VECL(X)     (X)->param1
+#define TCGOP_VECE(X)     (X)->param2
+
 /* Make sure operands fit in the bitfields above.  */
 QEMU_BUILD_BUG_ON(NB_OPS > (1 << 8));
=20
@@ -720,6 +752,11 @@ static inline TCGTemp *tcgv_ptr_temp(TCGv_ptr v)
     return tcgv_i32_temp((TCGv_i32)v);
 }
=20
+static inline TCGTemp *tcgv_vec_temp(TCGv_vec v)
+{
+    return tcgv_i32_temp((TCGv_i32)v);
+}
+
 static inline TCGArg tcgv_i32_arg(TCGv_i32 v)
 {
     return temp_arg(tcgv_i32_temp(v));
@@ -735,6 +772,11 @@ static inline TCGArg tcgv_ptr_arg(TCGv_ptr v)
     return temp_arg(tcgv_ptr_temp(v));
 }
=20
+static inline TCGArg tcgv_vec_arg(TCGv_vec v)
+{
+    return temp_arg(tcgv_vec_temp(v));
+}
+
 static inline TCGv_i32 temp_tcgv_i32(TCGTemp *t)
 {
     (void)temp_idx(t); /* trigger embedded assert */
@@ -751,6 +793,11 @@ static inline TCGv_ptr temp_tcgv_ptr(TCGTemp *t)
     return (TCGv_ptr)temp_tcgv_i32(t);
 }
=20
+static inline TCGv_vec temp_tcgv_vec(TCGTemp *t)
+{
+    return (TCGv_vec)temp_tcgv_i32(t);
+}
+
 #if TCG_TARGET_REG_BITS =3D=3D 32
 static inline TCGv_i32 TCGV_LOW(TCGv_i64 t)
 {
@@ -826,9 +873,12 @@ TCGTemp *tcg_global_mem_new_internal(TCGType, TCGv_ptr,
=20
 TCGv_i32 tcg_temp_new_internal_i32(int temp_local);
 TCGv_i64 tcg_temp_new_internal_i64(int temp_local);
+TCGv_vec tcg_temp_new_vec(TCGType type);
+TCGv_vec tcg_temp_new_vec_matching(TCGv_vec match);
=20
 void tcg_temp_free_i32(TCGv_i32 arg);
 void tcg_temp_free_i64(TCGv_i64 arg);
+void tcg_temp_free_vec(TCGv_vec arg);
=20
 static inline TCGv_i32 tcg_global_mem_new_i32(TCGv_ptr reg, intptr_t offse=
t,
                                               const char *name)
@@ -910,6 +960,8 @@ enum {
     /* Instruction is optional and not implemented by the host, or insn
        is generic and should not be implemened by the host.  */
     TCG_OPF_NOT_PRESENT  =3D 0x10,
+    /* Instruction operands are vectors.  */
+    TCG_OPF_VECTOR       =3D 0x20,
 };
=20
 typedef struct TCGOpDef {
@@ -975,6 +1027,10 @@ TCGv_i32 tcg_const_i32(int32_t val);
 TCGv_i64 tcg_const_i64(int64_t val);
 TCGv_i32 tcg_const_local_i32(int32_t val);
 TCGv_i64 tcg_const_local_i64(int64_t val);
+TCGv_vec tcg_const_zeros_vec(TCGType);
+TCGv_vec tcg_const_ones_vec(TCGType);
+TCGv_vec tcg_const_zeros_vec_matching(TCGv_vec);
+TCGv_vec tcg_const_ones_vec_matching(TCGv_vec);
=20
 TCGLabel *gen_new_label(void);
=20
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
new file mode 100644
index 0000000000..dc04c11860
--- /dev/null
+++ b/tcg/tcg-op-vec.c
@@ -0,0 +1,362 @@
+/*
+ * Tiny Code Generator for QEMU
+ *
+ * Copyright (c) 2008 Fabrice Bellard
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a=
 copy
+ * of this software and associated documentation files (the "Software"), t=
o deal
+ * in the Software without restriction, including without limitation the r=
ights
+ * to use, copy, modify, merge, publish, distribute, sublicense, and/or se=
ll
+ * copies of the Software, and to permit persons to whom the Software is
+ * furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included=
 in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS=
 OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+ * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OT=
HER
+ * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING=
 FROM,
+ * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS =
IN
+ * THE SOFTWARE.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu-common.h"
+#include "cpu.h"
+#include "exec/exec-all.h"
+#include "tcg.h"
+#include "tcg-op.h"
+#include "tcg-mo.h"
+
+/* Reduce the number of ifdefs below.  This assumes that all uses of
+   TCGV_HIGH and TCGV_LOW are properly protected by a conditional that
+   the compiler can eliminate.  */
+#if TCG_TARGET_REG_BITS =3D=3D 64
+extern TCGv_i32 TCGV_LOW_link_error(TCGv_i64);
+extern TCGv_i32 TCGV_HIGH_link_error(TCGv_i64);
+#define TCGV_LOW  TCGV_LOW_link_error
+#define TCGV_HIGH TCGV_HIGH_link_error
+#endif
+
+void vec_gen_2(TCGOpcode opc, TCGType type, unsigned vece, TCGArg r, TCGAr=
g a)
+{
+    TCGOp *op =3D tcg_emit_op(opc);
+    TCGOP_VECL(op) =3D type - TCG_TYPE_V64;
+    TCGOP_VECE(op) =3D vece;
+    op->args[0] =3D r;
+    op->args[1] =3D a;
+}
+
+void vec_gen_3(TCGOpcode opc, TCGType type, unsigned vece,
+               TCGArg r, TCGArg a, TCGArg b)
+{
+    TCGOp *op =3D tcg_emit_op(opc);
+    TCGOP_VECL(op) =3D type - TCG_TYPE_V64;
+    TCGOP_VECE(op) =3D vece;
+    op->args[0] =3D r;
+    op->args[1] =3D a;
+    op->args[2] =3D b;
+}
+
+void vec_gen_4(TCGOpcode opc, TCGType type, unsigned vece,
+               TCGArg r, TCGArg a, TCGArg b, TCGArg c)
+{
+    TCGOp *op =3D tcg_emit_op(opc);
+    TCGOP_VECL(op) =3D type - TCG_TYPE_V64;
+    TCGOP_VECE(op) =3D vece;
+    op->args[0] =3D r;
+    op->args[1] =3D a;
+    op->args[2] =3D b;
+    op->args[3] =3D c;
+}
+
+static void vec_gen_op2(TCGOpcode opc, unsigned vece, TCGv_vec r, TCGv_vec=
 a)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGType type =3D rt->base_type;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    vec_gen_2(opc, type, vece, temp_arg(rt), temp_arg(at));
+}
+
+static void vec_gen_op3(TCGOpcode opc, unsigned vece,
+                        TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGTemp *bt =3D tcgv_vec_temp(b);
+    TCGType type =3D rt->base_type;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    tcg_debug_assert(bt->base_type =3D=3D type);
+    vec_gen_3(opc, type, vece, temp_arg(rt), temp_arg(at), temp_arg(bt));
+}
+
+void tcg_gen_mov_vec(TCGv_vec r, TCGv_vec a)
+{
+    if (r !=3D a) {
+        vec_gen_op2(INDEX_op_mov_vec, 0, r, a);
+    }
+}
+
+#define MO_REG  (TCG_TARGET_REG_BITS =3D=3D 64 ? MO_64 : MO_32)
+
+static void tcg_gen_dupi_vec(TCGv_vec r, unsigned vece, TCGArg a)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    vec_gen_2(INDEX_op_dupi_vec, rt->base_type, vece, temp_arg(rt), a);
+}
+
+TCGv_vec tcg_const_zeros_vec(TCGType type)
+{
+    TCGv_vec ret =3D tcg_temp_new_vec(type);
+    tcg_gen_dupi_vec(ret, MO_REG, 0);
+    return ret;
+}
+
+TCGv_vec tcg_const_ones_vec(TCGType type)
+{
+    TCGv_vec ret =3D tcg_temp_new_vec(type);
+    tcg_gen_dupi_vec(ret, MO_REG, -1);
+    return ret;
+}
+
+TCGv_vec tcg_const_zeros_vec_matching(TCGv_vec m)
+{
+    TCGTemp *t =3D tcgv_vec_temp(m);
+    return tcg_const_zeros_vec(t->base_type);
+}
+
+TCGv_vec tcg_const_ones_vec_matching(TCGv_vec m)
+{
+    TCGTemp *t =3D tcgv_vec_temp(m);
+    return tcg_const_ones_vec(t->base_type);
+}
+
+void tcg_gen_dup64i_vec(TCGv_vec r, uint64_t a)
+{
+    if (TCG_TARGET_REG_BITS =3D=3D 32 && a =3D=3D deposit64(a, 32, 32, a))=
 {
+        tcg_gen_dupi_vec(r, MO_32, a);
+    } else if (TCG_TARGET_REG_BITS =3D=3D 64 || a =3D=3D (uint64_t)(int32_=
t)a) {
+        tcg_gen_dupi_vec(r, MO_64, a);
+    } else {
+        TCGv_i64 c =3D tcg_const_i64(a);
+        tcg_gen_dup_i64_vec(MO_64, r, c);
+        tcg_temp_free_i64(c);
+    }
+}
+
+void tcg_gen_dup32i_vec(TCGv_vec r, uint32_t a)
+{
+    tcg_gen_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xffffffffu) * a);
+}
+
+void tcg_gen_dup16i_vec(TCGv_vec r, uint32_t a)
+{
+    tcg_gen_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xffff) * (a & 0xffff));
+}
+
+void tcg_gen_dup8i_vec(TCGv_vec r, uint32_t a)
+{
+    tcg_gen_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xff) * (a & 0xff));
+}
+
+void tcg_gen_movi_v64(TCGv_vec r, uint64_t a)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGArg ri =3D temp_arg(rt);
+
+    tcg_debug_assert(rt->base_type =3D=3D TCG_TYPE_V64);
+    if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        vec_gen_2(INDEX_op_movi_vec, TCG_TYPE_V64, 0, ri, a);
+    } else {
+        vec_gen_3(INDEX_op_movi_vec, TCG_TYPE_V64, 0, ri, a, a >> 32);
+    }
+}
+
+void tcg_gen_movi_v128(TCGv_vec r, uint64_t a, uint64_t b)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGArg ri =3D temp_arg(rt);
+
+    tcg_debug_assert(rt->base_type =3D=3D TCG_TYPE_V128);
+    if (a =3D=3D b) {
+        tcg_gen_dup64i_vec(r, a);
+    } else if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        vec_gen_3(INDEX_op_movi_vec, TCG_TYPE_V128, 0, ri, a, b);
+    } else {
+        TCGOp *op =3D tcg_emit_op(INDEX_op_movi_vec);
+        TCGOP_VECL(op) =3D TCG_TYPE_V128 - TCG_TYPE_V64;
+        op->args[0] =3D ri;
+        op->args[1] =3D a;
+        op->args[2] =3D a >> 32;
+        op->args[3] =3D b;
+        op->args[4] =3D b >> 32;
+    }
+}
+
+void tcg_gen_movi_v256(TCGv_vec r, uint64_t a, uint64_t b,
+                       uint64_t c, uint64_t d)
+{
+    TCGArg ri =3D tcgv_vec_arg(r);
+    TCGTemp *rt =3D arg_temp(ri);
+
+    tcg_debug_assert(rt->base_type =3D=3D TCG_TYPE_V256);
+    if (a =3D=3D b && a =3D=3D c && a =3D=3D d) {
+        tcg_gen_dup64i_vec(r, a);
+    } else {
+        TCGOp *op =3D tcg_emit_op(INDEX_op_movi_vec);
+        TCGOP_VECL(op) =3D TCG_TYPE_V256 - TCG_TYPE_V64;
+        op->args[0] =3D ri;
+        if (TCG_TARGET_REG_BITS =3D=3D 64) {
+            op->args[1] =3D a;
+            op->args[2] =3D b;
+            op->args[3] =3D c;
+            op->args[4] =3D d;
+        } else {
+            op->args[1] =3D a;
+            op->args[2] =3D a >> 32;
+            op->args[3] =3D b;
+            op->args[4] =3D b >> 32;
+            op->args[5] =3D c;
+            op->args[6] =3D c >> 32;
+            op->args[7] =3D d;
+            op->args[8] =3D d >> 32;
+        }
+    }
+}
+
+void tcg_gen_dup_i64_vec(unsigned vece, TCGv_vec r, TCGv_i64 a)
+{
+    TCGArg ri =3D tcgv_vec_arg(r);
+    TCGTemp *rt =3D arg_temp(ri);
+    TCGType type =3D rt->base_type;
+
+    if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        TCGArg ai =3D tcgv_i64_arg(a);
+        vec_gen_2(INDEX_op_dup_vec, type, MO_64, ri, ai);
+    } else if (vece =3D=3D MO_64) {
+        TCGArg al =3D tcgv_i32_arg(TCGV_LOW(a));
+        TCGArg ah =3D tcgv_i32_arg(TCGV_HIGH(a));
+        vec_gen_3(INDEX_op_dup2_vec, type, MO_64, ri, al, ah);
+    } else {
+        TCGArg ai =3D tcgv_i32_arg(TCGV_LOW(a));
+        vec_gen_2(INDEX_op_dup_vec, type, MO_64, ri, ai);
+    }
+}
+
+void tcg_gen_dup_i32_vec(unsigned vece, TCGv_vec r, TCGv_i32 a)
+{
+    TCGArg ri =3D tcgv_vec_arg(r);
+    TCGArg ai =3D tcgv_i32_arg(a);
+    TCGTemp *rt =3D arg_temp(ri);
+    TCGType type =3D rt->base_type;
+
+    vec_gen_2(INDEX_op_dup_vec, type, vece, ri, ai);
+}
+
+static void vec_gen_ldst(TCGOpcode opc, TCGv_vec r, TCGv_ptr b, TCGArg o)
+{
+    TCGArg ri =3D tcgv_vec_arg(r);
+    TCGArg bi =3D tcgv_ptr_arg(b);
+    TCGTemp *rt =3D arg_temp(ri);
+    TCGType type =3D rt->base_type;
+
+    vec_gen_3(opc, type, 0, ri, bi, o);
+}
+
+void tcg_gen_ld_vec(TCGv_vec r, TCGv_ptr b, TCGArg o)
+{
+    vec_gen_ldst(INDEX_op_ld_vec, r, b, o);
+}
+
+void tcg_gen_st_vec(TCGv_vec r, TCGv_ptr b, TCGArg o)
+{
+    vec_gen_ldst(INDEX_op_st_vec, r, b, o);
+}
+
+void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr b, TCGArg o, TCGType low_type)
+{
+    TCGArg ri =3D tcgv_vec_arg(r);
+    TCGArg bi =3D tcgv_ptr_arg(b);
+    TCGTemp *rt =3D arg_temp(ri);
+    TCGType type =3D rt->base_type;
+
+    tcg_debug_assert(low_type >=3D TCG_TYPE_V64);
+    tcg_debug_assert(low_type <=3D type);
+    vec_gen_3(INDEX_op_st_vec, low_type, 0, ri, bi, o);
+}
+
+void tcg_gen_add_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    vec_gen_op3(INDEX_op_add_vec, vece, r, a, b);
+}
+
+void tcg_gen_sub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    vec_gen_op3(INDEX_op_sub_vec, vece, r, a, b);
+}
+
+void tcg_gen_and_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    vec_gen_op3(INDEX_op_and_vec, 0, r, a, b);
+}
+
+void tcg_gen_or_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    vec_gen_op3(INDEX_op_or_vec, 0, r, a, b);
+}
+
+void tcg_gen_xor_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    vec_gen_op3(INDEX_op_xor_vec, 0, r, a, b);
+}
+
+void tcg_gen_andc_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    if (TCG_TARGET_HAS_andc_vec) {
+        vec_gen_op3(INDEX_op_andc_vec, 0, r, a, b);
+    } else {
+        TCGv_vec t =3D tcg_temp_new_vec_matching(r);
+        tcg_gen_not_vec(0, t, b);
+        tcg_gen_and_vec(0, r, a, t);
+        tcg_temp_free_vec(t);
+    }
+}
+
+void tcg_gen_orc_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    if (TCG_TARGET_HAS_orc_vec) {
+        vec_gen_op3(INDEX_op_orc_vec, 0, r, a, b);
+    } else {
+        TCGv_vec t =3D tcg_temp_new_vec_matching(r);
+        tcg_gen_not_vec(0, t, b);
+        tcg_gen_or_vec(0, r, a, t);
+        tcg_temp_free_vec(t);
+    }
+}
+
+void tcg_gen_not_vec(unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    if (TCG_TARGET_HAS_not_vec) {
+        vec_gen_op2(INDEX_op_not_vec, 0, r, a);
+    } else {
+        TCGv_vec t =3D tcg_const_ones_vec_matching(r);
+        tcg_gen_xor_vec(0, r, a, t);
+        tcg_temp_free_vec(t);
+    }
+}
+
+void tcg_gen_neg_vec(unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    if (TCG_TARGET_HAS_neg_vec) {
+        vec_gen_op2(INDEX_op_neg_vec, vece, r, a);
+    } else {
+        TCGv_vec t =3D tcg_const_zeros_vec_matching(r);
+        tcg_gen_sub_vec(vece, r, t, a);
+        tcg_temp_free_vec(t);
+    }
+}
diff --git a/tcg/tcg.c b/tcg/tcg.c
index 93caa0be93..16b8faf66f 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -106,6 +106,18 @@ static void tcg_out_movi(TCGContext *s, TCGType type,
                          TCGReg ret, tcg_target_long arg);
 static void tcg_out_op(TCGContext *s, TCGOpcode opc, const TCGArg *args,
                        const int *const_args);
+#if TCG_TARGET_MAYBE_vec
+static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc, unsigned vecl,
+                           unsigned vece, const TCGArg *args,
+                           const int *const_args);
+#else
+static inline void tcg_out_vec_op(TCGContext *s, TCGOpcode opc, unsigned v=
ecl,
+                                  unsigned vece, const TCGArg *args,
+                                  const int *const_args)
+{
+    g_assert_not_reached();
+}
+#endif
 static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg, TCGReg arg=
1,
                        intptr_t arg2);
 static bool tcg_out_sti(TCGContext *s, TCGType type, TCGArg val,
@@ -146,8 +158,7 @@ struct tcg_region_state {
 };
=20
 static struct tcg_region_state region;
-
-static TCGRegSet tcg_target_available_regs[2];
+static TCGRegSet tcg_target_available_regs[TCG_TYPE_COUNT];
 static TCGRegSet tcg_target_call_clobber_regs;
=20
 #if TCG_TARGET_INSN_UNIT_SIZE =3D=3D 1
@@ -1026,6 +1037,41 @@ TCGv_i64 tcg_temp_new_internal_i64(int temp_local)
     return temp_tcgv_i64(t);
 }
=20
+TCGv_vec tcg_temp_new_vec(TCGType type)
+{
+    TCGTemp *t;
+
+#ifdef CONFIG_DEBUG_TCG
+    switch (type) {
+    case TCG_TYPE_V64:
+        assert(TCG_TARGET_HAS_v64);
+        break;
+    case TCG_TYPE_V128:
+        assert(TCG_TARGET_HAS_v128);
+        break;
+    case TCG_TYPE_V256:
+        assert(TCG_TARGET_HAS_v256);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+#endif
+
+    t =3D tcg_temp_new_internal(type, 0);
+    return temp_tcgv_vec(t);
+}
+
+/* Create a new temp of the same type as an existing temp.  */
+TCGv_vec tcg_temp_new_vec_matching(TCGv_vec match)
+{
+    TCGTemp *t =3D tcgv_vec_temp(match);
+
+    tcg_debug_assert(t->temp_allocated !=3D 0);
+
+    t =3D tcg_temp_new_internal(t->base_type, 0);
+    return temp_tcgv_vec(t);
+}
+
 static void tcg_temp_free_internal(TCGTemp *ts)
 {
     TCGContext *s =3D tcg_ctx;
@@ -1057,6 +1103,11 @@ void tcg_temp_free_i64(TCGv_i64 arg)
     tcg_temp_free_internal(tcgv_i64_temp(arg));
 }
=20
+void tcg_temp_free_vec(TCGv_vec arg)
+{
+    tcg_temp_free_internal(tcgv_vec_temp(arg));
+}
+
 TCGv_i32 tcg_const_i32(int32_t val)
 {
     TCGv_i32 t0;
@@ -1114,6 +1165,9 @@ int tcg_check_temp_count(void)
    Test the runtime variable that controls each opcode.  */
 bool tcg_op_supported(TCGOpcode op)
 {
+    const bool have_vec
+        =3D TCG_TARGET_HAS_v64 | TCG_TARGET_HAS_v128 | TCG_TARGET_HAS_v256;
+
     switch (op) {
     case INDEX_op_discard:
     case INDEX_op_set_label:
@@ -1327,6 +1381,29 @@ bool tcg_op_supported(TCGOpcode op)
     case INDEX_op_mulsh_i64:
         return TCG_TARGET_HAS_mulsh_i64;
=20
+    case INDEX_op_mov_vec:
+    case INDEX_op_movi_vec:
+    case INDEX_op_dup_vec:
+    case INDEX_op_dupi_vec:
+    case INDEX_op_ld_vec:
+    case INDEX_op_st_vec:
+    case INDEX_op_add_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+        return have_vec;
+    case INDEX_op_dup2_vec:
+        return have_vec && TCG_TARGET_REG_BITS =3D=3D 32;
+    case INDEX_op_not_vec:
+        return have_vec && TCG_TARGET_HAS_not_vec;
+    case INDEX_op_neg_vec:
+        return have_vec && TCG_TARGET_HAS_neg_vec;
+    case INDEX_op_andc_vec:
+        return have_vec && TCG_TARGET_HAS_andc_vec;
+    case INDEX_op_orc_vec:
+        return have_vec && TCG_TARGET_HAS_orc_vec;
+
     case NB_OPS:
         break;
     }
@@ -1661,6 +1738,14 @@ void tcg_dump_ops(TCGContext *s)
             nb_iargs =3D def->nb_iargs;
             nb_cargs =3D def->nb_cargs;
=20
+            if (c =3D=3D INDEX_op_movi_vec) {
+                nb_cargs =3D (64 / TCG_TARGET_REG_BITS) << TCGOP_VECL(op);
+            }
+            if (def->flags & TCG_OPF_VECTOR) {
+                col +=3D qemu_log("v%d,e%d,", 64 << TCGOP_VECL(op),
+                                8 << TCGOP_VECE(op));
+            }
+
             k =3D 0;
             for (i =3D 0; i < nb_oargs; i++) {
                 if (k !=3D 0) {
@@ -2890,8 +2975,13 @@ static void tcg_reg_alloc_op(TCGContext *s, const TC=
GOp *op)
     }
=20
     /* emit instruction */
-    tcg_out_op(s, op->opc, new_args, const_args);
-   =20
+    if (def->flags & TCG_OPF_VECTOR) {
+        tcg_out_vec_op(s, op->opc, TCGOP_VECL(op), TCGOP_VECE(op),
+                       new_args, const_args);
+    } else {
+        tcg_out_op(s, op->opc, new_args, const_args);
+    }
+
     /* move the outputs in the correct register if needed */
     for(i =3D 0; i < nb_oargs; i++) {
         ts =3D arg_temp(op->args[i]);
@@ -3239,10 +3329,12 @@ int tcg_gen_code(TCGContext *s, TranslationBlock *t=
b)
         switch (opc) {
         case INDEX_op_mov_i32:
         case INDEX_op_mov_i64:
+        case INDEX_op_mov_vec:
             tcg_reg_alloc_mov(s, op);
             break;
         case INDEX_op_movi_i32:
         case INDEX_op_movi_i64:
+        case INDEX_op_dupi_vec:
             tcg_reg_alloc_movi(s, op);
             break;
         case INDEX_op_insn_start:
diff --git a/tcg/README b/tcg/README
index 03bfb6acd4..e14990fb9b 100644
--- a/tcg/README
+++ b/tcg/README
@@ -503,6 +503,64 @@ of the memory access.
 For a 32-bit host, qemu_ld/st_i64 is guaranteed to only be used with a
 64-bit memory access specified in flags.
=20
+********* Host vector operations
+
+All of the vector ops have two parameters, TCGOP_VECL & TCGOP_VECE.
+The former specifies the length of the vector in log2 64-bit units; the
+later specifies the length of the element (if applicable) in log2 8-bit un=
its.
+E.g. VECL=3D1 -> 64 << 1 -> v128, and VECE=3D2 -> 1 << 2 -> i32.
+
+* mov_vec   v0, v1
+* ld_vec    v0, t1
+* st_vec    v0, t1
+
+  Move, load and store.
+
+* movi_vec  v0, a, b, ...
+
+  Move with constant data.  There are arguments to hold the entire
+  vector value, stored little-endian.  Note that the way MAX_OPC_PARAM
+  is sized for 64- and 32-bit hosts, there are enough slots for v256,
+  but not a future v512.
+
+  Prefer dupi_vec when possible.
+
+* dup_vec  v0, r1
+
+  Duplicate the low N bits of R1 into VECL/VECE copies across V0.
+
+* dupi_vec v0, c
+
+  Similarly, for a constant.
+  Smaller values will be replicated to host register size by the expanders.
+
+* dup2_vec v0, r1, r2
+
+  Duplicate r2:r1 into VECL/64 copies across V0.  This opcode is
+  only present for 32-bit hosts.
+
+* add_vec   v0, v1, v2
+
+  v0 =3D v1 + v2, in elements across the vector.
+
+* sub_vec   v0, v1, v2
+
+  Similarly, v0 =3D v1 - v2.
+
+* neg_vec   v0, v1
+
+  Similarly, v0 =3D -v1.
+
+* and_vec   v0, v1, v2
+* or_vec    v0, v1, v2
+* xor_vec   v0, v1, v2
+* andc_vec  v0, v1, v2
+* orc_vec   v0, v1, v2
+* not_vec   v0, v1
+
+  Similarly, logical operations with and without compliment.
+  Note that VECE is unused.
+
 *********
=20
 Note 1: Some shortcuts are defined when the last operand is known to be
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 15113003011027.7628503329505065;
 Tue, 21 Nov 2017 13:38:21 -0800 (PST)
Received: from localhost ([::1]:36630 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGFB-0004v7-Tf
	for importer@patchew.org; Tue, 21 Nov 2017 16:38:14 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54032)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG59-0004NA-BQ
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:57 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG53-0007fZ-In
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:51 -0500
Received: from mail-wm0-x22d.google.com ([2a00:1450:400c:c09::22d]:39131)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG53-0007et-50
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:45 -0500
Received: by mail-wm0-x22d.google.com with SMTP id x63so6255167wmf.4
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:45 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.41 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:42 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=jWknO0RbzhLByyUe3nJCH3qKKHeeV0jgF0EpsUb2/bg=;
	b=hps3IEHFn4Q7miN/5wA39XXWjullwavJxzrKXkSc3YGcuOeQgxWLwnvh/V9dFFmiyY
	tGMtoYaVHIaDNvEEPVbWYN44fo/8bKdhkZZi3/SuMZ/K3D4/YZXv62db5qYt482SG/jg
	ufBo2jUPfux3ZgLz4HnDPGkqDIR7UWNhBgSsg=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=jWknO0RbzhLByyUe3nJCH3qKKHeeV0jgF0EpsUb2/bg=;
	b=EzDwbJmfWcZJ0YGiIiWOJ62nEcE6PFxZEgNHUqcnGS8i0lzEfz+9qa19C7GWlMQ+di
	TDP8JW8BQjMGshJJGb58xUBMpIAUhFNE4pX1jZz6TsLP9Fif+9xgJmAx5UEKqn071U3T
	t4n0NqH5T6R7IJN8X8VxqbIprXposT4vRxqD5M+5n1Qkmi64pZpCu+/1Oh3TkL9JxG+P
	+8DdaZLZjvcRIbghqsa9Te8xEWl3nA+G0y9ANyQXIoEYckWogS60CqqIekKeFL2Ti585
	F2Z+Xh5hiDeZYDngVB0uTTC9kxiQHyk0MvJWIyxkZhCMW4GQQcFE9eITHqaYuYrUtmaj
	w7ng==
X-Gm-Message-State: AJaThX4X1EBIAy/JcjzMeCq0Zl3mD0m838P33gu6OswefOYED2mx51lf
	pkMbJdyHkAdhCz3RPI86jnImtCPus3A=
X-Google-Smtp-Source: 
 AGs4zMZiMjJeM8q37AmVkNlzdFPJOF7Dxk2aU3DHGsjmjqluv0f+CqAaJ/DRacoRDlMAOghSOfpC9Q==
X-Received: by 10.28.234.80 with SMTP id i77mr2237306wmh.76.1511299662949;
	Tue, 21 Nov 2017 13:27:42 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:13 +0100
Message-Id: <20171121212534.5177-6-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::22d
Subject: [Qemu-devel] [PATCH v6 05/26] tcg: Add generic vector expanders
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 Makefile.target              |    2 +-
 accel/tcg/tcg-runtime.h      |   29 ++
 tcg/tcg-gvec-desc.h          |   49 ++
 tcg/tcg-op-gvec.h            |  152 +++++++
 tcg/tcg-op.h                 |    1 +
 accel/tcg/tcg-runtime-gvec.c |  295 ++++++++++++
 tcg/tcg-op-gvec.c            | 1017 ++++++++++++++++++++++++++++++++++++++=
++++
 tcg/tcg-op-vec.c             |   36 +-
 accel/tcg/Makefile.objs      |    2 +-
 9 files changed, 1573 insertions(+), 10 deletions(-)
 create mode 100644 tcg/tcg-gvec-desc.h
 create mode 100644 tcg/tcg-op-gvec.h
 create mode 100644 accel/tcg/tcg-runtime-gvec.c
 create mode 100644 tcg/tcg-op-gvec.c

diff --git a/Makefile.target b/Makefile.target
index 5ca758f13c..d828cec433 100644
--- a/Makefile.target
+++ b/Makefile.target
@@ -93,7 +93,7 @@ all: $(PROGS) stap
 # cpu emulator library
 obj-y +=3D exec.o
 obj-y +=3D accel/
-obj-$(CONFIG_TCG) +=3D tcg/tcg.o tcg/tcg-op.o tcg/tcg-op-vec.o
+obj-$(CONFIG_TCG) +=3D tcg/tcg.o tcg/tcg-op.o tcg/tcg-op-vec.o tcg/tcg-op-=
gvec.o
 obj-$(CONFIG_TCG) +=3D tcg/tcg-common.o tcg/optimize.o
 obj-$(CONFIG_TCG_INTERPRETER) +=3D tcg/tci.o
 obj-$(CONFIG_TCG_INTERPRETER) +=3D disas/tci.o
diff --git a/accel/tcg/tcg-runtime.h b/accel/tcg/tcg-runtime.h
index 1df17d0ba9..76ee41ce58 100644
--- a/accel/tcg/tcg-runtime.h
+++ b/accel/tcg/tcg-runtime.h
@@ -134,3 +134,32 @@ GEN_ATOMIC_HELPERS(xor_fetch)
 GEN_ATOMIC_HELPERS(xchg)
=20
 #undef GEN_ATOMIC_HELPERS
+
+DEF_HELPER_FLAGS_3(gvec_mov, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_dup8, TCG_CALL_NO_RWG, void, ptr, i32, i32)
+DEF_HELPER_FLAGS_3(gvec_dup16, TCG_CALL_NO_RWG, void, ptr, i32, i32)
+DEF_HELPER_FLAGS_3(gvec_dup32, TCG_CALL_NO_RWG, void, ptr, i32, i32)
+DEF_HELPER_FLAGS_3(gvec_dup64, TCG_CALL_NO_RWG, void, ptr, i32, i64)
+
+DEF_HELPER_FLAGS_4(gvec_add8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_add16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_add32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_add64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_sub8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_sub16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_sub32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_sub64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_neg8, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_neg16, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_neg32, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_neg64, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_not, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_and, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_or, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_xor, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_andc, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_orc, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/tcg/tcg-gvec-desc.h b/tcg/tcg-gvec-desc.h
new file mode 100644
index 0000000000..8ba9a8168d
--- /dev/null
+++ b/tcg/tcg-gvec-desc.h
@@ -0,0 +1,49 @@
+/*
+ *  Generic vector operation descriptor
+ *
+ *  Copyright (c) 2017 Linaro
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+/* ??? These bit widths are set for ARM SVE, maxing out at 256 byte vector=
s. */
+#define SIMD_OPRSZ_SHIFT   0
+#define SIMD_OPRSZ_BITS    5
+
+#define SIMD_MAXSZ_SHIFT   (SIMD_OPRSZ_SHIFT + SIMD_OPRSZ_BITS)
+#define SIMD_MAXSZ_BITS    5
+
+#define SIMD_DATA_SHIFT    (SIMD_MAXSZ_SHIFT + SIMD_MAXSZ_BITS)
+#define SIMD_DATA_BITS     (32 - SIMD_DATA_SHIFT)
+
+/* Create a descriptor from components.  */
+uint32_t simd_desc(uint32_t oprsz, uint32_t maxsz, int32_t data);
+
+/* Extract the operation size from a descriptor.  */
+static inline intptr_t simd_oprsz(uint32_t desc)
+{
+    return (extract32(desc, SIMD_OPRSZ_SHIFT, SIMD_OPRSZ_BITS) + 1) * 8;
+}
+
+/* Extract the max vector size from a descriptor.  */
+static inline intptr_t simd_maxsz(uint32_t desc)
+{
+    return (extract32(desc, SIMD_MAXSZ_SHIFT, SIMD_MAXSZ_BITS) + 1) * 8;
+}
+
+/* Extract the operation-specific data from a descriptor.  */
+static inline int32_t simd_data(uint32_t desc)
+{
+    return sextract32(desc, SIMD_DATA_SHIFT, SIMD_DATA_BITS);
+}
diff --git a/tcg/tcg-op-gvec.h b/tcg/tcg-op-gvec.h
new file mode 100644
index 0000000000..95739946ff
--- /dev/null
+++ b/tcg/tcg-op-gvec.h
@@ -0,0 +1,152 @@
+/*
+ *  Generic vector operation expansion
+ *
+ *  Copyright (c) 2017 Linaro
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+/*
+ * "Generic" vectors.  All operands are given as offsets from ENV,
+ * and therefore cannot also be allocated via tcg_global_mem_new_*.
+ * OPRSZ is the byte size of the vector upon which the operation is perfor=
med.
+ * MAXSZ is the byte size of the full vector; bytes beyond OPSZ are cleare=
d.
+ *
+ * All sizes must be 8 or any multiple of 16.
+ * When OPRSZ is 8, the alignment may be 8, otherwise must be 16.
+ * Operands may completely, but not partially, overlap.
+ */
+
+/* Expand a call to a gvec-style helper, with pointers to two vector
+   operands, and a descriptor (see tcg-gvec-desc.h).  */
+typedef void (gen_helper_gvec_2)(TCGv_ptr, TCGv_ptr, TCGv_i32);
+void tcg_gen_gvec_2_ool(uint32_t dofs, uint32_t aofs,
+                        uint32_t oprsz, uint32_t maxsz, int32_t data,
+                        gen_helper_gvec_2 *fn);
+
+/* Similarly, passing an extra pointer (e.g. env or float_status).  */
+typedef void (gen_helper_gvec_2_ptr)(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i3=
2);
+void tcg_gen_gvec_2_ptr(uint32_t dofs, uint32_t aofs,
+                        TCGv_ptr ptr, uint32_t oprsz, uint32_t maxsz,
+                        int32_t data, gen_helper_gvec_2_ptr *fn);
+
+/* Similarly, with three vector operands.  */
+typedef void (gen_helper_gvec_3)(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
+void tcg_gen_gvec_3_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                        uint32_t oprsz, uint32_t maxsz, int32_t data,
+                        gen_helper_gvec_3 *fn);
+
+typedef void (gen_helper_gvec_3_ptr)(TCGv_ptr, TCGv_ptr, TCGv_ptr,
+                                     TCGv_ptr, TCGv_i32);
+void tcg_gen_gvec_3_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                        TCGv_ptr ptr, uint32_t oprsz, uint32_t maxsz,
+                        int32_t data, gen_helper_gvec_3_ptr *fn);
+
+/* Expand a gvec operation.  Either inline or out-of-line depending on
+   the actual vector size and the operations supported by the host.  */
+typedef struct {
+    /* Expand inline as a 64-bit or 32-bit integer.
+       Only one of these will be non-NULL.  */
+    void (*fni8)(TCGv_i64, TCGv_i64);
+    void (*fni4)(TCGv_i32, TCGv_i32);
+    /* Expand inline with a host vector type.  */
+    void (*fniv)(unsigned, TCGv_vec, TCGv_vec);
+    /* Expand out-of-line helper w/descriptor.  */
+    gen_helper_gvec_2 *fno;
+    /* The opcode, if any, to which this corresponds.  */
+    TCGOpcode opc;
+    /* The vector element size, if applicable.  */
+    uint8_t vece;
+    /* Prefer i64 to v64.  */
+    bool prefer_i64;
+} GVecGen2;
+
+typedef struct {
+    /* Expand inline as a 64-bit or 32-bit integer.
+       Only one of these will be non-NULL.  */
+    void (*fni8)(TCGv_i64, TCGv_i64, TCGv_i64);
+    void (*fni4)(TCGv_i32, TCGv_i32, TCGv_i32);
+    /* Expand inline with a host vector type.  */
+    void (*fniv)(unsigned, TCGv_vec, TCGv_vec, TCGv_vec);
+    /* Expand out-of-line helper w/descriptor.  */
+    gen_helper_gvec_3 *fno;
+    /* The opcode, if any, to which this corresponds.  */
+    TCGOpcode opc;
+    /* The vector element size, if applicable.  */
+    uint8_t vece;
+    /* Prefer i64 to v64.  */
+    bool prefer_i64;
+    /* Load dest as a 3rd source operand.  */
+    bool load_dest;
+} GVecGen3;
+
+void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
+                    uint32_t opsz, uint32_t clsz, const GVecGen2 *);
+void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                    uint32_t opsz, uint32_t clsz, const GVecGen3 *);
+
+/* Expand a specific vector operation.  */
+
+void tcg_gen_gvec_mov(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_not(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_neg(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t opsz, uint32_t clsz);
+
+void tcg_gen_gvec_add(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_sub(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t clsz);
+
+void tcg_gen_gvec_and(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_or(unsigned vece, uint32_t dofs, uint32_t aofs,
+                     uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_xor(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_andc(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_orc(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t clsz);
+
+void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
+                          uint32_t s, uint32_t m);
+void tcg_gen_gvec_dup_i32(unsigned vece, uint32_t dofs, uint32_t s,
+                          uint32_t m, TCGv_i32);
+void tcg_gen_gvec_dup_i64(unsigned vece, uint32_t dofs, uint32_t s,
+                          uint32_t m, TCGv_i64);
+
+void tcg_gen_gvec_dup8i(uint32_t dofs, uint32_t s, uint32_t m, uint8_t x);
+void tcg_gen_gvec_dup16i(uint32_t dofs, uint32_t s, uint32_t m, uint16_t x=
);
+void tcg_gen_gvec_dup32i(uint32_t dofs, uint32_t s, uint32_t m, uint32_t x=
);
+void tcg_gen_gvec_dup64i(uint32_t dofs, uint32_t s, uint32_t m, uint64_t x=
);
+
+/*
+ * 64-bit vector operations.  Use these when the register has been allocat=
ed
+ * with tcg_global_mem_new_i64, and so we cannot also address it via point=
er.
+ * OPRSZ =3D MAXSZ =3D 8.
+ */
+
+void tcg_gen_vec_neg8_i64(TCGv_i64 d, TCGv_i64 a);
+void tcg_gen_vec_neg16_i64(TCGv_i64 d, TCGv_i64 a);
+void tcg_gen_vec_neg32_i64(TCGv_i64 d, TCGv_i64 a);
+
+void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+
+void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index 9b0560e4d3..5f49785cb3 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -914,6 +914,7 @@ void tcg_gen_dup8i_vec(TCGv_vec, uint32_t);
 void tcg_gen_dup16i_vec(TCGv_vec, uint32_t);
 void tcg_gen_dup32i_vec(TCGv_vec, uint32_t);
 void tcg_gen_dup64i_vec(TCGv_vec, uint64_t);
+void tcg_gen_dupi_vec(unsigned vece, TCGv_vec, uint64_t);
 void tcg_gen_movi_v64(TCGv_vec, uint64_t);
 void tcg_gen_movi_v128(TCGv_vec, uint64_t, uint64_t);
 void tcg_gen_movi_v256(TCGv_vec, uint64_t, uint64_t, uint64_t, uint64_t);
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
new file mode 100644
index 0000000000..cd1ce12b7e
--- /dev/null
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -0,0 +1,295 @@
+/*
+ *  Generic vectorized operation runtime
+ *
+ *  Copyright (c) 2017 Linaro
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/host-utils.h"
+#include "cpu.h"
+#include "exec/helper-proto.h"
+#include "tcg-gvec-desc.h"
+
+
+/* Virtually all hosts support 16-byte vectors.  Those that don't can emul=
ate
+   them via GCC's generic vector extension.  This turns out to be simpler =
and
+   more reliable than getting the compiler to autovectorize.
+
+   In tcg-op-gvec.c, we asserted that both the size and alignment
+   of the data are multiples of 16.  */
+
+typedef uint8_t vec8 __attribute__((vector_size(16)));
+typedef uint16_t vec16 __attribute__((vector_size(16)));
+typedef uint32_t vec32 __attribute__((vector_size(16)));
+typedef uint64_t vec64 __attribute__((vector_size(16)));
+
+static inline void clear_high(void *d, intptr_t oprsz, uint32_t desc)
+{
+    intptr_t maxsz =3D simd_maxsz(desc);
+    intptr_t i;
+
+    if (unlikely(maxsz > oprsz)) {
+        for (i =3D oprsz; i < maxsz; i +=3D sizeof(uint64_t)) {
+            *(uint64_t *)(d + i) =3D 0;
+        }
+    }
+}
+
+void HELPER(gvec_add8)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(vec8 *)(d + i) =3D *(vec8 *)(a + i) + *(vec8 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_add16)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(vec16 *)(d + i) =3D *(vec16 *)(a + i) + *(vec16 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_add32)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(vec32 *)(d + i) =3D *(vec32 *)(a + i) + *(vec32 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_add64)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) + *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sub8)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(vec8 *)(d + i) =3D *(vec8 *)(a + i) - *(vec8 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sub16)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(vec16 *)(d + i) =3D *(vec16 *)(a + i) - *(vec16 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sub32)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(vec32 *)(d + i) =3D *(vec32 *)(a + i) - *(vec32 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sub64)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) - *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_neg8)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(vec8 *)(d + i) =3D -*(vec8 *)(a + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_neg16)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(vec16 *)(d + i) =3D -*(vec16 *)(a + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_neg32)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(vec32 *)(d + i) =3D -*(vec32 *)(a + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_neg64)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D -*(vec64 *)(a + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_mov)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+
+    memcpy(d, a, oprsz);
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_dup64)(void *d, uint32_t desc, uint64_t c)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    if (c =3D=3D 0) {
+        oprsz =3D 0;
+    } else {
+        for (i =3D 0; i < oprsz; i +=3D sizeof(uint64_t)) {
+            *(uint64_t *)(d + i) =3D c;
+        }
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_dup32)(void *d, uint32_t desc, uint32_t c)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    if (c =3D=3D 0) {
+        oprsz =3D 0;
+    } else {
+        for (i =3D 0; i < oprsz; i +=3D sizeof(uint32_t)) {
+            *(uint32_t *)(d + i) =3D c;
+        }
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_dup16)(void *d, uint32_t desc, uint32_t c)
+{
+    HELPER(gvec_dup32)(d, desc, 0x00010001 * (c & 0xffff));
+}
+
+void HELPER(gvec_dup8)(void *d, uint32_t desc, uint32_t c)
+{
+    HELPER(gvec_dup32)(d, desc, 0x01010101 * (c & 0xff));
+}
+
+void HELPER(gvec_not)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D ~*(vec64 *)(a + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_and)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) & *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_or)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) | *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_xor)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) ^ *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_andc)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) &~ *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_orc)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) |~ *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
new file mode 100644
index 0000000000..925c293f9c
--- /dev/null
+++ b/tcg/tcg-op-gvec.c
@@ -0,0 +1,1017 @@
+/*
+ *  Generic vector operation expansion
+ *
+ *  Copyright (c) 2017 Linaro
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu-common.h"
+#include "tcg.h"
+#include "tcg-op.h"
+#include "tcg-op-gvec.h"
+#include "tcg-gvec-desc.h"
+
+#define REP8(x)    ((x) * 0x0101010101010101ull)
+#define REP16(x)   ((x) * 0x0001000100010001ull)
+
+#define MAX_UNROLL  4
+
+/* Verify vector size and alignment rules.  OFS should be the OR of all
+   of the operand offsets so that we can check them all at once.  */
+static void check_size_align(uint32_t oprsz, uint32_t maxsz, uint32_t ofs)
+{
+    uint32_t align =3D maxsz > 16 || oprsz >=3D 16 ? 15 : 7;
+    tcg_debug_assert(oprsz > 0);
+    tcg_debug_assert(oprsz <=3D maxsz);
+    tcg_debug_assert((oprsz & align) =3D=3D 0);
+    tcg_debug_assert((maxsz & align) =3D=3D 0);
+    tcg_debug_assert((ofs & align) =3D=3D 0);
+}
+
+/* Verify vector overlap rules for two operands.  */
+static void check_overlap_2(uint32_t d, uint32_t a, uint32_t s)
+{
+    tcg_debug_assert(d =3D=3D a || d + s <=3D a || a + s <=3D d);
+}
+
+/* Verify vector overlap rules for three operands.  */
+static void check_overlap_3(uint32_t d, uint32_t a, uint32_t b, uint32_t s)
+{
+    check_overlap_2(d, a, s);
+    check_overlap_2(d, b, s);
+    check_overlap_2(a, b, s);
+}
+
+/* Create a descriptor from components.  */
+uint32_t simd_desc(uint32_t oprsz, uint32_t maxsz, int32_t data)
+{
+    uint32_t desc =3D 0;
+
+    assert(oprsz % 8 =3D=3D 0 && oprsz <=3D (8 << SIMD_OPRSZ_BITS));
+    assert(maxsz % 8 =3D=3D 0 && maxsz <=3D (8 << SIMD_MAXSZ_BITS));
+    assert(data =3D=3D sextract32(data, 0, SIMD_DATA_BITS));
+
+    oprsz =3D (oprsz / 8) - 1;
+    maxsz =3D (maxsz / 8) - 1;
+    desc =3D deposit32(desc, SIMD_OPRSZ_SHIFT, SIMD_OPRSZ_BITS, oprsz);
+    desc =3D deposit32(desc, SIMD_MAXSZ_SHIFT, SIMD_MAXSZ_BITS, maxsz);
+    desc =3D deposit32(desc, SIMD_DATA_SHIFT, SIMD_DATA_BITS, data);
+
+    return desc;
+}
+
+/* Generate a call to a gvec-style helper with two vector operands.  */
+void tcg_gen_gvec_2_ool(uint32_t dofs, uint32_t aofs,
+                        uint32_t oprsz, uint32_t maxsz, int32_t data,
+                        gen_helper_gvec_2 *fn)
+{
+    TCGv_ptr a0, a1;
+    TCGv_i32 desc =3D tcg_const_i32(simd_desc(oprsz, maxsz, data));
+
+    a0 =3D tcg_temp_new_ptr();
+    a1 =3D tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(a0, cpu_env, dofs);
+    tcg_gen_addi_ptr(a1, cpu_env, aofs);
+
+    fn(a0, a1, desc);
+
+    tcg_temp_free_ptr(a0);
+    tcg_temp_free_ptr(a1);
+    tcg_temp_free_i32(desc);
+}
+
+/* Generate a call to a gvec-style helper with three vector operands.  */
+void tcg_gen_gvec_3_ool(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                        uint32_t oprsz, uint32_t maxsz, int32_t data,
+                        gen_helper_gvec_3 *fn)
+{
+    TCGv_ptr a0, a1, a2;
+    TCGv_i32 desc =3D tcg_const_i32(simd_desc(oprsz, maxsz, data));
+
+    a0 =3D tcg_temp_new_ptr();
+    a1 =3D tcg_temp_new_ptr();
+    a2 =3D tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(a0, cpu_env, dofs);
+    tcg_gen_addi_ptr(a1, cpu_env, aofs);
+    tcg_gen_addi_ptr(a2, cpu_env, bofs);
+
+    fn(a0, a1, a2, desc);
+
+    tcg_temp_free_ptr(a0);
+    tcg_temp_free_ptr(a1);
+    tcg_temp_free_ptr(a2);
+    tcg_temp_free_i32(desc);
+}
+
+/* Generate a call to a gvec-style helper with three vector operands
+   and an extra pointer operand.  */
+void tcg_gen_gvec_2_ptr(uint32_t dofs, uint32_t aofs,
+                        TCGv_ptr ptr, uint32_t oprsz, uint32_t maxsz,
+                        int32_t data, gen_helper_gvec_2_ptr *fn)
+{
+    TCGv_ptr a0, a1;
+    TCGv_i32 desc =3D tcg_const_i32(simd_desc(oprsz, maxsz, data));
+
+    a0 =3D tcg_temp_new_ptr();
+    a1 =3D tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(a0, cpu_env, dofs);
+    tcg_gen_addi_ptr(a1, cpu_env, aofs);
+
+    fn(a0, a1, ptr, desc);
+
+    tcg_temp_free_ptr(a0);
+    tcg_temp_free_ptr(a1);
+    tcg_temp_free_i32(desc);
+}
+
+/* Generate a call to a gvec-style helper with three vector operands
+   and an extra pointer operand.  */
+void tcg_gen_gvec_3_ptr(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                        TCGv_ptr ptr, uint32_t oprsz, uint32_t maxsz,
+                        int32_t data, gen_helper_gvec_3_ptr *fn)
+{
+    TCGv_ptr a0, a1, a2;
+    TCGv_i32 desc =3D tcg_const_i32(simd_desc(oprsz, maxsz, data));
+
+    a0 =3D tcg_temp_new_ptr();
+    a1 =3D tcg_temp_new_ptr();
+    a2 =3D tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(a0, cpu_env, dofs);
+    tcg_gen_addi_ptr(a1, cpu_env, aofs);
+    tcg_gen_addi_ptr(a2, cpu_env, bofs);
+
+    fn(a0, a1, a2, ptr, desc);
+
+    tcg_temp_free_ptr(a0);
+    tcg_temp_free_ptr(a1);
+    tcg_temp_free_ptr(a2);
+    tcg_temp_free_i32(desc);
+}
+
+/* Return true if we want to implement something of OPRSZ bytes
+   in units of LNSZ.  This limits the expansion of inline code.  */
+static inline bool check_size_impl(uint32_t oprsz, uint32_t lnsz)
+{
+    uint32_t lnct =3D oprsz / lnsz;
+    return lnct >=3D 1 && lnct <=3D MAX_UNROLL;
+}
+
+static void expand_clr(uint32_t dofs, uint32_t maxsz);
+
+/* Set OPRSZ bytes at DOFS to replications of IN or IN_C.  */
+static void do_dup_i32(unsigned vece, uint32_t dofs, uint32_t oprsz,
+                       uint32_t maxsz, TCGv_i32 in, uint32_t in_c,
+                       void (*ool)(TCGv_ptr, TCGv_i32, TCGv_i32))
+{
+    TCGv_vec t_vec;
+    uint32_t i;
+
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)) {
+        t_vec =3D tcg_temp_new_vec(TCG_TYPE_V256);
+    } else if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)) {
+        t_vec =3D tcg_temp_new_vec(TCG_TYPE_V128);
+    } else if (TCG_TARGET_HAS_v64 && check_size_impl(oprsz, 8)) {
+        t_vec =3D tcg_temp_new_vec(TCG_TYPE_V64);
+    } else  {
+        TCGv_i32 t_i32 =3D in ? in : tcg_const_i32(in_c);
+
+        if (check_size_impl(oprsz, 4)) {
+            for (i =3D 0; i < oprsz; i +=3D 4) {
+                tcg_gen_st_i32(t_i32, cpu_env, dofs + i);
+            }
+            if (in =3D=3D NULL) {
+                tcg_temp_free_i32(t_i32);
+            }
+            goto done;
+        } else {
+            TCGv_ptr a0 =3D tcg_temp_new_ptr();
+            TCGv_i32 desc =3D tcg_const_i32(simd_desc(oprsz, maxsz, 0));
+
+            tcg_gen_addi_ptr(a0, cpu_env, dofs);
+            ool(a0, desc, t_i32);
+
+            tcg_temp_free_ptr(a0);
+            tcg_temp_free_i32(desc);
+            if (in =3D=3D NULL) {
+                tcg_temp_free_i32(t_i32);
+            }
+            return;
+        }
+    }
+
+    if (in) {
+        tcg_gen_dup_i32_vec(vece, t_vec, in);
+    } else {
+        tcg_gen_dup32i_vec(t_vec, in_c);
+    }
+
+    i =3D 0;
+    if (TCG_TARGET_HAS_v256) {
+        for (; i + 32 <=3D oprsz; i +=3D 32) {
+            tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V256);
+        }
+    }
+    if (TCG_TARGET_HAS_v128) {
+        for (; i + 16 <=3D oprsz; i +=3D 16) {
+            tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V128);
+        }
+    }
+    if (TCG_TARGET_HAS_v64) {
+        for (; i < oprsz; i +=3D 8) {
+            tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V64);
+        }
+    }
+
+ done:
+    tcg_debug_assert(i =3D=3D oprsz);
+    if (i < maxsz) {
+        expand_clr(dofs + i, maxsz - i);
+    }
+}
+
+/* Likewise, but with 64-bit quantities.  */
+static void do_dup_i64(unsigned vece, uint32_t dofs, uint32_t oprsz,
+                       uint32_t maxsz, TCGv_i64 in, uint64_t in_c)
+{
+    TCGv_vec t_vec;
+    uint32_t i;
+
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)) {
+        t_vec =3D tcg_temp_new_vec(TCG_TYPE_V256);
+    } else if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)) {
+        t_vec =3D tcg_temp_new_vec(TCG_TYPE_V128);
+    } else if (TCG_TARGET_HAS_v64 && TCG_TARGET_REG_BITS =3D=3D 32
+               && check_size_impl(oprsz, 8)) {
+        t_vec =3D tcg_temp_new_vec(TCG_TYPE_V64);
+    } else {
+        TCGv_i64 t_i64 =3D in ? in : tcg_const_i64(in_c);
+
+        if (check_size_impl(oprsz, 8)) {
+            for (i =3D 0; i < oprsz; i +=3D 8) {
+                tcg_gen_st_i64(t_i64, cpu_env, dofs + i);
+            }
+            if (in =3D=3D NULL) {
+                tcg_temp_free_i64(t_i64);
+            }
+            goto done;
+        } else {
+            TCGv_ptr a0 =3D tcg_temp_new_ptr();
+            TCGv_i32 desc =3D tcg_const_i32(simd_desc(oprsz, maxsz, 0));
+
+            tcg_gen_addi_ptr(a0, cpu_env, dofs);
+            gen_helper_gvec_dup64(a0, desc, t_i64);
+
+            tcg_temp_free_ptr(a0);
+            tcg_temp_free_i32(desc);
+            if (in =3D=3D NULL) {
+                tcg_temp_free_i64(t_i64);
+            }
+            return;
+        }
+    }
+
+    if (in) {
+        tcg_gen_dup_i64_vec(vece, t_vec, in);
+    } else {
+        tcg_gen_dup64i_vec(t_vec, in_c);
+    }
+
+    i =3D 0;
+    if (TCG_TARGET_HAS_v256) {
+        for (; i + 32 <=3D oprsz; i +=3D 32) {
+            tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V256);
+        }
+    }
+    if (TCG_TARGET_HAS_v128) {
+        for (; i + 16 <=3D oprsz; i +=3D 16) {
+            tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V128);
+        }
+    }
+    if (TCG_TARGET_HAS_v64) {
+        for (; i < oprsz; i +=3D 8) {
+            tcg_gen_stl_vec(t_vec, cpu_env, dofs + i, TCG_TYPE_V64);
+        }
+    }
+
+ done:
+    tcg_debug_assert(i =3D=3D oprsz);
+    if (i < maxsz) {
+        expand_clr(dofs + i, maxsz - i);
+    }
+}
+
+/* Likewise, but with zero.  */
+static void expand_clr(uint32_t dofs, uint32_t maxsz)
+{
+    if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        do_dup_i64(MO_64, dofs, maxsz, maxsz, NULL, 0);
+    } else {
+        do_dup_i32(MO_32, dofs, maxsz, maxsz, NULL, 0, gen_helper_gvec_dup=
32);
+    }
+}
+
+/* Expand OPSZ bytes worth of two-operand operations using i32 elements.  =
*/
+static void expand_2_i32(uint32_t dofs, uint32_t aofs, uint32_t opsz,
+                         void (*fni)(TCGv_i32, TCGv_i32))
+{
+    TCGv_i32 t0 =3D tcg_temp_new_i32();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 4) {
+        tcg_gen_ld_i32(t0, cpu_env, aofs + i);
+        fni(t0, t0);
+        tcg_gen_st_i32(t0, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i32(t0);
+}
+
+/* Expand OPSZ bytes worth of three-operand operations using i32 elements.=
  */
+static void expand_3_i32(uint32_t dofs, uint32_t aofs,
+                         uint32_t bofs, uint32_t opsz, bool load_dest,
+                         void (*fni)(TCGv_i32, TCGv_i32, TCGv_i32))
+{
+    TCGv_i32 t0 =3D tcg_temp_new_i32();
+    TCGv_i32 t1 =3D tcg_temp_new_i32();
+    TCGv_i32 t2 =3D tcg_temp_new_i32();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 4) {
+        tcg_gen_ld_i32(t0, cpu_env, aofs + i);
+        tcg_gen_ld_i32(t1, cpu_env, bofs + i);
+        if (load_dest) {
+            tcg_gen_ld_i32(t2, cpu_env, dofs + i);
+        }
+        fni(t2, t0, t1);
+        tcg_gen_st_i32(t2, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i32(t2);
+    tcg_temp_free_i32(t1);
+    tcg_temp_free_i32(t0);
+}
+
+/* Expand OPSZ bytes worth of two-operand operations using i64 elements.  =
*/
+static void expand_2_i64(uint32_t dofs, uint32_t aofs, uint32_t opsz,
+                         void (*fni)(TCGv_i64, TCGv_i64))
+{
+    TCGv_i64 t0 =3D tcg_temp_new_i64();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 8) {
+        tcg_gen_ld_i64(t0, cpu_env, aofs + i);
+        fni(t0, t0);
+        tcg_gen_st_i64(t0, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i64(t0);
+}
+
+/* Expand OPSZ bytes worth of three-operand operations using i64 elements.=
  */
+static void expand_3_i64(uint32_t dofs, uint32_t aofs,
+                         uint32_t bofs, uint32_t opsz, bool load_dest,
+                         void (*fni)(TCGv_i64, TCGv_i64, TCGv_i64))
+{
+    TCGv_i64 t0 =3D tcg_temp_new_i64();
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 8) {
+        tcg_gen_ld_i64(t0, cpu_env, aofs + i);
+        tcg_gen_ld_i64(t1, cpu_env, bofs + i);
+        if (load_dest) {
+            tcg_gen_ld_i64(t2, cpu_env, dofs + i);
+        }
+        fni(t2, t0, t1);
+        tcg_gen_st_i64(t2, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i64(t2);
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t0);
+}
+
+/* Expand OPSZ bytes worth of two-operand operations using host vectors.  =
*/
+static void expand_2_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
+                         uint32_t opsz, uint32_t tysz, TCGType type,
+                         void (*fni)(unsigned, TCGv_vec, TCGv_vec))
+{
+    TCGv_vec t0 =3D tcg_temp_new_vec(type);
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D tysz) {
+        tcg_gen_ld_vec(t0, cpu_env, aofs + i);
+        fni(vece, t0, t0);
+        tcg_gen_st_vec(t0, cpu_env, dofs + i);
+    }
+    tcg_temp_free_vec(t0);
+}
+
+/* Expand OPSZ bytes worth of three-operand operations using host vectors.=
  */
+static void expand_3_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
+                         uint32_t bofs, uint32_t opsz,
+                         uint32_t tysz, TCGType type, bool load_dest,
+                         void (*fni)(unsigned, TCGv_vec, TCGv_vec, TCGv_ve=
c))
+{
+    TCGv_vec t0 =3D tcg_temp_new_vec(type);
+    TCGv_vec t1 =3D tcg_temp_new_vec(type);
+    TCGv_vec t2 =3D tcg_temp_new_vec(type);
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D tysz) {
+        tcg_gen_ld_vec(t0, cpu_env, aofs + i);
+        tcg_gen_ld_vec(t1, cpu_env, bofs + i);
+        if (load_dest) {
+            tcg_gen_ld_vec(t2, cpu_env, dofs + i);
+        }
+        fni(vece, t2, t0, t1);
+        tcg_gen_st_vec(t2, cpu_env, dofs + i);
+    }
+    tcg_temp_free_vec(t2);
+    tcg_temp_free_vec(t1);
+    tcg_temp_free_vec(t0);
+}
+
+/* Expand a vector two-operand operation.  */
+void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
+                    uint32_t oprsz, uint32_t maxsz, const GVecGen2 *g)
+{
+    check_size_align(oprsz, maxsz, dofs | aofs);
+    check_overlap_2(dofs, aofs, maxsz);
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > MAX_UNROLL * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    /* Recall that ARM SVE allows vector sizes that are not a power of 2.
+       Expand with successively smaller host vector sizes.  The intent is
+       that e.g. oprsz =3D=3D 80 would be expanded with 2x32 + 1x16.  */
+    /* ??? For maxsz > oprsz, the host may be able to use an op-sized
+       operation, zeroing the balance of the register.  We can then
+       use a cl-sized store to implement the clearing without an extra
+       store operation.  This is true for aarch64 and x86_64 hosts.  */
+
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 32);
+        expand_2_vec(g->vece, dofs, aofs, done, 32, TCG_TYPE_V256, g->fniv=
);
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 16);
+        expand_2_vec(g->vece, dofs, aofs, done, 16, TCG_TYPE_V128, g->fniv=
);
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (check_size_impl(oprsz, 8)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 8);
+        if (TCG_TARGET_HAS_v64 && !g->prefer_i64) {
+            expand_2_vec(g->vece, dofs, aofs, done, 8, TCG_TYPE_V64, g->fn=
iv);
+        } else if (g->fni8) {
+            expand_2_i64(dofs, aofs, done, g->fni8);
+        } else {
+            done =3D 0;
+        }
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (g->fni4 && check_size_impl(oprsz, 4)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 4);
+        expand_2_i32(dofs, aofs, done, g->fni4);
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (oprsz =3D=3D 0) {
+        if (maxsz !=3D 0) {
+            expand_clr(dofs, maxsz);
+        }
+        return;
+    }
+
+ do_ool:
+    tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, 0, g->fno);
+}
+
+/* Expand a vector three-operand operation.  */
+void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                    uint32_t oprsz, uint32_t maxsz, const GVecGen3 *g)
+{
+    check_size_align(oprsz, maxsz, dofs | aofs | bofs);
+    check_overlap_3(dofs, aofs, bofs, maxsz);
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > MAX_UNROLL * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    /* Recall that ARM SVE allows vector sizes that are not a power of 2.
+       Expand with successively smaller host vector sizes.  The intent is
+       that e.g. oprsz =3D=3D 80 would be expanded with 2x32 + 1x16.  */
+    /* ??? For maxsz > oprsz, the host may be able to use an op-sized
+       operation, zeroing the balance of the register.  We can then
+       use a cl-sized store to implement the clearing without an extra
+       store operation.  This is true for aarch64 and x86_64 hosts.  */
+
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 32);
+        expand_3_vec(g->vece, dofs, aofs, bofs, done, 32, TCG_TYPE_V256,
+                     g->load_dest, g->fniv);
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 16);
+        expand_3_vec(g->vece, dofs, aofs, bofs, done, 16, TCG_TYPE_V128,
+                     g->load_dest, g->fniv);
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (check_size_impl(oprsz, 8)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 8);
+        if (TCG_TARGET_HAS_v64 && !g->prefer_i64) {
+            expand_3_vec(g->vece, dofs, aofs, bofs, done, 8, TCG_TYPE_V64,
+                         g->load_dest, g->fniv);
+        } else if (g->fni8) {
+            expand_3_i64(dofs, aofs, bofs, done, g->load_dest, g->fni8);
+        } else {
+            done =3D 0;
+        }
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (g->fni4 && check_size_impl(oprsz, 4)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 4);
+        expand_3_i32(dofs, aofs, bofs, done, g->load_dest, g->fni4);
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (oprsz =3D=3D 0) {
+        if (maxsz !=3D 0) {
+            expand_clr(dofs, maxsz);
+        }
+        return;
+    }
+
+ do_ool:
+    tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, 0, g->fno);
+}
+
+/*
+ * Expand specific vector operations.
+ */
+
+static void vec_mov2(unsigned vece, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mov_vec(a, b);
+}
+
+void tcg_gen_gvec_mov(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen2 g =3D {
+        .fni8 =3D tcg_gen_mov_i64,
+        .fniv =3D vec_mov2,
+        .fno =3D gen_helper_gvec_mov,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_2(dofs, aofs, opsz, maxsz, &g);
+}
+
+void tcg_gen_gvec_dup_i32(unsigned vece, uint32_t dofs, uint32_t oprsz,
+                          uint32_t maxsz, TCGv_i32 in)
+{
+    typedef void dup_fn(TCGv_ptr, TCGv_i32, TCGv_i32);
+    static dup_fn * const fns[3] =3D {
+        gen_helper_gvec_dup8,
+        gen_helper_gvec_dup16,
+        gen_helper_gvec_dup32
+    };
+
+    check_size_align(oprsz, maxsz, dofs);
+    tcg_debug_assert(vece <=3D MO_32);
+    do_dup_i32(vece, dofs, oprsz, maxsz, in, 0, fns[vece]);
+}
+
+void tcg_gen_gvec_dup_i64(unsigned vece, uint32_t dofs, uint32_t oprsz,
+                          uint32_t maxsz, TCGv_i64 in)
+{
+    check_size_align(oprsz, maxsz, dofs);
+    tcg_debug_assert(vece <=3D MO_64);
+    if (vece <=3D MO_32) {
+        /* This works for both host register sizes.  */
+        tcg_gen_gvec_dup_i32(vece, dofs, oprsz, maxsz, (TCGv_i32)in);
+    } else {
+        do_dup_i64(vece, dofs, oprsz, maxsz, in, 0);
+    }
+}
+
+void tcg_gen_gvec_dup_mem(unsigned vece, uint32_t dofs, uint32_t aofs,
+                          uint32_t oprsz, uint32_t maxsz)
+{
+    tcg_debug_assert(vece <=3D MO_64);
+    if (vece <=3D MO_32) {
+        TCGv_i32 in =3D tcg_temp_new_i32();
+        switch (vece) {
+        case MO_8:
+            tcg_gen_ld8u_i32(in, cpu_env, aofs);
+            break;
+        case MO_16:
+            tcg_gen_ld16u_i32(in, cpu_env, aofs);
+            break;
+        case MO_32:
+            tcg_gen_ld_i32(in, cpu_env, aofs);
+            break;
+        }
+        tcg_gen_gvec_dup_i32(vece, dofs, oprsz, maxsz, in);
+        tcg_temp_free_i32(in);
+    } else {
+        TCGv_i64 in =3D tcg_temp_new_i64();
+        tcg_gen_ld_i64(in, cpu_env, aofs);
+        tcg_gen_gvec_dup_i64(MO_64, dofs, oprsz, maxsz, in);
+        tcg_temp_free_i64(in);
+    }
+}
+
+void tcg_gen_gvec_dup64i(uint32_t dofs, uint32_t oprsz,
+                         uint32_t maxsz, uint64_t x)
+{
+    check_size_align(oprsz, maxsz, dofs);
+    do_dup_i64(MO_64, dofs, oprsz, maxsz, NULL, x);
+}
+
+void tcg_gen_gvec_dup32i(uint32_t dofs, uint32_t oprsz,
+                         uint32_t maxsz, uint32_t x)
+{
+    if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        do_dup_i64(MO_64, dofs, oprsz, maxsz, NULL, deposit64(x, 32, 32, x=
));
+    } else {
+        do_dup_i32(MO_32, dofs, oprsz, maxsz, NULL, x, gen_helper_gvec_dup=
32);
+    }
+}
+
+void tcg_gen_gvec_dup16i(uint32_t dofs, uint32_t oprsz,
+                         uint32_t maxsz, uint16_t x)
+{
+    tcg_gen_gvec_dup32i(dofs, oprsz, maxsz, 0x00010001 * x);
+}
+
+void tcg_gen_gvec_dup8i(uint32_t dofs, uint32_t oprsz,
+                         uint32_t maxsz, uint8_t x)
+{
+    tcg_gen_gvec_dup32i(dofs, oprsz, maxsz, 0x01010101 * x);
+}
+
+void tcg_gen_gvec_not(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen2 g =3D {
+        .fni8 =3D tcg_gen_not_i64,
+        .fniv =3D tcg_gen_not_vec,
+        .fno =3D gen_helper_gvec_not,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_2(dofs, aofs, opsz, maxsz, &g);
+}
+
+/* Perform a vector addition using normal addition and a mask.  The mask
+   should be the sign bit of each lane.  This 6-operation form is more
+   efficient than separate additions when there are 4 or more lanes in
+   the 64-bit operation.  */
+static void gen_addv_mask(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 m)
+{
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+    TCGv_i64 t3 =3D tcg_temp_new_i64();
+
+    tcg_gen_andc_i64(t1, a, m);
+    tcg_gen_andc_i64(t2, b, m);
+    tcg_gen_xor_i64(t3, a, b);
+    tcg_gen_add_i64(d, t1, t2);
+    tcg_gen_and_i64(t3, t3, m);
+    tcg_gen_xor_i64(d, d, t3);
+
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t2);
+    tcg_temp_free_i64(t3);
+}
+
+void tcg_gen_vec_add8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 m =3D tcg_const_i64(REP8(0x80));
+    gen_addv_mask(d, a, b, m);
+    tcg_temp_free_i64(m);
+}
+
+void tcg_gen_vec_add16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 m =3D tcg_const_i64(REP16(0x8000));
+    gen_addv_mask(d, a, b, m);
+    tcg_temp_free_i64(m);
+}
+
+void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+
+    tcg_gen_andi_i64(t1, a, ~0xffffffffull);
+    tcg_gen_add_i64(t2, a, b);
+    tcg_gen_add_i64(t1, t1, b);
+    tcg_gen_deposit_i64(d, t1, t2, 0, 32);
+
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t2);
+}
+
+void tcg_gen_gvec_add(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g[4] =3D {
+        { .fni8 =3D tcg_gen_vec_add8_i64,
+          .fniv =3D tcg_gen_add_vec,
+          .fno =3D gen_helper_gvec_add8,
+          .opc =3D INDEX_op_add_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D tcg_gen_vec_add16_i64,
+          .fniv =3D tcg_gen_add_vec,
+          .fno =3D gen_helper_gvec_add16,
+          .opc =3D INDEX_op_add_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_add_i32,
+          .fniv =3D tcg_gen_add_vec,
+          .fno =3D gen_helper_gvec_add32,
+          .opc =3D INDEX_op_add_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_add_i64,
+          .fniv =3D tcg_gen_add_vec,
+          .fno =3D gen_helper_gvec_add64,
+          .opc =3D INDEX_op_add_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
+}
+
+/* Perform a vector subtraction using normal subtraction and a mask.
+   Compare gen_addv_mask above.  */
+static void gen_subv_mask(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b, TCGv_i64 m)
+{
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+    TCGv_i64 t3 =3D tcg_temp_new_i64();
+
+    tcg_gen_or_i64(t1, a, m);
+    tcg_gen_andc_i64(t2, b, m);
+    tcg_gen_eqv_i64(t3, a, b);
+    tcg_gen_sub_i64(d, t1, t2);
+    tcg_gen_and_i64(t3, t3, m);
+    tcg_gen_xor_i64(d, d, t3);
+
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t2);
+    tcg_temp_free_i64(t3);
+}
+
+void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 m =3D tcg_const_i64(REP8(0x80));
+    gen_subv_mask(d, a, b, m);
+    tcg_temp_free_i64(m);
+}
+
+void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 m =3D tcg_const_i64(REP16(0x8000));
+    gen_subv_mask(d, a, b, m);
+    tcg_temp_free_i64(m);
+}
+
+void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+
+    tcg_gen_andi_i64(t1, b, ~0xffffffffull);
+    tcg_gen_sub_i64(t2, a, b);
+    tcg_gen_sub_i64(t1, a, t1);
+    tcg_gen_deposit_i64(d, t1, t2, 0, 32);
+
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t2);
+}
+
+void tcg_gen_gvec_sub(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g[4] =3D {
+        { .fni8 =3D tcg_gen_vec_sub8_i64,
+          .fniv =3D tcg_gen_sub_vec,
+          .fno =3D gen_helper_gvec_sub8,
+          .opc =3D INDEX_op_sub_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D tcg_gen_vec_sub16_i64,
+          .fniv =3D tcg_gen_sub_vec,
+          .fno =3D gen_helper_gvec_sub16,
+          .opc =3D INDEX_op_sub_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_sub_i32,
+          .fniv =3D tcg_gen_sub_vec,
+          .fno =3D gen_helper_gvec_sub32,
+          .opc =3D INDEX_op_sub_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_sub_i64,
+          .fniv =3D tcg_gen_sub_vec,
+          .fno =3D gen_helper_gvec_sub64,
+          .opc =3D INDEX_op_sub_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
+}
+
+/* Perform a vector negation using normal negation and a mask.
+   Compare gen_subv_mask above.  */
+static void gen_negv_mask(TCGv_i64 d, TCGv_i64 b, TCGv_i64 m)
+{
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+    TCGv_i64 t3 =3D tcg_temp_new_i64();
+
+    tcg_gen_andc_i64(t3, m, b);
+    tcg_gen_andc_i64(t2, b, m);
+    tcg_gen_sub_i64(d, m, t2);
+    tcg_gen_xor_i64(d, d, t3);
+
+    tcg_temp_free_i64(t2);
+    tcg_temp_free_i64(t3);
+}
+
+void tcg_gen_vec_neg8_i64(TCGv_i64 d, TCGv_i64 b)
+{
+    TCGv_i64 m =3D tcg_const_i64(REP8(0x80));
+    gen_negv_mask(d, b, m);
+    tcg_temp_free_i64(m);
+}
+
+void tcg_gen_vec_neg16_i64(TCGv_i64 d, TCGv_i64 b)
+{
+    TCGv_i64 m =3D tcg_const_i64(REP16(0x8000));
+    gen_negv_mask(d, b, m);
+    tcg_temp_free_i64(m);
+}
+
+void tcg_gen_vec_neg32_i64(TCGv_i64 d, TCGv_i64 b)
+{
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    TCGv_i64 t2 =3D tcg_temp_new_i64();
+
+    tcg_gen_andi_i64(t1, b, ~0xffffffffull);
+    tcg_gen_neg_i64(t2, b);
+    tcg_gen_neg_i64(t1, t1);
+    tcg_gen_deposit_i64(d, t1, t2, 0, 32);
+
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t2);
+}
+
+void tcg_gen_gvec_neg(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen2 g[4] =3D {
+        { .fni8 =3D tcg_gen_vec_neg8_i64,
+          .fniv =3D tcg_gen_neg_vec,
+          .fno =3D gen_helper_gvec_neg8,
+          .opc =3D INDEX_op_neg_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D tcg_gen_vec_neg16_i64,
+          .fniv =3D tcg_gen_neg_vec,
+          .fno =3D gen_helper_gvec_neg16,
+          .opc =3D INDEX_op_neg_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_neg_i32,
+          .fniv =3D tcg_gen_neg_vec,
+          .fno =3D gen_helper_gvec_neg32,
+          .opc =3D INDEX_op_neg_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_neg_i64,
+          .fniv =3D tcg_gen_neg_vec,
+          .fno =3D gen_helper_gvec_neg64,
+          .opc =3D INDEX_op_neg_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_2(dofs, aofs, opsz, maxsz, &g[vece]);
+}
+
+void tcg_gen_gvec_and(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g =3D {
+        .fni8 =3D tcg_gen_and_i64,
+        .fniv =3D tcg_gen_and_vec,
+        .fno =3D gen_helper_gvec_and,
+        .opc =3D INDEX_op_and_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
+}
+
+void tcg_gen_gvec_or(unsigned vece, uint32_t dofs, uint32_t aofs,
+                     uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g =3D {
+        .fni8 =3D tcg_gen_or_i64,
+        .fniv =3D tcg_gen_or_vec,
+        .fno =3D gen_helper_gvec_or,
+        .opc =3D INDEX_op_or_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
+}
+
+void tcg_gen_gvec_xor(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g =3D {
+        .fni8 =3D tcg_gen_xor_i64,
+        .fniv =3D tcg_gen_xor_vec,
+        .fno =3D gen_helper_gvec_xor,
+        .opc =3D INDEX_op_xor_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
+}
+
+void tcg_gen_gvec_andc(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g =3D {
+        .fni8 =3D tcg_gen_andc_i64,
+        .fniv =3D tcg_gen_andc_vec,
+        .fno =3D gen_helper_gvec_andc,
+        .opc =3D INDEX_op_andc_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
+}
+
+void tcg_gen_gvec_orc(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g =3D {
+        .fni8 =3D tcg_gen_orc_i64,
+        .fniv =3D tcg_gen_orc_vec,
+        .fno =3D gen_helper_gvec_orc,
+        .opc =3D INDEX_op_orc_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+    };
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
+}
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index dc04c11860..5cfe4af6bd 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -104,7 +104,7 @@ void tcg_gen_mov_vec(TCGv_vec r, TCGv_vec a)
=20
 #define MO_REG  (TCG_TARGET_REG_BITS =3D=3D 64 ? MO_64 : MO_32)
=20
-static void tcg_gen_dupi_vec(TCGv_vec r, unsigned vece, TCGArg a)
+static void do_dupi_vec(TCGv_vec r, unsigned vece, TCGArg a)
 {
     TCGTemp *rt =3D tcgv_vec_temp(r);
     vec_gen_2(INDEX_op_dupi_vec, rt->base_type, vece, temp_arg(rt), a);
@@ -113,14 +113,14 @@ static void tcg_gen_dupi_vec(TCGv_vec r, unsigned vec=
e, TCGArg a)
 TCGv_vec tcg_const_zeros_vec(TCGType type)
 {
     TCGv_vec ret =3D tcg_temp_new_vec(type);
-    tcg_gen_dupi_vec(ret, MO_REG, 0);
+    do_dupi_vec(ret, MO_REG, 0);
     return ret;
 }
=20
 TCGv_vec tcg_const_ones_vec(TCGType type)
 {
     TCGv_vec ret =3D tcg_temp_new_vec(type);
-    tcg_gen_dupi_vec(ret, MO_REG, -1);
+    do_dupi_vec(ret, MO_REG, -1);
     return ret;
 }
=20
@@ -139,9 +139,9 @@ TCGv_vec tcg_const_ones_vec_matching(TCGv_vec m)
 void tcg_gen_dup64i_vec(TCGv_vec r, uint64_t a)
 {
     if (TCG_TARGET_REG_BITS =3D=3D 32 && a =3D=3D deposit64(a, 32, 32, a))=
 {
-        tcg_gen_dupi_vec(r, MO_32, a);
+        do_dupi_vec(r, MO_32, a);
     } else if (TCG_TARGET_REG_BITS =3D=3D 64 || a =3D=3D (uint64_t)(int32_=
t)a) {
-        tcg_gen_dupi_vec(r, MO_64, a);
+        do_dupi_vec(r, MO_64, a);
     } else {
         TCGv_i64 c =3D tcg_const_i64(a);
         tcg_gen_dup_i64_vec(MO_64, r, c);
@@ -151,17 +151,37 @@ void tcg_gen_dup64i_vec(TCGv_vec r, uint64_t a)
=20
 void tcg_gen_dup32i_vec(TCGv_vec r, uint32_t a)
 {
-    tcg_gen_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xffffffffu) * a);
+    do_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xffffffffu) * a);
 }
=20
 void tcg_gen_dup16i_vec(TCGv_vec r, uint32_t a)
 {
-    tcg_gen_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xffff) * (a & 0xffff));
+    do_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xffff) * (a & 0xffff));
 }
=20
 void tcg_gen_dup8i_vec(TCGv_vec r, uint32_t a)
 {
-    tcg_gen_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xff) * (a & 0xff));
+    do_dupi_vec(r, MO_REG, ((TCGArg)-1 / 0xff) * (a & 0xff));
+}
+
+void tcg_gen_dupi_vec(unsigned vece, TCGv_vec r, uint64_t a)
+{
+    switch (vece) {
+    case MO_8:
+        tcg_gen_dup8i_vec(r, a);
+        break;
+    case MO_16:
+        tcg_gen_dup16i_vec(r, a);
+        break;
+    case MO_32:
+        tcg_gen_dup32i_vec(r, a);
+        break;
+    case MO_64:
+        tcg_gen_dup64i_vec(r, a);
+        break;
+    default:
+        g_assert_not_reached();
+    }
 }
=20
 void tcg_gen_movi_v64(TCGv_vec r, uint64_t a)
diff --git a/accel/tcg/Makefile.objs b/accel/tcg/Makefile.objs
index 228cd84fa4..d381a02f34 100644
--- a/accel/tcg/Makefile.objs
+++ b/accel/tcg/Makefile.objs
@@ -1,6 +1,6 @@
 obj-$(CONFIG_SOFTMMU) +=3D tcg-all.o
 obj-$(CONFIG_SOFTMMU) +=3D cputlb.o
-obj-y +=3D tcg-runtime.o
+obj-y +=3D tcg-runtime.o tcg-runtime-gvec.o
 obj-y +=3D cpu-exec.o cpu-exec-common.o translate-all.o
 obj-y +=3D translator.o
=20
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300113679598.6350978804077;
 Tue, 21 Nov 2017 13:35:13 -0800 (PST)
Received: from localhost ([::1]:36610 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGCB-0001z3-R9
	for importer@patchew.org; Tue, 21 Nov 2017 16:35:07 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:53943)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG54-0004J8-QM
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:48 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG53-0007fT-GX
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:46 -0500
Received: from mail-wm0-x243.google.com ([2a00:1450:400c:c09::243]:42741)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG53-0007ez-7y
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:45 -0500
Received: by mail-wm0-x243.google.com with SMTP id l188so4522980wma.1
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:45 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.43 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:43 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=btHN6BlYfEMHw/3KsRDCBldcyv8BDSFRKPzXoGS7RHA=;
	b=Vah0ub7sAwA2RojUccd7K0ErmiRDPoTVusby4r/gZyciin0QG94bQIfZEtHOrgy2M8
	K6xfN12559Kch+ca6HjfMUTf3vB835FAeo09cm0T+8UTUP7XNvZyT6EmDXRkTc4g6OWc
	qEK85+WDm0CLon6lynOyVMBpsKMD8gj+9NyAw=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=btHN6BlYfEMHw/3KsRDCBldcyv8BDSFRKPzXoGS7RHA=;
	b=MBO7IVK0lCWkIyAS6GZxlU4ltr4+OUAmLFBSGrO+uoXLO4JLolZFr8dJXxAg9KEwv6
	PqaFgOmEHd06E5cAj0SpPjeAHBxAitDzgsKE/eAcRhzshBKOzTO0r9FtPbcm4Vtsffgq
	PM4Vfqdb3WynlN86wJGExhWB9zG7kOd9uxOc+QL39USeIqW9ixZBzUdOCnX/4L0K9VUr
	8NJ+jVIjSBWQG5UzFhFb9fIVC4VUJdwAQARt6d1xqspcQlF90Mr08O3uNI33L2/bCzdN
	x1J20i2VGNrvv2GPD1v497Okebj5KTMzGFA1f+H3zpzSv/A9V5u3lBdIqEzH5PqM1c5z
	6zLQ==
X-Gm-Message-State: AJaThX5ZVt8bmvLdLV4kySWznkwknZuWuYACVLEq3/MKWmEQHzYt0eLy
	OsNI28aXJQxUWpAbMVxlP23BHS5Nxkc=
X-Google-Smtp-Source: 
 AGs4zManSutqBkH7eAaBKUJKesil91VemUwiB5vmaIEFuyqy3E+JnRNAuraHoaR9KQqEMTsRNxPHZQ==
X-Received: by 10.28.73.193 with SMTP id w184mr2397763wma.3.1511299664002;
	Tue, 21 Nov 2017 13:27:44 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:14 +0100
Message-Id: <20171121212534.5177-7-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::243
Subject: [Qemu-devel] [PATCH v6 06/26] tcg: Allow multiple word entries into
 the constant pool
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

This will be required for storing vector constants.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg-pool.inc.c | 115 +++++++++++++++++++++++++++++++++++++++++++------=
----
 1 file changed, 93 insertions(+), 22 deletions(-)

diff --git a/tcg/tcg-pool.inc.c b/tcg/tcg-pool.inc.c
index 8a85131405..0f76e7bee3 100644
--- a/tcg/tcg-pool.inc.c
+++ b/tcg/tcg-pool.inc.c
@@ -22,39 +22,110 @@
=20
 typedef struct TCGLabelPoolData {
     struct TCGLabelPoolData *next;
-    tcg_target_ulong data;
     tcg_insn_unit *label;
-    intptr_t addend;
-    int type;
+    int addend  : 32;
+    int rtype   : 16;
+    int nlong   : 16;
+    tcg_target_ulong data[];
 } TCGLabelPoolData;
=20
=20
-static void new_pool_label(TCGContext *s, tcg_target_ulong data, int type,
-                           tcg_insn_unit *label, intptr_t addend)
+static TCGLabelPoolData *new_pool_alloc(TCGContext *s, int nlong, int rtyp=
e,
+                                        tcg_insn_unit *label, int addend)
 {
-    TCGLabelPoolData *n =3D tcg_malloc(sizeof(*n));
-    TCGLabelPoolData *i, **pp;
+    TCGLabelPoolData *n =3D tcg_malloc(sizeof(TCGLabelPoolData)
+                                     + sizeof(tcg_target_ulong) * nlong);
=20
-    n->data =3D data;
     n->label =3D label;
-    n->type =3D type;
     n->addend =3D addend;
+    n->rtype =3D rtype;
+    n->nlong =3D nlong;
+    return n;
+}
+
+static void new_pool_insert(TCGContext *s, TCGLabelPoolData *n)
+{
+    TCGLabelPoolData *i, **pp;
+    int nlong =3D n->nlong;
=20
     /* Insertion sort on the pool.  */
-    for (pp =3D &s->pool_labels; (i =3D *pp) && i->data < data; pp =3D &i-=
>next) {
-        continue;
+    for (pp =3D &s->pool_labels; (i =3D *pp) !=3D NULL; pp =3D &i->next) {
+        if (nlong > i->nlong) {
+            break;
+        }
+        if (nlong < i->nlong) {
+            continue;
+        }
+        if (memcmp(n->data, i->data, sizeof(tcg_target_ulong) * nlong) >=
=3D 0) {
+            break;
+        }
     }
     n->next =3D *pp;
     *pp =3D n;
 }
=20
+/* The "usual" for generic integer code.  */
+static inline void new_pool_label(TCGContext *s, tcg_target_ulong d, int r=
type,
+                                  tcg_insn_unit *label, int addend)
+{
+    TCGLabelPoolData *n =3D new_pool_alloc(s, 1, rtype, label, addend);
+    n->data[0] =3D d;
+    new_pool_insert(s, n);
+}
+
+/* For v64 or v128, depending on the host.  */
+static inline void new_pool_l2(TCGContext *s, int rtype, tcg_insn_unit *la=
bel,
+                               int addend, tcg_target_ulong d0,
+                               tcg_target_ulong d1)
+{
+    TCGLabelPoolData *n =3D new_pool_alloc(s, 2, rtype, label, addend);
+    n->data[0] =3D d0;
+    n->data[1] =3D d1;
+    new_pool_insert(s, n);
+}
+
+/* For v128 or v256, depending on the host.  */
+static inline void new_pool_l4(TCGContext *s, int rtype, tcg_insn_unit *la=
bel,
+                               int addend, tcg_target_ulong d0,
+                               tcg_target_ulong d1, tcg_target_ulong d2,
+                               tcg_target_ulong d3)
+{
+    TCGLabelPoolData *n =3D new_pool_alloc(s, 4, rtype, label, addend);
+    n->data[0] =3D d0;
+    n->data[1] =3D d1;
+    n->data[2] =3D d2;
+    n->data[3] =3D d3;
+    new_pool_insert(s, n);
+}
+
+/* For v256, for 32-bit host.  */
+static inline void new_pool_l8(TCGContext *s, int rtype, tcg_insn_unit *la=
bel,
+                               int addend, tcg_target_ulong d0,
+                               tcg_target_ulong d1, tcg_target_ulong d2,
+                               tcg_target_ulong d3, tcg_target_ulong d4,
+                               tcg_target_ulong d5, tcg_target_ulong d6,
+                               tcg_target_ulong d7)
+{
+    TCGLabelPoolData *n =3D new_pool_alloc(s, 8, rtype, label, addend);
+    n->data[0] =3D d0;
+    n->data[1] =3D d1;
+    n->data[2] =3D d2;
+    n->data[3] =3D d3;
+    n->data[4] =3D d4;
+    n->data[5] =3D d5;
+    n->data[6] =3D d6;
+    n->data[7] =3D d7;
+    new_pool_insert(s, n);
+}
+
 /* To be provided by cpu/tcg-target.inc.c.  */
 static void tcg_out_nop_fill(tcg_insn_unit *p, int count);
=20
 static bool tcg_out_pool_finalize(TCGContext *s)
 {
     TCGLabelPoolData *p =3D s->pool_labels;
-    tcg_target_ulong d, *a;
+    TCGLabelPoolData *l =3D NULL;
+    void *a;
=20
     if (p =3D=3D NULL) {
         return true;
@@ -62,24 +133,24 @@ static bool tcg_out_pool_finalize(TCGContext *s)
=20
     /* ??? Round up to qemu_icache_linesize, but then do not round
        again when allocating the next TranslationBlock structure.  */
-    a =3D (void *)ROUND_UP((uintptr_t)s->code_ptr, sizeof(tcg_target_ulong=
));
+    a =3D (void *)ROUND_UP((uintptr_t)s->code_ptr,
+                         sizeof(tcg_target_ulong) * p->nlong);
     tcg_out_nop_fill(s->code_ptr, (tcg_insn_unit *)a - s->code_ptr);
     s->data_gen_ptr =3D a;
=20
-    /* Ensure the first comparison fails.  */
-    d =3D p->data + 1;
-
     for (; p !=3D NULL; p =3D p->next) {
-        if (p->data !=3D d) {
-            d =3D p->data;
-            if (unlikely((void *)a > s->code_gen_highwater)) {
+        size_t size =3D sizeof(tcg_target_ulong) * p->nlong;
+        if (!l || l->nlong !=3D p->nlong || memcmp(l->data, p->data, size)=
) {
+            if (unlikely(a > s->code_gen_highwater)) {
                 return false;
             }
-            *a++ =3D d;
+            memcpy(a, p->data, size);
+            a +=3D size;
+            l =3D p;
         }
-        patch_reloc(p->label, p->type, (intptr_t)(a - 1), p->addend);
+        patch_reloc(p->label, p->rtype, (intptr_t)a - size, p->addend);
     }
=20
-    s->code_ptr =3D (void *)a;
+    s->code_ptr =3D a;
     return true;
 }
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: temperror (zoho.com: Error in retrieving data from DNS)
 client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=temperror (zoho.com: Error in retrieving data from DNS)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511299781023261.26542811568663;
 Tue, 21 Nov 2017 13:29:41 -0800 (PST)
Received: from localhost ([::1]:36582 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHG6t-0005XG-86
	for importer@patchew.org; Tue, 21 Nov 2017 16:29:39 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:53960)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG55-0004Jl-Hb
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:50 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG54-0007g6-OL
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:47 -0500
Received: from mail-wm0-x244.google.com ([2a00:1450:400c:c09::244]:44105)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG54-0007fj-HT
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:46 -0500
Received: by mail-wm0-x244.google.com with SMTP id r68so6352420wmr.3
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:46 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.44 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:44 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=DQqqwXi6krqrAR+MFMh6WBa/XGoGSPQ/T7AOKHY6UYY=;
	b=au4rpKIhTmnfMFTh1kVaInfvALY5+GYq5qwvdOAuJE+zefJbNUvvlRUr9Us1YCARr5
	G3y5q2+SOlpZ1JjEUE/lw7Xz1LNEJi2NKJ+VJION/sdFPf23fMDg0A3KaSTAeNNMKZZ4
	P5ctxbBbSu40wryqBr4expE4FueKPh40ATMqQ=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=DQqqwXi6krqrAR+MFMh6WBa/XGoGSPQ/T7AOKHY6UYY=;
	b=ngDl9ppCBWD0Xim+FRrVq7sB9tIPVtwIle89LqcnU9MGUUM/fzP94OfXDQ4vWBBahf
	oGOY97LaLLJHtg1JmLdq7doP4JJRBWdlGXc4zxVJNqSBBLdXZRWNDvYXv/5M5cDTl9Ma
	FZ+TRwHSonqJA2UG8X5T2fpuPvoAwL5qfZnc+KZSuzIU1rehcpm7WXYYZ3Xbrx3m4ibW
	U18kEBxfDU0huRi1SClbDgI5jzfFEcrNnlIu5bOHiXpdYmMphjq9lfbzveCIIK0UAvKm
	fBOgBu9gXH/aM3/8nbIV66a+qC2v9jSC4se479fpHbgZEE7BglbbQI54cQfSBnZMsiZm
	PIRw==
X-Gm-Message-State: AJaThX4k8jAvTG0ug0VpmCeKOosOFJdXNyA+XktR9RbhfBlw87BJicne
	sY2Nw1gQwQh34DkMNPwF0siajc4EoLc=
X-Google-Smtp-Source: 
 AGs4zMbK3mlEwrV9oRIPIBaVTzMltb7kndRbnBwUlVR1w1+4VkNAiwehYde03YyJV6lHx3cV4tKlug==
X-Received: by 10.28.33.136 with SMTP id h130mr2255539wmh.151.1511299665417;
	Tue, 21 Nov 2017 13:27:45 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:15 +0100
Message-Id: <20171121212534.5177-8-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::244
Subject: [Qemu-devel] [PATCH v6 07/26] tcg: Add tcg_signed_cond
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_6  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Complimenting the existing tcg_unsigned_cond.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/tcg.h | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/tcg/tcg.h b/tcg/tcg.h
index 2acebd387a..49d4c5fe05 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -517,6 +517,12 @@ static inline TCGCond tcg_unsigned_cond(TCGCond c)
     return c & 2 ? (TCGCond)(c ^ 6) : c;
 }
=20
+/* Create a "signed" version of an "unsigned" comparison.  */
+static inline TCGCond tcg_signed_cond(TCGCond c)
+{
+    return c & 4 ? (TCGCond)(c ^ 6) : c;
+}
+
 /* Must a comparison be considered unsigned?  */
 static inline bool is_unsigned_cond(TCGCond c)
 {
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300114831715.3040170123792;
 Tue, 21 Nov 2017 13:35:14 -0800 (PST)
Received: from localhost ([::1]:36611 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGCI-00023c-4T
	for importer@patchew.org; Tue, 21 Nov 2017 16:35:14 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54006)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG58-0004Mb-MO
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:51 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG55-0007gv-Qw
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:50 -0500
Received: from mail-wm0-x244.google.com ([2a00:1450:400c:c09::244]:38918)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG55-0007gQ-L7
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:47 -0500
Received: by mail-wm0-x244.google.com with SMTP id x63so6255336wmf.4
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:47 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.45 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:45 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references:mime-version
	:content-transfer-encoding;
	bh=GLyvDykI4af6RkGn5xmg6fjMBXV0cxlT5aCt8CXch74=;
	b=N/9GiBvGVFewvHQ4J9gl86ZfK2UxqnVTCR4yQnspooEZdWL8Es74vTAt9nhz4FdGeb
	EmoNPWHU2WD5RYt+VtdIaDeJ3IOPkf/LOOhC7VaOiMaqNYXq/9PsXC48Vr2f28vcRfF3
	co+60wv0joXg/Jh63/X0Nw14tShi7+Xy3Trp0=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references:mime-version:content-transfer-encoding;
	bh=GLyvDykI4af6RkGn5xmg6fjMBXV0cxlT5aCt8CXch74=;
	b=qj9dGPReOBzDkhse8tIZPeFnc1jDFPYwj9n7Pd9stcSmlV9pFY0PRd/tonaYZI+Th/
	/zKIL8v0TqD9pRhm+M0MpOVpoBH8El10QagmixDjv6qcowguU0/yPHNiG4x4T6Q6PhqF
	Xwz40yMWOzRwj3b9+PB9wgHxMDpbDH/4qA6BhUaeXtZAvk4iFC1unbm1aTUqGzOv5Olj
	luVg5Xz3WK2DFaLODkvuMwYhCmgNLuEW+PtD70a5GCAo7nS6Qdl3m6xCILTELk5J7M7Z
	OBcqrTFF7qwn2v0xtjFk4VNOX6APipCxyXbehWx09en0ZtOsDQRO0KggalGg8aX1zLTP
	7obA==
X-Gm-Message-State: AJaThX5YIHHBjxiQWB4lgqvEdbBfHcbmAt8OBNYyvK5ccLlkGr3cdp6l
	bRcnhsVOqJs2Qpt7dmqFlO6IKpfZewo=
X-Google-Smtp-Source: 
 AGs4zMZ+tLs3VKT0qIVDoTtUFRSkx/kYaNFoI4m/TNFhilBULrifu7/YCxipLbYcpDyTratvJjlaOA==
X-Received: by 10.28.12.193 with SMTP id 184mr2683027wmm.70.1511299666553;
	Tue, 21 Nov 2017 13:27:46 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:16 +0100
Message-Id: <20171121212534.5177-9-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"
Content-Transfer-Encoding: quoted-printable
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::244
Subject: [Qemu-devel] [PATCH v6 08/26] target/arm: Align vector registers
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0

Reviewed-by: Alex Benn=C3=A9e <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/cpu.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index 89d49cdcb2..8238edaba9 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -492,7 +492,7 @@ typedef struct CPUARMState {
          * the two execution states, and means we do not need to explicitly
          * map these registers when changing states.
          */
-        float64 regs[64];
+        float64 regs[64] QEMU_ALIGNED(16);
=20
         uint32_t xregs[16];
         /* We store these fpcsr fields separately for convenience.  */
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300454480744.7952433893817;
 Tue, 21 Nov 2017 13:40:54 -0800 (PST)
Received: from localhost ([::1]:36650 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGHg-00078s-Je
	for importer@patchew.org; Tue, 21 Nov 2017 16:40:48 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54025)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG59-0004Mr-0Z
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:52 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG57-0007ho-Ff
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:50 -0500
Received: from mail-wm0-x241.google.com ([2a00:1450:400c:c09::241]:38057)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG57-0007hL-52
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:49 -0500
Received: by mail-wm0-x241.google.com with SMTP id 128so6267641wmo.3
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:49 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.46 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:47 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references:mime-version
	:content-transfer-encoding;
	bh=Rrd4S97eVhWKdenLugOq5tq9MgHu7wRf2kAbYFyPVy8=;
	b=HtykI9Zfzh+eKhbql3LZf4BPx/ybwj056POeUARhUso5xlSz/r/rApVGMYNXgpF45y
	8JlVtXN0St+v/f0EdUovVHDjtWiRKkmdUKcItE0o/xb67POaWcX9fHgkTqxjlpxhmNug
	5tn4jIRu8ra6fajVeUrTGbfPINmhL6pbdFgbc=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references:mime-version:content-transfer-encoding;
	bh=Rrd4S97eVhWKdenLugOq5tq9MgHu7wRf2kAbYFyPVy8=;
	b=JE/D7TorPtPv3wT8lXVC/vp+DQWgh81GKq7tnoACpGdsgeHuCOso+eYF2VHeMIGIJd
	quiUwey2SFF0ha8Pw93vnt5K1PUQgVaVPlRxuqaXUpXOiMsDyveCNUnNlyUY0fiaYvYE
	w8ckUAKIsoFowtpXVR/oDDSBdUj1sUfDCHKDsrRjR3dlsxm5OyBckeJYxJTtloRQzO0s
	Eeez5SvbOgHfMJ85u6TmO3MjkBEtDC9WQphlcthWDruU8rpkjNs3n3vTcfMunO2VWUQm
	u0UHZ2eo8K7sR1V/5KxXLphsjS+zZFTftYsWJdeILIL1Js725CcE+xupBo+GLbI1mJJ6
	jU5Q==
X-Gm-Message-State: AJaThX6+1ll/1g++BYcyUL/WuOcpPSwYZ2QdkjLwsXDUny+TdbaJS/ol
	ZeQn/uixQ/zdK7VVji3ZGln8Yt5gYdE=
X-Google-Smtp-Source: 
 AGs4zMb4rIvCQAk/LL8EApAfkdH1o1rFDrtwW7IPlz19CRCRy64W3sTtYWl5OXJDy1Y4MDp/RdPbZA==
X-Received: by 10.28.238.74 with SMTP id m71mr2287517wmh.83.1511299667871;
	Tue, 21 Nov 2017 13:27:47 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:17 +0100
Message-Id: <20171121212534.5177-10-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"
Content-Transfer-Encoding: quoted-printable
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::241
Subject: [Qemu-devel] [PATCH v6 09/26] target/arm: Use vector infrastructure
 for aa64 add/sub/logic
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0

Reviewed-by: Alex Benn=C3=A9e <alex.bennee@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 207 +++++++++++++++++++++++++++++------------=
----
 1 file changed, 134 insertions(+), 73 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index ba94f7d045..572af456d1 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -21,6 +21,7 @@
 #include "cpu.h"
 #include "exec/exec-all.h"
 #include "tcg-op.h"
+#include "tcg-op-gvec.h"
 #include "qemu/log.h"
 #include "arm_ldst.h"
 #include "translate.h"
@@ -83,6 +84,10 @@ typedef void NeonGenOneOpFn(TCGv_i64, TCGv_i64);
 typedef void CryptoTwoOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i32);
 typedef void CryptoThreeOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i32, TCGv_i32);
=20
+/* Note that the gvec expanders operate on offsets + sizes.  */
+typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
+                        uint32_t, uint32_t, uint32_t);
+
 /* initialize TCG globals.  */
 void a64_translate_init(void)
 {
@@ -535,6 +540,21 @@ static inline int vec_reg_offset(DisasContext *s, int =
regno,
     return offs;
 }
=20
+/* Return the offset info CPUARMState of the "whole" vector register Qn.  =
*/
+static inline int vec_full_reg_offset(DisasContext *s, int regno)
+{
+    assert_fp_access_checked(s);
+    return offsetof(CPUARMState, vfp.regs[regno * 2]);
+}
+
+/* Return the byte size of the "whole" vector register, VL / 8.  */
+static inline int vec_full_reg_size(DisasContext *s)
+{
+    /* FIXME SVE: We should put the composite ZCR_EL* value into tb->flags.
+       In the meantime this is just the AdvSIMD length of 128.  */
+    return 128 / 8;
+}
+
 /* Return the offset into CPUARMState of a slice (from
  * the least significant end) of FP register Qn (ie
  * Dn, Sn, Hn or Bn).
@@ -9048,85 +9068,125 @@ static void disas_simd_three_reg_diff(DisasContext=
 *s, uint32_t insn)
     }
 }
=20
+static void gen_bsl_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
+{
+    tcg_gen_xor_i64(rn, rn, rm);
+    tcg_gen_and_i64(rn, rn, rd);
+    tcg_gen_xor_i64(rd, rm, rn);
+}
+
+static void gen_bit_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
+{
+    tcg_gen_xor_i64(rn, rn, rd);
+    tcg_gen_and_i64(rn, rn, rm);
+    tcg_gen_xor_i64(rd, rd, rn);
+}
+
+static void gen_bif_i64(TCGv_i64 rd, TCGv_i64 rn, TCGv_i64 rm)
+{
+    tcg_gen_xor_i64(rn, rn, rd);
+    tcg_gen_andc_i64(rn, rn, rm);
+    tcg_gen_xor_i64(rd, rd, rn);
+}
+
+static void gen_bsl_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec =
rm)
+{
+    tcg_gen_xor_vec(vece, rn, rn, rm);
+    tcg_gen_and_vec(vece, rn, rn, rd);
+    tcg_gen_xor_vec(vece, rd, rm, rn);
+}
+
+static void gen_bit_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec =
rm)
+{
+    tcg_gen_xor_vec(vece, rn, rn, rd);
+    tcg_gen_and_vec(vece, rn, rn, rm);
+    tcg_gen_xor_vec(vece, rd, rd, rn);
+}
+
+static void gen_bif_vec(unsigned vece, TCGv_vec rd, TCGv_vec rn, TCGv_vec =
rm)
+{
+    tcg_gen_xor_vec(vece, rn, rn, rd);
+    tcg_gen_andc_vec(vece, rn, rn, rm);
+    tcg_gen_xor_vec(vece, rd, rd, rn);
+}
+
 /* Logic op (opcode =3D=3D 3) subgroup of C3.6.16. */
 static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 {
+    static const GVecGen3 bsl_op =3D {
+        .fni8 =3D gen_bsl_i64,
+        .fniv =3D gen_bsl_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+        .load_dest =3D true
+    };
+    static const GVecGen3 bit_op =3D {
+        .fni8 =3D gen_bit_i64,
+        .fniv =3D gen_bit_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+        .load_dest =3D true
+    };
+    static const GVecGen3 bif_op =3D {
+        .fni8 =3D gen_bif_i64,
+        .fniv =3D gen_bif_vec,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+        .load_dest =3D true
+    };
+
     int rd =3D extract32(insn, 0, 5);
     int rn =3D extract32(insn, 5, 5);
     int rm =3D extract32(insn, 16, 5);
     int size =3D extract32(insn, 22, 2);
     bool is_u =3D extract32(insn, 29, 1);
     bool is_q =3D extract32(insn, 30, 1);
-    TCGv_i64 tcg_op1, tcg_op2, tcg_res[2];
-    int pass;
+    GVecGen3Fn *gvec_fn;
+    const GVecGen3 *gvec_op;
=20
     if (!fp_access_check(s)) {
         return;
     }
=20
-    tcg_op1 =3D tcg_temp_new_i64();
-    tcg_op2 =3D tcg_temp_new_i64();
-    tcg_res[0] =3D tcg_temp_new_i64();
-    tcg_res[1] =3D tcg_temp_new_i64();
-
-    for (pass =3D 0; pass < (is_q ? 2 : 1); pass++) {
-        read_vec_element(s, tcg_op1, rn, pass, MO_64);
-        read_vec_element(s, tcg_op2, rm, pass, MO_64);
-
-        if (!is_u) {
-            switch (size) {
-            case 0: /* AND */
-                tcg_gen_and_i64(tcg_res[pass], tcg_op1, tcg_op2);
-                break;
-            case 1: /* BIC */
-                tcg_gen_andc_i64(tcg_res[pass], tcg_op1, tcg_op2);
-                break;
-            case 2: /* ORR */
-                tcg_gen_or_i64(tcg_res[pass], tcg_op1, tcg_op2);
-                break;
-            case 3: /* ORN */
-                tcg_gen_orc_i64(tcg_res[pass], tcg_op1, tcg_op2);
-                break;
-            }
-        } else {
-            if (size !=3D 0) {
-                /* B* ops need res loaded to operate on */
-                read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
-            }
-
-            switch (size) {
-            case 0: /* EOR */
-                tcg_gen_xor_i64(tcg_res[pass], tcg_op1, tcg_op2);
-                break;
-            case 1: /* BSL bitwise select */
-                tcg_gen_xor_i64(tcg_op1, tcg_op1, tcg_op2);
-                tcg_gen_and_i64(tcg_op1, tcg_op1, tcg_res[pass]);
-                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op1);
-                break;
-            case 2: /* BIT, bitwise insert if true */
-                tcg_gen_xor_i64(tcg_op1, tcg_op1, tcg_res[pass]);
-                tcg_gen_and_i64(tcg_op1, tcg_op1, tcg_op2);
-                tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
-                break;
-            case 3: /* BIF, bitwise insert if false */
-                tcg_gen_xor_i64(tcg_op1, tcg_op1, tcg_res[pass]);
-                tcg_gen_andc_i64(tcg_op1, tcg_op1, tcg_op2);
-                tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
-                break;
-            }
-        }
-    }
+    switch (size + 4 * is_u) {
+    case 0: /* AND */
+        gvec_fn =3D tcg_gen_gvec_and;
+        goto do_fn;
+    case 1: /* BIC */
+        gvec_fn =3D tcg_gen_gvec_andc;
+        goto do_fn;
+    case 2: /* ORR */
+        gvec_fn =3D tcg_gen_gvec_or;
+        goto do_fn;
+    case 3: /* ORN */
+        gvec_fn =3D tcg_gen_gvec_orc;
+        goto do_fn;
+    case 4: /* EOR */
+        gvec_fn =3D tcg_gen_gvec_xor;
+        goto do_fn;
+    do_fn:
+        gvec_fn(0, vec_full_reg_offset(s, rd),
+                vec_full_reg_offset(s, rn),
+                vec_full_reg_offset(s, rm),
+                is_q ? 16 : 8, vec_full_reg_size(s));
+        return;
+
+    case 5: /* BSL bitwise select */
+        gvec_op =3D &bsl_op;
+        goto do_op;
+    case 6: /* BIT, bitwise insert if true */
+        gvec_op =3D &bit_op;
+        goto do_op;
+    case 7: /* BIF, bitwise insert if false */
+        gvec_op =3D &bif_op;
+        goto do_op;
+    do_op:
+        tcg_gen_gvec_3(vec_full_reg_offset(s, rd),
+                       vec_full_reg_offset(s, rn),
+                       vec_full_reg_offset(s, rm),
+                       is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
+        return;
=20
-    write_vec_element(s, tcg_res[0], rd, 0, MO_64);
-    if (!is_q) {
-        tcg_gen_movi_i64(tcg_res[1], 0);
+    default:
+        g_assert_not_reached();
     }
-    write_vec_element(s, tcg_res[1], rd, 1, MO_64);
-
-    tcg_temp_free_i64(tcg_op1);
-    tcg_temp_free_i64(tcg_op2);
-    tcg_temp_free_i64(tcg_res[0]);
-    tcg_temp_free_i64(tcg_res[1]);
 }
=20
 /* Helper functions for 32 bit comparisons */
@@ -9387,6 +9447,7 @@ static void disas_simd_3same_int(DisasContext *s, uin=
t32_t insn)
     int rn =3D extract32(insn, 5, 5);
     int rd =3D extract32(insn, 0, 5);
     int pass;
+    GVecGen3Fn *gvec_op;
=20
     switch (opcode) {
     case 0x13: /* MUL, PMUL */
@@ -9426,6 +9487,16 @@ static void disas_simd_3same_int(DisasContext *s, ui=
nt32_t insn)
         return;
     }
=20
+    switch (opcode) {
+    case 0x10: /* ADD, SUB */
+        gvec_op =3D u ? tcg_gen_gvec_sub : tcg_gen_gvec_add;
+        gvec_op(size, vec_full_reg_offset(s, rd),
+                vec_full_reg_offset(s, rn),
+                vec_full_reg_offset(s, rm),
+                is_q ? 16 : 8, vec_full_reg_size(s));
+        return;
+    }
+
     if (size =3D=3D 3) {
         assert(is_q);
         for (pass =3D 0; pass < 2; pass++) {
@@ -9598,16 +9669,6 @@ static void disas_simd_3same_int(DisasContext *s, ui=
nt32_t insn)
                 genfn =3D fns[size][u];
                 break;
             }
-            case 0x10: /* ADD, SUB */
-            {
-                static NeonGenTwoOpFn * const fns[3][2] =3D {
-                    { gen_helper_neon_add_u8, gen_helper_neon_sub_u8 },
-                    { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
-                    { tcg_gen_add_i32, tcg_gen_sub_i32 },
-                };
-                genfn =3D fns[size][u];
-                break;
-            }
             case 0x11: /* CMTST, CMEQ */
             {
                 static NeonGenTwoOpFn * const fns[3][2] =3D {
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: temperror (zoho.com: Error in retrieving data from DNS)
 client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=temperror (zoho.com: Error in retrieving data from DNS)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511299946355542.3472599519556;
 Tue, 21 Nov 2017 13:32:26 -0800 (PST)
Received: from localhost ([::1]:36599 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHG9W-0007nZ-H3
	for importer@patchew.org; Tue, 21 Nov 2017 16:32:22 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54036)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG59-0004NJ-GO
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:52 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG58-0007iM-E4
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:51 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:38058)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG58-0007hv-8l
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:50 -0500
Received: by mail-wm0-x242.google.com with SMTP id 128so6267720wmo.3
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:50 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.47 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:48 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=09qF8n03XSVo4FEyGsP2EEOlkKHL3L4/cRQSJWq9xv0=;
	b=C5x9VPLi7Frt5tMOoZVph4BCaCr3C6338NYRRS/6RZnwjfHTdK+oSey5YlSXginpxT
	jG9pewgr8Ic50CjOg6EzMhBJTWtCr1ZpjoWtJKd0/N6j++5T1K43y4euEB7Lc1cgYp16
	RM37E2jF7yp5F1wNFc2S2w/rsEpJ+gnFrqek4=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=09qF8n03XSVo4FEyGsP2EEOlkKHL3L4/cRQSJWq9xv0=;
	b=r6HRYqZe8Jov4hvYAMXLH9XKh2E6X67l02EdvApFIFe/1ZYSKmjVMVjBP12jLRJL39
	qfSVqAbaUrI+4FpIIqcPsTQTudc8H7UPjN9EzkYEu1DrCsVQA1SjXJU0xmKL7zmQqR20
	CRpA4LzwYu2O0Vy3Ix58I+TWQL85h3z/qzWCJixbdkRBL+xRR7lG4jHNzmTLfWfQmH2e
	mFP0Y0nVcGo3w9BuvVkQflpaNPCtGppV5eVTSmUzceV7Dc8ALcYVGXj13OFQlne5bpwj
	PPSenFVv/YbQxbPqRbpT38qVb+tc9YCiO1aLngeovKDNS2MZ32VZOg+VtUtBJ01qLc9R
	fErQ==
X-Gm-Message-State: AJaThX6CaBVTZavEBibZ83jw6IPJQmYQW/mzLOVxW9mlUwv1/q/LQJP0
	b+DP2kgIJPYxz2fhm05kKDmzfeMPeq4=
X-Google-Smtp-Source: 
 AGs4zMa/e9avQsrbDso/QVmjJ9HQ97cY97kVZ6lsUflhT1Qu0r96X2LYMcgfJm5b2WAsdTQNwMksmg==
X-Received: by 10.28.146.20 with SMTP id u20mr2620090wmd.49.1511299669023;
	Tue, 21 Nov 2017 13:27:49 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:18 +0100
Message-Id: <20171121212534.5177-11-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 10/26] target/arm: Use vector infrastructure
 for aa64 mov/not/neg
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_6  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 43 ++++++++++++++++++++++++++++++++++++++-----
 1 file changed, 38 insertions(+), 5 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index 572af456d1..bc14c28e71 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -85,6 +85,7 @@ typedef void CryptoTwoOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i3=
2);
 typedef void CryptoThreeOpEnvFn(TCGv_ptr, TCGv_i32, TCGv_i32, TCGv_i32);
=20
 /* Note that the gvec expanders operate on offsets + sizes.  */
+typedef void GVecGen2Fn(unsigned, uint32_t, uint32_t, uint32_t, uint32_t);
 typedef void GVecGen3Fn(unsigned, uint32_t, uint32_t,
                         uint32_t, uint32_t, uint32_t);
=20
@@ -4579,14 +4580,19 @@ static void handle_fp_1src_double(DisasContext *s, =
int opcode, int rd, int rn)
     TCGv_i64 tcg_op;
     TCGv_i64 tcg_res;
=20
+    switch (opcode) {
+    case 0x0: /* FMOV */
+        tcg_gen_gvec_mov(0, vec_full_reg_offset(s, rd),
+                         vec_full_reg_offset(s, rn),
+                         8, vec_full_reg_size(s));
+        return;
+    }
+
     fpst =3D get_fpstatus_ptr();
     tcg_op =3D read_fp_dreg(s, rn);
     tcg_res =3D tcg_temp_new_i64();
=20
     switch (opcode) {
-    case 0x0: /* FMOV */
-        tcg_gen_mov_i64(tcg_res, tcg_op);
-        break;
     case 0x1: /* FABS */
         gen_helper_vfp_absd(tcg_res, tcg_op);
         break;
@@ -9153,6 +9159,12 @@ static void disas_simd_3same_logic(DisasContext *s, =
uint32_t insn)
         gvec_fn =3D tcg_gen_gvec_andc;
         goto do_fn;
     case 2: /* ORR */
+        if (rn =3D=3D rm) { /* MOV */
+            tcg_gen_gvec_mov(0, vec_full_reg_offset(s, rd),
+                             vec_full_reg_offset(s, rn),
+                             is_q ? 16 : 8, vec_full_reg_size(s));
+            return;
+        }
         gvec_fn =3D tcg_gen_gvec_or;
         goto do_fn;
     case 3: /* ORN */
@@ -10032,6 +10044,7 @@ static void disas_simd_two_reg_misc(DisasContext *s=
, uint32_t insn)
     int rmode =3D -1;
     TCGv_i32 tcg_rmode;
     TCGv_ptr tcg_fpstatus;
+    GVecGen2Fn *gvec_fn;
=20
     switch (opcode) {
     case 0x0: /* REV64, REV32 */
@@ -10040,8 +10053,7 @@ static void disas_simd_two_reg_misc(DisasContext *s=
, uint32_t insn)
         return;
     case 0x5: /* CNT, NOT, RBIT */
         if (u && size =3D=3D 0) {
-            /* NOT: adjust size so we can use the 64-bits-at-a-time loop. =
*/
-            size =3D 3;
+            /* NOT */
             break;
         } else if (u && size =3D=3D 1) {
             /* RBIT */
@@ -10293,6 +10305,27 @@ static void disas_simd_two_reg_misc(DisasContext *=
s, uint32_t insn)
         tcg_rmode =3D NULL;
     }
=20
+    switch (opcode) {
+    case 0x5:
+        if (u && size =3D=3D 0) { /* NOT */
+            gvec_fn =3D tcg_gen_gvec_not;
+            goto do_fn;
+        }
+        break;
+    case 0xb:
+        if (u) { /* NEG */
+            gvec_fn =3D tcg_gen_gvec_neg;
+            goto do_fn;
+        }
+        break;
+
+    do_fn:
+        gvec_fn(size, vec_full_reg_offset(s, rd),
+                vec_full_reg_offset(s, rn),
+                is_q ? 16 : 8, vec_full_reg_size(s));
+        return;
+    }
+
     if (size =3D=3D 3) {
         /* All 64-bit element operations can be shared with scalar 2misc */
         int pass;
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511299867695971.9442874326185;
 Tue, 21 Nov 2017 13:31:07 -0800 (PST)
Received: from localhost ([::1]:36587 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHG7y-0006Sf-Cc
	for importer@patchew.org; Tue, 21 Nov 2017 16:30:46 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54058)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5A-0004Ok-Nk
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:53 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG59-0007jF-KW
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:52 -0500
Received: from mail-wm0-x243.google.com ([2a00:1450:400c:c09::243]:38918)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG59-0007ie-Ci
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:51 -0500
Received: by mail-wm0-x243.google.com with SMTP id x63so6255618wmf.4
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:51 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.49 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:49 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=hQ/lP9KQaCheo4UPX9JOhyv6XEAkTWCkibaqYs2X2J8=;
	b=a328D2hYF+BNV/h1W16BdCIyOruiWN6SE3xTVS0PJZzlbEoZoVp+s5646/4zswHr50
	+kRgoGxeB6iUeJm+twcF/4o4qH76M029e/GG0p1zG7LKJtjJpeTDnGVk6lGAToNY8Txy
	m4SgkFonpW0+SlsddxEwCUKAUKtf3pJ3CQeWM=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=hQ/lP9KQaCheo4UPX9JOhyv6XEAkTWCkibaqYs2X2J8=;
	b=akIMAa49JFDmfa9EoyE3+OBbTgnLdivdK3OTj4ZfYivbTYIDci/XU4GrNU+GvX3BLL
	ZZKyVnZ5SctY6mgCvCwtPGD0vDEuki4rx28RdN1OHXa3S5zYwkmajCJZrQExLFfS9FDR
	NkOsXmUmEV8Mpe2al3sscLTxOB9zH+J425L6vxlj4atJ0oYMWQ4SjL6nmgW/CCLihinx
	WbuYRXE4LhpjDnS2ZyXlatGZabLljP5SCW716/6PH4a0AtM/IWLfp47SiK7BK0yy3dgM
	v+tdqNeK2hWZDlx2ZVICuQmXPB3lQUyj1CFAzaJ4sUaXfwxeR56Bk9SeaI66DHI+kVN/
	pX0Q==
X-Gm-Message-State: AJaThX632/x9bHc1UCNKOvAoE90TQaWKvW+RmhVaINXd5U38pTbfS49w
	2vPE/S1juf2U1/fzhpTRoeINNnOIA6U=
X-Google-Smtp-Source: 
 AGs4zMZ78QdmJLE9jFXufCyWSGrWgXWssPazig8OetziokKVl/fDtNIK6e6TYr89vBoHYQnvg2pdGQ==
X-Received: by 10.28.14.195 with SMTP id 186mr2384135wmo.56.1511299670144;
	Tue, 21 Nov 2017 13:27:50 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:19 +0100
Message-Id: <20171121212534.5177-12-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::243
Subject: [Qemu-devel] [PATCH v6 11/26] target/arm: Use vector infrastructure
 for aa64 dup/movi
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 83 +++++++++++++++++++-----------------------=
----
 1 file changed, 34 insertions(+), 49 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index bc14c28e71..55a4902fc2 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -5846,38 +5846,24 @@ static void disas_simd_across_lanes(DisasContext *s=
, uint32_t insn)
  *
  * size: encoded in imm5 (see ARM ARM LowestSetBit())
  */
+
 static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
                              int imm5)
 {
     int size =3D ctz32(imm5);
-    int esize =3D 8 << size;
-    int elements =3D (is_q ? 128 : 64) / esize;
-    int index, i;
-    TCGv_i64 tmp;
+    int index =3D imm5 >> (size + 1);
=20
     if (size > 3 || (size =3D=3D 3 && !is_q)) {
         unallocated_encoding(s);
         return;
     }
-
     if (!fp_access_check(s)) {
         return;
     }
=20
-    index =3D imm5 >> (size + 1);
-
-    tmp =3D tcg_temp_new_i64();
-    read_vec_element(s, tmp, rn, index, size);
-
-    for (i =3D 0; i < elements; i++) {
-        write_vec_element(s, tmp, rd, i, size);
-    }
-
-    if (!is_q) {
-        clear_vec_high(s, rd);
-    }
-
-    tcg_temp_free_i64(tmp);
+    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
+                         vec_reg_offset(s, rn, index, size),
+                         is_q ? 16 : 8, vec_full_reg_size(s));
 }
=20
 /* DUP (element, scalar)
@@ -5926,9 +5912,7 @@ static void handle_simd_dupg(DisasContext *s, int is_=
q, int rd, int rn,
                              int imm5)
 {
     int size =3D ctz32(imm5);
-    int esize =3D 8 << size;
-    int elements =3D (is_q ? 128 : 64)/esize;
-    int i =3D 0;
+    uint32_t dofs, oprsz, maxsz;
=20
     if (size > 3 || ((size =3D=3D 3) && !is_q)) {
         unallocated_encoding(s);
@@ -5939,12 +5923,11 @@ static void handle_simd_dupg(DisasContext *s, int i=
s_q, int rd, int rn,
         return;
     }
=20
-    for (i =3D 0; i < elements; i++) {
-        write_vec_element(s, cpu_reg(s, rn), rd, i, size);
-    }
-    if (!is_q) {
-        clear_vec_high(s, rd);
-    }
+    dofs =3D vec_full_reg_offset(s, rd);
+    oprsz =3D is_q ? 16 : 8;
+    maxsz =3D vec_full_reg_size(s);
+
+    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
 }
=20
 /* INS (Element)
@@ -6135,7 +6118,6 @@ static void disas_simd_mod_imm(DisasContext *s, uint3=
2_t insn)
     bool is_neg =3D extract32(insn, 29, 1);
     bool is_q =3D extract32(insn, 30, 1);
     uint64_t imm =3D 0;
-    TCGv_i64 tcg_rd, tcg_imm;
     int i;
=20
     if (o2 !=3D 0 || ((cmode =3D=3D 0xf) && is_neg && !is_q)) {
@@ -6217,32 +6199,35 @@ static void disas_simd_mod_imm(DisasContext *s, uin=
t32_t insn)
         imm =3D ~imm;
     }
=20
-    tcg_imm =3D tcg_const_i64(imm);
-    tcg_rd =3D new_tmp_a64(s);
+    if (!((cmode & 0x9) =3D=3D 0x1 || (cmode & 0xd) =3D=3D 0x9)) {
+        /* MOVI or MVNI, with MVNI negation handled above.  */
+        tcg_gen_gvec_dup64i(vec_full_reg_offset(s, rd), is_q ? 16 : 8,
+                            vec_full_reg_size(s), imm);
+    } else {
+        TCGv_i64 tcg_imm =3D tcg_const_i64(imm);
+        TCGv_i64 tcg_rd =3D new_tmp_a64(s);
=20
-    for (i =3D 0; i < 2; i++) {
-        int foffs =3D i ? fp_reg_hi_offset(s, rd) : fp_reg_offset(s, rd, M=
O_64);
+        for (i =3D 0; i < 2; i++) {
+            int foffs =3D vec_reg_offset(s, rd, i, MO_64);
=20
-        if (i =3D=3D 1 && !is_q) {
-            /* non-quad ops clear high half of vector */
-            tcg_gen_movi_i64(tcg_rd, 0);
-        } else if ((cmode & 0x9) =3D=3D 0x1 || (cmode & 0xd) =3D=3D 0x9) {
-            tcg_gen_ld_i64(tcg_rd, cpu_env, foffs);
-            if (is_neg) {
-                /* AND (BIC) */
-                tcg_gen_and_i64(tcg_rd, tcg_rd, tcg_imm);
+            if (i =3D=3D 1 && !is_q) {
+                /* non-quad ops clear high half of vector */
+                tcg_gen_movi_i64(tcg_rd, 0);
             } else {
-                /* ORR */
-                tcg_gen_or_i64(tcg_rd, tcg_rd, tcg_imm);
+                tcg_gen_ld_i64(tcg_rd, cpu_env, foffs);
+                if (is_neg) {
+                    /* AND (BIC) */
+                    tcg_gen_and_i64(tcg_rd, tcg_rd, tcg_imm);
+                } else {
+                    /* ORR */
+                    tcg_gen_or_i64(tcg_rd, tcg_rd, tcg_imm);
+                }
             }
-        } else {
-            /* MOVI */
-            tcg_gen_mov_i64(tcg_rd, tcg_imm);
+            tcg_gen_st_i64(tcg_rd, cpu_env, foffs);
         }
-        tcg_gen_st_i64(tcg_rd, cpu_env, foffs);
-    }
=20
-    tcg_temp_free_i64(tcg_imm);
+        tcg_temp_free_i64(tcg_imm);
+    }
 }
=20
 /* AdvSIMD scalar copy
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300627329437.1419062059207;
 Tue, 21 Nov 2017 13:43:47 -0800 (PST)
Received: from localhost ([::1]:36662 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGKM-0001jV-6w
	for importer@patchew.org; Tue, 21 Nov 2017 16:43:34 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54101)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5E-0004Sp-Ua
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:59 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5B-0007jr-LT
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:56 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:36802)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5B-0007jZ-8X
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:53 -0500
Received: by mail-wm0-x242.google.com with SMTP id r68so6323978wmr.1
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:53 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.50 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:50 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=WLPyy+fACvvR0vbdJcOHb6E8KxcywHrep+6Emw+8Lz4=;
	b=O+aJLNCiOorL60DBfiXoteBQ66i/jZ0nYs4qlgTiBgoTvBepwxJn7pCAdCg3i6whVL
	8aNWLy/CxqSXlsG/Ya9VPID9/esyoXEvY4v4l363r7H2Lgb+r5tb14bP/b6nHtQXphBY
	WCYfsOtqo6v5W5ubKtiysSxEo+uK4BgkyrekM=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=WLPyy+fACvvR0vbdJcOHb6E8KxcywHrep+6Emw+8Lz4=;
	b=SkE1x/4zIe87Wa9sNcri0+0+LE1AABgXxqutxqVLthYL9c2f12sI8tK1Vt2ftb0qZL
	T1OnSMOtljCHtaLc+08YWX4gmJRez7VsfsHIBB8tmNXE+GAEwyjD1DxnmDi7F1PZKCTS
	4wDKFsSx1EnoJrhyIAUp96vNust1npcp77fdwbYXluhMADta9HWNzhytjkDeI/t4gkPj
	H6dJ3esLoy2Ij7TgrGrUwl+ENjS+m1LOs7jgeJSwB5aR21RfXjrFc5XpYpve9mqkaSkH
	dC1dnViZwDqSOE6QM9TVxlrAbvGukXLHt/KO0kYz+Yieq24I4558IvYcBVgtXDmfyt0o
	Dd8A==
X-Gm-Message-State: AJaThX7bTtfWOo0D6/x+Y2RaXjPuxYnpDCo8GoesoBRnUUBi1ypYhs4w
	YDImIzO63rPo+tBrphya7f2yWIrLAJg=
X-Google-Smtp-Source: 
 AGs4zMb3yDvBq65GDJyX5qFOlzyILTkFQPG9dQSxIlUCYdUZ8cqixYXTA3ROKySpECM+Esnh1TVTvQ==
X-Received: by 10.28.1.14 with SMTP id 14mr2506466wmb.51.1511299671375;
	Tue, 21 Nov 2017 13:27:51 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:20 +0100
Message-Id: <20171121212534.5177-13-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 12/26] tcg/i386: Add vector operations
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

The x86 vector instruction set is extremely irregular.  With newer
editions, Intel has filled in some of the blanks.  However, we don't
get many 64-bit operations until SSE4.2, introduced in 2009.

The subsequent edition was for AVX1, introduced in 2011, which added
three-operand addressing, and adjusts how all instructions should be
encoded.

Given the relatively narrow 2 year window between possible to support
and desirable to support, and to vastly simplify code maintainence,
I am only planning to support AVX1 and later cpus.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.h     |  36 ++-
 tcg/i386/tcg-target.inc.c | 561 ++++++++++++++++++++++++++++++++++++++++++=
----
 2 files changed, 546 insertions(+), 51 deletions(-)

diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index b89dababf4..f9d3fc4a93 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -30,10 +30,10 @@
=20
 #ifdef __x86_64__
 # define TCG_TARGET_REG_BITS  64
-# define TCG_TARGET_NB_REGS   16
+# define TCG_TARGET_NB_REGS   32
 #else
 # define TCG_TARGET_REG_BITS  32
-# define TCG_TARGET_NB_REGS    8
+# define TCG_TARGET_NB_REGS   24
 #endif
=20
 typedef enum {
@@ -56,6 +56,26 @@ typedef enum {
     TCG_REG_R13,
     TCG_REG_R14,
     TCG_REG_R15,
+
+    TCG_REG_XMM0,
+    TCG_REG_XMM1,
+    TCG_REG_XMM2,
+    TCG_REG_XMM3,
+    TCG_REG_XMM4,
+    TCG_REG_XMM5,
+    TCG_REG_XMM6,
+    TCG_REG_XMM7,
+
+    /* 64-bit registers; likewise always define.  */
+    TCG_REG_XMM8,
+    TCG_REG_XMM9,
+    TCG_REG_XMM10,
+    TCG_REG_XMM11,
+    TCG_REG_XMM12,
+    TCG_REG_XMM13,
+    TCG_REG_XMM14,
+    TCG_REG_XMM15,
+
     TCG_REG_RAX =3D TCG_REG_EAX,
     TCG_REG_RCX =3D TCG_REG_ECX,
     TCG_REG_RDX =3D TCG_REG_EDX,
@@ -77,6 +97,8 @@ typedef enum {
=20
 extern bool have_bmi1;
 extern bool have_popcnt;
+extern bool have_avx1;
+extern bool have_avx2;
=20
 /* optional instructions */
 #define TCG_TARGET_HAS_div2_i32         1
@@ -146,6 +168,16 @@ extern bool have_popcnt;
 #define TCG_TARGET_HAS_mulsh_i64        0
 #endif
=20
+/* We do not support older SSE systems, only beginning with AVX1.  */
+#define TCG_TARGET_HAS_v64              have_avx1
+#define TCG_TARGET_HAS_v128             have_avx1
+#define TCG_TARGET_HAS_v256             have_avx2
+
+#define TCG_TARGET_HAS_andc_vec         1
+#define TCG_TARGET_HAS_orc_vec          0
+#define TCG_TARGET_HAS_not_vec          0
+#define TCG_TARGET_HAS_neg_vec          0
+
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
     (((ofs) =3D=3D 0 && (len) =3D=3D 8) || ((ofs) =3D=3D 8 && (len) =3D=3D=
 8) || \
      ((ofs) =3D=3D 0 && (len) =3D=3D 16))
diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index 63d27f10e7..e9a4d92598 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -28,10 +28,15 @@
 static const char * const tcg_target_reg_names[TCG_TARGET_NB_REGS] =3D {
 #if TCG_TARGET_REG_BITS =3D=3D 64
     "%rax", "%rcx", "%rdx", "%rbx", "%rsp", "%rbp", "%rsi", "%rdi",
-    "%r8",  "%r9",  "%r10", "%r11", "%r12", "%r13", "%r14", "%r15",
 #else
     "%eax", "%ecx", "%edx", "%ebx", "%esp", "%ebp", "%esi", "%edi",
 #endif
+    "%r8",  "%r9",  "%r10", "%r11", "%r12", "%r13", "%r14", "%r15",
+    "%xmm0", "%xmm1", "%xmm2", "%xmm3", "%xmm4", "%xmm5", "%xmm6", "%xmm7",
+#if TCG_TARGET_REG_BITS =3D=3D 64
+    "%xmm8", "%xmm9", "%xmm10", "%xmm11",
+    "%xmm12", "%xmm13", "%xmm14", "%xmm15",
+#endif
 };
 #endif
=20
@@ -61,6 +66,28 @@ static const int tcg_target_reg_alloc_order[] =3D {
     TCG_REG_EDX,
     TCG_REG_EAX,
 #endif
+    TCG_REG_XMM0,
+    TCG_REG_XMM1,
+    TCG_REG_XMM2,
+    TCG_REG_XMM3,
+    TCG_REG_XMM4,
+    TCG_REG_XMM5,
+#ifndef _WIN64
+    /* The Win64 ABI has xmm6-xmm15 as caller-saves, and we do not save
+       any of them.  Therefore only allow xmm0-xmm5 to be allocated.  */
+    TCG_REG_XMM6,
+    TCG_REG_XMM7,
+#if TCG_TARGET_REG_BITS =3D=3D 64
+    TCG_REG_XMM8,
+    TCG_REG_XMM9,
+    TCG_REG_XMM10,
+    TCG_REG_XMM11,
+    TCG_REG_XMM12,
+    TCG_REG_XMM13,
+    TCG_REG_XMM14,
+    TCG_REG_XMM15,
+#endif
+#endif
 };
=20
 static const int tcg_target_call_iarg_regs[] =3D {
@@ -94,7 +121,7 @@ static const int tcg_target_call_oarg_regs[] =3D {
 #define TCG_CT_CONST_I32 0x400
 #define TCG_CT_CONST_WSZ 0x800
=20
-/* Registers used with L constraint, which are the first argument=20
+/* Registers used with L constraint, which are the first argument
    registers on x86_64, and two random call clobbered registers on
    i386. */
 #if TCG_TARGET_REG_BITS =3D=3D 64
@@ -125,6 +152,8 @@ static bool have_cmov;
    it there.  Therefore we always define the variable.  */
 bool have_bmi1;
 bool have_popcnt;
+bool have_avx1;
+bool have_avx2;
=20
 #ifdef CONFIG_CPUID_H
 static bool have_movbe;
@@ -148,6 +177,8 @@ static void patch_reloc(tcg_insn_unit *code_ptr, int ty=
pe,
         if (value !=3D (int32_t)value) {
             tcg_abort();
         }
+        /* FALLTHRU */
+    case R_386_32:
         tcg_patch32(code_ptr, value);
         break;
     case R_386_PC8:
@@ -162,6 +193,14 @@ static void patch_reloc(tcg_insn_unit *code_ptr, int t=
ype,
     }
 }
=20
+#if TCG_TARGET_REG_BITS =3D=3D 64
+#define ALL_GENERAL_REGS   0x0000ffffu
+#define ALL_VECTOR_REGS    0xffff0000u
+#else
+#define ALL_GENERAL_REGS   0x000000ffu
+#define ALL_VECTOR_REGS    0x00ff0000u
+#endif
+
 /* parse target specific constraints */
 static const char *target_parse_constraint(TCGArgConstraint *ct,
                                            const char *ct_str, TCGType typ=
e)
@@ -192,21 +231,29 @@ static const char *target_parse_constraint(TCGArgCons=
traint *ct,
         tcg_regset_set_reg(ct->u.regs, TCG_REG_EDI);
         break;
     case 'q':
+        /* A register that can be used as a byte operand.  */
         ct->ct |=3D TCG_CT_REG;
         ct->u.regs =3D TCG_TARGET_REG_BITS =3D=3D 64 ? 0xffff : 0xf;
         break;
     case 'Q':
+        /* A register with an addressable second byte (e.g. %ah).  */
         ct->ct |=3D TCG_CT_REG;
         ct->u.regs =3D 0xf;
         break;
     case 'r':
+        /* A general register.  */
         ct->ct |=3D TCG_CT_REG;
-        ct->u.regs =3D TCG_TARGET_REG_BITS =3D=3D 64 ? 0xffff : 0xff;
+        ct->u.regs |=3D ALL_GENERAL_REGS;
         break;
     case 'W':
         /* With TZCNT/LZCNT, we can have operand-size as an input.  */
         ct->ct |=3D TCG_CT_CONST_WSZ;
         break;
+    case 'x':
+        /* A vector register.  */
+        ct->ct |=3D TCG_CT_REG;
+        ct->u.regs |=3D ALL_VECTOR_REGS;
+        break;
=20
         /* qemu_ld/st address constraint */
     case 'L':
@@ -277,8 +324,9 @@ static inline int tcg_target_const_match(tcg_target_lon=
g val, TCGType type,
 # define P_REXB_RM	0
 # define P_GS           0
 #endif
-#define P_SIMDF3        0x10000         /* 0xf3 opcode prefix */
-#define P_SIMDF2        0x20000         /* 0xf2 opcode prefix */
+#define P_SIMDF3        0x20000         /* 0xf3 opcode prefix */
+#define P_SIMDF2        0x40000         /* 0xf2 opcode prefix */
+#define P_VEXL          0x80000         /* Set VEX.L =3D 1 */
=20
 #define OPC_ARITH_EvIz	(0x81)
 #define OPC_ARITH_EvIb	(0x83)
@@ -310,11 +358,38 @@ static inline int tcg_target_const_match(tcg_target_l=
ong val, TCGType type,
 #define OPC_MOVL_Iv     (0xb8)
 #define OPC_MOVBE_GyMy  (0xf0 | P_EXT38)
 #define OPC_MOVBE_MyGy  (0xf1 | P_EXT38)
+#define OPC_MOVD_VyEy   (0x6e | P_EXT | P_DATA16)
+#define OPC_MOVD_EyVy   (0x7e | P_EXT | P_DATA16)
+#define OPC_MOVDDUP     (0x12 | P_EXT | P_SIMDF2)
+#define OPC_MOVDQA_VxWx (0x6f | P_EXT | P_DATA16)
+#define OPC_MOVDQA_WxVx (0x7f | P_EXT | P_DATA16)
+#define OPC_MOVDQU_VxWx (0x6f | P_EXT | P_SIMDF3)
+#define OPC_MOVDQU_WxVx (0x7f | P_EXT | P_SIMDF3)
+#define OPC_MOVQ_VqWq   (0x7e | P_EXT | P_SIMDF3)
+#define OPC_MOVQ_WqVq   (0xd6 | P_EXT | P_DATA16)
 #define OPC_MOVSBL	(0xbe | P_EXT)
 #define OPC_MOVSWL	(0xbf | P_EXT)
 #define OPC_MOVSLQ	(0x63 | P_REXW)
 #define OPC_MOVZBL	(0xb6 | P_EXT)
 #define OPC_MOVZWL	(0xb7 | P_EXT)
+#define OPC_PADDB       (0xfc | P_EXT | P_DATA16)
+#define OPC_PADDW       (0xfd | P_EXT | P_DATA16)
+#define OPC_PADDD       (0xfe | P_EXT | P_DATA16)
+#define OPC_PADDQ       (0xd4 | P_EXT | P_DATA16)
+#define OPC_PAND        (0xdb | P_EXT | P_DATA16)
+#define OPC_PANDN       (0xdf | P_EXT | P_DATA16)
+#define OPC_PCMPEQB     (0x74 | P_EXT | P_DATA16)
+#define OPC_POR         (0xeb | P_EXT | P_DATA16)
+#define OPC_PSHUFD      (0x70 | P_EXT | P_DATA16)
+#define OPC_PSUBB       (0xf8 | P_EXT | P_DATA16)
+#define OPC_PSUBW       (0xf9 | P_EXT | P_DATA16)
+#define OPC_PSUBD       (0xfa | P_EXT | P_DATA16)
+#define OPC_PSUBQ       (0xfb | P_EXT | P_DATA16)
+#define OPC_PUNPCKLBW   (0x60 | P_EXT | P_DATA16)
+#define OPC_PUNPCKLWD   (0x61 | P_EXT | P_DATA16)
+#define OPC_PUNPCKLDQ   (0x62 | P_EXT | P_DATA16)
+#define OPC_PUNPCKLQDQ  (0x6c | P_EXT | P_DATA16)
+#define OPC_PXOR        (0xef | P_EXT | P_DATA16)
 #define OPC_POP_r32	(0x58)
 #define OPC_POPCNT      (0xb8 | P_EXT | P_SIMDF3)
 #define OPC_PUSH_r32	(0x50)
@@ -330,6 +405,11 @@ static inline int tcg_target_const_match(tcg_target_lo=
ng val, TCGType type,
 #define OPC_SHRX        (0xf7 | P_EXT38 | P_SIMDF2)
 #define OPC_TESTL	(0x85)
 #define OPC_TZCNT       (0xbc | P_EXT | P_SIMDF3)
+#define OPC_VPBROADCASTB (0x78 | P_EXT38 | P_DATA16)
+#define OPC_VPBROADCASTW (0x79 | P_EXT38 | P_DATA16)
+#define OPC_VPBROADCASTD (0x58 | P_EXT38 | P_DATA16)
+#define OPC_VPBROADCASTQ (0x59 | P_EXT38 | P_DATA16)
+#define OPC_VZEROUPPER  (0x77 | P_EXT)
 #define OPC_XCHG_ax_r32	(0x90)
=20
 #define OPC_GRP3_Ev	(0xf7)
@@ -479,11 +559,20 @@ static void tcg_out_modrm(TCGContext *s, int opc, int=
 r, int rm)
     tcg_out8(s, 0xc0 | (LOWREGMASK(r) << 3) | LOWREGMASK(rm));
 }
=20
-static void tcg_out_vex_modrm(TCGContext *s, int opc, int r, int v, int rm)
+static void tcg_out_vex_opc(TCGContext *s, int opc, int r, int v,
+                            int rm, int index)
 {
     int tmp;
=20
-    if ((opc & (P_REXW | P_EXT | P_EXT38)) || (rm & 8)) {
+    /* Use the two byte form if possible, which cannot encode
+       VEX.W, VEX.B, VEX.X, or an m-mmmm field other than P_EXT.  */
+    if ((opc & (P_EXT | P_EXT38 | P_REXW)) =3D=3D P_EXT
+        && ((rm | index) & 8) =3D=3D 0) {
+        /* Two byte VEX prefix.  */
+        tcg_out8(s, 0xc5);
+
+        tmp =3D (r & 8 ? 0 : 0x80);              /* VEX.R */
+    } else {
         /* Three byte VEX prefix.  */
         tcg_out8(s, 0xc4);
=20
@@ -493,20 +582,17 @@ static void tcg_out_vex_modrm(TCGContext *s, int opc,=
 int r, int v, int rm)
         } else if (opc & P_EXT) {
             tmp =3D 1;
         } else {
-            tcg_abort();
+            g_assert_not_reached();
         }
-        tmp |=3D 0x40;                       /* VEX.X */
-        tmp |=3D (r & 8 ? 0 : 0x80);         /* VEX.R */
-        tmp |=3D (rm & 8 ? 0 : 0x20);        /* VEX.B */
+        tmp |=3D (r & 8 ? 0 : 0x80);             /* VEX.R */
+        tmp |=3D (index & 8 ? 0 : 0x40);         /* VEX.X */
+        tmp |=3D (rm & 8 ? 0 : 0x20);            /* VEX.B */
         tcg_out8(s, tmp);
=20
-        tmp =3D (opc & P_REXW ? 0x80 : 0);   /* VEX.W */
-    } else {
-        /* Two byte VEX prefix.  */
-        tcg_out8(s, 0xc5);
-
-        tmp =3D (r & 8 ? 0 : 0x80);          /* VEX.R */
+        tmp =3D (opc & P_REXW ? 0x80 : 0);       /* VEX.W */
     }
+
+    tmp |=3D (opc & P_VEXL ? 0x04 : 0);      /* VEX.L */
     /* VEX.pp */
     if (opc & P_DATA16) {
         tmp |=3D 1;                          /* 0x66 */
@@ -518,6 +604,11 @@ static void tcg_out_vex_modrm(TCGContext *s, int opc, =
int r, int v, int rm)
     tmp |=3D (~v & 15) << 3;                 /* VEX.vvvv */
     tcg_out8(s, tmp);
     tcg_out8(s, opc);
+}
+
+static void tcg_out_vex_modrm(TCGContext *s, int opc, int r, int v, int rm)
+{
+    tcg_out_vex_opc(s, opc, r, v, rm, 0);
     tcg_out8(s, 0xc0 | (LOWREGMASK(r) << 3) | LOWREGMASK(rm));
 }
=20
@@ -526,8 +617,8 @@ static void tcg_out_vex_modrm(TCGContext *s, int opc, i=
nt r, int v, int rm)
    mode for absolute addresses, ~RM is the size of the immediate operand
    that will follow the instruction.  */
=20
-static void tcg_out_modrm_sib_offset(TCGContext *s, int opc, int r, int rm,
-                                     int index, int shift, intptr_t offset)
+static void tcg_out_sib_offset(TCGContext *s, int r, int rm, int index,
+                               int shift, intptr_t offset)
 {
     int mod, len;
=20
@@ -538,7 +629,6 @@ static void tcg_out_modrm_sib_offset(TCGContext *s, int=
 opc, int r, int rm,
             intptr_t pc =3D (intptr_t)s->code_ptr + 5 + ~rm;
             intptr_t disp =3D offset - pc;
             if (disp =3D=3D (int32_t)disp) {
-                tcg_out_opc(s, opc, r, 0, 0);
                 tcg_out8(s, (LOWREGMASK(r) << 3) | 5);
                 tcg_out32(s, disp);
                 return;
@@ -548,7 +638,6 @@ static void tcg_out_modrm_sib_offset(TCGContext *s, int=
 opc, int r, int rm,
                use of the MODRM+SIB encoding and is therefore larger than
                rip-relative addressing.  */
             if (offset =3D=3D (int32_t)offset) {
-                tcg_out_opc(s, opc, r, 0, 0);
                 tcg_out8(s, (LOWREGMASK(r) << 3) | 4);
                 tcg_out8(s, (4 << 3) | 5);
                 tcg_out32(s, offset);
@@ -556,10 +645,9 @@ static void tcg_out_modrm_sib_offset(TCGContext *s, in=
t opc, int r, int rm,
             }
=20
             /* ??? The memory isn't directly addressable.  */
-            tcg_abort();
+            g_assert_not_reached();
         } else {
             /* Absolute address.  */
-            tcg_out_opc(s, opc, r, 0, 0);
             tcg_out8(s, (r << 3) | 5);
             tcg_out32(s, offset);
             return;
@@ -582,7 +670,6 @@ static void tcg_out_modrm_sib_offset(TCGContext *s, int=
 opc, int r, int rm,
        that would be used for %esp is the escape to the two byte form.  */
     if (index < 0 && LOWREGMASK(rm) !=3D TCG_REG_ESP) {
         /* Single byte MODRM format.  */
-        tcg_out_opc(s, opc, r, rm, 0);
         tcg_out8(s, mod | (LOWREGMASK(r) << 3) | LOWREGMASK(rm));
     } else {
         /* Two byte MODRM+SIB format.  */
@@ -596,7 +683,6 @@ static void tcg_out_modrm_sib_offset(TCGContext *s, int=
 opc, int r, int rm,
             tcg_debug_assert(index !=3D TCG_REG_ESP);
         }
=20
-        tcg_out_opc(s, opc, r, rm, index);
         tcg_out8(s, mod | (LOWREGMASK(r) << 3) | 4);
         tcg_out8(s, (shift << 6) | (LOWREGMASK(index) << 3) | LOWREGMASK(r=
m));
     }
@@ -608,6 +694,21 @@ static void tcg_out_modrm_sib_offset(TCGContext *s, in=
t opc, int r, int rm,
     }
 }
=20
+static void tcg_out_modrm_sib_offset(TCGContext *s, int opc, int r, int rm,
+                                     int index, int shift, intptr_t offset)
+{
+    tcg_out_opc(s, opc, r, rm < 0 ? 0 : rm, index < 0 ? 0 : index);
+    tcg_out_sib_offset(s, r, rm, index, shift, offset);
+}
+
+static void tcg_out_vex_modrm_sib_offset(TCGContext *s, int opc, int r, in=
t v,
+                                         int rm, int index, int shift,
+                                         intptr_t offset)
+{
+    tcg_out_vex_opc(s, opc, r, v, rm < 0 ? 0 : rm, index < 0 ? 0 : index);
+    tcg_out_sib_offset(s, r, rm, index, shift, offset);
+}
+
 /* A simplification of the above with no index or shift.  */
 static inline void tcg_out_modrm_offset(TCGContext *s, int opc, int r,
                                         int rm, intptr_t offset)
@@ -615,6 +716,30 @@ static inline void tcg_out_modrm_offset(TCGContext *s,=
 int opc, int r,
     tcg_out_modrm_sib_offset(s, opc, r, rm, -1, 0, offset);
 }
=20
+static inline void tcg_out_vex_modrm_offset(TCGContext *s, int opc, int r,
+                                            int v, int rm, intptr_t offset)
+{
+    tcg_out_vex_modrm_sib_offset(s, opc, r, v, rm, -1, 0, offset);
+}
+
+/* Output an opcode with an expected reference to the constant pool.  */
+static inline void tcg_out_modrm_pool(TCGContext *s, int opc, int r)
+{
+    tcg_out_opc(s, opc, r, 0, 0);
+    /* Absolute for 32-bit, pc-relative for 64-bit.  */
+    tcg_out8(s, LOWREGMASK(r) << 3 | 5);
+    tcg_out32(s, 0);
+}
+
+/* Output an opcode with an expected reference to the constant pool.  */
+static inline void tcg_out_vex_modrm_pool(TCGContext *s, int opc, int r)
+{
+    tcg_out_vex_opc(s, opc, r, 0, 0, 0);
+    /* Absolute for 32-bit, pc-relative for 64-bit.  */
+    tcg_out8(s, LOWREGMASK(r) << 3 | 5);
+    tcg_out32(s, 0);
+}
+
 /* Generate dest op=3D src.  Uses the same ARITH_* codes as tgen_arithi.  =
*/
 static inline void tgen_arithr(TCGContext *s, int subop, int dest, int src)
 {
@@ -625,12 +750,114 @@ static inline void tgen_arithr(TCGContext *s, int su=
bop, int dest, int src)
     tcg_out_modrm(s, OPC_ARITH_GvEv + (subop << 3) + ext, dest, src);
 }
=20
-static inline void tcg_out_mov(TCGContext *s, TCGType type,
-                               TCGReg ret, TCGReg arg)
+static void tcg_out_mov(TCGContext *s, TCGType type, TCGReg ret, TCGReg ar=
g)
+{
+    int rexw =3D 0;
+
+    if (arg =3D=3D ret) {
+        return;
+    }
+    switch (type) {
+    case TCG_TYPE_I64:
+        rexw =3D P_REXW;
+        /* fallthru */
+    case TCG_TYPE_I32:
+        if (ret < 16) {
+            if (arg < 16) {
+                tcg_out_modrm(s, OPC_MOVL_GvEv + rexw, ret, arg);
+            } else {
+                tcg_out_vex_modrm(s, OPC_MOVD_EyVy + rexw, ret, 0, arg);
+            }
+        } else {
+            if (arg < 16) {
+                tcg_out_vex_modrm(s, OPC_MOVD_VyEy + rexw, ret, 0, arg);
+            } else {
+                tcg_out_vex_modrm(s, OPC_MOVQ_VqWq, ret, 0, arg);
+            }
+        }
+        break;
+
+    case TCG_TYPE_V64:
+        tcg_debug_assert(ret >=3D 16 && arg >=3D 16);
+        tcg_out_vex_modrm(s, OPC_MOVQ_VqWq, ret, 0, arg);
+        break;
+    case TCG_TYPE_V128:
+        tcg_debug_assert(ret >=3D 16 && arg >=3D 16);
+        tcg_out_vex_modrm(s, OPC_MOVDQA_VxWx, ret, 0, arg);
+        break;
+    case TCG_TYPE_V256:
+        tcg_debug_assert(ret >=3D 16 && arg >=3D 16);
+        tcg_out_vex_modrm(s, OPC_MOVDQA_VxWx | P_VEXL, ret, 0, arg);
+        break;
+
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void tcg_out_dup_vec(TCGContext *s, TCGType type, unsigned vece,
+                            TCGReg r, TCGReg a)
 {
-    if (arg !=3D ret) {
-        int opc =3D OPC_MOVL_GvEv + (type =3D=3D TCG_TYPE_I64 ? P_REXW : 0=
);
-        tcg_out_modrm(s, opc, ret, arg);
+    if (have_avx2) {
+        static const int dup_insn[4] =3D {
+            OPC_VPBROADCASTB, OPC_VPBROADCASTW,
+            OPC_VPBROADCASTD, OPC_VPBROADCASTQ,
+        };
+        int vex_l =3D (type =3D=3D TCG_TYPE_V256 ? P_VEXL : 0);
+        tcg_out_vex_modrm(s, dup_insn[vece] + vex_l, r, 0, a);
+    } else {
+        switch (vece) {
+        case MO_8:
+            /* ??? With zero in a register, use PSHUFB.  */
+            tcg_out_vex_modrm(s, OPC_PUNPCKLBW, r, 0, a);
+            a =3D r;
+            /* FALLTHRU */
+        case MO_16:
+            tcg_out_vex_modrm(s, OPC_PUNPCKLWD, r, 0, a);
+            a =3D r;
+            /* FALLTHRU */
+        case MO_32:
+            tcg_out_vex_modrm(s, OPC_PSHUFD, r, 0, a);
+            /* imm8 operand: all output lanes selected from input lane 0. =
 */
+            tcg_out8(s, 0);
+            break;
+        case MO_64:
+            tcg_out_vex_modrm(s, OPC_PUNPCKLQDQ, r, 0, a);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+    }
+}
+
+static void tcg_out_dupi_vec(TCGContext *s, TCGType type,
+                             TCGReg ret, tcg_target_long arg)
+{
+    int vex_l =3D (type =3D=3D TCG_TYPE_V256 ? P_VEXL : 0);
+
+    if (arg =3D=3D 0) {
+        tcg_out_vex_modrm(s, OPC_PXOR, ret, ret, ret);
+        return;
+    }
+    if (arg =3D=3D -1) {
+        tcg_out_vex_modrm(s, OPC_PCMPEQB + vex_l, ret, ret, ret);
+        return;
+    }
+
+    if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        if (have_avx2) {
+            tcg_out_vex_modrm_pool(s, OPC_VPBROADCASTQ + vex_l, ret);
+        } else {
+            tcg_out_vex_modrm_pool(s, OPC_MOVDDUP, ret);
+        }
+        new_pool_label(s, arg, R_386_PC32, s->code_ptr - 4, -4);
+    } else if (have_avx2) {
+        tcg_out_vex_modrm_pool(s, OPC_VPBROADCASTD + vex_l, ret);
+        new_pool_label(s, arg, R_386_32, s->code_ptr - 4, 0);
+    } else {
+        tcg_out_vex_modrm_pool(s, OPC_MOVD_VyEy, ret);
+        new_pool_label(s, arg, R_386_32, s->code_ptr - 4, 0);
+        tcg_out_dup_vec(s, type, MO_32, ret, ret);
     }
 }
=20
@@ -639,6 +866,25 @@ static void tcg_out_movi(TCGContext *s, TCGType type,
 {
     tcg_target_long diff;
=20
+    switch (type) {
+    case TCG_TYPE_I32:
+#if TCG_TARGET_REG_BITS =3D=3D 64
+    case TCG_TYPE_I64:
+#endif
+        if (ret < 16) {
+            break;
+        }
+        /* fallthru */
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+    case TCG_TYPE_V256:
+        tcg_debug_assert(ret >=3D 16);
+        tcg_out_dupi_vec(s, type, ret, arg);
+        return;
+    default:
+        g_assert_not_reached();
+    }
+
     if (arg =3D=3D 0) {
         tgen_arithr(s, ARITH_XOR, ret, ret);
         return;
@@ -667,6 +913,59 @@ static void tcg_out_movi(TCGContext *s, TCGType type,
     tcg_out64(s, arg);
 }
=20
+static void tcg_out_movi_vec(TCGContext *s, TCGType type,
+                             TCGReg ret, const TCGArg *a)
+{
+    int n =3D (64 / TCG_TARGET_REG_BITS) << (type - TCG_TYPE_V64);
+    int opc, ofs, rel;
+
+    tcg_debug_assert(ret >=3D 16);
+    tcg_debug_assert(type >=3D TCG_TYPE_V64);
+
+    /* We assume that INDEX_op_dupi could not be used and therefore
+       we must use a constant pool entry.  */
+
+    switch (type) {
+    case TCG_TYPE_V64:
+        opc =3D OPC_MOVQ_VqWq;
+        break;
+    case TCG_TYPE_V128:
+        opc =3D OPC_MOVDQU_VxWx;
+        break;
+    case TCG_TYPE_V256:
+        opc =3D OPC_MOVDQU_VxWx | P_VEXL;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    tcg_out_vex_modrm_pool(s, opc, ret);
+
+    if (TCG_TARGET_REG_BITS =3D=3D 64) {
+        rel =3D R_386_PC32, ofs =3D -4;
+    } else {
+        rel =3D R_386_32, ofs =3D 0;
+    }
+    switch (n) {
+    case 1:
+        new_pool_label(s, a[0], rel, s->code_ptr - 4, rel);
+        break;
+    case 2:
+        new_pool_l2(s, rel, s->code_ptr - 4, ofs, a[0], a[1]);
+        break;
+    case 4:
+        new_pool_l4(s, rel, s->code_ptr - 4, ofs, a[0], a[1], a[2], a[3]);
+        break;
+#if TCG_TARGET_REG_BITS =3D=3D 32
+    case 8:
+        new_pool_l8(s, rel, s->code_ptr - 4, ofs,
+                    a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7]);
+        break;
+#endif
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static inline void tcg_out_pushi(TCGContext *s, tcg_target_long val)
 {
     if (val =3D=3D (int8_t)val) {
@@ -702,18 +1001,74 @@ static inline void tcg_out_pop(TCGContext *s, int re=
g)
     tcg_out_opc(s, OPC_POP_r32 + LOWREGMASK(reg), 0, reg, 0);
 }
=20
-static inline void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
-                              TCGReg arg1, intptr_t arg2)
+static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
+                       TCGReg arg1, intptr_t arg2)
 {
-    int opc =3D OPC_MOVL_GvEv + (type =3D=3D TCG_TYPE_I64 ? P_REXW : 0);
-    tcg_out_modrm_offset(s, opc, ret, arg1, arg2);
+    switch (type) {
+    case TCG_TYPE_I32:
+        if (ret < 16) {
+            tcg_out_modrm_offset(s, OPC_MOVL_GvEv, ret, arg1, arg2);
+        } else {
+            tcg_out_vex_modrm_offset(s, OPC_MOVD_VyEy, ret, 0, arg1, arg2);
+        }
+        break;
+    case TCG_TYPE_I64:
+        if (ret < 16) {
+            tcg_out_modrm_offset(s, OPC_MOVL_GvEv | P_REXW, ret, arg1, arg=
2);
+            break;
+        }
+        /* FALLTHRU */
+    case TCG_TYPE_V64:
+        tcg_debug_assert(ret >=3D 16);
+        tcg_out_vex_modrm_offset(s, OPC_MOVQ_VqWq, ret, 0, arg1, arg2);
+        break;
+    case TCG_TYPE_V128:
+        tcg_debug_assert(ret >=3D 16);
+        tcg_out_vex_modrm_offset(s, OPC_MOVDQU_VxWx, ret, 0, arg1, arg2);
+        break;
+    case TCG_TYPE_V256:
+        tcg_debug_assert(ret >=3D 16);
+        tcg_out_vex_modrm_offset(s, OPC_MOVDQU_VxWx | P_VEXL,
+                                 ret, 0, arg1, arg2);
+        break;
+    default:
+        g_assert_not_reached();
+    }
 }
=20
-static inline void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
-                              TCGReg arg1, intptr_t arg2)
+static void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
+                       TCGReg arg1, intptr_t arg2)
 {
-    int opc =3D OPC_MOVL_EvGv + (type =3D=3D TCG_TYPE_I64 ? P_REXW : 0);
-    tcg_out_modrm_offset(s, opc, arg, arg1, arg2);
+    switch (type) {
+    case TCG_TYPE_I32:
+        if (arg < 16) {
+            tcg_out_modrm_offset(s, OPC_MOVL_EvGv, arg, arg1, arg2);
+        } else {
+            tcg_out_vex_modrm_offset(s, OPC_MOVD_EyVy, arg, 0, arg1, arg2);
+        }
+        break;
+    case TCG_TYPE_I64:
+        if (arg < 16) {
+            tcg_out_modrm_offset(s, OPC_MOVL_EvGv | P_REXW, arg, arg1, arg=
2);
+            break;
+        }
+        /* FALLTHRU */
+    case TCG_TYPE_V64:
+        tcg_debug_assert(arg >=3D 16);
+        tcg_out_vex_modrm_offset(s, OPC_MOVQ_WqVq, arg, 0, arg1, arg2);
+        break;
+    case TCG_TYPE_V128:
+        tcg_debug_assert(arg >=3D 16);
+        tcg_out_vex_modrm_offset(s, OPC_MOVDQU_WxVx, arg, 0, arg1, arg2);
+        break;
+    case TCG_TYPE_V256:
+        tcg_debug_assert(arg >=3D 16);
+        tcg_out_vex_modrm_offset(s, OPC_MOVDQU_WxVx | P_VEXL,
+                                 arg, 0, arg1, arg2);
+        break;
+    default:
+        g_assert_not_reached();
+    }
 }
=20
 static bool tcg_out_sti(TCGContext *s, TCGType type, TCGArg val,
@@ -725,6 +1080,8 @@ static bool tcg_out_sti(TCGContext *s, TCGType type, T=
CGArg val,
             return false;
         }
         rexw =3D P_REXW;
+    } else if (type !=3D TCG_TYPE_I32) {
+        return false;
     }
     tcg_out_modrm_offset(s, OPC_MOVL_EvIz | rexw, 0, base, ofs);
     tcg_out32(s, val);
@@ -2259,8 +2616,10 @@ static inline void tcg_out_op(TCGContext *s, TCGOpco=
de opc,
         break;
     case INDEX_op_mov_i32:  /* Always emitted via tcg_out_mov.  */
     case INDEX_op_mov_i64:
+    case INDEX_op_mov_vec:
     case INDEX_op_movi_i32: /* Always emitted via tcg_out_movi.  */
     case INDEX_op_movi_i64:
+    case INDEX_op_dupi_vec:
     case INDEX_op_call:     /* Always emitted via tcg_out_call.  */
     default:
         tcg_abort();
@@ -2269,6 +2628,73 @@ static inline void tcg_out_op(TCGContext *s, TCGOpco=
de opc,
 #undef OP_32_64
 }
=20
+static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+                           unsigned vecl, unsigned vece,
+                           const TCGArg *args, const int *const_args)
+{
+    static int const add_insn[4] =3D {
+        OPC_PADDB, OPC_PADDW, OPC_PADDD, OPC_PADDQ
+    };
+    static int const sub_insn[4] =3D {
+        OPC_PSUBB, OPC_PSUBW, OPC_PSUBD, OPC_PSUBQ
+    };
+
+    TCGType type =3D vecl + TCG_TYPE_V64;
+    int insn;
+    TCGArg a0, a1, a2;
+
+    a0 =3D args[0];
+    a1 =3D args[1];
+    a2 =3D args[2];
+
+    switch (opc) {
+    case INDEX_op_add_vec:
+        insn =3D add_insn[vece];
+        goto gen_simd;
+    case INDEX_op_sub_vec:
+        insn =3D sub_insn[vece];
+        goto gen_simd;
+    case INDEX_op_and_vec:
+        insn =3D OPC_PAND;
+        goto gen_simd;
+    case INDEX_op_or_vec:
+        insn =3D OPC_POR;
+        goto gen_simd;
+    case INDEX_op_xor_vec:
+        insn =3D OPC_PXOR;
+    gen_simd:
+        if (type =3D=3D TCG_TYPE_V256) {
+            insn |=3D P_VEXL;
+        }
+        tcg_out_vex_modrm(s, insn, a0, a1, a2);
+        break;
+
+    case INDEX_op_andc_vec:
+        insn =3D OPC_PANDN;
+        if (type =3D=3D TCG_TYPE_V256) {
+            insn |=3D P_VEXL;
+        }
+        tcg_out_vex_modrm(s, insn, a0, a2, a1);
+        break;
+
+    case INDEX_op_ld_vec:
+        tcg_out_ld(s, type, a0, a1, a2);
+        break;
+    case INDEX_op_st_vec:
+        tcg_out_st(s, type, a0, a1, a2);
+        break;
+    case INDEX_op_movi_vec:
+        tcg_out_movi_vec(s, type, a0, args + 1);
+        break;
+    case INDEX_op_dup_vec:
+        tcg_out_dup_vec(s, type, vece, a0, a1);
+        break;
+
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
 {
     static const TCGTargetOpDef r =3D { .args_ct_str =3D { "r" } };
@@ -2292,6 +2718,9 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpc=
ode op)
         =3D { .args_ct_str =3D { "r", "r", "L", "L" } };
     static const TCGTargetOpDef L_L_L_L
         =3D { .args_ct_str =3D { "L", "L", "L", "L" } };
+    static const TCGTargetOpDef x_x =3D { .args_ct_str =3D { "x", "x" } };
+    static const TCGTargetOpDef x_x_x =3D { .args_ct_str =3D { "x", "x", "=
x" } };
+    static const TCGTargetOpDef x_r =3D { .args_ct_str =3D { "x", "r" } };
=20
     switch (op) {
     case INDEX_op_goto_ptr:
@@ -2493,6 +2922,20 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOp=
code op)
             return &s2;
         }
=20
+    case INDEX_op_ld_vec:
+    case INDEX_op_st_vec:
+        return &x_r;
+
+    case INDEX_op_add_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_andc_vec:
+        return &x_x_x;
+    case INDEX_op_dup_vec:
+        return &x_x;
+
     default:
         break;
     }
@@ -2577,6 +3020,9 @@ static void tcg_target_qemu_prologue(TCGContext *s)
=20
     tcg_out_addi(s, TCG_REG_CALL_STACK, stack_addend);
=20
+    if (have_avx2) {
+        tcg_out_vex_opc(s, OPC_VZEROUPPER, 0, 0, 0, 0);
+    }
     for (i =3D ARRAY_SIZE(tcg_target_callee_save_regs) - 1; i >=3D 0; i--)=
 {
         tcg_out_pop(s, tcg_target_callee_save_regs[i]);
     }
@@ -2598,9 +3044,16 @@ static void tcg_out_nop_fill(tcg_insn_unit *p, int c=
ount)
 static void tcg_target_init(TCGContext *s)
 {
 #ifdef CONFIG_CPUID_H
-    unsigned a, b, c, d;
+    unsigned a, b, c, d, b7 =3D 0;
     int max =3D __get_cpuid_max(0, 0);
=20
+    if (max >=3D 7) {
+        /* BMI1 is available on AMD Piledriver and Intel Haswell CPUs.  */
+        __cpuid_count(7, 0, a, b7, c, d);
+        have_bmi1 =3D (b7 & bit_BMI) !=3D 0;
+        have_bmi2 =3D (b7 & bit_BMI2) !=3D 0;
+    }
+
     if (max >=3D 1) {
         __cpuid(1, a, b, c, d);
 #ifndef have_cmov
@@ -2609,17 +3062,22 @@ static void tcg_target_init(TCGContext *s)
            available, we'll use a small forward branch.  */
         have_cmov =3D (d & bit_CMOV) !=3D 0;
 #endif
+
         /* MOVBE is only available on Intel Atom and Haswell CPUs, so we
            need to probe for it.  */
         have_movbe =3D (c & bit_MOVBE) !=3D 0;
         have_popcnt =3D (c & bit_POPCNT) !=3D 0;
-    }
=20
-    if (max >=3D 7) {
-        /* BMI1 is available on AMD Piledriver and Intel Haswell CPUs.  */
-        __cpuid_count(7, 0, a, b, c, d);
-        have_bmi1 =3D (b & bit_BMI) !=3D 0;
-        have_bmi2 =3D (b & bit_BMI2) !=3D 0;
+        /* There are a number of things we must check before we can be
+           sure of not hitting invalid opcode.  */
+        if (c & bit_OSXSAVE) {
+            unsigned xcrl, xcrh;
+            asm ("xgetbv" : "=3Da" (xcrl), "=3Dd" (xcrh) : "c" (0));
+            if ((xcrl & 6) =3D=3D 6) {
+                have_avx1 =3D (c & bit_AVX) !=3D 0;
+                have_avx2 =3D (b7 & bit_AVX2) !=3D 0;
+            }
+        }
     }
=20
     max =3D __get_cpuid_max(0x8000000, 0);
@@ -2630,11 +3088,16 @@ static void tcg_target_init(TCGContext *s)
     }
 #endif /* CONFIG_CPUID_H */
=20
+    tcg_target_available_regs[TCG_TYPE_I32] =3D ALL_GENERAL_REGS;
     if (TCG_TARGET_REG_BITS =3D=3D 64) {
-        tcg_target_available_regs[TCG_TYPE_I32] =3D 0xffff;
-        tcg_target_available_regs[TCG_TYPE_I64] =3D 0xffff;
-    } else {
-        tcg_target_available_regs[TCG_TYPE_I32] =3D 0xff;
+        tcg_target_available_regs[TCG_TYPE_I64] =3D ALL_GENERAL_REGS;
+    }
+    if (have_avx1) {
+        tcg_target_available_regs[TCG_TYPE_V64] =3D ALL_VECTOR_REGS;
+        tcg_target_available_regs[TCG_TYPE_V128] =3D ALL_VECTOR_REGS;
+    }
+    if (have_avx2) {
+        tcg_target_available_regs[TCG_TYPE_V256] =3D ALL_VECTOR_REGS;
     }
=20
     tcg_target_call_clobber_regs =3D 0;
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300024244308.21609437797804;
 Tue, 21 Nov 2017 13:33:44 -0800 (PST)
Received: from localhost ([::1]:36600 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGAg-0000Ku-7a
	for importer@patchew.org; Tue, 21 Nov 2017 16:33:34 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54079)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5D-0004R6-5q
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:56 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5C-0007k0-5T
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:55 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:40248)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5B-0007jl-VO
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:54 -0500
Received: by mail-wm0-x242.google.com with SMTP id b189so6266478wmd.5
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:53 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.51 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:51 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=RaKEgOy5PTcHDYX4YjVz+3lAvMKFpHo7aLXzwCfdXUo=;
	b=am6hClXdkbyADPYH2LixWtS6gth8+eDzkXaTuKOboWHlZLoDth/Cv40m0iqemaOnuu
	e8HyRenUddqnn0kSgTJitK0qCIAO+QH/vVcAZllwudk1n1qO7XzZBn4+FKDVI+yOrYjz
	7Nrg4gOFYivxl3oafEx2DuW3qY7YZAaHomFTQ=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=RaKEgOy5PTcHDYX4YjVz+3lAvMKFpHo7aLXzwCfdXUo=;
	b=DV9+dGrqKp576kax+E8mf5dRf5Oxm/hr1GQ4mkXOk6TmxLxutYVSO2uBeNTXC6psgB
	oSVT1pXImIN+Sst/vIaLjBr6WlOM76vlt8Uow3G2UlMy791nepUUmiPaJfAESILMYdrB
	UIy+MVQez8XmWEZ6egkvK6TtGhIFqeTW8gkop8bxUHAPgdpt4IsKWGtIqcxgQPQ9A1bC
	2T1j1TBooAiJowi1DtOaSPajyTdOr37bqNWGa0GvHlwg1ttDbdD5ffEUElHtBUrIMhfO
	jm1x1ZqMuh3YWqyCqQWUfV0ltrUYKyehA6UD+BUh0KUBttDBMo/Hh5ZTWJGpMHNK5qmP
	3QIQ==
X-Gm-Message-State: AJaThX5mdWW7y1zIu9W+3E237e8p5XRTRDb1dOfrDgf981yqRM/1FcmD
	HJO9TxQijg7xJY9yJyyIszr/xQeCQ1s=
X-Google-Smtp-Source: 
 AGs4zMZX9781lB2aqqMnwJ0VHdnTft8nI/vOFpRKtBtDr1wWBYzsEB2Mi1Uc42+2qVgBjFSB8WTghw==
X-Received: by 10.28.225.197 with SMTP id y188mr2568861wmg.12.1511299672775;
	Tue, 21 Nov 2017 13:27:52 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:21 +0100
Message-Id: <20171121212534.5177-14-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 13/26] tcg: Add tcg_expand_vec_op and
 tcg-target.opc.h
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

These will be useful in the next few patches adding shifts,
permutes, and multiplication.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.opc.h |  3 +++
 tcg/tcg-opc.h             |  6 ++++++
 tcg/tcg.h                 | 11 +++++++++++
 tcg/i386/tcg-target.inc.c | 21 +++++++++++++++++++++
 tcg/tcg.c                 |  6 +++---
 5 files changed, 44 insertions(+), 3 deletions(-)
 create mode 100644 tcg/i386/tcg-target.opc.h

diff --git a/tcg/i386/tcg-target.opc.h b/tcg/i386/tcg-target.opc.h
new file mode 100644
index 0000000000..4816a6c3d4
--- /dev/null
+++ b/tcg/i386/tcg-target.opc.h
@@ -0,0 +1,3 @@
+/* Target-specific opcodes for host vector expansion.  These will be
+   emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
+   consider these to be UNSPEC with names.  */
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index 4e62eda14b..b4e16cfbc3 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -229,6 +229,12 @@ DEF(andc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_a=
ndc_vec))
 DEF(orc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_orc_vec))
 DEF(not_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_not_vec))
=20
+DEF(last_generic, 0, 0, 0, TCG_OPF_NOT_PRESENT)
+
+#if TCG_TARGET_MAYBE_vec
+#include "tcg-target.opc.h"
+#endif
+
 #undef TLADDR_ARGS
 #undef DATA64_ARGS
 #undef IMPL
diff --git a/tcg/tcg.h b/tcg/tcg.h
index 49d4c5fe05..2cba208b4c 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -1207,6 +1207,17 @@ uintptr_t tcg_qemu_tb_exec(CPUArchState *env, uint8_=
t *tb_ptr);
=20
 void tcg_register_jit(void *buf, size_t buf_size);
=20
+#if TCG_TARGET_MAYBE_vec
+/* Return zero if the tuple (opc, type, vece) is unsupportable;
+   return > 0 if it is directly supportable;
+   return < 0 if we must call tcg_expand_vec_op.  */
+int tcg_can_emit_vec_op(TCGOpcode, TCGType, unsigned);
+
+/* Expand the tuple (opc, type, vece) on the given arguments.  */
+void tcg_expand_vec_op(TCGOpcode, TCGType, unsigned, TCGArg, ...);
+#endif
+
+
 /*
  * Memory helpers that will be used by TCG generated code.
  */
diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index e9a4d92598..062cf16607 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -2942,6 +2942,27 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOp=
code op)
     return NULL;
 }
=20
+int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+{
+    switch (opc) {
+    case INDEX_op_add_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_andc_vec:
+        return true;
+
+    default:
+        return false;
+    }
+}
+
+void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+                       TCGArg a0, ...)
+{
+}
+
 static const int tcg_target_callee_save_regs[] =3D {
 #if TCG_TARGET_REG_BITS =3D=3D 64
     TCG_REG_RBP,
diff --git a/tcg/tcg.c b/tcg/tcg.c
index 16b8faf66f..e725b1818f 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1404,10 +1404,10 @@ bool tcg_op_supported(TCGOpcode op)
     case INDEX_op_orc_vec:
         return have_vec && TCG_TARGET_HAS_orc_vec;
=20
-    case NB_OPS:
-        break;
+    default:
+        tcg_debug_assert(op > INDEX_op_last_generic && op < NB_OPS);
+        return true;
     }
-    g_assert_not_reached();
 }
=20
 /* Note: we convert the 64 bit args to 32 bit and do some alignment
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300535476671.6214140605647;
 Tue, 21 Nov 2017 13:42:15 -0800 (PST)
Received: from localhost ([::1]:36652 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGIv-0008Eo-Li
	for importer@patchew.org; Tue, 21 Nov 2017 16:42:05 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54116)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5H-0004Vc-Hc
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:02 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5E-0007l0-AJ
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:59 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:43987)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5D-0007kU-Sq
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:56 -0500
Received: by mail-wm0-x242.google.com with SMTP id x63so6294675wmf.2
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:55 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.52 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:53 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=1Qw/kpjFM4PWAW2XEiApN9T8ak9b8Ymmu6dhpNI89UE=;
	b=HalAK0g3zx3eCnvTcBw7yWwyFLfHfRQ6ab8GdfuiSQbG69CeFJCXNUIN+VzMQrnCzg
	ScFVWoEVcQZsLflCnsL0XdcDFzkogMaacYLSAhGMg9iSdwwbVIH6ug72pEDJbsIG7Y4b
	vjzDBAH1Mi5FtiTETpwyOdSM+PlxSS0fdHDKo=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=1Qw/kpjFM4PWAW2XEiApN9T8ak9b8Ymmu6dhpNI89UE=;
	b=ie7VwS/mO796G718PrMb3+zrJfgGbV6kGxLU/Q10gbJNYh0IL1z3HA2jRk5rp7Szfa
	C6kKN8DZMOdqUZ4UBBIhCVRmJdZU/bqTZuzkIN3HNv03///yxifkXMHCg2wEwH5cHli+
	0cF8GcupM0fHdsR3W9XaW8HIiDKFZyPP7AXmj2jzz9otk6B8t0hKvYnWmqtTejji17Yh
	K8i55nmtudNvVU1lDfwiFd6tcjHv3ysSKbq1MMOMYggbAbbd0GQIFbSZgTsAv7AoGBFe
	CYhny7jIsoGEtvTSnn4KQ0d2/snxfH7GqQHlhzvS3uJ0oug9ArEYxsK5VcfYYIuW9qxc
	9LNQ==
X-Gm-Message-State: AJaThX5rdHM7gGD41aUjnpItH2S1vmIN1KATWXrcw2zW0mtxk9sIr4cm
	XFd6D9I0l3hEWEG+htRNjIR3H0n8320=
X-Google-Smtp-Source: 
 AGs4zMbGwYre9r+76VMN3t4OG9gay3kys9OtsMfqTvdVg9f8EixTE472UK5U+siJ0MoYUMmfiyQJ4g==
X-Received: by 10.28.236.71 with SMTP id k68mr2289113wmh.120.1511299674250;
	Tue, 21 Nov 2017 13:27:54 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:22 +0100
Message-Id: <20171121212534.5177-15-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 14/26] tcg: Add generic vector ops for
 interleave
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Includes zip, unzip, and transform.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime.h      |  15 ++
 tcg/i386/tcg-target.h        |   3 +
 tcg/tcg-op-gvec.h            |  17 +++
 tcg/tcg-op.h                 |   6 +
 tcg/tcg-opc.h                |   7 +
 tcg/tcg.h                    |   3 +
 accel/tcg/tcg-runtime-gvec.c |  78 ++++++++++
 tcg/tcg-op-gvec.c            | 337 +++++++++++++++++++++++++++++++++++++++=
+++-
 tcg/tcg-op-vec.c             |  55 +++++++
 tcg/tcg.c                    |   9 ++
 tcg/README                   |  40 +++++
 11 files changed, 562 insertions(+), 8 deletions(-)

diff --git a/accel/tcg/tcg-runtime.h b/accel/tcg/tcg-runtime.h
index 76ee41ce58..c6de749134 100644
--- a/accel/tcg/tcg-runtime.h
+++ b/accel/tcg/tcg-runtime.h
@@ -163,3 +163,18 @@ DEF_HELPER_FLAGS_4(gvec_or, TCG_CALL_NO_RWG, void, ptr=
, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_xor, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_andc, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_orc, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_zip8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_zip16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_zip32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_zip64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_uzp8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uzp16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uzp32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uzp64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_trn8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_trn16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_trn32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_trn64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index f9d3fc4a93..ff0ad7dcdb 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -177,6 +177,9 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_orc_vec          0
 #define TCG_TARGET_HAS_not_vec          0
 #define TCG_TARGET_HAS_neg_vec          0
+#define TCG_TARGET_HAS_zip_vec          0
+#define TCG_TARGET_HAS_uzp_vec          0
+#define TCG_TARGET_HAS_trn_vec          0
=20
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
     (((ofs) =3D=3D 0 && (len) =3D=3D 8) || ((ofs) =3D=3D 8 && (len) =3D=3D=
 8) || \
diff --git a/tcg/tcg-op-gvec.h b/tcg/tcg-op-gvec.h
index 95739946ff..64270a3c74 100644
--- a/tcg/tcg-op-gvec.h
+++ b/tcg/tcg-op-gvec.h
@@ -66,6 +66,8 @@ typedef struct {
     gen_helper_gvec_2 *fno;
     /* The opcode, if any, to which this corresponds.  */
     TCGOpcode opc;
+    /* The data argument to the out-of-line helper.  */
+    uint32_t data;
     /* The vector element size, if applicable.  */
     uint8_t vece;
     /* Prefer i64 to v64.  */
@@ -83,6 +85,8 @@ typedef struct {
     gen_helper_gvec_3 *fno;
     /* The opcode, if any, to which this corresponds.  */
     TCGOpcode opc;
+    /* The data argument to the out-of-line helper.  */
+    uint32_t data;
     /* The vector element size, if applicable.  */
     uint8_t vece;
     /* Prefer i64 to v64.  */
@@ -133,6 +137,19 @@ void tcg_gen_gvec_dup16i(uint32_t dofs, uint32_t s, ui=
nt32_t m, uint16_t x);
 void tcg_gen_gvec_dup32i(uint32_t dofs, uint32_t s, uint32_t m, uint32_t x=
);
 void tcg_gen_gvec_dup64i(uint32_t dofs, uint32_t s, uint32_t m, uint64_t x=
);
=20
+void tcg_gen_gvec_zipl(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_ziph(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_uzpe(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_uzpo(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_trne(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_trno(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+
 /*
  * 64-bit vector operations.  Use these when the register has been allocat=
ed
  * with tcg_global_mem_new_i64, and so we cannot also address it via point=
er.
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index 5f49785cb3..733e29b5f8 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -927,6 +927,12 @@ void tcg_gen_andc_vec(unsigned vece, TCGv_vec r, TCGv_=
vec a, TCGv_vec b);
 void tcg_gen_orc_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_not_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
 void tcg_gen_neg_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+void tcg_gen_zipl_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_ziph_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_uzpe_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_uzpo_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_trne_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_trno_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
=20
 void tcg_gen_ld_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset);
 void tcg_gen_st_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset);
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index b4e16cfbc3..c911d62442 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -229,6 +229,13 @@ DEF(andc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_a=
ndc_vec))
 DEF(orc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_orc_vec))
 DEF(not_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_not_vec))
=20
+DEF(zipl_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_zip_vec))
+DEF(ziph_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_zip_vec))
+DEF(uzpe_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_uzp_vec))
+DEF(uzpo_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_uzp_vec))
+DEF(trne_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_trn_vec))
+DEF(trno_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_trn_vec))
+
 DEF(last_generic, 0, 0, 0, TCG_OPF_NOT_PRESENT)
=20
 #if TCG_TARGET_MAYBE_vec
diff --git a/tcg/tcg.h b/tcg/tcg.h
index 2cba208b4c..c6f7157c60 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -178,6 +178,9 @@ typedef uint64_t TCGRegSet;
 #define TCG_TARGET_HAS_not_vec          0
 #define TCG_TARGET_HAS_andc_vec         0
 #define TCG_TARGET_HAS_orc_vec          0
+#define TCG_TARGET_HAS_zip_vec          0
+#define TCG_TARGET_HAS_uzp_vec          0
+#define TCG_TARGET_HAS_trn_vec          0
 #else
 #define TCG_TARGET_MAYBE_vec            1
 #endif
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index cd1ce12b7e..628df811b2 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -293,3 +293,81 @@ void HELPER(gvec_orc)(void *d, void *a, void *b, uint3=
2_t desc)
     }
     clear_high(d, oprsz, desc);
 }
+
+/* The size of the alloca in the following is currently bounded to 2k.  */
+
+#define DO_ZIP(NAME, TYPE) \
+void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)               =
   \
+{                                                                         =
   \
+    intptr_t oprsz =3D simd_oprsz(desc);                                  =
     \
+    intptr_t oprsz_2 =3D oprsz / 2;                                       =
     \
+    intptr_t i;                                                           =
   \
+    /* We produce output faster than we consume input.                    =
   \
+       Therefore we must be mindful of possible overlap.  */              =
   \
+    if (unlikely((a - d) < (uintptr_t)oprsz)) {                           =
   \
+        void *a_new =3D alloca(oprsz_2);                                  =
     \
+        memcpy(a_new, a, oprsz_2);                                        =
   \
+        a =3D a_new;                                                      =
     \
+    }                                                                     =
   \
+    if (unlikely((b - d) < (uintptr_t)oprsz)) {                           =
   \
+        void *b_new =3D alloca(oprsz_2);                                  =
     \
+        memcpy(b_new, b, oprsz_2);                                        =
   \
+        b =3D b_new;                                                      =
     \
+    }                                                                     =
   \
+    for (i =3D 0; i < oprsz_2; i +=3D sizeof(TYPE)) {                     =
       \
+	*(TYPE *)(d + 2 * i + 0) =3D *(TYPE *)(a + i);                         \
+	*(TYPE *)(d + 2 * i + sizeof(TYPE)) =3D *(TYPE *)(b + i);              \
+    }                                                                     =
   \
+    clear_high(d, oprsz, desc);                                           =
   \
+}
+
+DO_ZIP(gvec_zip8, uint8_t)
+DO_ZIP(gvec_zip16, uint16_t)
+DO_ZIP(gvec_zip32, uint32_t)
+DO_ZIP(gvec_zip64, uint64_t)
+
+#define DO_UZP(NAME, TYPE) \
+void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)               =
   \
+{                                                                         =
   \
+    intptr_t oprsz =3D simd_oprsz(desc);                                  =
     \
+    intptr_t oprsz_2 =3D oprsz / 2;                                       =
     \
+    intptr_t odd_ofs =3D simd_data(desc);                                 =
     \
+    intptr_t i;                                                           =
   \
+    if (unlikely((b - d) < (uintptr_t)oprsz)) {                           =
   \
+        void *b_new =3D alloca(oprsz);                                    =
     \
+        memcpy(b_new, b, oprsz);                                          =
   \
+        b =3D b_new;                                                      =
     \
+    }                                                                     =
   \
+    for (i =3D 0; i < oprsz_2; i +=3D sizeof(TYPE)) {                     =
       \
+        *(TYPE *)(d + i) =3D *(TYPE *)(a + 2 * i + odd_ofs);              =
     \
+    }                                                                     =
   \
+    for (i =3D 0; i < oprsz_2; i +=3D sizeof(TYPE)) {                     =
       \
+        *(TYPE *)(d + oprsz_2 + i) =3D *(TYPE *)(b + 2 * i + odd_ofs);    =
     \
+    }                                                                     =
   \
+    clear_high(d, oprsz, desc);                                           =
   \
+}
+
+DO_UZP(gvec_uzp8, uint8_t)
+DO_UZP(gvec_uzp16, uint16_t)
+DO_UZP(gvec_uzp32, uint32_t)
+DO_UZP(gvec_uzp64, uint64_t)
+
+#define DO_TRN(NAME, TYPE) \
+void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)               =
   \
+{                                                                         =
   \
+    intptr_t oprsz =3D simd_oprsz(desc);                                  =
     \
+    intptr_t odd_ofs =3D simd_data(desc);                                 =
     \
+    intptr_t i;                                                           =
   \
+    for (i =3D 0; i < oprsz; i +=3D 2 * sizeof(TYPE)) {                   =
       \
+        TYPE ae =3D *(TYPE *)(a + i + odd_ofs);                           =
     \
+        TYPE be =3D *(TYPE *)(b + i + odd_ofs);                           =
     \
+	*(TYPE *)(d + i + 0) =3D ae;                                           \
+	*(TYPE *)(d + i + sizeof(TYPE)) =3D be;                                \
+    }                                                                     =
   \
+    clear_high(d, oprsz, desc);                                           =
   \
+}
+
+DO_TRN(gvec_trn8, uint8_t)
+DO_TRN(gvec_trn16, uint16_t)
+DO_TRN(gvec_trn32, uint32_t)
+DO_TRN(gvec_trn64, uint64_t)
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index 925c293f9c..a64baa9dcf 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -466,7 +466,8 @@ void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
        use a cl-sized store to implement the clearing without an extra
        store operation.  This is true for aarch64 and x86_64 hosts.  */
=20
-    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)) {
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)
+        && (!g->opc || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V256, g->vece)=
)) {
         uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 32);
         expand_2_vec(g->vece, dofs, aofs, done, 32, TCG_TYPE_V256, g->fniv=
);
         dofs +=3D done;
@@ -475,7 +476,8 @@ void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
         maxsz -=3D done;
     }
=20
-    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)) {
+    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)
+        && (!g->opc || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V128, g->vece)=
)) {
         uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 16);
         expand_2_vec(g->vece, dofs, aofs, done, 16, TCG_TYPE_V128, g->fniv=
);
         dofs +=3D done;
@@ -486,7 +488,9 @@ void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
=20
     if (check_size_impl(oprsz, 8)) {
         uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 8);
-        if (TCG_TARGET_HAS_v64 && !g->prefer_i64) {
+        if (TCG_TARGET_HAS_v64 && !g->prefer_i64
+            && (!g->opc
+                || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V64, g->vece))) {
             expand_2_vec(g->vece, dofs, aofs, done, 8, TCG_TYPE_V64, g->fn=
iv);
         } else if (g->fni8) {
             expand_2_i64(dofs, aofs, done, g->fni8);
@@ -516,7 +520,7 @@ void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
     }
=20
  do_ool:
-    tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, 0, g->fno);
+    tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, g->data, g->fno);
 }
=20
 /* Expand a vector three-operand operation.  */
@@ -539,7 +543,8 @@ void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint3=
2_t bofs,
        use a cl-sized store to implement the clearing without an extra
        store operation.  This is true for aarch64 and x86_64 hosts.  */
=20
-    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)) {
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)
+        && (!g->opc || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V256, g->vece)=
)) {
         uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 32);
         expand_3_vec(g->vece, dofs, aofs, bofs, done, 32, TCG_TYPE_V256,
                      g->load_dest, g->fniv);
@@ -550,7 +555,8 @@ void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint3=
2_t bofs,
         maxsz -=3D done;
     }
=20
-    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)) {
+    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)
+        && (!g->opc || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V128, g->vece)=
)) {
         uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 16);
         expand_3_vec(g->vece, dofs, aofs, bofs, done, 16, TCG_TYPE_V128,
                      g->load_dest, g->fniv);
@@ -563,7 +569,9 @@ void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint3=
2_t bofs,
=20
     if (check_size_impl(oprsz, 8)) {
         uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 8);
-        if (TCG_TARGET_HAS_v64 && !g->prefer_i64) {
+        if (TCG_TARGET_HAS_v64 && !g->prefer_i64
+            && (!g->opc
+                || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V64, g->vece))) {
             expand_3_vec(g->vece, dofs, aofs, bofs, done, 8, TCG_TYPE_V64,
                          g->load_dest, g->fniv);
         } else if (g->fni8) {
@@ -596,7 +604,7 @@ void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint3=
2_t bofs,
     }
=20
  do_ool:
-    tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, 0, g->fno);
+    tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, g->data, g->fno);
 }
=20
 /*
@@ -1015,3 +1023,316 @@ void tcg_gen_gvec_orc(unsigned vece, uint32_t dofs,=
 uint32_t aofs,
     };
     tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
 }
+
+static void do_zip(unsigned vece, uint32_t dofs, uint32_t aofs,
+                   uint32_t bofs, uint32_t oprsz, uint32_t maxsz,
+                   bool high)
+{
+    static gen_helper_gvec_3 * const zip_fns[4] =3D {
+        gen_helper_gvec_zip8,
+        gen_helper_gvec_zip16,
+        gen_helper_gvec_zip32,
+        gen_helper_gvec_zip64,
+    };
+
+    TCGType type;
+    uint32_t step, i, n;
+    TCGOpcode zip_op;
+
+    check_size_align(oprsz, maxsz, dofs | aofs | bofs);
+    check_overlap_3(dofs, aofs, bofs, oprsz);
+    tcg_debug_assert(vece <=3D MO_64);
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > 4 * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    zip_op =3D high ? INDEX_op_ziph_vec : INDEX_op_zipl_vec;
+
+    /* Since these operations don't operate in lock-step lanes,
+       we must care for overlap.  */
+    if (TCG_TARGET_HAS_v256 && oprsz % 32 =3D=3D 0 && oprsz / 32 <=3D 8
+        && tcg_can_emit_vec_op(zip_op, TCG_TYPE_V256, vece)) {
+        type =3D TCG_TYPE_V256;
+        step =3D 32;
+        n =3D oprsz / 32;
+    } else if (TCG_TARGET_HAS_v128 && oprsz % 16 =3D=3D 0 && oprsz / 16 <=
=3D 8
+               && tcg_can_emit_vec_op(zip_op, TCG_TYPE_V128, vece)) {
+        type =3D TCG_TYPE_V128;
+        step =3D 16;
+        n =3D oprsz / 16;
+    } else if (TCG_TARGET_HAS_v64 && oprsz % 8 =3D=3D 0 && oprsz / 8 <=3D 8
+               && tcg_can_emit_vec_op(zip_op, TCG_TYPE_V64, vece)) {
+        type =3D TCG_TYPE_V64;
+        step =3D 8;
+        n =3D oprsz / 8;
+    } else {
+        goto do_ool;
+    }
+
+    if (n =3D=3D 1) {
+        TCGv_vec t1 =3D tcg_temp_new_vec(type);
+        TCGv_vec t2 =3D tcg_temp_new_vec(type);
+
+        tcg_gen_ld_vec(t1, cpu_env, aofs);
+        tcg_gen_ld_vec(t2, cpu_env, bofs);
+        if (high) {
+            tcg_gen_ziph_vec(vece, t1, t1, t2);
+        } else {
+            tcg_gen_zipl_vec(vece, t1, t1, t2);
+        }
+        tcg_gen_st_vec(t1, cpu_env, dofs);
+        tcg_temp_free_vec(t1);
+        tcg_temp_free_vec(t2);
+    } else {
+        TCGv_vec ta[4], tb[4], tmp;
+
+        if (high) {
+            aofs +=3D oprsz / 2;
+            bofs +=3D oprsz / 2;
+        }
+
+        for (i =3D 0; i < (n / 2 + n % 2); ++i) {
+            ta[i] =3D tcg_temp_new_vec(type);
+            tb[i] =3D tcg_temp_new_vec(type);
+            tcg_gen_ld_vec(ta[i], cpu_env, aofs + i * step);
+            tcg_gen_ld_vec(tb[i], cpu_env, bofs + i * step);
+        }
+
+        tmp =3D tcg_temp_new_vec(type);
+        for (i =3D 0; i < n; ++i) {
+            if (i & 1) {
+                tcg_gen_ziph_vec(vece, tmp, ta[i / 2], tb[i / 2]);
+            } else {
+                tcg_gen_zipl_vec(vece, tmp, ta[i / 2], tb[i / 2]);
+            }
+            tcg_gen_st_vec(tmp, cpu_env, dofs + i * step);
+        }
+        tcg_temp_free_vec(tmp);
+
+        for (i =3D 0; i < (n / 2 + n % 2); ++i) {
+            tcg_temp_free_vec(ta[i]);
+            tcg_temp_free_vec(tb[i]);
+        }
+    }
+    if (oprsz < maxsz) {
+        expand_clr(dofs + oprsz, maxsz - oprsz);
+    }
+    return;
+
+  do_ool:
+    if (high) {
+        aofs +=3D oprsz / 2;
+        bofs +=3D oprsz / 2;
+    }
+    tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, 0, zip_fns[vece]);
+}
+
+void tcg_gen_gvec_zipl(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
+{
+    do_zip(vece, dofs, aofs, bofs, oprsz, maxsz, false);
+}
+
+void tcg_gen_gvec_ziph(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
+{
+    do_zip(vece, dofs, aofs, bofs, oprsz, maxsz, true);
+}
+
+static void do_uzp(unsigned vece, uint32_t dofs, uint32_t aofs,
+                   uint32_t bofs, uint32_t oprsz, uint32_t maxsz, bool odd)
+{
+    static gen_helper_gvec_3 * const uzp_fns[4] =3D {
+        gen_helper_gvec_uzp8,
+        gen_helper_gvec_uzp16,
+        gen_helper_gvec_uzp32,
+        gen_helper_gvec_uzp64,
+    };
+
+    TCGType type;
+    uint32_t step, i, n;
+    TCGv_vec t[8];
+    TCGOpcode uzp_op;
+
+    check_size_align(oprsz, maxsz, dofs | aofs | bofs);
+    check_overlap_3(dofs, aofs, bofs, oprsz);
+    tcg_debug_assert(vece <=3D MO_64);
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > 4 * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    uzp_op =3D odd ? INDEX_op_uzpo_vec : INDEX_op_uzpe_vec;
+
+    /* Since these operations don't operate in lock-step lanes,
+       we must care for overlap.  */
+    if (TCG_TARGET_HAS_v256 && oprsz % 32 =3D=3D 0 && oprsz / 32 <=3D 4
+        && tcg_can_emit_vec_op(uzp_op, TCG_TYPE_V256, vece)) {
+        type =3D TCG_TYPE_V256;
+        step =3D 32;
+        n =3D oprsz / 32;
+    } else if (TCG_TARGET_HAS_v128 && oprsz % 16 =3D=3D 0 && oprsz / 16 <=
=3D 4
+               && tcg_can_emit_vec_op(uzp_op, TCG_TYPE_V128, vece)) {
+        type =3D TCG_TYPE_V128;
+        step =3D 16;
+        n =3D oprsz / 16;
+    } else if (TCG_TARGET_HAS_v64 && oprsz % 8 =3D=3D 0 && oprsz / 8 <=3D 4
+               && tcg_can_emit_vec_op(uzp_op, TCG_TYPE_V64, vece)) {
+        type =3D TCG_TYPE_V64;
+        step =3D 8;
+        n =3D oprsz / 8;
+    } else {
+        goto do_ool;
+    }
+
+    for (i =3D 0; i < n; ++i) {
+        t[i] =3D tcg_temp_new_vec(type);
+        tcg_gen_ld_vec(t[i], cpu_env, aofs + i * step);
+    }
+    for (i =3D 0; i < n; ++i) {
+        t[n + i] =3D tcg_temp_new_vec(type);
+        tcg_gen_ld_vec(t[n + i], cpu_env, bofs + i * step);
+    }
+    for (i =3D 0; i < n; ++i) {
+        if (odd) {
+            tcg_gen_uzpo_vec(vece, t[2 * i], t[2 * i], t[2 * i + 1]);
+        } else {
+            tcg_gen_uzpe_vec(vece, t[2 * i], t[2 * i], t[2 * i + 1]);
+        }
+        tcg_gen_st_vec(t[2 * i], cpu_env, dofs + i * step);
+        tcg_temp_free_vec(t[2 * i]);
+        tcg_temp_free_vec(t[2 * i + 1]);
+    }
+    if (oprsz < maxsz) {
+        expand_clr(dofs + oprsz, maxsz - oprsz);
+    }
+    return;
+
+ do_ool:
+    tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz,
+                       (1 << vece) * odd, uzp_fns[vece]);
+}
+
+void tcg_gen_gvec_uzpe(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
+{
+    do_uzp(vece, dofs, aofs, bofs, oprsz, maxsz, false);
+}
+
+void tcg_gen_gvec_uzpo(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t oprsz, uint32_t maxsz)
+{
+    do_uzp(vece, dofs, aofs, bofs, oprsz, maxsz, true);
+}
+
+static void gen_trne8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    uint64_t m =3D 0x00ff00ff00ff00ffull;
+    tcg_gen_andi_i64(a, a, m);
+    tcg_gen_andi_i64(b, b, m);
+    tcg_gen_shli_i64(b, b, 8);
+    tcg_gen_or_i64(d, a, b);
+}
+
+static void gen_trne16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    uint64_t m =3D 0x0000ffff0000ffffull;
+    tcg_gen_andi_i64(a, a, m);
+    tcg_gen_andi_i64(b, b, m);
+    tcg_gen_shli_i64(b, b, 16);
+    tcg_gen_or_i64(d, a, b);
+}
+
+static void gen_trne32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_deposit_i64(d, a, b, 32, 32);
+}
+
+void tcg_gen_gvec_trne(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g[4] =3D {
+        { .fni8 =3D gen_trne8_i64,
+          .fniv =3D tcg_gen_trne_vec,
+          .fno =3D gen_helper_gvec_trn8,
+          .opc =3D INDEX_op_trne_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D gen_trne16_i64,
+          .fniv =3D tcg_gen_trne_vec,
+          .fno =3D gen_helper_gvec_trn16,
+          .opc =3D INDEX_op_trne_vec,
+          .vece =3D MO_16 },
+        { .fni8 =3D gen_trne32_i64,
+          .fniv =3D tcg_gen_trne_vec,
+          .fno =3D gen_helper_gvec_trn32,
+          .opc =3D INDEX_op_trne_vec,
+          .vece =3D MO_32 },
+        { .fniv =3D tcg_gen_trne_vec,
+          .fno =3D gen_helper_gvec_trn64,
+          .opc =3D INDEX_op_trne_vec,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
+}
+
+static void gen_trno8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    uint64_t m =3D 0xff00ff00ff00ff00ull;
+    tcg_gen_andi_i64(a, a, m);
+    tcg_gen_andi_i64(b, b, m);
+    tcg_gen_shri_i64(a, a, 8);
+    tcg_gen_or_i64(d, a, b);
+}
+
+static void gen_trno16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    uint64_t m =3D 0xffff0000ffff0000ull;
+    tcg_gen_andi_i64(a, a, m);
+    tcg_gen_andi_i64(b, b, m);
+    tcg_gen_shri_i64(a, a, 16);
+    tcg_gen_or_i64(d, a, b);
+}
+
+static void gen_trno32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_shri_i64(a, a, 32);
+    tcg_gen_deposit_i64(d, b, a, 0, 32);
+}
+
+void tcg_gen_gvec_trno(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g[4] =3D {
+        { .fni8 =3D gen_trno8_i64,
+          .fniv =3D tcg_gen_trno_vec,
+          .fno =3D gen_helper_gvec_trn8,
+          .opc =3D INDEX_op_trno_vec,
+          .data =3D 1,
+          .vece =3D MO_8 },
+        { .fni8 =3D gen_trno16_i64,
+          .fniv =3D tcg_gen_trno_vec,
+          .fno =3D gen_helper_gvec_trn16,
+          .opc =3D INDEX_op_trno_vec,
+          .data =3D 2,
+          .vece =3D MO_16 },
+        { .fni8 =3D gen_trno32_i64,
+          .fniv =3D tcg_gen_trno_vec,
+          .fno =3D gen_helper_gvec_trn32,
+          .opc =3D INDEX_op_trno_vec,
+          .data =3D 4,
+          .vece =3D MO_32 },
+        { .fniv =3D tcg_gen_trno_vec,
+          .fno =3D gen_helper_gvec_trn64,
+          .opc =3D INDEX_op_trno_vec,
+          .data =3D 8,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
+}
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index 5cfe4af6bd..a5d0ff89c3 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -380,3 +380,58 @@ void tcg_gen_neg_vec(unsigned vece, TCGv_vec r, TCGv_v=
ec a)
         tcg_temp_free_vec(t);
     }
 }
+
+static void do_interleave(TCGOpcode opc, unsigned vece,
+                          TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGTemp *bt =3D tcgv_vec_temp(b);
+    TCGArg ri =3D temp_arg(rt);
+    TCGArg ai =3D temp_arg(at);
+    TCGArg bi =3D temp_arg(bt);
+    TCGType type =3D rt->base_type;
+    unsigned vecl =3D type - TCG_TYPE_V64;
+    int can;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    tcg_debug_assert(bt->base_type =3D=3D type);
+    tcg_debug_assert((8 << vece) <=3D (32 << vecl));
+    can =3D tcg_can_emit_vec_op(opc, type, vece);
+    if (can > 0) {
+        vec_gen_3(opc, type, vece, ri, ai, bi);
+    } else {
+        tcg_debug_assert(can < 0);
+        tcg_expand_vec_op(opc, type, vece, ri, ai, bi);
+    }
+}
+
+void tcg_gen_zipl_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    do_interleave(INDEX_op_zipl_vec, vece, r, a, b);
+}
+
+void tcg_gen_ziph_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    do_interleave(INDEX_op_ziph_vec, vece, r, a, b);
+}
+
+void tcg_gen_uzpe_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    do_interleave(INDEX_op_uzpe_vec, vece, r, a, b);
+}
+
+void tcg_gen_uzpo_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    do_interleave(INDEX_op_uzpo_vec, vece, r, a, b);
+}
+
+void tcg_gen_trne_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    do_interleave(INDEX_op_trne_vec, vece, r, a, b);
+}
+
+void tcg_gen_trno_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    do_interleave(INDEX_op_trno_vec, vece, r, a, b);
+}
diff --git a/tcg/tcg.c b/tcg/tcg.c
index e725b1818f..ec7db4e82d 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1403,6 +1403,15 @@ bool tcg_op_supported(TCGOpcode op)
         return have_vec && TCG_TARGET_HAS_andc_vec;
     case INDEX_op_orc_vec:
         return have_vec && TCG_TARGET_HAS_orc_vec;
+    case INDEX_op_zipl_vec:
+    case INDEX_op_ziph_vec:
+        return have_vec && TCG_TARGET_HAS_zip_vec;
+    case INDEX_op_uzpe_vec:
+    case INDEX_op_uzpo_vec:
+        return have_vec && TCG_TARGET_HAS_uzp_vec;
+    case INDEX_op_trne_vec:
+    case INDEX_op_trno_vec:
+        return have_vec && TCG_TARGET_HAS_trn_vec;
=20
     default:
         tcg_debug_assert(op > INDEX_op_last_generic && op < NB_OPS);
diff --git a/tcg/README b/tcg/README
index e14990fb9b..8ab8d3ab7e 100644
--- a/tcg/README
+++ b/tcg/README
@@ -561,6 +561,46 @@ E.g. VECL=3D1 -> 64 << 1 -> v128, and VECE=3D2 -> 1 <<=
 2 -> i32.
   Similarly, logical operations with and without compliment.
   Note that VECE is unused.
=20
+* zipl_vec  v0, v1, v2
+* ziph_vec  v0, v1, v2
+
+  "Zip" two vectors together, either the low half of v1/v2 or the high hal=
f.
+  The name comes from ARM ARM; the equivalent function in Intel terminology
+  is the less scrutable "punpck".  The effect is
+
+    part =3D ("high" ? VECL/VECE/2 : 0);
+    for (i =3D 0; i < VECL/VECE/2; ++i) {
+      v0[2i + 0] =3D v1[i + part];
+      v0[2i + 1] =3D v2[i + part];
+    }
+
+* uzpe_vec  v0, v1, v2
+* uzpo_vec  v0, v1, v2
+
+  "Unzip" two vectors, either the even elements or the odd elements.
+  If v1 and v2 are the result of zipl and ziph, this performs the
+  inverse operation.  The effect is
+
+    part =3D ("odd" ? 1 : 0)
+    for (i =3D 0; i < VECL/VECE/2; ++i) {
+      v0[i] =3D v1[2i + part];
+    }
+    for (i =3D 0; i < VECL/VECE/2; ++i) {
+      v0[i + VECL/VECE/2] =3D v1[2i + part];
+    }
+
+* trne_vec  v0, v1, v2
+* trno_vec  v1, v1, v2
+
+  "Transpose" two vectors, either the even elements or the odd elements.
+  The effect is
+
+    part =3D ("odd" ? 1 : 0)
+    for (i =3D 0; i < VECL/VECE/2; ++i) {
+      v0[2i + 0] =3D v1[2i + part];
+      v0[2i + 1] =3D v2[2i + part];
+    }
+
 *********
=20
 Note 1: Some shortcuts are defined when the last operand is known to be
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300776674670.8403252659948;
 Tue, 21 Nov 2017 13:46:16 -0800 (PST)
Received: from localhost ([::1]:36684 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGMu-00041m-TE
	for importer@patchew.org; Tue, 21 Nov 2017 16:46:12 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54114)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5H-0004Vb-Gi
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:00 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5E-0007lC-Nv
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:59 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:44107)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5E-0007kl-Fh
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:56 -0500
Received: by mail-wm0-x242.google.com with SMTP id r68so6353176wmr.3
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:56 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.54 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:54 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=QuBWrKgNGFu9gomUQwOFUeI255DsQ+2ZZs3Ag3qWXg8=;
	b=g3e15Va0sqQlal7Y1aZXsc5T2qCh+1NdEVN5xtsiizacWtTOGlc4SFD1XjN0dX0HKP
	v05AgQlM9vX2JYI/Gt1f8H5IuKo1HXqd6xjgY7OHpx7CH/S/A5+j26JbYUBKLwmYKm6X
	dVcn8TG8tr9YWT6fh9zaWFuiJLgLZd8vXZhwc=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=QuBWrKgNGFu9gomUQwOFUeI255DsQ+2ZZs3Ag3qWXg8=;
	b=JonH5iumkig1oTkt7qJhd6so8P6XmYvTQ/WfyWayRYBZDOleoxyBVs54VL1Y96bQxn
	De+9Z/aAtlf1Q7Riw1KgnR5rBBy8qZZrvdA75W7Vo5MmxLYY+UxZTrmApn/T0jr40t9o
	JhBHxtlWfNtZrTPqDA9+ELF2Fjmr5YL6qAtpEnt947eSZrEey+JldLGDAvE+gqiQUW1S
	D7oljLcx2S9hQ7PbUWYkWet3mE4STg98kCczj2wDIHSaD7FS4X8jxHkVLes3S67pRuuL
	QOD6pCylMagoI5wN+p/G85sbNFdhDZxL95xiyJg4fMA4RDyGR7XpbGFmMOIYzmilo23e
	kv6A==
X-Gm-Message-State: AJaThX7Z8TYjJfgWlPMOf6okwfAQ8lINx+e0TPOBcawsQH2XZpoEocAL
	GYsHfRDm+Np4kGSwDIL+yrdJY0uA78M=
X-Google-Smtp-Source: 
 AGs4zMa0aWn1yL8qTCLsw4luscHuIVnzrCcpbV4eNthjXgfDTwtNuLsxN/+za4Cy854hHhFOZFuUAg==
X-Received: by 10.28.127.22 with SMTP id a22mr2260239wmd.12.1511299675300;
	Tue, 21 Nov 2017 13:27:55 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:23 +0100
Message-Id: <20171121212534.5177-16-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 15/26] target/arm: Use vector infrastructure
 for aa64 zip/uzp/trn/xtn
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 103 +++++++++++++++--------------------------=
----
 1 file changed, 35 insertions(+), 68 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index 55a4902fc2..8769b4505a 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -5576,11 +5576,7 @@ static void disas_simd_zip_trn(DisasContext *s, uint=
32_t insn)
     int opcode =3D extract32(insn, 12, 2);
     bool part =3D extract32(insn, 14, 1);
     bool is_q =3D extract32(insn, 30, 1);
-    int esize =3D 8 << size;
-    int i, ofs;
-    int datasize =3D is_q ? 128 : 64;
-    int elements =3D datasize / esize;
-    TCGv_i64 tcg_res, tcg_resl, tcg_resh;
+    GVecGen3Fn *gvec_fn;
=20
     if (opcode =3D=3D 0 || (size =3D=3D 3 && !is_q)) {
         unallocated_encoding(s);
@@ -5591,60 +5587,24 @@ static void disas_simd_zip_trn(DisasContext *s, uin=
t32_t insn)
         return;
     }
=20
-    tcg_resl =3D tcg_const_i64(0);
-    tcg_resh =3D tcg_const_i64(0);
-    tcg_res =3D tcg_temp_new_i64();
-
-    for (i =3D 0; i < elements; i++) {
-        switch (opcode) {
-        case 1: /* UZP1/2 */
-        {
-            int midpoint =3D elements / 2;
-            if (i < midpoint) {
-                read_vec_element(s, tcg_res, rn, 2 * i + part, size);
-            } else {
-                read_vec_element(s, tcg_res, rm,
-                                 2 * (i - midpoint) + part, size);
-            }
-            break;
-        }
-        case 2: /* TRN1/2 */
-            if (i & 1) {
-                read_vec_element(s, tcg_res, rm, (i & ~1) + part, size);
-            } else {
-                read_vec_element(s, tcg_res, rn, (i & ~1) + part, size);
-            }
-            break;
-        case 3: /* ZIP1/2 */
-        {
-            int base =3D part * elements / 2;
-            if (i & 1) {
-                read_vec_element(s, tcg_res, rm, base + (i >> 1), size);
-            } else {
-                read_vec_element(s, tcg_res, rn, base + (i >> 1), size);
-            }
-            break;
-        }
-        default:
-            g_assert_not_reached();
-        }
-
-        ofs =3D i * esize;
-        if (ofs < 64) {
-            tcg_gen_shli_i64(tcg_res, tcg_res, ofs);
-            tcg_gen_or_i64(tcg_resl, tcg_resl, tcg_res);
-        } else {
-            tcg_gen_shli_i64(tcg_res, tcg_res, ofs - 64);
-            tcg_gen_or_i64(tcg_resh, tcg_resh, tcg_res);
-        }
+    switch (opcode) {
+    case 1: /* UZP1/2 */
+        gvec_fn =3D part ? tcg_gen_gvec_uzpo : tcg_gen_gvec_uzpe;
+        break;
+    case 2: /* TRN1/2 */
+        gvec_fn =3D part ? tcg_gen_gvec_trno : tcg_gen_gvec_trne;
+        break;
+    case 3: /* ZIP1/2 */
+        gvec_fn =3D part ? tcg_gen_gvec_ziph : tcg_gen_gvec_zipl;
+        break;
+    default:
+        g_assert_not_reached();
     }
=20
-    tcg_temp_free_i64(tcg_res);
-
-    write_vec_element(s, tcg_resl, rd, 0, MO_64);
-    tcg_temp_free_i64(tcg_resl);
-    write_vec_element(s, tcg_resh, rd, 1, MO_64);
-    tcg_temp_free_i64(tcg_resh);
+    gvec_fn(size, vec_full_reg_offset(s, rd),
+            vec_full_reg_offset(s, rn),
+            vec_full_reg_offset(s, rm),
+            is_q ? 16 : 8, vec_full_reg_size(s));
 }
=20
 static void do_minmaxop(DisasContext *s, TCGv_i32 tcg_elt1, TCGv_i32 tcg_e=
lt2,
@@ -7922,6 +7882,22 @@ static void handle_2misc_narrow(DisasContext *s, boo=
l scalar,
     int destelt =3D is_q ? 2 : 0;
     int passes =3D scalar ? 1 : 2;
=20
+    if (opcode =3D=3D 0x12 && !u) { /* XTN, XTN2 */
+        tcg_debug_assert(!scalar);
+        if (is_q) { /* XTN2 */
+            tcg_gen_gvec_uzpe(size, vec_reg_offset(s, rd, 1, MO_64),
+                              vec_reg_offset(s, rn, 0, MO_64),
+                              vec_reg_offset(s, rn, 1, MO_64),
+                              8, vec_full_reg_size(s) - 8);
+        } else {
+            tcg_gen_gvec_uzpe(size, vec_reg_offset(s, rd, 0, MO_64),
+                              vec_reg_offset(s, rn, 0, MO_64),
+                              vec_reg_offset(s, rn, 1, MO_64),
+                              8, vec_full_reg_size(s));
+        }
+        return;
+    }
+
     if (scalar) {
         tcg_res[1] =3D tcg_const_i32(0);
     }
@@ -7939,23 +7915,14 @@ static void handle_2misc_narrow(DisasContext *s, bo=
ol scalar,
         tcg_res[pass] =3D tcg_temp_new_i32();
=20
         switch (opcode) {
-        case 0x12: /* XTN, SQXTUN */
+        case 0x12: /* , SQXTUN */
         {
-            static NeonGenNarrowFn * const xtnfns[3] =3D {
-                gen_helper_neon_narrow_u8,
-                gen_helper_neon_narrow_u16,
-                tcg_gen_extrl_i64_i32,
-            };
             static NeonGenNarrowEnvFn * const sqxtunfns[3] =3D {
                 gen_helper_neon_unarrow_sat8,
                 gen_helper_neon_unarrow_sat16,
                 gen_helper_neon_unarrow_sat32,
             };
-            if (u) {
-                genenvfn =3D sqxtunfns[size];
-            } else {
-                genfn =3D xtnfns[size];
-            }
+            genenvfn =3D sqxtunfns[size];
             break;
         }
         case 0x14: /* SQXTN, UQXTN */
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300128456562.7712629736031;
 Tue, 21 Nov 2017 13:35:28 -0800 (PST)
Received: from localhost ([::1]:36612 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGCQ-00028a-I5
	for importer@patchew.org; Tue, 21 Nov 2017 16:35:22 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54134)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5J-0004Z4-Od
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:04 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5G-0007ll-Nx
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:01 -0500
Received: from mail-wr0-x244.google.com ([2a00:1450:400c:c0c::244]:35737)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5G-0007lS-9t
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:58 -0500
Received: by mail-wr0-x244.google.com with SMTP id w95so12649198wrc.2
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:58 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.55 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:55 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=gEP25eYik6fxPR0wtymkd7b3FZO+RSo0Zu2+3q/rHkE=;
	b=IxsBGpyP703d0vh40qgaUBZbDkPLrMHs3N7Uyzp2/jR7e5e7jWYRBd1SE6T53Subpp
	RaZhShZhy4x3yrkSdSZBRHM70XpVI7gIRxsNssgE5arGaO1XK8YPtTppiLaiZUI9D5Xu
	vIzDpB5DPlfowtnlDQKFHs1dZE8R/qn5mgHdw=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=gEP25eYik6fxPR0wtymkd7b3FZO+RSo0Zu2+3q/rHkE=;
	b=Ny0uDQsMadD5+UGMJwrkTMxrhZ3t3hkkW5MEIlEBqwj9uOihK7rv5qTRMuioklgqkw
	T0o7+pV22cX4GENwVGG+IQOZ87dF+61ets8eg+wWiyhqRqj7SNnIGR0NsSHEs5NRrtEX
	nLvQa1v3cEP6r7jblY2bheWzM/7C5BW7HwMEzsU9f3xmgynW3c2Ehb24Q0yH2USpLADM
	VVDk1EV6ZXRY69CVuNMPqC1o0CDJcPKH8lpN2BR1Fwcwi/bMgw0N7wlY7KZO8WTOG4RJ
	5OGc5bPNwmq+OFuNb2EBMi7coAYzKOgQrRG51Osq40L6vPzp36OdvOoDlPNtV9EhFqBi
	yFKg==
X-Gm-Message-State: AJaThX5cjgkrxxhAtqTwuGcUiwbb3AXgJeJbEGmgi/tGhhXSu4hOVHFO
	8Yr8EwVOrgy/1clHKOmG2ENi17KaX70=
X-Google-Smtp-Source: 
 AGs4zMbFIq7sOpt2xycfzwKtmy/pUjyPX+RUVVpvywHdj0XsXV23i1xyf8nYeudXbAdqJiXG45Q/qw==
X-Received: by 10.223.184.42 with SMTP id h39mr16378107wrf.38.1511299676694;
	Tue, 21 Nov 2017 13:27:56 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:24 +0100
Message-Id: <20171121212534.5177-17-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::244
Subject: [Qemu-devel] [PATCH v6 16/26] tcg: Add generic vector ops for
 constant shifts
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Opcodes are added for scalar and vector shifts, but considering the
varied semantics of these do not expose them to the front ends.  Do
go ahead and provide them in case they are needed for backend expansion.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime.h      |  15 +++
 tcg/i386/tcg-target.h        |   3 +
 tcg/tcg-op-gvec.h            |  35 ++++++
 tcg/tcg-op.h                 |   5 +
 tcg/tcg-opc.h                |  12 ++
 tcg/tcg.h                    |   3 +
 accel/tcg/tcg-runtime-gvec.c | 149 ++++++++++++++++++++++
 tcg/tcg-op-gvec.c            | 291 +++++++++++++++++++++++++++++++++++++++=
++++
 tcg/tcg-op-vec.c             |  40 ++++++
 tcg/tcg.c                    |  12 ++
 tcg/README                   |  29 +++++
 11 files changed, 594 insertions(+)

diff --git a/accel/tcg/tcg-runtime.h b/accel/tcg/tcg-runtime.h
index c6de749134..cb05a755b8 100644
--- a/accel/tcg/tcg-runtime.h
+++ b/accel/tcg/tcg-runtime.h
@@ -164,6 +164,21 @@ DEF_HELPER_FLAGS_4(gvec_xor, TCG_CALL_NO_RWG, void, pt=
r, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_andc, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_orc, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
=20
+DEF_HELPER_FLAGS_3(gvec_shl8i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_shl16i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_shl32i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_shl64i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_shr8i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_shr16i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_shr32i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_shr64i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_sar8i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_sar16i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_sar32i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_sar64i, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_zip8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_zip16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_zip32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index ff0ad7dcdb..92d533eb92 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -177,6 +177,9 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_orc_vec          0
 #define TCG_TARGET_HAS_not_vec          0
 #define TCG_TARGET_HAS_neg_vec          0
+#define TCG_TARGET_HAS_shi_vec          0
+#define TCG_TARGET_HAS_shs_vec          0
+#define TCG_TARGET_HAS_shv_vec          0
 #define TCG_TARGET_HAS_zip_vec          0
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
diff --git a/tcg/tcg-op-gvec.h b/tcg/tcg-op-gvec.h
index 64270a3c74..de2c0e669a 100644
--- a/tcg/tcg-op-gvec.h
+++ b/tcg/tcg-op-gvec.h
@@ -77,6 +77,25 @@ typedef struct {
 typedef struct {
     /* Expand inline as a 64-bit or 32-bit integer.
        Only one of these will be non-NULL.  */
+    void (*fni8)(TCGv_i64, TCGv_i64, unsigned);
+    void (*fni4)(TCGv_i32, TCGv_i32, unsigned);
+    /* Expand inline with a host vector type.  */
+    void (*fniv)(unsigned, TCGv_vec, TCGv_vec, unsigned);
+    /* Expand out-of-line helper w/descriptor.  */
+    gen_helper_gvec_2 *fno;
+    /* The opcode, if any, to which this corresponds.  */
+    TCGOpcode opc;
+    /* The vector element size, if applicable.  */
+    uint8_t vece;
+    /* Prefer i64 to v64.  */
+    bool prefer_i64;
+    /* Load dest as a 3rd source operand.  */
+    bool load_dest;
+} GVecGen2i;
+
+typedef struct {
+    /* Expand inline as a 64-bit or 32-bit integer.
+       Only one of these will be non-NULL.  */
     void (*fni8)(TCGv_i64, TCGv_i64, TCGv_i64);
     void (*fni4)(TCGv_i32, TCGv_i32, TCGv_i32);
     /* Expand inline with a host vector type.  */
@@ -97,6 +116,8 @@ typedef struct {
=20
 void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
                     uint32_t opsz, uint32_t clsz, const GVecGen2 *);
+void tcg_gen_gvec_2i(uint32_t dofs, uint32_t aofs, uint32_t opsz,
+                     uint32_t clsz, unsigned c, const GVecGen2i *);
 void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint32_t bofs,
                     uint32_t opsz, uint32_t clsz, const GVecGen3 *);
=20
@@ -137,6 +158,13 @@ void tcg_gen_gvec_dup16i(uint32_t dofs, uint32_t s, ui=
nt32_t m, uint16_t x);
 void tcg_gen_gvec_dup32i(uint32_t dofs, uint32_t s, uint32_t m, uint32_t x=
);
 void tcg_gen_gvec_dup64i(uint32_t dofs, uint32_t s, uint32_t m, uint64_t x=
);
=20
+void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t opsz, uint32_t clsz, unsigned shift);
+void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t opsz, uint32_t clsz, unsigned shift);
+void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t opsz, uint32_t clsz, unsigned shift);
+
 void tcg_gen_gvec_zipl(unsigned vece, uint32_t dofs, uint32_t aofs,
                        uint32_t bofs, uint32_t opsz, uint32_t clsz);
 void tcg_gen_gvec_ziph(unsigned vece, uint32_t dofs, uint32_t aofs,
@@ -167,3 +195,10 @@ void tcg_gen_vec_add32_i64(TCGv_i64 d, TCGv_i64 a, TCG=
v_i64 b);
 void tcg_gen_vec_sub8_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 void tcg_gen_vec_sub16_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 void tcg_gen_vec_sub32_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+
+void tcg_gen_vec_shl8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned);
+void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, unsigned);
+void tcg_gen_vec_shr8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned);
+void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, unsigned);
+void tcg_gen_vec_sar8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned);
+void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, unsigned);
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index 733e29b5f8..83478ab006 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -927,6 +927,11 @@ void tcg_gen_andc_vec(unsigned vece, TCGv_vec r, TCGv_=
vec a, TCGv_vec b);
 void tcg_gen_orc_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_not_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
 void tcg_gen_neg_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+
+void tcg_gen_shli_vec(unsigned vece, TCGv_vec r, TCGv_vec a, unsigned i);
+void tcg_gen_shri_vec(unsigned vece, TCGv_vec r, TCGv_vec a, unsigned i);
+void tcg_gen_sari_vec(unsigned vece, TCGv_vec r, TCGv_vec a, unsigned i);
+
 void tcg_gen_zipl_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_ziph_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_uzpe_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index c911d62442..a085fc077b 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -229,6 +229,18 @@ DEF(andc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_a=
ndc_vec))
 DEF(orc_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_orc_vec))
 DEF(not_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_not_vec))
=20
+DEF(shli_vec, 1, 1, 1, IMPLVEC | IMPL(TCG_TARGET_HAS_shi_vec))
+DEF(shri_vec, 1, 1, 1, IMPLVEC | IMPL(TCG_TARGET_HAS_shi_vec))
+DEF(sari_vec, 1, 1, 1, IMPLVEC | IMPL(TCG_TARGET_HAS_shi_vec))
+
+DEF(shls_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_shs_vec))
+DEF(shrs_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_shs_vec))
+DEF(sars_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_shs_vec))
+
+DEF(shlv_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_shv_vec))
+DEF(shrv_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_shv_vec))
+DEF(sarv_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_shv_vec))
+
 DEF(zipl_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_zip_vec))
 DEF(ziph_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_zip_vec))
 DEF(uzpe_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_uzp_vec))
diff --git a/tcg/tcg.h b/tcg/tcg.h
index c6f7157c60..5f414d880e 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -178,6 +178,9 @@ typedef uint64_t TCGRegSet;
 #define TCG_TARGET_HAS_not_vec          0
 #define TCG_TARGET_HAS_andc_vec         0
 #define TCG_TARGET_HAS_orc_vec          0
+#define TCG_TARGET_HAS_shi_vec          0
+#define TCG_TARGET_HAS_shs_vec          0
+#define TCG_TARGET_HAS_shv_vec          0
 #define TCG_TARGET_HAS_zip_vec          0
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index 628df811b2..fba62f1192 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -36,6 +36,11 @@ typedef uint16_t vec16 __attribute__((vector_size(16)));
 typedef uint32_t vec32 __attribute__((vector_size(16)));
 typedef uint64_t vec64 __attribute__((vector_size(16)));
=20
+typedef int8_t svec8 __attribute__((vector_size(16)));
+typedef int16_t svec16 __attribute__((vector_size(16)));
+typedef int32_t svec32 __attribute__((vector_size(16)));
+typedef int64_t svec64 __attribute__((vector_size(16)));
+
 static inline void clear_high(void *d, intptr_t oprsz, uint32_t desc)
 {
     intptr_t maxsz =3D simd_maxsz(desc);
@@ -294,6 +299,150 @@ void HELPER(gvec_orc)(void *d, void *a, void *b, uint=
32_t desc)
     clear_high(d, oprsz, desc);
 }
=20
+void HELPER(gvec_shl8i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(vec8 *)(d + i) =3D *(vec8 *)(a + i) << shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shl16i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(vec16 *)(d + i) =3D *(vec16 *)(a + i) << shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shl32i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(vec32 *)(d + i) =3D *(vec32 *)(a + i) << shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shl64i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) << shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shr8i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(vec8 *)(d + i) =3D *(vec8 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shr16i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(vec16 *)(d + i) =3D *(vec16 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shr32i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(vec32 *)(d + i) =3D *(vec32 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_shr64i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sar8i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(svec8 *)(d + i) =3D *(svec8 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sar16i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(svec16 *)(d + i) =3D *(svec16 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sar32i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(svec32 *)(d + i) =3D *(svec32 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_sar64i)(void *d, void *a, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    int shift =3D simd_data(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(svec64 *)(d + i) =3D *(svec64 *)(a + i) >> shift;
+    }
+    clear_high(d, oprsz, desc);
+}
+
 /* The size of the alloca in the following is currently bounded to 2k.  */
=20
 #define DO_ZIP(NAME, TYPE) \
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index a64baa9dcf..f8ccb137eb 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -342,6 +342,26 @@ static void expand_2_i32(uint32_t dofs, uint32_t aofs,=
 uint32_t opsz,
     tcg_temp_free_i32(t0);
 }
=20
+static void expand_2i_i32(uint32_t dofs, uint32_t aofs, uint32_t opsz,
+                          unsigned c, bool load_dest,
+                          void (*fni)(TCGv_i32, TCGv_i32, unsigned))
+{
+    TCGv_i32 t0 =3D tcg_temp_new_i32();
+    TCGv_i32 t1 =3D tcg_temp_new_i32();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 4) {
+        tcg_gen_ld_i32(t0, cpu_env, aofs + i);
+        if (load_dest) {
+            tcg_gen_ld_i32(t1, cpu_env, dofs + i);
+        }
+        fni(t1, t0, c);
+        tcg_gen_st_i32(t1, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i32(t0);
+    tcg_temp_free_i32(t1);
+}
+
 /* Expand OPSZ bytes worth of three-operand operations using i32 elements.=
  */
 static void expand_3_i32(uint32_t dofs, uint32_t aofs,
                          uint32_t bofs, uint32_t opsz, bool load_dest,
@@ -381,6 +401,26 @@ static void expand_2_i64(uint32_t dofs, uint32_t aofs,=
 uint32_t opsz,
     tcg_temp_free_i64(t0);
 }
=20
+static void expand_2i_i64(uint32_t dofs, uint32_t aofs, uint32_t opsz,
+                          unsigned c, bool load_dest,
+                          void (*fni)(TCGv_i64, TCGv_i64, unsigned))
+{
+    TCGv_i64 t0 =3D tcg_temp_new_i64();
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 8) {
+        tcg_gen_ld_i64(t0, cpu_env, aofs + i);
+        if (load_dest) {
+            tcg_gen_ld_i64(t1, cpu_env, dofs + i);
+        }
+        fni(t1, t0, c);
+        tcg_gen_st_i64(t1, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i64(t0);
+    tcg_temp_free_i64(t1);
+}
+
 /* Expand OPSZ bytes worth of three-operand operations using i64 elements.=
  */
 static void expand_3_i64(uint32_t dofs, uint32_t aofs,
                          uint32_t bofs, uint32_t opsz, bool load_dest,
@@ -421,6 +461,29 @@ static void expand_2_vec(unsigned vece, uint32_t dofs,=
 uint32_t aofs,
     tcg_temp_free_vec(t0);
 }
=20
+/* Expand OPSZ bytes worth of two-vector operands and an immediate operand
+   using host vectors.  */
+static void expand_2i_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
+                          uint32_t opsz, uint32_t tysz, TCGType type,
+                          unsigned c, bool load_dest,
+                          void (*fni)(unsigned, TCGv_vec, TCGv_vec, unsign=
ed))
+{
+    TCGv_vec t0 =3D tcg_temp_new_vec(type);
+    TCGv_vec t1 =3D tcg_temp_new_vec(type);
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D tysz) {
+        tcg_gen_ld_vec(t0, cpu_env, aofs + i);
+        if (load_dest) {
+            tcg_gen_ld_vec(t1, cpu_env, dofs + i);
+        }
+        fni(vece, t1, t0, c);
+        tcg_gen_st_vec(t1, cpu_env, dofs + i);
+    }
+    tcg_temp_free_vec(t0);
+    tcg_temp_free_vec(t1);
+}
+
 /* Expand OPSZ bytes worth of three-operand operations using host vectors.=
  */
 static void expand_3_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
                          uint32_t bofs, uint32_t opsz,
@@ -523,6 +586,85 @@ void tcg_gen_gvec_2(uint32_t dofs, uint32_t aofs,
     tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, g->data, g->fno);
 }
=20
+void tcg_gen_gvec_2i(uint32_t dofs, uint32_t aofs, uint32_t oprsz,
+                     uint32_t maxsz, unsigned c, const GVecGen2i *g)
+{
+    check_size_align(oprsz, maxsz, dofs | aofs);
+    check_overlap_2(dofs, aofs, maxsz);
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > MAX_UNROLL * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    /* Recall that ARM SVE allows vector sizes that are not a power of 2.
+       Expand with successively smaller host vector sizes.  The intent is
+       that e.g. oprsz =3D=3D 80 would be expanded with 2x32 + 1x16.  */
+    /* ??? For maxsz > oprsz, the host may be able to use an op-sized
+       operation, zeroing the balance of the register.  We can then
+       use a cl-sized store to implement the clearing without an extra
+       store operation.  This is true for aarch64 and x86_64 hosts.  */
+
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)
+        && (!g->opc || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V256, g->vece)=
)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 32);
+        expand_2i_vec(g->vece, dofs, aofs, done, 32, TCG_TYPE_V256,
+                      c, g->load_dest, g->fniv);
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)
+        && (!g->opc || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V128, g->vece)=
)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 16);
+        expand_2i_vec(g->vece, dofs, aofs, done, 16, TCG_TYPE_V128,
+                      c, g->load_dest, g->fniv);
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (check_size_impl(oprsz, 8)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 8);
+        if (TCG_TARGET_HAS_v64 && !g->prefer_i64
+            && (!g->opc
+                || tcg_can_emit_vec_op(g->opc, TCG_TYPE_V64, g->vece))) {
+            expand_2i_vec(g->vece, dofs, aofs, done, 8, TCG_TYPE_V64,
+                          c, g->load_dest, g->fniv);
+        } else if (g->fni8) {
+            expand_2i_i64(dofs, aofs, done, c, g->load_dest, g->fni8);
+        } else {
+            done =3D 0;
+        }
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (g->fni4 && check_size_impl(oprsz, 4)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 4);
+        expand_2i_i32(dofs, aofs, done, c, g->load_dest, g->fni4);
+        dofs +=3D done;
+        aofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (oprsz =3D=3D 0) {
+        if (maxsz !=3D 0) {
+            expand_clr(dofs, maxsz);
+        }
+        return;
+    }
+
+ do_ool:
+    tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, 0, g->fno);
+}
+
 /* Expand a vector three-operand operation.  */
 void tcg_gen_gvec_3(uint32_t dofs, uint32_t aofs, uint32_t bofs,
                     uint32_t oprsz, uint32_t maxsz, const GVecGen3 *g)
@@ -1024,6 +1166,155 @@ void tcg_gen_gvec_orc(unsigned vece, uint32_t dofs,=
 uint32_t aofs,
     tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g);
 }
=20
+void tcg_gen_vec_shl8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
+{
+    uint64_t mask =3D ((0xff << c) & 0xff) * (-1ull / 0xff);
+    tcg_gen_shli_i64(d, a, c);
+    tcg_gen_andi_i64(d, d, mask);
+}
+
+void tcg_gen_vec_shl16i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
+{
+    uint64_t mask =3D ((0xffff << c) & 0xffff) * (-1ull / 0xffff);
+    tcg_gen_shli_i64(d, a, c);
+    tcg_gen_andi_i64(d, d, mask);
+}
+
+void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t opsz, uint32_t clsz, unsigned shift)
+{
+    static const GVecGen2i g[4] =3D {
+        { .fni8 =3D tcg_gen_vec_shl8i_i64,
+          .fniv =3D tcg_gen_shli_vec,
+          .fno =3D gen_helper_gvec_shl8i,
+          .opc =3D INDEX_op_shli_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D tcg_gen_vec_shl16i_i64,
+          .fniv =3D tcg_gen_shli_vec,
+          .fno =3D gen_helper_gvec_shl16i,
+          .opc =3D INDEX_op_shli_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_shli_i32,
+          .fniv =3D tcg_gen_shli_vec,
+          .fno =3D gen_helper_gvec_shl32i,
+          .opc =3D INDEX_op_shli_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_shli_i64,
+          .fniv =3D tcg_gen_shli_vec,
+          .fno =3D gen_helper_gvec_shl64i,
+          .opc =3D INDEX_op_shli_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+}
+
+void tcg_gen_vec_shr8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
+{
+    uint64_t mask =3D (0xff >> c) * (-1ull / 0xff);
+    tcg_gen_shri_i64(d, a, c);
+    tcg_gen_andi_i64(d, d, mask);
+}
+
+void tcg_gen_vec_shr16i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
+{
+    uint64_t mask =3D (0xffff >> c) * (-1ull / 0xffff);
+    tcg_gen_shri_i64(d, a, c);
+    tcg_gen_andi_i64(d, d, mask);
+}
+
+void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t opsz, uint32_t clsz, unsigned shift)
+{
+    static const GVecGen2i g[4] =3D {
+        { .fni8 =3D tcg_gen_vec_shr8i_i64,
+          .fniv =3D tcg_gen_shri_vec,
+          .fno =3D gen_helper_gvec_shr8i,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D tcg_gen_vec_shr16i_i64,
+          .fniv =3D tcg_gen_shri_vec,
+          .fno =3D gen_helper_gvec_shr16i,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_shri_i32,
+          .fniv =3D tcg_gen_shri_vec,
+          .fno =3D gen_helper_gvec_shr32i,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_shri_i64,
+          .fniv =3D tcg_gen_shri_vec,
+          .fno =3D gen_helper_gvec_shr64i,
+          .opc =3D INDEX_op_shri_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+}
+
+void tcg_gen_vec_sar8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
+{
+    uint64_t s_mask =3D (0x80 >> c) * (-1ull / 0xff);
+    uint64_t c_mask =3D (0xff >> c) * (-1ull / 0xff);
+    TCGv_i64 s =3D tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(d, a, c);
+    tcg_gen_andi_i64(s, d, s_mask);  /* isolate (shifted) sign bit */
+    tcg_gen_muli_i64(s, s, (2 << c) - 2); /* replicate isolated signs */
+    tcg_gen_andi_i64(d, d, c_mask);  /* clear out bits above sign  */
+    tcg_gen_or_i64(d, d, s);         /* include sign extension */
+    tcg_temp_free_i64(s);
+}
+
+void tcg_gen_vec_sar16i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
+{
+    uint64_t s_mask =3D (0x8000 >> c) * (-1ull / 0xffff);
+    uint64_t c_mask =3D (0xffff >> c) * (-1ull / 0xffff);
+    TCGv_i64 s =3D tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(d, a, c);
+    tcg_gen_andi_i64(s, d, s_mask);  /* isolate (shifted) sign bit */
+    tcg_gen_andi_i64(d, d, c_mask);  /* clear out bits above sign  */
+    tcg_gen_muli_i64(s, s, (2 << c) - 2); /* replicate isolated signs */
+    tcg_gen_or_i64(d, d, s);         /* include sign extension */
+    tcg_temp_free_i64(s);
+}
+
+void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs, uint32_t aofs,
+                       uint32_t opsz, uint32_t clsz, unsigned shift)
+{
+    static const GVecGen2i g[4] =3D {
+        { .fni8 =3D tcg_gen_vec_sar8i_i64,
+          .fniv =3D tcg_gen_sari_vec,
+          .fno =3D gen_helper_gvec_sar8i,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D tcg_gen_vec_sar16i_i64,
+          .fniv =3D tcg_gen_sari_vec,
+          .fno =3D gen_helper_gvec_sar16i,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_sari_i32,
+          .fniv =3D tcg_gen_sari_vec,
+          .fno =3D gen_helper_gvec_sar32i,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_sari_i64,
+          .fniv =3D tcg_gen_sari_vec,
+          .fno =3D gen_helper_gvec_sar64i,
+          .opc =3D INDEX_op_sari_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+}
+
 static void do_zip(unsigned vece, uint32_t dofs, uint32_t aofs,
                    uint32_t bofs, uint32_t oprsz, uint32_t maxsz,
                    bool high)
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index a5d0ff89c3..a441193b8e 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -381,6 +381,46 @@ void tcg_gen_neg_vec(unsigned vece, TCGv_vec r, TCGv_v=
ec a)
     }
 }
=20
+static void do_shifti(TCGOpcode opc, unsigned vece,
+                      TCGv_vec r, TCGv_vec a, unsigned i)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGArg ri =3D temp_arg(rt);
+    TCGArg ai =3D temp_arg(at);
+    TCGType type =3D rt->base_type;
+    unsigned vecl =3D type - TCG_TYPE_V64;
+    int can;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    tcg_debug_assert(i < (8 << vece));
+    can =3D tcg_can_emit_vec_op(opc, type, vece);
+    if (can > 0) {
+        vec_gen_3(opc, type, vece, ri, ai, i);
+    } else {
+        /* We leave the choice of expansion via scalar or vector shift
+           to the target.  Often, but not always, dupi can feed a vector
+           shift easier than a scalar.  */
+        tcg_debug_assert(can < 0);
+        tcg_expand_vec_op(opc, vecl, vece, ri, ai, i);
+    }
+}
+
+void tcg_gen_shli_vec(unsigned vece, TCGv_vec r, TCGv_vec a, unsigned i)
+{
+    do_shifti(INDEX_op_shli_vec, vece, r, a, i);
+}
+
+void tcg_gen_shri_vec(unsigned vece, TCGv_vec r, TCGv_vec a, unsigned i)
+{
+    do_shifti(INDEX_op_shri_vec, vece, r, a, i);
+}
+
+void tcg_gen_sari_vec(unsigned vece, TCGv_vec r, TCGv_vec a, unsigned i)
+{
+    do_shifti(INDEX_op_sari_vec, vece, r, a, i);
+}
+
 static void do_interleave(TCGOpcode opc, unsigned vece,
                           TCGv_vec r, TCGv_vec a, TCGv_vec b)
 {
diff --git a/tcg/tcg.c b/tcg/tcg.c
index ec7db4e82d..4bde7d6afd 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1403,6 +1403,18 @@ bool tcg_op_supported(TCGOpcode op)
         return have_vec && TCG_TARGET_HAS_andc_vec;
     case INDEX_op_orc_vec:
         return have_vec && TCG_TARGET_HAS_orc_vec;
+    case INDEX_op_shli_vec:
+    case INDEX_op_shri_vec:
+    case INDEX_op_sari_vec:
+        return have_vec && TCG_TARGET_HAS_shi_vec;
+    case INDEX_op_shls_vec:
+    case INDEX_op_shrs_vec:
+    case INDEX_op_sars_vec:
+        return have_vec && TCG_TARGET_HAS_shs_vec;
+    case INDEX_op_shlv_vec:
+    case INDEX_op_shrv_vec:
+    case INDEX_op_sarv_vec:
+        return have_vec && TCG_TARGET_HAS_shv_vec;
     case INDEX_op_zipl_vec:
     case INDEX_op_ziph_vec:
         return have_vec && TCG_TARGET_HAS_zip_vec;
diff --git a/tcg/README b/tcg/README
index 8ab8d3ab7e..75db47922d 100644
--- a/tcg/README
+++ b/tcg/README
@@ -561,6 +561,35 @@ E.g. VECL=3D1 -> 64 << 1 -> v128, and VECE=3D2 -> 1 <<=
 2 -> i32.
   Similarly, logical operations with and without compliment.
   Note that VECE is unused.
=20
+* shli_vec   v0, v1, i2
+* shls_vec   v0, v1, s2
+
+  Shift all elements from v1 by a scalar i2/s2.  I.e.
+
+    for (i =3D 0; i < VECL/VECE; ++i) {
+      v0[i] =3D v1[i] << s2;
+    }
+
+* shri_vec   v0, v1, i2
+* sari_vec   v0, v1, i2
+* shrs_vec   v0, v1, s2
+* sars_vec   v0, v1, s2
+
+  Similarly for logical and arithmetic right shift.
+
+* shlv_vec   v0, v1, v2
+
+  Shift elements from v1 by elements from v2.  I.e.
+
+    for (i =3D 0; i < VECL/VECE; ++i) {
+      v0[i] =3D v1[i] << v2[i];
+    }
+
+* shrv_vec   v0, v1, v2
+* sarv_vec   v0, v1, v2
+
+  Similarly for logical and arithmetic right shift.
+
 * zipl_vec  v0, v1, v2
 * ziph_vec  v0, v1, v2
=20
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300952637677.0143178831089;
 Tue, 21 Nov 2017 13:49:12 -0800 (PST)
Received: from localhost ([::1]:36700 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGPk-00078e-MP
	for importer@patchew.org; Tue, 21 Nov 2017 16:49:08 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54136)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5J-0004Z5-PC
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:03 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5H-0007mK-Sp
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:01 -0500
Received: from mail-wr0-x244.google.com ([2a00:1450:400c:c0c::244]:43771)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5H-0007lw-IW
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:27:59 -0500
Received: by mail-wr0-x244.google.com with SMTP id u40so12593377wrf.10
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:27:59 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.56 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:57 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=AUCCcLSiloYJGFdkrS7hcMcQv27xMer+AqIbHA6YACE=;
	b=YzMcrustL45KlU3E9oItFWKQ2/MZZ7p7deWdZP8s6qfd1raO7+tvMU9S7Fn5FcAO92
	c7/cNJYlBBimcpzseXAoul+4j8RnOfJlDS10v9JVuRfhWxuwk2hmcsXFzk7HKwf3jXwo
	hNnE9EWsW7l2qXbRaGVWenBI7NtRkVxBwS55g=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=AUCCcLSiloYJGFdkrS7hcMcQv27xMer+AqIbHA6YACE=;
	b=Od9C8VII7u2dQsPHFZo6k1HKuUgYtE0O9DRP+1DaRz//z8BpjSwr5ThqqujxjRG3G4
	5m75huFYD1R0B/FmeIIBff5LLhy9KFcFAQCWLj8lTHQEqtP9zkKlOueqvb8XkJLIFTaK
	pdWaMuJSW+fBPOlymImaeITzahs+KO97upmKMec0WxzeojsNwJskJF4ZDgaq9qnsZ9qN
	gYAJJc4RS8nGsSrrVGjdJ//3LT1Q/Gf8j+CRo/OOmKB3ieY9L2a3YP96Ua6JlbxbXSCk
	4xYnKH/ek6lcgXiFV2eziT7fbON2ZsFwuSNphUizmmxZ02U+SNz7CsHhYTVo73DNAKb9
	HDfw==
X-Gm-Message-State: AJaThX5znGovJmcNouHsGO3Xz25SVzC4jrrKQm0wmzYSYV1ZARwKDLRC
	04xzFptQ/yXlfYo4dH4WB7Hq2aWBKiY=
X-Google-Smtp-Source: 
 AGs4zManToeRQH0NKZ1x/udp1dST1cLhEq2bxu30K8OANDSUrbLclLjulwekTYm9195wG6R5oT/aQg==
X-Received: by 10.223.184.122 with SMTP id u55mr17394083wrf.61.1511299678158;
	Tue, 21 Nov 2017 13:27:58 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:25 +0100
Message-Id: <20171121212534.5177-18-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::244
Subject: [Qemu-devel] [PATCH v6 17/26] target/arm: Use vector infrastructure
 for aa64 constant shifts
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 386 ++++++++++++++++++++++++++++++++++++++---=
----
 tcg/tcg-op-gvec.c          |  18 ++-
 tcg/tcg-op-vec.c           |   9 +-
 3 files changed, 351 insertions(+), 62 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index 8769b4505a..c47faa5633 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -6432,17 +6432,6 @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res=
, TCGv_i64 tcg_src,
     }
 }
=20
-/* Common SHL/SLI - Shift left with an optional insert */
-static void handle_shli_with_ins(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
-                                 bool insert, int shift)
-{
-    if (insert) { /* SLI */
-        tcg_gen_deposit_i64(tcg_res, tcg_res, tcg_src, shift, 64 - shift);
-    } else { /* SHL */
-        tcg_gen_shli_i64(tcg_res, tcg_src, shift);
-    }
-}
-
 /* SRI: shift right with insert */
 static void handle_shri_with_ins(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
                                  int size, int shift)
@@ -6546,7 +6535,11 @@ static void handle_scalar_simd_shli(DisasContext *s,=
 bool insert,
     tcg_rn =3D read_fp_dreg(s, rn);
     tcg_rd =3D insert ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
=20
-    handle_shli_with_ins(tcg_rd, tcg_rn, insert, shift);
+    if (insert) {
+        tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, shift, 64 - shift);
+    } else {
+        tcg_gen_shli_i64(tcg_rd, tcg_rn, shift);
+    }
=20
     write_fp_dreg(s, rd, tcg_rd);
=20
@@ -8283,16 +8276,195 @@ static void disas_simd_scalar_two_reg_misc(DisasCo=
ntext *s, uint32_t insn)
     }
 }
=20
+static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_vec_sar8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_vec_sar16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, unsigned shift)
+{
+    tcg_gen_sari_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_sari_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, unsigned s=
h)
+{
+    tcg_gen_sari_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_vec_shr8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_vec_shr16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, unsigned shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, unsigned s=
h)
+{
+    tcg_gen_shri_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    uint64_t mask =3D (0xff >> shift) * (-1ull / 0xff);
+    TCGv_i64 t =3D tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    uint64_t mask =3D (0xffff >> shift) * (-1ull / 0xffff);
+    TCGv_i64 t =3D tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, unsigned shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+}
+
+static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+}
+
+static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, unsigne=
d sh)
+{
+    uint64_t mask =3D (2ull << ((8 << vece) - 1)) - 1;
+    TCGv_vec t =3D tcg_temp_new_vec_matching(d);
+    TCGv_vec m =3D tcg_temp_new_vec_matching(d);
+
+    tcg_gen_dupi_vec(vece, m, mask ^ (mask >> sh));
+    tcg_gen_shri_vec(vece, t, a, sh);
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+
+    tcg_temp_free_vec(t);
+    tcg_temp_free_vec(m);
+}
+
 /* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
 static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                                  int immh, int immb, int opcode, int rn, i=
nt rd)
 {
+    static const GVecGen2i ssra_op[4] =3D {
+        { .fni8 =3D gen_ssra8_i64,
+          .fniv =3D gen_ssra_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D gen_ssra16_i64,
+          .fniv =3D gen_ssra_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D gen_ssra32_i32,
+          .fniv =3D gen_ssra_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D gen_ssra64_i64,
+          .fniv =3D gen_ssra_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_sari_vec,
+          .vece =3D MO_64 },
+    };
+    static const GVecGen2i usra_op[4] =3D {
+        { .fni8 =3D gen_usra8_i64,
+          .fniv =3D gen_usra_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_8, },
+        { .fni8 =3D gen_usra16_i64,
+          .fniv =3D gen_usra_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_16, },
+        { .fni4 =3D gen_usra32_i32,
+          .fniv =3D gen_usra_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_32, },
+        { .fni8 =3D gen_usra64_i64,
+          .fniv =3D gen_usra_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_64, },
+    };
+    static const GVecGen2i sri_op[4] =3D {
+        { .fni8 =3D gen_shr8_ins_i64,
+          .fniv =3D gen_shr_ins_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_8 },
+        { .fni8 =3D gen_shr16_ins_i64,
+          .fniv =3D gen_shr_ins_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D gen_shr32_ins_i32,
+          .fniv =3D gen_shr_ins_vec,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D gen_shr64_ins_i64,
+          .fniv =3D gen_shr_ins_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .load_dest =3D true,
+          .opc =3D INDEX_op_shri_vec,
+          .vece =3D MO_64 },
+    };
+
     int size =3D 32 - clz32(immh) - 1;
     int immhb =3D immh << 3 | immb;
     int shift =3D 2 * (8 << size) - immhb;
     bool accumulate =3D false;
-    bool round =3D false;
-    bool insert =3D false;
     int dsize =3D is_q ? 128 : 64;
     int esize =3D 8 << size;
     int elements =3D dsize/esize;
@@ -8300,6 +8472,8 @@ static void handle_vec_simd_shri(DisasContext *s, boo=
l is_q, bool is_u,
     TCGv_i64 tcg_rn =3D new_tmp_a64(s);
     TCGv_i64 tcg_rd =3D new_tmp_a64(s);
     TCGv_i64 tcg_round;
+    uint64_t round_const;
+    const GVecGen2i *gvec_op;
     int i;
=20
     if (extract32(immh, 3, 1) && !is_q) {
@@ -8318,64 +8492,141 @@ static void handle_vec_simd_shri(DisasContext *s, =
bool is_q, bool is_u,
=20
     switch (opcode) {
     case 0x02: /* SSRA / USRA (accumulate) */
-        accumulate =3D true;
-        break;
+        if (is_u) {
+            /* Shift count same as element size produces zero to add.  */
+            if (shift =3D=3D 8 << size) {
+                goto done;
+            }
+            gvec_op =3D &usra_op[size];
+        } else {
+            /* Shift count same as element size produces all sign to add. =
 */
+            if (shift =3D=3D 8 << size) {
+                shift -=3D 1;
+            }
+            gvec_op =3D &ssra_op[size];
+        }
+        goto do_gvec;
+    case 0x08: /* SRI */
+        /* Shift count same as element size is valid but does nothing.  */
+        if (shift =3D=3D 8 << size) {
+            goto done;
+        }
+        gvec_op =3D &sri_op[size];
+    do_gvec:
+        tcg_gen_gvec_2i(vec_full_reg_offset(s, rd),
+                        vec_full_reg_offset(s, rn), is_q ? 16 : 8,
+                        vec_full_reg_size(s), shift, gvec_op);
+        return;
+
+    case 0x00: /* SSHR / USHR */
+        if (is_u) {
+            if (shift =3D=3D 8 << size) {
+                /* Shift count the same size as element size produces zero=
.  */
+                tcg_gen_gvec_dup8i(vec_full_reg_offset(s, rd),
+                                   is_q ? 16 : 8, vec_full_reg_size(s), 0);
+            } else {
+                tcg_gen_gvec_shri(size, vec_full_reg_offset(s, rd),
+                                  vec_full_reg_offset(s, rn), is_q ? 16 : =
8,
+                                  vec_full_reg_size(s), shift);
+            }
+        } else {
+            /* Shift count the same size as element size produces all sign=
.  */
+            if (shift =3D=3D 8 << size) {
+                shift -=3D 1;
+            }
+            tcg_gen_gvec_sari(size, vec_full_reg_offset(s, rd),
+                              vec_full_reg_offset(s, rn), is_q ? 16 : 8,
+                              vec_full_reg_size(s), shift);
+        }
+        return;
+
     case 0x04: /* SRSHR / URSHR (rounding) */
-        round =3D true;
         break;
     case 0x06: /* SRSRA / URSRA (accum + rounding) */
-        accumulate =3D round =3D true;
-        break;
-    case 0x08: /* SRI */
-        insert =3D true;
+        accumulate =3D true;
         break;
+    default:
+        g_assert_not_reached();
     }
=20
-    if (round) {
-        uint64_t round_const =3D 1ULL << (shift - 1);
-        tcg_round =3D tcg_const_i64(round_const);
-    } else {
-        tcg_round =3D NULL;
-    }
+    round_const =3D 1ULL << (shift - 1);
+    tcg_round =3D tcg_const_i64(round_const);
=20
     for (i =3D 0; i < elements; i++) {
         read_vec_element(s, tcg_rn, rn, i, memop);
-        if (accumulate || insert) {
+        if (accumulate) {
             read_vec_element(s, tcg_rd, rd, i, memop);
         }
=20
-        if (insert) {
-            handle_shri_with_ins(tcg_rd, tcg_rn, size, shift);
-        } else {
-            handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
-                                    accumulate, is_u, size, shift);
-        }
+        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+                                accumulate, is_u, size, shift);
=20
         write_vec_element(s, tcg_rd, rd, i, size);
     }
+    tcg_temp_free_i64(tcg_round);
=20
+ done:
     if (!is_q) {
         clear_vec_high(s, rd);
     }
+}
=20
-    if (round) {
-        tcg_temp_free_i64(tcg_round);
-    }
+static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    uint64_t mask =3D ((0xff << shift) & 0xff) * (-1ull / 0xff);
+    TCGv_i64 t =3D tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    uint64_t mask =3D ((0xffff << shift) & 0xffff) * (-1ull / 0xffff);
+    TCGv_i64 t =3D tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, unsigned shift)
+{
+    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+}
+
+static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, unsigned shift)
+{
+    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+}
+
+static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, unsigne=
d sh)
+{
+    uint64_t mask =3D (1ull << sh) - 1;
+    TCGv_vec t =3D tcg_temp_new_vec_matching(d);
+    TCGv_vec m =3D tcg_temp_new_vec_matching(d);
+
+    tcg_gen_dupi_vec(vece, m, mask);
+    tcg_gen_shli_vec(vece, t, a, sh);
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+
+    tcg_temp_free_vec(t);
+    tcg_temp_free_vec(m);
 }
=20
 /* SHL/SLI - Vector shift left */
 static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
-                                int immh, int immb, int opcode, int rn, in=
t rd)
+                                 int immh, int immb, int opcode, int rn, i=
nt rd)
 {
     int size =3D 32 - clz32(immh) - 1;
     int immhb =3D immh << 3 | immb;
     int shift =3D immhb - (8 << size);
-    int dsize =3D is_q ? 128 : 64;
-    int esize =3D 8 << size;
-    int elements =3D dsize/esize;
-    TCGv_i64 tcg_rn =3D new_tmp_a64(s);
-    TCGv_i64 tcg_rd =3D new_tmp_a64(s);
-    int i;
=20
     if (extract32(immh, 3, 1) && !is_q) {
         unallocated_encoding(s);
@@ -8391,19 +8642,40 @@ static void handle_vec_simd_shli(DisasContext *s, b=
ool is_q, bool insert,
         return;
     }
=20
-    for (i =3D 0; i < elements; i++) {
-        read_vec_element(s, tcg_rn, rn, i, size);
-        if (insert) {
-            read_vec_element(s, tcg_rd, rd, i, size);
-        }
-
-        handle_shli_with_ins(tcg_rd, tcg_rn, insert, shift);
-
-        write_vec_element(s, tcg_rd, rd, i, size);
-    }
-
-    if (!is_q) {
-        clear_vec_high(s, rd);
+    if (insert) {
+        static const GVecGen2i shi_op[4] =3D {
+            { .fni8 =3D gen_shl8_ins_i64,
+              .fniv =3D gen_shl_ins_vec,
+              .opc =3D INDEX_op_shli_vec,
+              .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+              .load_dest =3D true,
+              .vece =3D MO_8 },
+            { .fni8 =3D gen_shl16_ins_i64,
+              .fniv =3D gen_shl_ins_vec,
+              .opc =3D INDEX_op_shli_vec,
+              .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+              .load_dest =3D true,
+              .vece =3D MO_16 },
+            { .fni4 =3D gen_shl32_ins_i32,
+              .fniv =3D gen_shl_ins_vec,
+              .opc =3D INDEX_op_shli_vec,
+              .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+              .load_dest =3D true,
+              .vece =3D MO_32 },
+            { .fni8 =3D gen_shl64_ins_i64,
+              .fniv =3D gen_shl_ins_vec,
+              .opc =3D INDEX_op_shli_vec,
+              .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+              .load_dest =3D true,
+              .vece =3D MO_64 },
+        };
+        tcg_gen_gvec_2i(vec_full_reg_offset(s, rd),
+                        vec_full_reg_offset(s, rn), is_q ? 16 : 8,
+                        vec_full_reg_size(s), shift, &shi_op[size]);
+    } else {
+        tcg_gen_gvec_shli(size, vec_full_reg_offset(s, rd),
+                          vec_full_reg_offset(s, rn), is_q ? 16 : 8,
+                          vec_full_reg_size(s), shift);
     }
 }
=20
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index f8ccb137eb..d91b424dfc 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -1208,7 +1208,11 @@ void tcg_gen_gvec_shli(unsigned vece, uint32_t dofs,=
 uint32_t aofs,
     };
=20
     tcg_debug_assert(vece <=3D MO_64);
-    tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+    if (shift =3D=3D 0) {
+        tcg_gen_gvec_mov(vece, dofs, aofs, opsz, clsz);
+    } else {
+        tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+    }
 }
=20
 void tcg_gen_vec_shr8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
@@ -1253,7 +1257,11 @@ void tcg_gen_gvec_shri(unsigned vece, uint32_t dofs,=
 uint32_t aofs,
     };
=20
     tcg_debug_assert(vece <=3D MO_64);
-    tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+    if (shift =3D=3D 0) {
+        tcg_gen_gvec_mov(vece, dofs, aofs, opsz, clsz);
+    } else {
+        tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+    }
 }
=20
 void tcg_gen_vec_sar8i_i64(TCGv_i64 d, TCGv_i64 a, unsigned c)
@@ -1312,7 +1320,11 @@ void tcg_gen_gvec_sari(unsigned vece, uint32_t dofs,=
 uint32_t aofs,
     };
=20
     tcg_debug_assert(vece <=3D MO_64);
-    tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+    if (shift =3D=3D 0) {
+        tcg_gen_gvec_mov(vece, dofs, aofs, opsz, clsz);
+    } else {
+        tcg_gen_gvec_2i(dofs, aofs, opsz, clsz, shift, &g[vece]);
+    }
 }
=20
 static void do_zip(unsigned vece, uint32_t dofs, uint32_t aofs,
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index a441193b8e..502c5ba891 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -389,11 +389,16 @@ static void do_shifti(TCGOpcode opc, unsigned vece,
     TCGArg ri =3D temp_arg(rt);
     TCGArg ai =3D temp_arg(at);
     TCGType type =3D rt->base_type;
-    unsigned vecl =3D type - TCG_TYPE_V64;
     int can;
=20
     tcg_debug_assert(at->base_type =3D=3D type);
     tcg_debug_assert(i < (8 << vece));
+
+    if (i =3D=3D 0) {
+        tcg_gen_mov_vec(r, a);
+        return;
+    }
+
     can =3D tcg_can_emit_vec_op(opc, type, vece);
     if (can > 0) {
         vec_gen_3(opc, type, vece, ri, ai, i);
@@ -402,7 +407,7 @@ static void do_shifti(TCGOpcode opc, unsigned vece,
            to the target.  Often, but not always, dupi can feed a vector
            shift easier than a scalar.  */
         tcg_debug_assert(can < 0);
-        tcg_expand_vec_op(opc, vecl, vece, ri, ai, i);
+        tcg_expand_vec_op(opc, type, vece, ri, ai, i);
     }
 }
=20
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 151130112494276.62083914719994;
 Tue, 21 Nov 2017 13:52:04 -0800 (PST)
Received: from localhost ([::1]:36728 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGSa-00011e-5j
	for importer@patchew.org; Tue, 21 Nov 2017 16:52:04 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54155)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5L-0004ax-Lr
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:05 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5J-0007nc-DH
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:03 -0500
Received: from mail-wr0-x241.google.com ([2a00:1450:400c:c0c::241]:42951)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5I-0007mS-Vi
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:01 -0500
Received: by mail-wr0-x241.google.com with SMTP id o14so12613525wrf.9
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:00 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.58 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:58 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=DkO82O/ongsVIKe7ZTZZq9W/QXhL7OlFxH7i0vdfqUg=;
	b=ByHNU/BKbja8rbErwRaczsRsbipHUZF9tH3VYzNwxwJ3e8L1uc8CnjexMSSjuzFIby
	P7gKbQjBEXhtugfZBxzHjodUa1wc0k63Puyg/fJ8F5x6eW3P17tqVti4YN6CDtl4N1wP
	ylr9Ph2nx/f7/ObW/lV+gdvi8dEa6BeQ57Ibo=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=DkO82O/ongsVIKe7ZTZZq9W/QXhL7OlFxH7i0vdfqUg=;
	b=cJ3/cbpWWtaMztUjYBfOFroXq6iM/OYraHRDwspdEVhprdaIm8iHuBaWlqWBMFZCk5
	Kt5Vmgp8q8SuBh/caAeZChBHEwII2RZb9LpSDCb5CCuaTm6gh6fgl90ImcVqbrn+XpC7
	rNj5ihyUS7f1MpUyGUxthD6R5pFOnMhuIRKFepKCeZgadjFCbUiGfrjomD7TZDpY4nj9
	h7ohKenm982q8p7wHqUPNrXTOkviXjVnc3LV0XEyfTdM17XlDC6rxoarrLCEeV1lt1LT
	opRmE2q6IuxEHcGmaMZltg4NnUOKlSIVhDl87q5o0O5y0oV6HxPVm1LIRXToxjSIQN6V
	lNqA==
X-Gm-Message-State: AJaThX7tPN0szhxp9hCdVGG50r0P9Uye75NzRFK18hyPW6XEEpKOHN5S
	MlPCgdH80YNxBljIaCtLYUeRLRgRNnM=
X-Google-Smtp-Source: 
 AGs4zMYOrjJfxKGRuM8jksM1VkpTgi2eDi5Y9LV78egkZ6AhdUjJWCXDP4EFu7Q+3PES/rtJuzjuMQ==
X-Received: by 10.223.197.141 with SMTP id m13mr16572424wrg.203.1511299679512;
	Tue, 21 Nov 2017 13:27:59 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:26 +0100
Message-Id: <20171121212534.5177-19-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::241
Subject: [Qemu-devel] [PATCH v6 18/26] tcg: Add generic vector ops for
 comparisons
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime.h      |  30 +++++++
 tcg/i386/tcg-target.h        |   1 +
 tcg/tcg-op-gvec.h            |   4 +
 tcg/tcg-op.h                 |   3 +
 tcg/tcg-opc.h                |   2 +
 tcg/tcg.h                    |   1 +
 accel/tcg/tcg-runtime-gvec.c |  24 +++++
 tcg/tcg-op-gvec.c            | 202 +++++++++++++++++++++++++++++++++++++++=
++++
 tcg/tcg-op-vec.c             |  23 +++++
 tcg/tcg.c                    |   2 +
 tcg/README                   |   4 +
 11 files changed, 296 insertions(+)

diff --git a/accel/tcg/tcg-runtime.h b/accel/tcg/tcg-runtime.h
index cb05a755b8..28abf30d76 100644
--- a/accel/tcg/tcg-runtime.h
+++ b/accel/tcg/tcg-runtime.h
@@ -193,3 +193,33 @@ DEF_HELPER_FLAGS_4(gvec_trn8, TCG_CALL_NO_RWG, void, p=
tr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_trn16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_trn32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_trn64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_eq8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_eq16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_eq32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_eq64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_ne8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ne16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ne32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ne64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_lt8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_lt16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_lt32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_lt64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_le8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_le16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_le32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_le64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_ltu8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ltu16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ltu32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_ltu64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_leu8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_leu16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_leu32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_leu64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index 92d533eb92..46c4dca7be 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -183,6 +183,7 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_zip_vec          0
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
+#define TCG_TARGET_HAS_cmp_vec          0
=20
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
     (((ofs) =3D=3D 0 && (len) =3D=3D 8) || ((ofs) =3D=3D 8 && (len) =3D=3D=
 8) || \
diff --git a/tcg/tcg-op-gvec.h b/tcg/tcg-op-gvec.h
index de2c0e669a..308bdc13b4 100644
--- a/tcg/tcg-op-gvec.h
+++ b/tcg/tcg-op-gvec.h
@@ -178,6 +178,10 @@ void tcg_gen_gvec_trne(unsigned vece, uint32_t dofs, u=
int32_t aofs,
 void tcg_gen_gvec_trno(unsigned vece, uint32_t dofs, uint32_t aofs,
                        uint32_t bofs, uint32_t opsz, uint32_t clsz);
=20
+void tcg_gen_gvec_cmp(TCGCond cond, unsigned vece, uint32_t dofs,
+                      uint32_t aofs, uint32_t bofs,
+                      uint32_t opsz, uint32_t clsz);
+
 /*
  * 64-bit vector operations.  Use these when the register has been allocat=
ed
  * with tcg_global_mem_new_i64, and so we cannot also address it via point=
er.
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index 83478ab006..b4f73c6048 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -939,6 +939,9 @@ void tcg_gen_uzpo_vec(unsigned vece, TCGv_vec r, TCGv_v=
ec a, TCGv_vec b);
 void tcg_gen_trne_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_trno_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
=20
+void tcg_gen_cmp_vec(TCGCond cond, unsigned vece, TCGv_vec r,
+                     TCGv_vec a, TCGv_vec b);
+
 void tcg_gen_ld_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset);
 void tcg_gen_st_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset);
 void tcg_gen_stl_vec(TCGv_vec r, TCGv_ptr base, TCGArg offset, TCGType t);
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index a085fc077b..d3fa014507 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -248,6 +248,8 @@ DEF(uzpo_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_uz=
p_vec))
 DEF(trne_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_trn_vec))
 DEF(trno_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_trn_vec))
=20
+DEF(cmp_vec, 1, 2, 1, IMPLVEC)
+
 DEF(last_generic, 0, 0, 0, TCG_OPF_NOT_PRESENT)
=20
 #if TCG_TARGET_MAYBE_vec
diff --git a/tcg/tcg.h b/tcg/tcg.h
index 5f414d880e..96760dd2d6 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -184,6 +184,7 @@ typedef uint64_t TCGRegSet;
 #define TCG_TARGET_HAS_zip_vec          0
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
+#define TCG_TARGET_HAS_cmp_vec          0
 #else
 #define TCG_TARGET_MAYBE_vec            1
 #endif
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index fba62f1192..e0cde3216f 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -520,3 +520,27 @@ DO_TRN(gvec_trn8, uint8_t)
 DO_TRN(gvec_trn16, uint16_t)
 DO_TRN(gvec_trn32, uint32_t)
 DO_TRN(gvec_trn64, uint64_t)
+
+#define DO_CMP1(NAME, TYPE, OP)                                           =
   \
+void HELPER(NAME)(void *d, void *a, void *b, uint32_t desc)               =
   \
+{                                                                         =
   \
+    intptr_t oprsz =3D simd_oprsz(desc);                                  =
     \
+    intptr_t i;                                                           =
   \
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {                      =
       \
+        *(TYPE *)(d + i) =3D *(TYPE *)(a + i) OP *(TYPE *)(b + i);        =
     \
+    }                                                                     =
   \
+    clear_high(d, oprsz, desc);                                           =
   \
+}
+
+#define DO_CMP2(SZ) \
+    DO_CMP1(gvec_eq##SZ, vec##SZ, =3D=3D)    \
+    DO_CMP1(gvec_ne##SZ, vec##SZ, !=3D)    \
+    DO_CMP1(gvec_lt##SZ, svec##SZ, <)    \
+    DO_CMP1(gvec_le##SZ, svec##SZ, <=3D)   \
+    DO_CMP1(gvec_ltu##SZ, vec##SZ, <)    \
+    DO_CMP1(gvec_leu##SZ, vec##SZ, <=3D)
+
+DO_CMP2(8)
+DO_CMP2(16)
+DO_CMP2(32)
+DO_CMP2(64)
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index d91b424dfc..1cc28b459f 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -1639,3 +1639,205 @@ void tcg_gen_gvec_trno(unsigned vece, uint32_t dofs=
, uint32_t aofs,
     tcg_debug_assert(vece <=3D MO_64);
     tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
 }
+
+/* Expand OPSZ bytes worth of three-operand operations using i32 elements.=
  */
+static void expand_cmp_i32(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                           uint32_t opsz, TCGCond cond)
+{
+    TCGv_i32 t0 =3D tcg_temp_new_i32();
+    TCGv_i32 t1 =3D tcg_temp_new_i32();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 4) {
+        tcg_gen_ld_i32(t0, cpu_env, aofs + i);
+        tcg_gen_ld_i32(t1, cpu_env, bofs + i);
+        tcg_gen_setcond_i32(cond, t0, t0, t1);
+        tcg_gen_neg_i32(t0, t0);
+        tcg_gen_st_i32(t0, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i32(t1);
+    tcg_temp_free_i32(t0);
+}
+
+static void expand_cmp_i64(uint32_t dofs, uint32_t aofs, uint32_t bofs,
+                           uint32_t opsz, TCGCond cond)
+{
+    TCGv_i64 t0 =3D tcg_temp_new_i64();
+    TCGv_i64 t1 =3D tcg_temp_new_i64();
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D 8) {
+        tcg_gen_ld_i64(t0, cpu_env, aofs + i);
+        tcg_gen_ld_i64(t1, cpu_env, bofs + i);
+        tcg_gen_setcond_i64(cond, t0, t0, t1);
+        tcg_gen_neg_i64(t0, t0);
+        tcg_gen_st_i64(t0, cpu_env, dofs + i);
+    }
+    tcg_temp_free_i64(t1);
+    tcg_temp_free_i64(t0);
+}
+
+static void expand_cmp_vec(unsigned vece, uint32_t dofs, uint32_t aofs,
+                           uint32_t bofs, uint32_t opsz, uint32_t tysz,
+                           TCGType type, TCGCond cond)
+{
+    TCGv_vec t0 =3D tcg_temp_new_vec(type);
+    TCGv_vec t1 =3D tcg_temp_new_vec(type);
+    uint32_t i;
+
+    for (i =3D 0; i < opsz; i +=3D tysz) {
+        tcg_gen_ld_vec(t0, cpu_env, aofs + i);
+        tcg_gen_ld_vec(t1, cpu_env, bofs + i);
+        tcg_gen_cmp_vec(cond, vece, t0, t0, t1);
+        tcg_gen_st_vec(t0, cpu_env, dofs + i);
+    }
+    tcg_temp_free_vec(t1);
+    tcg_temp_free_vec(t0);
+}
+
+void tcg_gen_gvec_cmp(TCGCond cond, unsigned vece, uint32_t dofs,
+                      uint32_t aofs, uint32_t bofs,
+                      uint32_t oprsz, uint32_t maxsz)
+{
+    static gen_helper_gvec_3 * const eq_fn[4] =3D {
+        gen_helper_gvec_eq8, gen_helper_gvec_eq16,
+        gen_helper_gvec_eq32, gen_helper_gvec_eq64
+    };
+    static gen_helper_gvec_3 * const ne_fn[4] =3D {
+        gen_helper_gvec_ne8, gen_helper_gvec_ne16,
+        gen_helper_gvec_ne32, gen_helper_gvec_ne64
+    };
+    static gen_helper_gvec_3 * const lt_fn[4] =3D {
+        gen_helper_gvec_lt8, gen_helper_gvec_lt16,
+        gen_helper_gvec_lt32, gen_helper_gvec_lt64
+    };
+    static gen_helper_gvec_3 * const le_fn[4] =3D {
+        gen_helper_gvec_le8, gen_helper_gvec_le16,
+        gen_helper_gvec_le32, gen_helper_gvec_le64
+    };
+    static gen_helper_gvec_3 * const ltu_fn[4] =3D {
+        gen_helper_gvec_ltu8, gen_helper_gvec_ltu16,
+        gen_helper_gvec_ltu32, gen_helper_gvec_ltu64
+    };
+    static gen_helper_gvec_3 * const leu_fn[4] =3D {
+        gen_helper_gvec_leu8, gen_helper_gvec_leu16,
+        gen_helper_gvec_leu32, gen_helper_gvec_leu64
+    };
+    gen_helper_gvec_3 *fn;
+    uint32_t tmp;
+
+    check_size_align(oprsz, maxsz, dofs | aofs | bofs);
+    check_overlap_3(dofs, aofs, bofs, maxsz);
+
+    if (cond =3D=3D TCG_COND_NEVER || cond =3D=3D TCG_COND_ALWAYS) {
+        tcg_gen_gvec_dup32i(dofs, oprsz, maxsz, -(cond =3D=3D TCG_COND_ALW=
AYS));
+        return;
+    }
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > MAX_UNROLL * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    /* Recall that ARM SVE allows vector sizes that are not a power of 2.
+       Expand with successively smaller host vector sizes.  The intent is
+       that e.g. oprsz =3D=3D 80 would be expanded with 2x32 + 1x16.  */
+    /* ??? For maxsz > oprsz, the host may be able to use an op-sized
+       operation, zeroing the balance of the register.  We can then
+       use a cl-sized store to implement the clearing without an extra
+       store operation.  This is true for aarch64 and x86_64 hosts.  */
+
+    if (TCG_TARGET_HAS_v256 && check_size_impl(oprsz, 32)
+        && tcg_can_emit_vec_op(INDEX_op_cmp_vec, TCG_TYPE_V256, vece)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 32);
+        expand_cmp_vec(vece, dofs, aofs, bofs, done, 32, TCG_TYPE_V256, co=
nd);
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (TCG_TARGET_HAS_v128 && check_size_impl(oprsz, 16)
+        && tcg_can_emit_vec_op(INDEX_op_cmp_vec, TCG_TYPE_V128, vece)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 16);
+        expand_cmp_vec(vece, dofs, aofs, bofs, done, 16, TCG_TYPE_V128, co=
nd);
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (check_size_impl(oprsz, 8)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 8);
+        if (TCG_TARGET_HAS_v64
+            && (TCG_TARGET_REG_BITS =3D=3D 32 || vece !=3D MO_64)
+            && tcg_can_emit_vec_op(INDEX_op_cmp_vec, TCG_TYPE_V64, vece)) {
+            expand_cmp_vec(vece, dofs, aofs, bofs, done, 8, TCG_TYPE_V64, =
cond);
+        } else if (vece =3D=3D MO_64) {
+            expand_cmp_i64(dofs, aofs, bofs, done, cond);
+        } else {
+            done =3D 0;
+        }
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (vece =3D=3D MO_32 && check_size_impl(oprsz, 4)) {
+        uint32_t done =3D QEMU_ALIGN_DOWN(oprsz, 4);
+        expand_cmp_i32(dofs, aofs, bofs, done, cond);
+        dofs +=3D done;
+        aofs +=3D done;
+        bofs +=3D done;
+        oprsz -=3D done;
+        maxsz -=3D done;
+    }
+
+    if (oprsz =3D=3D 0) {
+        if (maxsz !=3D 0) {
+            expand_clr(dofs, maxsz);
+        }
+        return;
+    }
+
+ do_ool:
+    switch (cond) {
+    case TCG_COND_EQ:
+        fn =3D eq_fn[vece];
+        break;
+    case TCG_COND_NE:
+        fn =3D ne_fn[vece];
+        break;
+    case TCG_COND_GT:
+        tmp =3D aofs, aofs =3D bofs, bofs =3D tmp;
+        /* fallthru */
+    case TCG_COND_LT:
+        fn =3D lt_fn[vece];
+        break;
+    case TCG_COND_GE:
+        tmp =3D aofs, aofs =3D bofs, bofs =3D tmp;
+        /* fallthru */
+    case TCG_COND_LE:
+        fn =3D le_fn[vece];
+        break;
+    case TCG_COND_GTU:
+        tmp =3D aofs, aofs =3D bofs, bofs =3D tmp;
+        /* fallthru */
+    case TCG_COND_LTU:
+        fn =3D ltu_fn[vece];
+        break;
+    case TCG_COND_GEU:
+        tmp =3D aofs, aofs =3D bofs, bofs =3D tmp;
+        /* fallthru */
+    case TCG_COND_LEU:
+        fn =3D leu_fn[vece];
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, 0, fn);
+}
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index 502c5ba891..2c636ebbd6 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -480,3 +480,26 @@ void tcg_gen_trno_vec(unsigned vece, TCGv_vec r, TCGv_=
vec a, TCGv_vec b)
 {
     do_interleave(INDEX_op_trno_vec, vece, r, a, b);
 }
+
+void tcg_gen_cmp_vec(TCGCond cond, unsigned vece,
+                     TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGTemp *bt =3D tcgv_vec_temp(b);
+    TCGArg ri =3D temp_arg(rt);
+    TCGArg ai =3D temp_arg(at);
+    TCGArg bi =3D temp_arg(bt);
+    TCGType type =3D rt->base_type;
+    int can;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    tcg_debug_assert(bt->base_type =3D=3D type);
+    can =3D tcg_can_emit_vec_op(INDEX_op_cmp_vec, type, vece);
+    if (can > 0) {
+        vec_gen_4(INDEX_op_cmp_vec, type, vece, ri, ai, bi, cond);
+    } else {
+        tcg_debug_assert(can < 0);
+        tcg_expand_vec_op(INDEX_op_cmp_vec, type, vece, ri, ai, bi, cond);
+    }
+}
diff --git a/tcg/tcg.c b/tcg/tcg.c
index 4bde7d6afd..f35d4a1a47 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1392,6 +1392,7 @@ bool tcg_op_supported(TCGOpcode op)
     case INDEX_op_and_vec:
     case INDEX_op_or_vec:
     case INDEX_op_xor_vec:
+    case INDEX_op_cmp_vec:
         return have_vec;
     case INDEX_op_dup2_vec:
         return have_vec && TCG_TARGET_REG_BITS =3D=3D 32;
@@ -1791,6 +1792,7 @@ void tcg_dump_ops(TCGContext *s)
             case INDEX_op_brcond_i64:
             case INDEX_op_setcond_i64:
             case INDEX_op_movcond_i64:
+            case INDEX_op_cmp_vec:
                 if (op->args[k] < ARRAY_SIZE(cond_name)
                     && cond_name[op->args[k]]) {
                     col +=3D qemu_log(",%s", cond_name[op->args[k++]]);
diff --git a/tcg/README b/tcg/README
index 75db47922d..18b6bbd8f1 100644
--- a/tcg/README
+++ b/tcg/README
@@ -630,6 +630,10 @@ E.g. VECL=3D1 -> 64 << 1 -> v128, and VECE=3D2 -> 1 <<=
 2 -> i32.
       v0[2i + 1] =3D v2[2i + part];
     }
=20
+* cmp_vec  v0, v1, v2, cond
+
+  Compare vectors by element, storing -1 for true and 0 for false.
+
 *********
=20
 Note 1: Some shortcuts are defined when the last operand is known to be
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300686695424.67162664985915;
 Tue, 21 Nov 2017 13:44:46 -0800 (PST)
Received: from localhost ([::1]:36665 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGLS-0002j4-Pk
	for importer@patchew.org; Tue, 21 Nov 2017 16:44:42 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54157)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5L-0004b3-PQ
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:04 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5K-0007oS-F6
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:03 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:37620)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5K-0007oA-6B
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:02 -0500
Received: by mail-wm0-x242.google.com with SMTP id v186so6270134wma.2
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:02 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.27.59 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:27:59 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=9nX13rkW5BnudPsgCBbM6M5Hq1UugkSHhy4B6et7qLw=;
	b=HNj226uMcsK0W7dq9aBFFE0Av0CKkTxXMK9SDbMADir4WMtQcERgfj+Xo+Xm5tbSzq
	gDlPqtP77AzIF7JqqD3sXn3I7kzZWQk+t+ohBV/zb9Y/eU0kzSgGmddAskdq2pi18HpI
	dqqdvH4hKrxl0kITSxB7wQhP4P90qnynYzf7g=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=9nX13rkW5BnudPsgCBbM6M5Hq1UugkSHhy4B6et7qLw=;
	b=tLiPZBqYKxKKpzkYWm+s9FfLjHKIYLc9StNv4lUPPM6kZg6CXYMs8kQ7mtz+PLZoHJ
	LoHvDvAhPwc3zaM5fi1ImrcGwTwwsajGk+geVf3x7p1t/4yxiRzvSDEdHIqbaZszWZy/
	7U/ddgTlxf1xiFGmFGeK7t4o3f3cwZhiRXCDP2BjpJS68DnX7DJpXCRNgH+5jymexyQu
	7RgMmziVqPfXD4IAuTS/sLTcOAK06k64dWDTlU4bAuKNzYziy43OFm/GlFlpoe24GtPx
	G1iUfJr5XZ1avWUnEnMC8jEePsgXje0DMPoPDHgkGmRDrgsjYiDTSQKc+VBA3L6BQtRU
	Sh3A==
X-Gm-Message-State: AJaThX4ZtU1gB9W191u73xUunPrjE56LwMRB25Fonc2SBsPck+uIUJ25
	FZFran+qXXBZKffKs60Exnt/ggEXY8w=
X-Google-Smtp-Source: 
 AGs4zMZjWLCZ3yiFkbIxBhlgYS9aiPesblgPWqu44o8eJAb/6jDzgpO7njE1Km7TX3hhHyqadaX3IQ==
X-Received: by 10.28.125.85 with SMTP id y82mr2440412wmc.25.1511299680955;
	Tue, 21 Nov 2017 13:28:00 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:27 +0100
Message-Id: <20171121212534.5177-20-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 19/26] target/arm: Use vector infrastructure
 for aa64 compares
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 96 ++++++++++++++++++++++++++++++------------=
----
 1 file changed, 62 insertions(+), 34 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index c47faa5633..1ea7e37b03 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -7115,6 +7115,28 @@ static void disas_simd_scalar_three_reg_diff(DisasCo=
ntext *s, uint32_t insn)
     }
 }
=20
+/* CMTST : test is "if (X & Y !=3D 0)". */
+static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_and_i32(d, a, b);
+    tcg_gen_setcondi_i32(TCG_COND_NE, d, d, 0);
+    tcg_gen_neg_i32(d, d);
+}
+
+static void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_and_i64(d, a, b);
+    tcg_gen_setcondi_i64(TCG_COND_NE, d, d, 0);
+    tcg_gen_neg_i64(d, d);
+}
+
+static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec =
b)
+{
+    tcg_gen_and_vec(vece, d, a, b);
+    tcg_gen_dupi_vec(vece, a, 0);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+}
+
 static void handle_3same_64(DisasContext *s, int opcode, bool u,
                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn, TCGv_i64 tcg=
_rm)
 {
@@ -7158,10 +7180,7 @@ static void handle_3same_64(DisasContext *s, int opc=
ode, bool u,
             cond =3D TCG_COND_EQ;
             goto do_cmop;
         }
-        /* CMTST : test is "if (X & Y !=3D 0)". */
-        tcg_gen_and_i64(tcg_rd, tcg_rn, tcg_rm);
-        tcg_gen_setcondi_i64(TCG_COND_NE, tcg_rd, tcg_rd, 0);
-        tcg_gen_neg_i64(tcg_rd, tcg_rd);
+        gen_cmtst_i64(tcg_rd, tcg_rn, tcg_rm);
         break;
     case 0x8: /* SSHL, USHL */
         if (u) {
@@ -9684,6 +9703,7 @@ static void disas_simd_3same_int(DisasContext *s, uin=
t32_t insn)
     int rd =3D extract32(insn, 0, 5);
     int pass;
     GVecGen3Fn *gvec_op;
+    TCGCond cond;
=20
     switch (opcode) {
     case 0x13: /* MUL, PMUL */
@@ -9731,6 +9751,44 @@ static void disas_simd_3same_int(DisasContext *s, ui=
nt32_t insn)
                 vec_full_reg_offset(s, rm),
                 is_q ? 16 : 8, vec_full_reg_size(s));
         return;
+    case 0x11:
+        if (u) { /* CMEQ */
+            cond =3D TCG_COND_EQ;
+            goto do_gvec_cmp;
+        } else { /* CMTST */
+            static const GVecGen3 cmtst_op[4] =3D {
+                { .fni4 =3D gen_helper_neon_tst_u8,
+                  .fniv =3D gen_cmtst_vec,
+                  .vece =3D MO_8 },
+                { .fni4 =3D gen_helper_neon_tst_u16,
+                  .fniv =3D gen_cmtst_vec,
+                  .vece =3D MO_16 },
+                { .fni4 =3D gen_cmtst_i32,
+                  .fniv =3D gen_cmtst_vec,
+                  .vece =3D MO_32 },
+                { .fni8 =3D gen_cmtst_i64,
+                  .fniv =3D gen_cmtst_vec,
+                  .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+                  .vece =3D MO_64 },
+            };
+            tcg_gen_gvec_3(vec_full_reg_offset(s, rd),
+                           vec_full_reg_offset(s, rn),
+                           vec_full_reg_offset(s, rm),
+                           is_q ? 16 : 8, vec_full_reg_size(s),
+                           &cmtst_op[size]);
+        }
+        return;
+    case 0x06: /* CMGT, CMHI */
+        cond =3D u ? TCG_COND_GTU : TCG_COND_GT;
+        goto do_gvec_cmp;
+    case 0x07: /* CMGE, CMHS */
+        cond =3D u ? TCG_COND_GEU : TCG_COND_GE;
+    do_gvec_cmp:
+        tcg_gen_gvec_cmp(cond, size, vec_full_reg_offset(s, rd),
+                         vec_full_reg_offset(s, rn),
+                         vec_full_reg_offset(s, rm),
+                         is_q ? 16 : 8, vec_full_reg_size(s));
+        return;
     }
=20
     if (size =3D=3D 3) {
@@ -9813,26 +9871,6 @@ static void disas_simd_3same_int(DisasContext *s, ui=
nt32_t insn)
                 genenvfn =3D fns[size][u];
                 break;
             }
-            case 0x6: /* CMGT, CMHI */
-            {
-                static NeonGenTwoOpFn * const fns[3][2] =3D {
-                    { gen_helper_neon_cgt_s8, gen_helper_neon_cgt_u8 },
-                    { gen_helper_neon_cgt_s16, gen_helper_neon_cgt_u16 },
-                    { gen_helper_neon_cgt_s32, gen_helper_neon_cgt_u32 },
-                };
-                genfn =3D fns[size][u];
-                break;
-            }
-            case 0x7: /* CMGE, CMHS */
-            {
-                static NeonGenTwoOpFn * const fns[3][2] =3D {
-                    { gen_helper_neon_cge_s8, gen_helper_neon_cge_u8 },
-                    { gen_helper_neon_cge_s16, gen_helper_neon_cge_u16 },
-                    { gen_helper_neon_cge_s32, gen_helper_neon_cge_u32 },
-                };
-                genfn =3D fns[size][u];
-                break;
-            }
             case 0x8: /* SSHL, USHL */
             {
                 static NeonGenTwoOpFn * const fns[3][2] =3D {
@@ -9905,16 +9943,6 @@ static void disas_simd_3same_int(DisasContext *s, ui=
nt32_t insn)
                 genfn =3D fns[size][u];
                 break;
             }
-            case 0x11: /* CMTST, CMEQ */
-            {
-                static NeonGenTwoOpFn * const fns[3][2] =3D {
-                    { gen_helper_neon_tst_u8, gen_helper_neon_ceq_u8 },
-                    { gen_helper_neon_tst_u16, gen_helper_neon_ceq_u16 },
-                    { gen_helper_neon_tst_u32, gen_helper_neon_ceq_u32 },
-                };
-                genfn =3D fns[size][u];
-                break;
-            }
             case 0x13: /* MUL, PMUL */
                 if (u) {
                     /* PMUL */
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300375320392.2073376593888;
 Tue, 21 Nov 2017 13:39:35 -0800 (PST)
Received: from localhost ([::1]:36632 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGGI-0005rD-36
	for importer@patchew.org; Tue, 21 Nov 2017 16:39:22 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54197)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5P-0004eX-Cw
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:10 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5M-0007pI-EH
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:07 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:38919)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5L-0007og-W9
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:04 -0500
Received: by mail-wm0-x242.google.com with SMTP id x63so6256437wmf.4
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:03 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.01 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:01 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=SxsHTrmFL0QP0R8Xwe7DfD3sgRiugKBN4S8d8W/Yb5E=;
	b=T41+7jORjh5RLYerhhO7J4GV6Qdg59YSd6yDQ1KFKdpiPlXaOk45E+sR1/021Bg81G
	97javp0p1K+VbRBJGkENLjOAIp8IJ8jYmkXlshbLW7NjAV3BVwMOyGHPMQX8Vm7/Im2G
	UeqJP9cjAW+9t64wsoFzOMkl86Zs/9tkRhyLE=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=SxsHTrmFL0QP0R8Xwe7DfD3sgRiugKBN4S8d8W/Yb5E=;
	b=DspOuAGTmwa2Eba/GrwGnDFGE72DyZJ9GNsJvYfEWu2jxQlqzDmnlkkv2PP5yQuMWJ
	mRojUeL+bYruhQ2i/ab9Bj0HcPj1E0G+1YGZm3kETuUBjYTPl5SVE9t1X7iQlamdS+cR
	wV72afJiGGukXGUM5cOcmBAztZUJdpyRkMB8+247SumkvF3QsrSVgftTilHdG+VDG9VJ
	8kRPH3axa6K/7M7TW1yo+xDypr+H3CyE++zj5Q1eHKjuBOLPxu3ka9gddUyZKA0iLKH7
	OqZRdojfsOb/wINKhYVgOA/YKss7DCqZZO4BuMI23Y+wn9BbsH2tJW9b5IDHcIowbiYY
	kBHQ==
X-Gm-Message-State: AJaThX6QsN/IY41N1F5VwCzxKeCzBK4hL+T+3hedfY7papw7l7MO135n
	wfJbDEVkT/GA9NiedXR1s1wqu0kqruY=
X-Google-Smtp-Source: 
 AGs4zMaCsM65pBycnIveR0Tssa+G35z00KLhCgLSBQsBVMteCrbZfGNzpT6LbNrKdX1mTFNBoIU93w==
X-Received: by 10.28.198.75 with SMTP id w72mr2389886wmf.2.1511299682188;
	Tue, 21 Nov 2017 13:28:02 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:28 +0100
Message-Id: <20171121212534.5177-21-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 20/26] tcg/i386: Add vector
 operations/expansions for shift/cmp/interleave
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.h     |   6 +-
 tcg/i386/tcg-target.opc.h |   7 +
 tcg/i386/tcg-target.inc.c | 595 ++++++++++++++++++++++++++++++++++++++++++=
+++-
 3 files changed, 598 insertions(+), 10 deletions(-)

diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index 46c4dca7be..60d3684750 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -177,13 +177,13 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_orc_vec          0
 #define TCG_TARGET_HAS_not_vec          0
 #define TCG_TARGET_HAS_neg_vec          0
-#define TCG_TARGET_HAS_shi_vec          0
+#define TCG_TARGET_HAS_shi_vec          1
 #define TCG_TARGET_HAS_shs_vec          0
 #define TCG_TARGET_HAS_shv_vec          0
-#define TCG_TARGET_HAS_zip_vec          0
+#define TCG_TARGET_HAS_zip_vec          1
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
-#define TCG_TARGET_HAS_cmp_vec          0
+#define TCG_TARGET_HAS_cmp_vec          1
=20
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
     (((ofs) =3D=3D 0 && (len) =3D=3D 8) || ((ofs) =3D=3D 8 && (len) =3D=3D=
 8) || \
diff --git a/tcg/i386/tcg-target.opc.h b/tcg/i386/tcg-target.opc.h
index 4816a6c3d4..77125ef818 100644
--- a/tcg/i386/tcg-target.opc.h
+++ b/tcg/i386/tcg-target.opc.h
@@ -1,3 +1,10 @@
 /* Target-specific opcodes for host vector expansion.  These will be
    emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
    consider these to be UNSPEC with names.  */
+
+DEF(x86_shufps_vec, 1, 2, 1, IMPLVEC)
+DEF(x86_vpblendvb_vec, 1, 3, 0, IMPLVEC)
+DEF(x86_blend_vec, 1, 2, 1, IMPLVEC)
+DEF(x86_packss_vec, 1, 2, 0, IMPLVEC)
+DEF(x86_packus_vec, 1, 2, 0, IMPLVEC)
+DEF(x86_psrldq_vec, 1, 1, 1, IMPLVEC)
diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index 062cf16607..694d9e5cb5 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -324,6 +324,7 @@ static inline int tcg_target_const_match(tcg_target_lon=
g val, TCGType type,
 # define P_REXB_RM	0
 # define P_GS           0
 #endif
+#define P_EXT3A         0x10000         /* 0x0f 0x3a opcode prefix */
 #define P_SIMDF3        0x20000         /* 0xf3 opcode prefix */
 #define P_SIMDF2        0x40000         /* 0xf2 opcode prefix */
 #define P_VEXL          0x80000         /* Set VEX.L =3D 1 */
@@ -333,6 +334,7 @@ static inline int tcg_target_const_match(tcg_target_lon=
g val, TCGType type,
 #define OPC_ARITH_GvEv	(0x03)		/* ... plus (ARITH_FOO << 3) */
 #define OPC_ANDN        (0xf2 | P_EXT38)
 #define OPC_ADD_GvEv	(OPC_ARITH_GvEv | (ARITH_ADD << 3))
+#define OPC_BLENDPS     (0x0c | P_EXT3A | P_DATA16)
 #define OPC_BSF         (0xbc | P_EXT)
 #define OPC_BSR         (0xbd | P_EXT)
 #define OPC_BSWAP	(0xc8 | P_EXT)
@@ -372,15 +374,33 @@ static inline int tcg_target_const_match(tcg_target_l=
ong val, TCGType type,
 #define OPC_MOVSLQ	(0x63 | P_REXW)
 #define OPC_MOVZBL	(0xb6 | P_EXT)
 #define OPC_MOVZWL	(0xb7 | P_EXT)
+#define OPC_PACKSSDW    (0x6b | P_EXT | P_DATA16)
+#define OPC_PACKSSWB    (0x63 | P_EXT | P_DATA16)
+#define OPC_PACKUSDW    (0x2b | P_EXT38 | P_DATA16)
+#define OPC_PACKUSWB    (0x67 | P_EXT | P_DATA16)
 #define OPC_PADDB       (0xfc | P_EXT | P_DATA16)
 #define OPC_PADDW       (0xfd | P_EXT | P_DATA16)
 #define OPC_PADDD       (0xfe | P_EXT | P_DATA16)
 #define OPC_PADDQ       (0xd4 | P_EXT | P_DATA16)
 #define OPC_PAND        (0xdb | P_EXT | P_DATA16)
 #define OPC_PANDN       (0xdf | P_EXT | P_DATA16)
+#define OPC_PBLENDW     (0x0e | P_EXT3A | P_DATA16)
 #define OPC_PCMPEQB     (0x74 | P_EXT | P_DATA16)
+#define OPC_PCMPEQW     (0x75 | P_EXT | P_DATA16)
+#define OPC_PCMPEQD     (0x76 | P_EXT | P_DATA16)
+#define OPC_PCMPEQQ     (0x29 | P_EXT38 | P_DATA16)
+#define OPC_PCMPGTB     (0x64 | P_EXT | P_DATA16)
+#define OPC_PCMPGTW     (0x65 | P_EXT | P_DATA16)
+#define OPC_PCMPGTD     (0x66 | P_EXT | P_DATA16)
+#define OPC_PCMPGTQ     (0x37 | P_EXT38 | P_DATA16)
 #define OPC_POR         (0xeb | P_EXT | P_DATA16)
+#define OPC_PSHUFB      (0x00 | P_EXT38 | P_DATA16)
 #define OPC_PSHUFD      (0x70 | P_EXT | P_DATA16)
+#define OPC_PSHUFLW     (0x70 | P_EXT | P_SIMDF2)
+#define OPC_PSHUFHW     (0x70 | P_EXT | P_SIMDF3)
+#define OPC_PSHIFTW_Ib  (0x71 | P_EXT | P_DATA16) /* /2 /6 /4 */
+#define OPC_PSHIFTD_Ib  (0x72 | P_EXT | P_DATA16) /* /2 /6 /4 */
+#define OPC_PSHIFTQ_Ib  (0x73 | P_EXT | P_DATA16) /* /2 /6 /4 */
 #define OPC_PSUBB       (0xf8 | P_EXT | P_DATA16)
 #define OPC_PSUBW       (0xf9 | P_EXT | P_DATA16)
 #define OPC_PSUBD       (0xfa | P_EXT | P_DATA16)
@@ -389,6 +409,10 @@ static inline int tcg_target_const_match(tcg_target_lo=
ng val, TCGType type,
 #define OPC_PUNPCKLWD   (0x61 | P_EXT | P_DATA16)
 #define OPC_PUNPCKLDQ   (0x62 | P_EXT | P_DATA16)
 #define OPC_PUNPCKLQDQ  (0x6c | P_EXT | P_DATA16)
+#define OPC_PUNPCKHBW   (0x68 | P_EXT | P_DATA16)
+#define OPC_PUNPCKHWD   (0x69 | P_EXT | P_DATA16)
+#define OPC_PUNPCKHDQ   (0x6a | P_EXT | P_DATA16)
+#define OPC_PUNPCKHQDQ  (0x6d | P_EXT | P_DATA16)
 #define OPC_PXOR        (0xef | P_EXT | P_DATA16)
 #define OPC_POP_r32	(0x58)
 #define OPC_POPCNT      (0xb8 | P_EXT | P_SIMDF3)
@@ -401,19 +425,26 @@ static inline int tcg_target_const_match(tcg_target_l=
ong val, TCGType type,
 #define OPC_SHIFT_Ib	(0xc1)
 #define OPC_SHIFT_cl	(0xd3)
 #define OPC_SARX        (0xf7 | P_EXT38 | P_SIMDF3)
+#define OPC_SHUFPS      (0xc6 | P_EXT)
 #define OPC_SHLX        (0xf7 | P_EXT38 | P_DATA16)
 #define OPC_SHRX        (0xf7 | P_EXT38 | P_SIMDF2)
 #define OPC_TESTL	(0x85)
 #define OPC_TZCNT       (0xbc | P_EXT | P_SIMDF3)
+#define OPC_UD2         (0x0b | P_EXT)
+#define OPC_VPBLENDD    (0x02 | P_EXT3A | P_DATA16)
+#define OPC_VPBLENDVB   (0x4c | P_EXT3A | P_DATA16)
 #define OPC_VPBROADCASTB (0x78 | P_EXT38 | P_DATA16)
 #define OPC_VPBROADCASTW (0x79 | P_EXT38 | P_DATA16)
 #define OPC_VPBROADCASTD (0x58 | P_EXT38 | P_DATA16)
 #define OPC_VPBROADCASTQ (0x59 | P_EXT38 | P_DATA16)
+#define OPC_VPERMQ      (0x00 | P_EXT3A | P_DATA16 | P_REXW)
+#define OPC_VPERM2I128  (0x46 | P_EXT3A | P_DATA16 | P_VEXL)
 #define OPC_VZEROUPPER  (0x77 | P_EXT)
 #define OPC_XCHG_ax_r32	(0x90)
=20
 #define OPC_GRP3_Ev	(0xf7)
 #define OPC_GRP5	(0xff)
+#define OPC_GRP14       (0x73 | P_EXT | P_DATA16)
=20
 /* Group 1 opcode extensions for 0x80-0x83.
    These are also used as modifiers for OPC_ARITH.  */
@@ -519,10 +550,12 @@ static void tcg_out_opc(TCGContext *s, int opc, int r=
, int rm, int x)
         tcg_out8(s, (uint8_t)(rex | 0x40));
     }
=20
-    if (opc & (P_EXT | P_EXT38)) {
+    if (opc & (P_EXT | P_EXT38 | P_EXT3A)) {
         tcg_out8(s, 0x0f);
         if (opc & P_EXT38) {
             tcg_out8(s, 0x38);
+        } else if (opc & P_EXT3A) {
+            tcg_out8(s, 0x3a);
         }
     }
=20
@@ -539,10 +572,12 @@ static void tcg_out_opc(TCGContext *s, int opc)
     } else if (opc & P_SIMDF2) {
         tcg_out8(s, 0xf2);
     }
-    if (opc & (P_EXT | P_EXT38)) {
+    if (opc & (P_EXT | P_EXT38 | P_EXT3A)) {
         tcg_out8(s, 0x0f);
         if (opc & P_EXT38) {
             tcg_out8(s, 0x38);
+        } else if (opc & P_EXT3A) {
+            tcg_out8(s, 0x3a);
         }
     }
     tcg_out8(s, opc);
@@ -566,7 +601,7 @@ static void tcg_out_vex_opc(TCGContext *s, int opc, int=
 r, int v,
=20
     /* Use the two byte form if possible, which cannot encode
        VEX.W, VEX.B, VEX.X, or an m-mmmm field other than P_EXT.  */
-    if ((opc & (P_EXT | P_EXT38 | P_REXW)) =3D=3D P_EXT
+    if ((opc & (P_EXT | P_EXT38 | P_EXT3A | P_REXW)) =3D=3D P_EXT
         && ((rm | index) & 8) =3D=3D 0) {
         /* Two byte VEX prefix.  */
         tcg_out8(s, 0xc5);
@@ -577,7 +612,9 @@ static void tcg_out_vex_opc(TCGContext *s, int opc, int=
 r, int v,
         tcg_out8(s, 0xc4);
=20
         /* VEX.m-mmmm */
-        if (opc & P_EXT38) {
+        if (opc & P_EXT3A) {
+            tmp =3D 3;
+        } else if (opc & P_EXT38) {
             tmp =3D 2;
         } else if (opc & P_EXT) {
             tmp =3D 1;
@@ -2638,9 +2675,24 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
     static int const sub_insn[4] =3D {
         OPC_PSUBB, OPC_PSUBW, OPC_PSUBD, OPC_PSUBQ
     };
+    static int const shift_imm_insn[4] =3D {
+        OPC_UD2, OPC_PSHIFTW_Ib, OPC_PSHIFTD_Ib, OPC_PSHIFTQ_Ib
+    };
+    static int const cmpeq_insn[4] =3D {
+        OPC_PCMPEQB, OPC_PCMPEQW, OPC_PCMPEQD, OPC_PCMPEQQ
+    };
+    static int const cmpgt_insn[4] =3D {
+        OPC_PCMPGTB, OPC_PCMPGTW, OPC_PCMPGTD, OPC_PCMPGTQ
+    };
+    static int const punpckl_insn[4] =3D {
+        OPC_PUNPCKLBW, OPC_PUNPCKLWD, OPC_PUNPCKLDQ, OPC_PUNPCKLQDQ
+    };
+    static int const punpckh_insn[4] =3D {
+        OPC_PUNPCKHBW, OPC_PUNPCKHWD, OPC_PUNPCKHDQ, OPC_PUNPCKHQDQ
+    };
=20
     TCGType type =3D vecl + TCG_TYPE_V64;
-    int insn;
+    int insn, sub;
     TCGArg a0, a1, a2;
=20
     a0 =3D args[0];
@@ -2662,6 +2714,31 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
         goto gen_simd;
     case INDEX_op_xor_vec:
         insn =3D OPC_PXOR;
+        goto gen_simd;
+    case INDEX_op_zipl_vec:
+        insn =3D punpckl_insn[vece];
+        goto gen_simd;
+    case INDEX_op_ziph_vec:
+        insn =3D punpckh_insn[vece];
+        goto gen_simd;
+    case INDEX_op_x86_packss_vec:
+        if (vece =3D=3D MO_8) {
+            insn =3D OPC_PACKSSWB;
+        } else if (vece =3D=3D MO_16) {
+            insn =3D OPC_PACKSSDW;
+        } else {
+            g_assert_not_reached();
+        }
+        goto gen_simd;
+    case INDEX_op_x86_packus_vec:
+        if (vece =3D=3D MO_8) {
+            insn =3D OPC_PACKUSWB;
+        } else if (vece =3D=3D MO_16) {
+            insn =3D OPC_PACKUSDW;
+        } else {
+            g_assert_not_reached();
+        }
+        goto gen_simd;
     gen_simd:
         if (type =3D=3D TCG_TYPE_V256) {
             insn |=3D P_VEXL;
@@ -2669,6 +2746,17 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
         tcg_out_vex_modrm(s, insn, a0, a1, a2);
         break;
=20
+    case INDEX_op_cmp_vec:
+        sub =3D args[3];
+        if (sub =3D=3D TCG_COND_EQ) {
+            insn =3D cmpeq_insn[vece];
+        } else if (sub =3D=3D TCG_COND_GT) {
+            insn =3D cmpgt_insn[vece];
+        } else {
+            g_assert_not_reached();
+        }
+        goto gen_simd;
+
     case INDEX_op_andc_vec:
         insn =3D OPC_PANDN;
         if (type =3D=3D TCG_TYPE_V256) {
@@ -2677,6 +2765,25 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
         tcg_out_vex_modrm(s, insn, a0, a2, a1);
         break;
=20
+    case INDEX_op_shli_vec:
+        sub =3D 6;
+        goto gen_shift;
+    case INDEX_op_shri_vec:
+        sub =3D 2;
+        goto gen_shift;
+    case INDEX_op_sari_vec:
+        tcg_debug_assert(vece !=3D MO_64);
+        sub =3D 4;
+    gen_shift:
+        tcg_debug_assert(vece !=3D MO_8);
+        insn =3D shift_imm_insn[vece];
+        if (type =3D=3D TCG_TYPE_V256) {
+            insn |=3D P_VEXL;
+        }
+        tcg_out_vex_modrm(s, insn, sub, a0, a1);
+        tcg_out8(s, a2);
+        break;
+
     case INDEX_op_ld_vec:
         tcg_out_ld(s, type, a0, a1, a2);
         break;
@@ -2690,6 +2797,42 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
         tcg_out_dup_vec(s, type, vece, a0, a1);
         break;
=20
+    case INDEX_op_x86_shufps_vec:
+        insn =3D OPC_SHUFPS;
+        sub =3D args[3];
+        goto gen_simd_imm8;
+    case INDEX_op_x86_blend_vec:
+        if (vece =3D=3D MO_16) {
+            insn =3D OPC_PBLENDW;
+        } else if (vece =3D=3D MO_32) {
+            insn =3D (have_avx2 ? OPC_VPBLENDD : OPC_BLENDPS);
+        } else {
+            g_assert_not_reached();
+        }
+        sub =3D args[3];
+        goto gen_simd_imm8;
+    gen_simd_imm8:
+        if (type =3D=3D TCG_TYPE_V256) {
+            insn |=3D P_VEXL;
+        }
+        tcg_out_vex_modrm(s, insn, a0, a1, a2);
+        tcg_out8(s, sub);
+        break;
+
+    case INDEX_op_x86_vpblendvb_vec:
+        insn =3D OPC_VPBLENDVB;
+        if (type =3D=3D TCG_TYPE_V256) {
+            insn |=3D P_VEXL;
+        }
+        tcg_out_vex_modrm(s, insn, a0, a1, a2);
+        tcg_out8(s, args[3] << 4);
+        break;
+
+    case INDEX_op_x86_psrldq_vec:
+        tcg_out_vex_modrm(s, OPC_GRP14, 3, a0, a1);
+        tcg_out8(s, a2);
+        break;
+
     default:
         g_assert_not_reached();
     }
@@ -2720,6 +2863,8 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpc=
ode op)
         =3D { .args_ct_str =3D { "L", "L", "L", "L" } };
     static const TCGTargetOpDef x_x =3D { .args_ct_str =3D { "x", "x" } };
     static const TCGTargetOpDef x_x_x =3D { .args_ct_str =3D { "x", "x", "=
x" } };
+    static const TCGTargetOpDef x_x_x_x
+        =3D { .args_ct_str =3D { "x", "x", "x", "x" } };
     static const TCGTargetOpDef x_r =3D { .args_ct_str =3D { "x", "r" } };
=20
     switch (op) {
@@ -2932,9 +3077,22 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOp=
code op)
     case INDEX_op_or_vec:
     case INDEX_op_xor_vec:
     case INDEX_op_andc_vec:
+    case INDEX_op_cmp_vec:
+    case INDEX_op_zipl_vec:
+    case INDEX_op_ziph_vec:
+    case INDEX_op_x86_shufps_vec:
+    case INDEX_op_x86_blend_vec:
+    case INDEX_op_x86_packss_vec:
+    case INDEX_op_x86_packus_vec:
         return &x_x_x;
     case INDEX_op_dup_vec:
+    case INDEX_op_shli_vec:
+    case INDEX_op_shri_vec:
+    case INDEX_op_sari_vec:
+    case INDEX_op_x86_psrldq_vec:
         return &x_x;
+    case INDEX_op_x86_vpblendvb_vec:
+        return &x_x_x_x;
=20
     default:
         break;
@@ -2951,16 +3109,439 @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType typ=
e, unsigned vece)
     case INDEX_op_or_vec:
     case INDEX_op_xor_vec:
     case INDEX_op_andc_vec:
-        return true;
+        return 1;
+    case INDEX_op_cmp_vec:
+        return -1;
+
+    case INDEX_op_shli_vec:
+    case INDEX_op_shri_vec:
+        /* We must expand the operation for MO_8.  */
+        return vece =3D=3D MO_8 ? -1 : 1;
+
+    case INDEX_op_sari_vec:
+        /* We must expand the operation for MO_8.  */
+        if (vece =3D=3D MO_8) {
+            return -1;
+        }
+        /* We can emulate this for MO_64, but it does not pay off
+           unless we're producing at least 4 values.  */
+        if (vece =3D=3D MO_64) {
+            return type >=3D TCG_TYPE_V256 ? -1 : 0;
+        }
+        return 1;
+
+    case INDEX_op_zipl_vec:
+        /* We could support v256, but with 3 insns per opcode.
+           It is better to expand with v128 instead.  */
+        return type <=3D TCG_TYPE_V128;
+    case INDEX_op_ziph_vec:
+        if (type =3D=3D TCG_TYPE_V64) {
+            return -1;
+        }
+        return type =3D=3D TCG_TYPE_V128;
+
+    case INDEX_op_uzpe_vec:
+    case INDEX_op_uzpo_vec:
+    case INDEX_op_trne_vec:
+    case INDEX_op_trno_vec:
+        /* ??? Not implemented for V256.  */
+        return -(type <=3D TCG_TYPE_V128);
=20
     default:
-        return false;
+        return 0;
     }
 }
=20
 void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
                        TCGArg a0, ...)
 {
+    va_list va;
+    TCGArg a1, a2;
+    TCGv_vec v0, v1, v2, t1, t2;
+
+    va_start(va, a0);
+    v0 =3D temp_tcgv_vec(arg_temp(a0));
+
+    switch (opc) {
+    case INDEX_op_shli_vec:
+    case INDEX_op_shri_vec:
+        tcg_debug_assert(vece =3D=3D MO_8);
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        /* Unpack to W, shift, and repack.  Tricky bits:
+           (1) Use punpck*bw x,x to produce DDCCBBAA,
+               i.e. duplicate in other half of the 16-bit lane.
+           (2) For right-shift, add 8 so that the high half of
+               the lane becomes zero.  For left-shift, we must
+               shift up and down again.
+           (3) Step 2 leaves high half zero such that PACKUSWB
+               (pack with unsigned saturation) does not modify
+               the quantity.  */
+        t1 =3D tcg_temp_new_vec(type);
+        t2 =3D tcg_temp_new_vec(type);
+        vec_gen_3(INDEX_op_zipl_vec, type, MO_8, tcgv_vec_arg(t1), a1, a1);
+        vec_gen_3(INDEX_op_ziph_vec, type, MO_8, tcgv_vec_arg(t2), a1, a1);
+        if (opc =3D=3D INDEX_op_shri_vec) {
+            vec_gen_3(INDEX_op_shri_vec, type, MO_16,
+                     tcgv_vec_arg(t1), tcgv_vec_arg(t1), a2 + 8);
+            vec_gen_3(INDEX_op_shri_vec, type, MO_16,
+                     tcgv_vec_arg(t2), tcgv_vec_arg(t2), a2 + 8);
+        } else {
+            vec_gen_3(INDEX_op_shli_vec, type, MO_16,
+                     tcgv_vec_arg(t1), tcgv_vec_arg(t1), a2 + 8);
+            vec_gen_3(INDEX_op_shli_vec, type, MO_16,
+                     tcgv_vec_arg(t2), tcgv_vec_arg(t2), a2 + 8);
+            vec_gen_3(INDEX_op_shri_vec, type, MO_16,
+                     tcgv_vec_arg(t1), tcgv_vec_arg(t1), 8);
+            vec_gen_3(INDEX_op_shri_vec, type, MO_16,
+                     tcgv_vec_arg(t2), tcgv_vec_arg(t2), 8);
+        }
+        vec_gen_3(INDEX_op_x86_packus_vec, type, MO_8,
+                 a0, tcgv_vec_arg(t1), tcgv_vec_arg(t2));
+        tcg_temp_free_vec(t1);
+        tcg_temp_free_vec(t2);
+        break;
+
+    case INDEX_op_sari_vec:
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        if (vece =3D=3D MO_8) {
+            /* Unpack to W, shift, and repack, as above.  */
+            t1 =3D tcg_temp_new_vec(type);
+            t2 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_zipl_vec, type, MO_8, tcgv_vec_arg(t1), a1,=
 a1);
+            vec_gen_3(INDEX_op_ziph_vec, type, MO_8, tcgv_vec_arg(t2), a1,=
 a1);
+            vec_gen_3(INDEX_op_sari_vec, type, MO_16,
+                      tcgv_vec_arg(t1), tcgv_vec_arg(t1), a2 + 8);
+            vec_gen_3(INDEX_op_sari_vec, type, MO_16,
+                      tcgv_vec_arg(t2), tcgv_vec_arg(t2), a2 + 8);
+            vec_gen_3(INDEX_op_x86_packss_vec, type, MO_8,
+                      a0, tcgv_vec_arg(t1), tcgv_vec_arg(t2));
+            tcg_temp_free_vec(t1);
+            tcg_temp_free_vec(t2);
+            break;
+        }
+        tcg_debug_assert(vece =3D=3D MO_64);
+        /* MO_64: If the shift is <=3D 32, we can emulate the sign extend =
by
+           performing an arithmetic 32-bit shift and overwriting the high
+           half of the result (note that the ISA says shift of 32 is valid=
). */
+        if (a2 <=3D 32) {
+            t1 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_sari_vec, type, MO_32, tcgv_vec_arg(t1), a1=
, a2);
+            vec_gen_3(INDEX_op_sari_vec, type, MO_64, a0, a1, a2);
+            vec_gen_4(INDEX_op_x86_blend_vec, type, MO_32,
+                      a0, a0, tcgv_vec_arg(t1), 0xaa);
+            tcg_temp_free_vec(t1);
+            break;
+        }
+        /* Otherwise we will need to use a compare vs 0 to produce the
+           sign-extend, shift and merge.  */
+        t1 =3D tcg_temp_new_vec(type);
+        t2 =3D tcg_const_zeros_vec(type);
+        vec_gen_4(INDEX_op_cmp_vec, type, MO_64,
+                  tcgv_vec_arg(t1), tcgv_vec_arg(t2), a1, TCG_COND_GT);
+        tcg_temp_free_vec(t2);
+        vec_gen_3(INDEX_op_shri_vec, type, MO_64, a0, a1, a2);
+        vec_gen_3(INDEX_op_shli_vec, type, MO_64,
+                  tcgv_vec_arg(t1), tcgv_vec_arg(t1), 64 - a2);
+        vec_gen_3(INDEX_op_or_vec, type, MO_64, a0, a0, tcgv_vec_arg(t1));
+        tcg_temp_free_vec(t1);
+        break;
+
+    case INDEX_op_ziph_vec:
+        tcg_debug_assert(type =3D=3D TCG_TYPE_V64);
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, vece, a0, a1, a2);
+        vec_gen_3(INDEX_op_x86_psrldq_vec, TCG_TYPE_V128, MO_64, a0, a0, 8=
);
+        break;
+
+    case INDEX_op_uzpe_vec:
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        v1 =3D temp_tcgv_vec(arg_temp(a1));
+        v2 =3D temp_tcgv_vec(arg_temp(a2));
+
+        if (type =3D=3D TCG_TYPE_V128) {
+            switch (vece) {
+            case MO_8:
+                t1 =3D tcg_temp_new_vec(type);
+                t2 =3D tcg_temp_new_vec(type);
+                tcg_gen_dup16i_vec(t2, 0x00ff);
+                tcg_gen_and_vec(MO_16, t1, v2, t2);
+                tcg_gen_and_vec(MO_16, v0, v1, t2);
+                vec_gen_3(INDEX_op_x86_packus_vec, type, MO_8,
+                          a0, a0, tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                tcg_temp_free_vec(t2);
+                break;
+            case MO_16:
+                t1 =3D tcg_temp_new_vec(type);
+                t2 =3D tcg_temp_new_vec(type);
+                tcg_gen_dup32i_vec(t2, 0x0000ffff);
+                tcg_gen_and_vec(MO_32, t1, v2, t2);
+                tcg_gen_and_vec(MO_32, v0, v1, t2);
+                vec_gen_3(INDEX_op_x86_packus_vec, type, MO_16,
+                          a0, a0, tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                tcg_temp_free_vec(t2);
+                break;
+            case MO_32:
+                vec_gen_4(INDEX_op_x86_shufps_vec, type, MO_32,
+                          a0, a1, a2, 0x88);
+                break;
+            case MO_64:
+                tcg_gen_zipl_vec(vece, v0, v1, v2);
+                break;
+            default:
+                g_assert_not_reached();
+            }
+        } else {
+            tcg_debug_assert(type =3D=3D TCG_TYPE_V64);
+            switch (vece) {
+            case MO_8:
+                t1 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+                vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_64,
+                          tcgv_vec_arg(t1), a1, a2);
+                t2 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+                tcg_gen_dup16i_vec(t2, 0x00ff);
+                tcg_gen_and_vec(MO_16, t1, t1, t2);
+                vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V128, MO_8,
+                          a0, tcgv_vec_arg(t1), tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                tcg_temp_free_vec(t2);
+                break;
+            case MO_16:
+                t1 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+                vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_64,
+                          tcgv_vec_arg(t1), a1, a2);
+                t2 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+                tcg_gen_dup32i_vec(t2, 0x0000ffff);
+                tcg_gen_and_vec(MO_32, t1, t1, t2);
+                vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V128, MO_16,
+                          a0, tcgv_vec_arg(t1), tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                tcg_temp_free_vec(t2);
+                break;
+            case MO_32:
+                tcg_gen_zipl_vec(vece, v0, v1, v2);
+                break;
+            default:
+                g_assert_not_reached();
+            }
+        }
+        break;
+
+    case INDEX_op_uzpo_vec:
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        v1 =3D temp_tcgv_vec(arg_temp(a1));
+        v2 =3D temp_tcgv_vec(arg_temp(a2));
+
+        if (type =3D=3D TCG_TYPE_V128) {
+            switch (vece) {
+            case MO_8:
+                t1 =3D tcg_temp_new_vec(type);
+                tcg_gen_shri_vec(MO_16, t1, v2, 8);
+                tcg_gen_shri_vec(MO_16, v0, v1, 8);
+                vec_gen_3(INDEX_op_x86_packus_vec, type, MO_8,
+                          a0, a0, tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                break;
+            case MO_16:
+                t1 =3D tcg_temp_new_vec(type);
+                tcg_gen_shri_vec(MO_32, t1, v2, 16);
+                tcg_gen_shri_vec(MO_32, v0, v1, 16);
+                vec_gen_3(INDEX_op_x86_packus_vec, type, MO_16,
+                          a0, a0, tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                break;
+            case MO_32:
+                vec_gen_4(INDEX_op_x86_shufps_vec, type, MO_32,
+                          a0, a1, a2, 0xdd);
+                break;
+            case MO_64:
+                tcg_gen_ziph_vec(vece, v0, v1, v2);
+                break;
+            default:
+                g_assert_not_reached();
+            }
+        } else {
+            switch (vece) {
+            case MO_8:
+                t1 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+                vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_64,
+                          tcgv_vec_arg(t1), a1, a2);
+                tcg_gen_shri_vec(MO_16, t1, t1, 8);
+                vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V128, MO_8,
+                          a0, tcgv_vec_arg(t1), tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                break;
+            case MO_16:
+                t1 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+                vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_64,
+                          tcgv_vec_arg(t1), a1, a2);
+                tcg_gen_shri_vec(MO_32, t1, t1, 16);
+                vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V128, MO_16,
+                          a0, tcgv_vec_arg(t1), tcgv_vec_arg(t1));
+                tcg_temp_free_vec(t1);
+                break;
+            case MO_32:
+                tcg_gen_ziph_vec(vece, v0, v1, v2);
+                break;
+            default:
+                g_assert_not_reached();
+            }
+        }
+        break;
+
+    case INDEX_op_trne_vec:
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        switch (vece) {
+        case MO_8:
+            t1 =3D tcg_temp_new_vec(type);
+            t2 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_shli_vec, type, MO_16,
+                      tcgv_vec_arg(t1), a2, 8);
+            tcg_gen_dup16i_vec(t2, 0xff00);
+            vec_gen_4(INDEX_op_x86_vpblendvb_vec, type, MO_8,
+                      a0, a1, tcgv_vec_arg(t1), tcgv_vec_arg(t2));
+            tcg_temp_free_vec(t1);
+            tcg_temp_free_vec(t2);
+            break;
+        case MO_16:
+            t1 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_shli_vec, type, MO_32,
+                      tcgv_vec_arg(t1), a2, 16);
+            vec_gen_4(INDEX_op_x86_blend_vec, type, MO_16,
+                      a0, a1, tcgv_vec_arg(t1), 0xaa);
+            tcg_temp_free_vec(t1);
+            break;
+        case MO_32:
+            t1 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_shli_vec, type, MO_64,
+                      tcgv_vec_arg(t1), a2, 32);
+            vec_gen_4(INDEX_op_x86_blend_vec, type, MO_32,
+                      a0, a1, tcgv_vec_arg(t1), 0xaa);
+            tcg_temp_free_vec(t1);
+            break;
+        case MO_64:
+            vec_gen_3(INDEX_op_zipl_vec, type, MO_64, a0, a1, a2);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        break;
+
+    case INDEX_op_trno_vec:
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        switch (vece) {
+        case MO_8:
+            t1 =3D tcg_temp_new_vec(type);
+            t2 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_shri_vec, type, MO_16,
+                      tcgv_vec_arg(t1), a1, 8);
+            tcg_gen_dup16i_vec(t2, 0xff00);
+            vec_gen_4(INDEX_op_x86_vpblendvb_vec, type, MO_8,
+                      a0, tcgv_vec_arg(t1), a2, tcgv_vec_arg(t2));
+            tcg_temp_free_vec(t1);
+            tcg_temp_free_vec(t2);
+            break;
+        case MO_16:
+            t1 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_shri_vec, type, MO_32,
+                      tcgv_vec_arg(t1), a1, 16);
+            vec_gen_4(INDEX_op_x86_blend_vec, type, MO_16,
+                      a0, tcgv_vec_arg(t1), a2, 0xaa);
+            tcg_temp_free_vec(t1);
+            break;
+        case MO_32:
+            t1 =3D tcg_temp_new_vec(type);
+            vec_gen_3(INDEX_op_shri_vec, type, MO_64,
+                      tcgv_vec_arg(t1), a1, 32);
+            vec_gen_4(INDEX_op_x86_blend_vec, type, MO_32,
+                      a0, tcgv_vec_arg(t1), a2, 0xaa);
+            tcg_temp_free_vec(t1);
+            break;
+        case MO_64:
+            vec_gen_3(INDEX_op_ziph_vec, type, MO_64, a0, a1, a2);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        break;
+
+    case INDEX_op_cmp_vec:
+        {
+            enum {
+                NEED_SWAP =3D 1,
+                NEED_INV  =3D 2,
+                NEED_BIAS =3D 4
+            };
+            static const uint8_t fixups[16] =3D {
+                [0 ... 15] =3D -1,
+                [TCG_COND_EQ] =3D 0,
+                [TCG_COND_NE] =3D NEED_INV,
+                [TCG_COND_GT] =3D 0,
+                [TCG_COND_LT] =3D NEED_SWAP,
+                [TCG_COND_LE] =3D NEED_INV,
+                [TCG_COND_GE] =3D NEED_SWAP | NEED_INV,
+                [TCG_COND_GTU] =3D NEED_BIAS,
+                [TCG_COND_LTU] =3D NEED_BIAS | NEED_SWAP,
+                [TCG_COND_LEU] =3D NEED_BIAS | NEED_INV,
+                [TCG_COND_GEU] =3D NEED_BIAS | NEED_SWAP | NEED_INV,
+            };
+
+            TCGCond cond;
+            uint8_t fixup;
+
+            a1 =3D va_arg(va, TCGArg);
+            a2 =3D va_arg(va, TCGArg);
+            cond =3D va_arg(va, TCGArg);
+            fixup =3D fixups[cond & 15];
+            tcg_debug_assert(fixup !=3D 0xff);
+
+            if (fixup & NEED_INV) {
+                cond =3D tcg_invert_cond(cond);
+            }
+            if (fixup & NEED_SWAP) {
+                TCGArg t;
+                t =3D a1, a1 =3D a2, a2 =3D t;
+                cond =3D tcg_swap_cond(cond);
+            }
+
+            t1 =3D t2 =3D NULL;
+            if (fixup & NEED_BIAS) {
+                t1 =3D tcg_temp_new_vec(type);
+                t2 =3D tcg_temp_new_vec(type);
+                tcg_gen_dupi_vec(vece, t2, 1ull << ((8 << vece) - 1));
+                tcg_gen_sub_vec(vece, t1, temp_tcgv_vec(arg_temp(a1)), t2);
+                tcg_gen_sub_vec(vece, t2, temp_tcgv_vec(arg_temp(a2)), t2);
+                a1 =3D tcgv_vec_arg(t1);
+                a2 =3D tcgv_vec_arg(t2);
+                cond =3D tcg_signed_cond(cond);
+            }
+
+            tcg_debug_assert(cond =3D=3D TCG_COND_EQ || cond =3D=3D TCG_CO=
ND_GT);
+            vec_gen_4(INDEX_op_cmp_vec, type, vece, a0, a1, a2, cond);
+
+            if (fixup & NEED_BIAS) {
+                tcg_temp_free_vec(t1);
+                tcg_temp_free_vec(t2);
+            }
+            if (fixup & NEED_INV) {
+                tcg_gen_not_vec(vece, v0, v0);
+            }
+        }
+        break;
+
+    default:
+        break;
+    }
+
+    va_end(va);
 }
=20
 static const int tcg_target_callee_save_regs[] =3D {
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511301253450788.1979380964002;
 Tue, 21 Nov 2017 13:54:13 -0800 (PST)
Received: from localhost ([::1]:36747 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGUe-0002yX-F9
	for importer@patchew.org; Tue, 21 Nov 2017 16:54:12 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54180)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5O-0004dS-6J
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:09 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5M-0007pY-Pb
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:06 -0500
Received: from mail-wm0-x242.google.com ([2a00:1450:400c:c09::242]:40250)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5M-0007pA-Gu
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:04 -0500
Received: by mail-wm0-x242.google.com with SMTP id b189so6267110wmd.5
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:04 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.02 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:02 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=nu77O2h7jrWbGP54KYbs3hNiXQ3fIhv9Byd3iuDgXa8=;
	b=kp9nGWv+EdVWPudxev9RMVEpQFaofTMECWYyVTHZu/XoND4NGAuw4BN2UL6uAa8Aqu
	cttjiOdS7yGjWYI21cKcr+J4jHABkeIJsPVavNj9T4h16oYyfHF6MGSHUO4kMpUrI36m
	CBxs+u05mlcfRyYJs85hxGnJ4gyHJd0El68nI=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=nu77O2h7jrWbGP54KYbs3hNiXQ3fIhv9Byd3iuDgXa8=;
	b=SIZYpGN2YDmWMR+COCKEx899r1FUkIrHE/P6Z5qjasJ4QWpHxjkZVpZ9p1L0Jf+XDS
	zBI24dcknlAlQYA4Cftl3XfB666Eko/Urrj63Zo7ZGFbVYJE/GyfwxHnfSx4OSPwUXaH
	PtqPZz6sswUdmGbwknD9rAFlbnM4xMyGP8isPjsoPHw2RstpS190cs7AIfwEPGriu89l
	BFh4XL+DoIvSEZQSLZupyeK7Rgi5cmGE2lYmCTTP02tYGMVktMPLe+m2B1PWjS3i6y/q
	dmAcZLbh9GfZNm/yrDswD8Ws/RovYedL46/wZSGSl6eXbxo8McFpPP2L8B+DQlosjC53
	1KNA==
X-Gm-Message-State: AJaThX6oME0FWFvzT+p60XN+k/4jzhthyZvrgLlS70IjXj3GIv9MF+D+
	9rlBF2H6mbq9hxPpZMVKXSfMEu2JRkI=
X-Google-Smtp-Source: 
 AGs4zMZKOq2NFS2m2Hv/1OnAZFu0A/0x0fVYzTwtUrEc/YZOUoMyZw+sdeZD70LqdsckewtgHOT81Q==
X-Received: by 10.28.173.199 with SMTP id w190mr2410509wme.69.1511299683258;
	Tue, 21 Nov 2017 13:28:03 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:29 +0100
Message-Id: <20171121212534.5177-22-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::242
Subject: [Qemu-devel] [PATCH v6 21/26] tcg: Add generic vector ops for
 multiplication
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime.h      |  5 +++++
 tcg/i386/tcg-target.h        |  1 +
 tcg/tcg-op-gvec.h            |  2 ++
 tcg/tcg-op.h                 |  1 +
 tcg/tcg-opc.h                |  1 +
 tcg/tcg.h                    |  1 +
 accel/tcg/tcg-runtime-gvec.c | 44 ++++++++++++++++++++++++++++++++++++++++=
++++
 tcg/tcg-op-gvec.c            | 29 +++++++++++++++++++++++++++++
 tcg/tcg-op-vec.c             | 22 ++++++++++++++++++++++
 tcg/tcg.c                    |  2 ++
 tcg/README                   |  4 ++++
 11 files changed, 112 insertions(+)

diff --git a/accel/tcg/tcg-runtime.h b/accel/tcg/tcg-runtime.h
index 28abf30d76..c4a2e6b215 100644
--- a/accel/tcg/tcg-runtime.h
+++ b/accel/tcg/tcg-runtime.h
@@ -152,6 +152,11 @@ DEF_HELPER_FLAGS_4(gvec_sub16, TCG_CALL_NO_RWG, void, =
ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_sub32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_sub64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
=20
+DEF_HELPER_FLAGS_4(gvec_mul8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_mul16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_mul32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_mul64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_3(gvec_neg8, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(gvec_neg16, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(gvec_neg32, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index 60d3684750..949d138c9d 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -184,6 +184,7 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
 #define TCG_TARGET_HAS_cmp_vec          1
+#define TCG_TARGET_HAS_mul_vec          0
=20
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
     (((ofs) =3D=3D 0 && (len) =3D=3D 8) || ((ofs) =3D=3D 8 && (len) =3D=3D=
 8) || \
diff --git a/tcg/tcg-op-gvec.h b/tcg/tcg-op-gvec.h
index 308bdc13b4..ad5e22e1bf 100644
--- a/tcg/tcg-op-gvec.h
+++ b/tcg/tcg-op-gvec.h
@@ -134,6 +134,8 @@ void tcg_gen_gvec_add(unsigned vece, uint32_t dofs, uin=
t32_t aofs,
                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
 void tcg_gen_gvec_sub(unsigned vece, uint32_t dofs, uint32_t aofs,
                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_mul(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t clsz);
=20
 void tcg_gen_gvec_and(unsigned vece, uint32_t dofs, uint32_t aofs,
                       uint32_t bofs, uint32_t opsz, uint32_t clsz);
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index b4f73c6048..3296a7baa5 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -920,6 +920,7 @@ void tcg_gen_movi_v128(TCGv_vec, uint64_t, uint64_t);
 void tcg_gen_movi_v256(TCGv_vec, uint64_t, uint64_t, uint64_t, uint64_t);
 void tcg_gen_add_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_sub_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
+void tcg_gen_mul_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_and_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_or_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_xor_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index d3fa014507..b21a30273c 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -220,6 +220,7 @@ DEF(st_vec, 0, 2, 1, IMPLVEC)
=20
 DEF(add_vec, 1, 2, 0, IMPLVEC)
 DEF(sub_vec, 1, 2, 0, IMPLVEC)
+DEF(mul_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_mul_vec))
 DEF(neg_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_neg_vec))
=20
 DEF(and_vec, 1, 2, 0, IMPLVEC)
diff --git a/tcg/tcg.h b/tcg/tcg.h
index 96760dd2d6..a729e66b66 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -185,6 +185,7 @@ typedef uint64_t TCGRegSet;
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
 #define TCG_TARGET_HAS_cmp_vec          0
+#define TCG_TARGET_HAS_mul_vec          0
 #else
 #define TCG_TARGET_MAYBE_vec            1
 #endif
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index e0cde3216f..9406ccd769 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -141,6 +141,50 @@ void HELPER(gvec_sub64)(void *d, void *a, void *b, uin=
t32_t desc)
     clear_high(d, oprsz, desc);
 }
=20
+void HELPER(gvec_mul8)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec8)) {
+        *(vec8 *)(d + i) =3D *(vec8 *)(a + i) * *(vec8 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_mul16)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec16)) {
+        *(vec16 *)(d + i) =3D *(vec16 *)(a + i) * *(vec16 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_mul32)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec32)) {
+        *(vec32 *)(d + i) =3D *(vec32 *)(a + i) * *(vec32 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
+void HELPER(gvec_mul64)(void *d, void *a, void *b, uint32_t desc)
+{
+    intptr_t oprsz =3D simd_oprsz(desc);
+    intptr_t i;
+
+    for (i =3D 0; i < oprsz; i +=3D sizeof(vec64)) {
+        *(vec64 *)(d + i) =3D *(vec64 *)(a + i) * *(vec64 *)(b + i);
+    }
+    clear_high(d, oprsz, desc);
+}
+
 void HELPER(gvec_neg8)(void *d, void *a, uint32_t desc)
 {
     intptr_t oprsz =3D simd_oprsz(desc);
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index 1cc28b459f..3f567f0027 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -1026,6 +1026,35 @@ void tcg_gen_gvec_sub(unsigned vece, uint32_t dofs, =
uint32_t aofs,
     tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
 }
=20
+void tcg_gen_gvec_mul(unsigned vece, uint32_t dofs, uint32_t aofs,
+                      uint32_t bofs, uint32_t opsz, uint32_t maxsz)
+{
+    static const GVecGen3 g[4] =3D {
+        { .fniv =3D tcg_gen_mul_vec,
+          .fno =3D gen_helper_gvec_mul8,
+          .opc =3D INDEX_op_mul_vec,
+          .vece =3D MO_8 },
+        { .fniv =3D tcg_gen_mul_vec,
+          .fno =3D gen_helper_gvec_mul16,
+          .opc =3D INDEX_op_mul_vec,
+          .vece =3D MO_16 },
+        { .fni4 =3D tcg_gen_mul_i32,
+          .fniv =3D tcg_gen_mul_vec,
+          .fno =3D gen_helper_gvec_mul32,
+          .opc =3D INDEX_op_mul_vec,
+          .vece =3D MO_32 },
+        { .fni8 =3D tcg_gen_mul_i64,
+          .fniv =3D tcg_gen_mul_vec,
+          .fno =3D gen_helper_gvec_mul64,
+          .opc =3D INDEX_op_mul_vec,
+          .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+          .vece =3D MO_64 },
+    };
+
+    tcg_debug_assert(vece <=3D MO_64);
+    tcg_gen_gvec_3(dofs, aofs, bofs, opsz, maxsz, &g[vece]);
+}
+
 /* Perform a vector negation using normal negation and a mask.
    Compare gen_subv_mask above.  */
 static void gen_negv_mask(TCGv_i64 d, TCGv_i64 b, TCGv_i64 m)
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index 2c636ebbd6..160db2e26e 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -503,3 +503,25 @@ void tcg_gen_cmp_vec(TCGCond cond, unsigned vece,
         tcg_expand_vec_op(INDEX_op_cmp_vec, type, vece, ri, ai, bi, cond);
     }
 }
+
+void tcg_gen_mul_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGTemp *bt =3D tcgv_vec_temp(b);
+    TCGArg ri =3D temp_arg(rt);
+    TCGArg ai =3D temp_arg(at);
+    TCGArg bi =3D temp_arg(bt);
+    TCGType type =3D rt->base_type;
+    int can;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    tcg_debug_assert(bt->base_type =3D=3D type);
+    can =3D tcg_can_emit_vec_op(INDEX_op_cmp_vec, type, vece);
+    if (can > 0) {
+        vec_gen_3(INDEX_op_mul_vec, type, vece, ri, ai, bi);
+    } else {
+        tcg_debug_assert(can < 0);
+        tcg_expand_vec_op(INDEX_op_mul_vec, type, vece, ri, ai, bi);
+    }
+}
diff --git a/tcg/tcg.c b/tcg/tcg.c
index f35d4a1a47..b0a7cb7d38 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1404,6 +1404,8 @@ bool tcg_op_supported(TCGOpcode op)
         return have_vec && TCG_TARGET_HAS_andc_vec;
     case INDEX_op_orc_vec:
         return have_vec && TCG_TARGET_HAS_orc_vec;
+    case INDEX_op_mul_vec:
+        return have_vec && TCG_TARGET_HAS_mul_vec;
     case INDEX_op_shli_vec:
     case INDEX_op_shri_vec:
     case INDEX_op_sari_vec:
diff --git a/tcg/README b/tcg/README
index 18b6bbd8f1..17695ff7f6 100644
--- a/tcg/README
+++ b/tcg/README
@@ -547,6 +547,10 @@ E.g. VECL=3D1 -> 64 << 1 -> v128, and VECE=3D2 -> 1 <<=
 2 -> i32.
=20
   Similarly, v0 =3D v1 - v2.
=20
+* mul_vec   v0, v1, v2
+
+  Similarly, v0 =3D v1 * v2.
+
 * neg_vec   v0, v1
=20
   Similarly, v0 =3D -v1.
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300201548715.6063508050503;
 Tue, 21 Nov 2017 13:36:41 -0800 (PST)
Received: from localhost ([::1]:36618 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGDX-00035V-9F
	for importer@patchew.org; Tue, 21 Nov 2017 16:36:31 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54213)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5R-0004gC-6g
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:10 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5O-0007pv-1B
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:09 -0500
Received: from mail-wm0-x241.google.com ([2a00:1450:400c:c09::241]:38919)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5N-0007pf-N1
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:05 -0500
Received: by mail-wm0-x241.google.com with SMTP id x63so6256553wmf.4
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:05 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.03 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:03 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=BYEvdLCnHSRMQQOqzqA9lQqG/GgVmtNTMqhFQhpcx8o=;
	b=DyYej7dRV8HU4MKXP7UZRj/zbXmgr8vk1C4Yan9dp1YRCJbeBlLaO4TAB2fsxkQSWG
	DuTVUoOQ80yEO/beB5/GvCAUVVSqD1vach+0Nq7Ft2Pbg8DDzqOxj5bkKpidY/ipUfSm
	rM2S8dh9Sc8adNWLffjvsKLVEBaVB630d/04Q=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=BYEvdLCnHSRMQQOqzqA9lQqG/GgVmtNTMqhFQhpcx8o=;
	b=LRT7t5t9OJKq2QHKYaYB6Uka8xk4f5tDJ1TIFOn2zPKKBoG0B3ULAPjPGBw5Pmo70Y
	f52mkLjfjYbL750LuX3wiiDer5InG2zDGosKGl87wfriYaSy1F0A9/4Y4qPjefsiWVUn
	0kw6jvuqZIT9C37C67A0wy16HWTOZfUevmo27+o9RJPyUTioQUR3Ld11LNpdj2O916+I
	0jyMYtEW/Si4ISEtUL7qTcm87/4zZ8PHKWUuWUyoRpO4fFk/HrsrzRIxDFvjNWcfRZXE
	A3NSZLPJ0TjTUcgXYZwzGqA8KpdoWe3kenwds6WaVWsZ91dkmnlz3WPOJ3KJPmBp8JzC
	efIw==
X-Gm-Message-State: AJaThX5fvajjcRRmCXrPyBibkPXlM4vHDfDf3AHb7pH6DVUT+LA2nKxY
	Hh7HGAtc/TJzsXtZ0oKgu5NgH4HkgGM=
X-Google-Smtp-Source: 
 AGs4zMa5Uk5JZ9OBPxHbx0iwBpmBmxhB9FO9gLyAjBl6s/5bwgaBhYd7vdYmUnERMSBRRoGNwq0s/w==
X-Received: by 10.28.170.69 with SMTP id t66mr2363735wme.15.1511299684460;
	Tue, 21 Nov 2017 13:28:04 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:30 +0100
Message-Id: <20171121212534.5177-23-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c09::241
Subject: [Qemu-devel] [PATCH v6 22/26] target/arm: Use vector infrastructure
 for aa64 multiplies
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 171 ++++++++++++++++++++++++++++++++++++-----=
----
 1 file changed, 138 insertions(+), 33 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index 1ea7e37b03..c47d9caa49 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -9691,6 +9691,66 @@ static void disas_simd_3same_float(DisasContext *s, =
uint32_t insn)
     }
 }
=20
+static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_add_u8(d, d, a);
+}
+
+static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_add_u16(d, d, a);
+}
+
+static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_sub_u8(d, d, a);
+}
+
+static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_sub_u16(d, d, a);
+}
+
+static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_sub_i32(d, d, a);
+}
+
+static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_sub_i64(d, d, a);
+}
+
+static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_sub_vec(vece, d, d, a);
+}
+
 /* Integer op subgroup of C3.6.16. */
 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
 {
@@ -9702,7 +9762,8 @@ static void disas_simd_3same_int(DisasContext *s, uin=
t32_t insn)
     int rn =3D extract32(insn, 5, 5);
     int rd =3D extract32(insn, 0, 5);
     int pass;
-    GVecGen3Fn *gvec_op;
+    GVecGen3Fn *gvec_fn;
+    const GVecGen3 *gvec_op;
     TCGCond cond;
=20
     switch (opcode) {
@@ -9745,12 +9806,70 @@ static void disas_simd_3same_int(DisasContext *s, u=
int32_t insn)
=20
     switch (opcode) {
     case 0x10: /* ADD, SUB */
-        gvec_op =3D u ? tcg_gen_gvec_sub : tcg_gen_gvec_add;
-        gvec_op(size, vec_full_reg_offset(s, rd),
+        gvec_fn =3D u ? tcg_gen_gvec_sub : tcg_gen_gvec_add;
+    do_gvec:
+        gvec_fn(size, vec_full_reg_offset(s, rd),
                 vec_full_reg_offset(s, rn),
                 vec_full_reg_offset(s, rm),
                 is_q ? 16 : 8, vec_full_reg_size(s));
         return;
+    case 0x13: /* MUL, PMUL */
+        if (!u) { /* MUL */
+            gvec_fn =3D tcg_gen_gvec_mul;
+            goto do_gvec;
+        }
+        break;
+    case 0x12: /* MLA, MLS */
+        {
+            static const GVecGen3 mla_op[4] =3D {
+                { .fni4 =3D gen_mla8_i32,
+                  .fniv =3D gen_mla_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .load_dest =3D true,
+                  .vece =3D MO_8 },
+                { .fni4 =3D gen_mla16_i32,
+                  .fniv =3D gen_mla_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .load_dest =3D true,
+                  .vece =3D MO_16 },
+                { .fni4 =3D gen_mla32_i32,
+                  .fniv =3D gen_mla_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .load_dest =3D true,
+                  .vece =3D MO_32 },
+                { .fni8 =3D gen_mla64_i64,
+                  .fniv =3D gen_mla_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+                  .load_dest =3D true,
+                  .vece =3D MO_64 },
+            };
+            static const GVecGen3 mls_op[4] =3D {
+                { .fni4 =3D gen_mls8_i32,
+                  .fniv =3D gen_mls_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .load_dest =3D true,
+                  .vece =3D MO_8 },
+                { .fni4 =3D gen_mls16_i32,
+                  .fniv =3D gen_mls_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .load_dest =3D true,
+                  .vece =3D MO_16 },
+                { .fni4 =3D gen_mls32_i32,
+                  .fniv =3D gen_mls_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .load_dest =3D true,
+                  .vece =3D MO_32 },
+                { .fni8 =3D gen_mls64_i64,
+                  .fniv =3D gen_mls_vec,
+                  .opc =3D INDEX_op_mul_vec,
+                  .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
+                  .load_dest =3D true,
+                  .vece =3D MO_64 },
+            };
+            gvec_op =3D (u ? &mls_op[size] : &mla_op[size]);
+        }
+        goto do_gvec_op;
     case 0x11:
         if (u) { /* CMEQ */
             cond =3D TCG_COND_EQ;
@@ -9771,12 +9890,13 @@ static void disas_simd_3same_int(DisasContext *s, u=
int32_t insn)
                   .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64,
                   .vece =3D MO_64 },
             };
-            tcg_gen_gvec_3(vec_full_reg_offset(s, rd),
-                           vec_full_reg_offset(s, rn),
-                           vec_full_reg_offset(s, rm),
-                           is_q ? 16 : 8, vec_full_reg_size(s),
-                           &cmtst_op[size]);
+            gvec_op =3D &cmtst_op[size];
         }
+    do_gvec_op:
+        tcg_gen_gvec_3(vec_full_reg_offset(s, rd),
+                       vec_full_reg_offset(s, rn),
+                       vec_full_reg_offset(s, rm),
+                       is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
         return;
     case 0x06: /* CMGT, CMHI */
         cond =3D u ? TCG_COND_GTU : TCG_COND_GT;
@@ -9944,23 +10064,10 @@ static void disas_simd_3same_int(DisasContext *s, =
uint32_t insn)
                 break;
             }
             case 0x13: /* MUL, PMUL */
-                if (u) {
-                    /* PMUL */
-                    assert(size =3D=3D 0);
-                    genfn =3D gen_helper_neon_mul_p8;
-                    break;
-                }
-                /* fall through : MUL */
-            case 0x12: /* MLA, MLS */
-            {
-                static NeonGenTwoOpFn * const fns[3] =3D {
-                    gen_helper_neon_mul_u8,
-                    gen_helper_neon_mul_u16,
-                    tcg_gen_mul_i32,
-                };
-                genfn =3D fns[size];
+                assert(u); /* PMUL */
+                assert(size =3D=3D 0);
+                genfn =3D gen_helper_neon_mul_p8;
                 break;
-            }
             case 0x16: /* SQDMULH, SQRDMULH */
             {
                 static NeonGenTwoOpEnvFn * const fns[2][2] =3D {
@@ -9981,18 +10088,16 @@ static void disas_simd_3same_int(DisasContext *s, =
uint32_t insn)
                 genfn(tcg_res, tcg_op1, tcg_op2);
             }
=20
-            if (opcode =3D=3D 0xf || opcode =3D=3D 0x12) {
-                /* SABA, UABA, MLA, MLS: accumulating ops */
-                static NeonGenTwoOpFn * const fns[3][2] =3D {
-                    { gen_helper_neon_add_u8, gen_helper_neon_sub_u8 },
-                    { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
-                    { tcg_gen_add_i32, tcg_gen_sub_i32 },
+            if (opcode =3D=3D 0xf) {
+                /* SABA, UABA: accumulating ops */
+                static NeonGenTwoOpFn * const fns[3] =3D {
+                    gen_helper_neon_add_u8,
+                    gen_helper_neon_add_u16,
+                    tcg_gen_add_i32,
                 };
-                bool is_sub =3D (opcode =3D=3D 0x12 && u); /* MLS */
=20
-                genfn =3D fns[size][is_sub];
                 read_vec_element_i32(s, tcg_op1, rd, pass, MO_32);
-                genfn(tcg_res, tcg_op1, tcg_res);
+                fns[size](tcg_res, tcg_op1, tcg_res);
             }
=20
             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
--=20
2.13.6


From nobody Tue Feb 10 16:16:33 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 151130085409698.87952245062104;
 Tue, 21 Nov 2017 13:47:34 -0800 (PST)
Received: from localhost ([::1]:36688 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGO8-0005Eb-4n
	for importer@patchew.org; Tue, 21 Nov 2017 16:47:28 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54210)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5R-0004g9-63
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:11 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5P-0007qg-Cb
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:09 -0500
Received: from mail-wr0-x241.google.com ([2a00:1450:400c:c0c::241]:35739)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5P-0007qB-0l
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:07 -0500
Received: by mail-wr0-x241.google.com with SMTP id w95so12649559wrc.2
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:06 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.04 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:04 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=gYnP6aABwK31CDcBjJE7j2jOpkRvF+VsSGnxFhhu6xk=;
	b=cImrrJGaMUIX8HXiMO3UaVkVVNdbwYP2G7m1xiH+xFWAuI68jsHwHUe1rAL6kS/HZs
	iX0CeQ1TeYHreYVz0wB9p3MuKden2fUGDpn8KjX8BeVLkoXqkcrJjXV3YvvhEEPL0mOP
	vDhD6cKIpE3lkOSfIlCSJ804S21uZKvdYJHrw=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=gYnP6aABwK31CDcBjJE7j2jOpkRvF+VsSGnxFhhu6xk=;
	b=qKWlhz/hXksNxTPpEs8rmNJWCL/DJk+LwgWvi5/RX+bpoVfXWOhqRDlpOl6qQXd/pu
	y461bkNBDRlKTV5777SSvRnnY1Mq3nHEhZA0c3uGb3QjMLB8S82NTQXIsmFDV/Lokqbj
	oXgf3k3oJR0ES93HPGpYlMspYc4bu3FcAmnlberONWO1qQ0TATIcJDIiipy1KPWN+81y
	H3nLw58MNUinsZ7QhK0QlVnHrjwmH2l9J9QrL2YuSAvoiRMCAf5zsTHgU1s0RIxhRcm1
	9n5FYFbiiQCfaskyJvsQsH6ngwYn8U8CJvYZQSk8q8L3qieDeYI4ocQWAcCcSyxtVXSz
	8pTg==
X-Gm-Message-State: AJaThX48zNOeByq1aSsQlecymVZn+t74tur3HxENrDP/v0B/nTz9koJf
	c+mvWrR8Nfo8f+B51C4X4uixHrD3cJw=
X-Google-Smtp-Source: 
 AGs4zMav/2wANQRfL+CGrEnVl/P166l4KuPJ7CLAzP3CPAhMs+EuRDrIVCAqSfK3yQbEihLWQNhPWg==
X-Received: by 10.223.184.47 with SMTP id h44mr14379361wrf.11.1511299685740;
	Tue, 21 Nov 2017 13:28:05 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:31 +0100
Message-Id: <20171121212534.5177-24-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::241
Subject: [Qemu-devel] [PATCH v6 23/26] tcg: Add generic vector ops for
 extension
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 accel/tcg/tcg-runtime.h      |   8 +++
 tcg/i386/tcg-target.h        |   2 +
 tcg/tcg-op-gvec.h            |   9 +++
 tcg/tcg-op.h                 |   5 ++
 tcg/tcg-opc.h                |   5 ++
 tcg/tcg.h                    |   2 +
 accel/tcg/tcg-runtime-gvec.c |  26 ++++++++
 tcg/tcg-op-gvec.c            | 138 +++++++++++++++++++++++++++++++++++++++=
++++
 tcg/tcg-op-vec.c             |  39 ++++++++++++
 tcg/tcg.c                    |   6 ++
 tcg/README                   |  13 ++++
 11 files changed, 253 insertions(+)

diff --git a/accel/tcg/tcg-runtime.h b/accel/tcg/tcg-runtime.h
index c4a2e6b215..d1b3542946 100644
--- a/accel/tcg/tcg-runtime.h
+++ b/accel/tcg/tcg-runtime.h
@@ -199,6 +199,14 @@ DEF_HELPER_FLAGS_4(gvec_trn16, TCG_CALL_NO_RWG, void, =
ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_trn32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_trn64, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
=20
+DEF_HELPER_FLAGS_3(gvec_extu8, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_extu16, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_extu32, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_exts8, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_exts16, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_exts32, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_4(gvec_eq8, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_eq16, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_eq32, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index 949d138c9d..fedc3449c1 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -185,6 +185,8 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_trn_vec          0
 #define TCG_TARGET_HAS_cmp_vec          1
 #define TCG_TARGET_HAS_mul_vec          0
+#define TCG_TARGET_HAS_extl_vec         0
+#define TCG_TARGET_HAS_exth_vec         0
=20
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
     (((ofs) =3D=3D 0 && (len) =3D=3D 8) || ((ofs) =3D=3D 8 && (len) =3D=3D=
 8) || \
diff --git a/tcg/tcg-op-gvec.h b/tcg/tcg-op-gvec.h
index ad5e22e1bf..188c3368bd 100644
--- a/tcg/tcg-op-gvec.h
+++ b/tcg/tcg-op-gvec.h
@@ -180,6 +180,15 @@ void tcg_gen_gvec_trne(unsigned vece, uint32_t dofs, u=
int32_t aofs,
 void tcg_gen_gvec_trno(unsigned vece, uint32_t dofs, uint32_t aofs,
                        uint32_t bofs, uint32_t opsz, uint32_t clsz);
=20
+void tcg_gen_gvec_extul(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_extuh(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_extsl(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t opsz, uint32_t clsz);
+void tcg_gen_gvec_extsh(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t opsz, uint32_t clsz);
+
 void tcg_gen_gvec_cmp(TCGCond cond, unsigned vece, uint32_t dofs,
                       uint32_t aofs, uint32_t bofs,
                       uint32_t opsz, uint32_t clsz);
diff --git a/tcg/tcg-op.h b/tcg/tcg-op.h
index 3296a7baa5..a722c400c2 100644
--- a/tcg/tcg-op.h
+++ b/tcg/tcg-op.h
@@ -940,6 +940,11 @@ void tcg_gen_uzpo_vec(unsigned vece, TCGv_vec r, TCGv_=
vec a, TCGv_vec b);
 void tcg_gen_trne_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
 void tcg_gen_trno_vec(unsigned vece, TCGv_vec r, TCGv_vec a, TCGv_vec b);
=20
+void tcg_gen_extul_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+void tcg_gen_extuh_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+void tcg_gen_extsl_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+void tcg_gen_extsh_vec(unsigned vece, TCGv_vec r, TCGv_vec a);
+
 void tcg_gen_cmp_vec(TCGCond cond, unsigned vece, TCGv_vec r,
                      TCGv_vec a, TCGv_vec b);
=20
diff --git a/tcg/tcg-opc.h b/tcg/tcg-opc.h
index b21a30273c..3dfd872a0f 100644
--- a/tcg/tcg-opc.h
+++ b/tcg/tcg-opc.h
@@ -249,6 +249,11 @@ DEF(uzpo_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_u=
zp_vec))
 DEF(trne_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_trn_vec))
 DEF(trno_vec, 1, 2, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_trn_vec))
=20
+DEF(extul_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_extl_vec))
+DEF(extuh_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_exth_vec))
+DEF(extsl_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_extl_vec))
+DEF(extsh_vec, 1, 1, 0, IMPLVEC | IMPL(TCG_TARGET_HAS_exth_vec))
+
 DEF(cmp_vec, 1, 2, 1, IMPLVEC)
=20
 DEF(last_generic, 0, 0, 0, TCG_OPF_NOT_PRESENT)
diff --git a/tcg/tcg.h b/tcg/tcg.h
index a729e66b66..b3dae8bcde 100644
--- a/tcg/tcg.h
+++ b/tcg/tcg.h
@@ -186,6 +186,8 @@ typedef uint64_t TCGRegSet;
 #define TCG_TARGET_HAS_trn_vec          0
 #define TCG_TARGET_HAS_cmp_vec          0
 #define TCG_TARGET_HAS_mul_vec          0
+#define TCG_TARGET_HAS_extl_vec         0
+#define TCG_TARGET_HAS_exth_vec         0
 #else
 #define TCG_TARGET_MAYBE_vec            1
 #endif
diff --git a/accel/tcg/tcg-runtime-gvec.c b/accel/tcg/tcg-runtime-gvec.c
index 9406ccd769..ff26be0744 100644
--- a/accel/tcg/tcg-runtime-gvec.c
+++ b/accel/tcg/tcg-runtime-gvec.c
@@ -588,3 +588,29 @@ DO_CMP2(8)
 DO_CMP2(16)
 DO_CMP2(32)
 DO_CMP2(64)
+
+#define DO_EXT(NAME, TYPE1, TYPE2) \
+void HELPER(NAME)(void *d, void *a, uint32_t desc)                        =
   \
+{                                                                         =
   \
+    intptr_t oprsz =3D simd_oprsz(desc);                                  =
     \
+    intptr_t oprsz_2 =3D oprsz / 2;                                       =
     \
+    intptr_t i;                                                           =
   \
+    /* We produce output faster than we consume input.                    =
   \
+       Therefore we must be mindful of possible overlap.  */              =
   \
+    if (unlikely((a - d) < (uintptr_t)oprsz)) {                           =
   \
+        void *a_new =3D alloca(oprsz_2);                                  =
     \
+        memcpy(a_new, a, oprsz_2);                                        =
   \
+        a =3D a_new;                                                      =
     \
+    }                                                                     =
   \
+    for (i =3D 0; i < oprsz_2; i +=3D sizeof(TYPE1)) {                    =
       \
+        *(TYPE2 *)(d + 2 * i) =3D *(TYPE1 *)(a + i);                      =
     \
+    }                                                                     =
   \
+    clear_high(d, oprsz, desc);                                           =
   \
+}
+
+DO_EXT(gvec_extu8, uint8_t, uint16_t)
+DO_EXT(gvec_extu16, uint16_t, uint32_t)
+DO_EXT(gvec_extu32, uint32_t, uint64_t)
+DO_EXT(gvec_exts8, int8_t, int16_t)
+DO_EXT(gvec_exts16, int16_t, int32_t)
+DO_EXT(gvec_exts32, int32_t, int64_t)
diff --git a/tcg/tcg-op-gvec.c b/tcg/tcg-op-gvec.c
index 3f567f0027..ad674693c5 100644
--- a/tcg/tcg-op-gvec.c
+++ b/tcg/tcg-op-gvec.c
@@ -1870,3 +1870,141 @@ void tcg_gen_gvec_cmp(TCGCond cond, unsigned vece, =
uint32_t dofs,
     }
     tcg_gen_gvec_3_ool(dofs, aofs, bofs, oprsz, maxsz, 0, fn);
 }
+
+static void do_ext(unsigned vece, uint32_t dofs, uint32_t aofs,
+                   uint32_t oprsz, uint32_t maxsz, bool high, bool is_sign)
+{
+    static gen_helper_gvec_2 * const extu_fn[3] =3D {
+        gen_helper_gvec_extu8, gen_helper_gvec_extu16, gen_helper_gvec_ext=
u32
+    };
+    static gen_helper_gvec_2 * const exts_fn[3] =3D {
+        gen_helper_gvec_exts8, gen_helper_gvec_exts16, gen_helper_gvec_ext=
s32
+    };
+
+    TCGType type;
+    uint32_t step, i, n;
+    TCGOpcode opc;
+
+    check_size_align(oprsz, maxsz, dofs | aofs);
+    check_overlap_2(dofs, aofs, oprsz);
+    tcg_debug_assert(vece < MO_64);
+
+    /* Quick check for sizes we won't support inline.  */
+    if (oprsz > 4 * 32 || maxsz > MAX_UNROLL * 32) {
+        goto do_ool;
+    }
+
+    opc =3D is_sign ? (high ? INDEX_op_extsh_vec : INDEX_op_extsl_vec)
+                  : (high ? INDEX_op_extuh_vec : INDEX_op_extul_vec);
+
+    /* Since these operations don't operate in lock-step lanes,
+       we must care for overlap.  */
+    if (TCG_TARGET_HAS_v256 && oprsz % 32 =3D=3D 0 && oprsz / 32 <=3D 8
+        && tcg_can_emit_vec_op(opc, TCG_TYPE_V256, vece)) {
+        type =3D TCG_TYPE_V256;
+        step =3D 32;
+        n =3D oprsz / 32;
+    } else if (TCG_TARGET_HAS_v128 && oprsz % 16 =3D=3D 0 && oprsz / 16 <=
=3D 8
+               && tcg_can_emit_vec_op(opc, TCG_TYPE_V128, vece)) {
+        type =3D TCG_TYPE_V128;
+        step =3D 16;
+        n =3D oprsz / 16;
+    } else if (TCG_TARGET_HAS_v64 && oprsz % 8 =3D=3D 0 && oprsz / 8 <=3D 8
+               && tcg_can_emit_vec_op(opc, TCG_TYPE_V64, vece)) {
+        type =3D TCG_TYPE_V64;
+        step =3D 8;
+        n =3D oprsz / 8;
+    } else {
+        goto do_ool;
+    }
+
+    if (n =3D=3D 1) {
+        TCGv_vec t1 =3D tcg_temp_new_vec(type);
+
+        tcg_gen_ld_vec(t1, cpu_env, aofs);
+        if (high) {
+            if (is_sign) {
+                tcg_gen_extsh_vec(vece, t1, t1);
+            } else {
+                tcg_gen_extuh_vec(vece, t1, t1);
+            }
+        } else {
+            if (is_sign) {
+                tcg_gen_extsl_vec(vece, t1, t1);
+            } else {
+                tcg_gen_extul_vec(vece, t1, t1);
+            }
+        }
+        tcg_gen_st_vec(t1, cpu_env, dofs);
+        tcg_temp_free_vec(t1);
+    } else {
+        TCGv_vec ta[4], tmp;
+
+        if (high) {
+            aofs +=3D oprsz / 2;
+        }
+
+        for (i =3D 0; i < (n / 2 + n % 2); ++i) {
+            ta[i] =3D tcg_temp_new_vec(type);
+            tcg_gen_ld_vec(ta[i], cpu_env, aofs + i * step);
+        }
+
+        tmp =3D tcg_temp_new_vec(type);
+        for (i =3D 0; i < n; ++i) {
+            if (i & 1) {
+                if (is_sign) {
+                    tcg_gen_extsh_vec(vece, tmp, ta[i / 2]);
+                } else {
+                    tcg_gen_extuh_vec(vece, tmp, ta[i / 2]);
+                }
+            } else {
+                if (is_sign) {
+                    tcg_gen_extsl_vec(vece, tmp, ta[i / 2]);
+                } else {
+                    tcg_gen_extul_vec(vece, tmp, ta[i / 2]);
+                }
+            }
+            tcg_gen_st_vec(tmp, cpu_env, dofs + i * step);
+        }
+        tcg_temp_free_vec(tmp);
+
+        for (i =3D 0; i < (n / 2 + n % 2); ++i) {
+            tcg_temp_free_vec(ta[i]);
+        }
+    }
+    if (oprsz < maxsz) {
+        expand_clr(dofs + oprsz, maxsz - oprsz);
+    }
+    return;
+
+ do_ool:
+    if (high) {
+        aofs +=3D oprsz / 2;
+    }
+    tcg_gen_gvec_2_ool(dofs, aofs, oprsz, maxsz, 0,
+                       is_sign ? exts_fn[vece] : extu_fn[vece]);
+}
+
+void tcg_gen_gvec_extul(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t oprsz, uint32_t maxsz)
+{
+    do_ext(vece, dofs, aofs, oprsz, maxsz, false, false);
+}
+
+void tcg_gen_gvec_extuh(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t oprsz, uint32_t maxsz)
+{
+    do_ext(vece, dofs, aofs, oprsz, maxsz, true, false);
+}
+
+void tcg_gen_gvec_extsl(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t oprsz, uint32_t maxsz)
+{
+    do_ext(vece, dofs, aofs, oprsz, maxsz, false, true);
+}
+
+void tcg_gen_gvec_extsh(unsigned vece, uint32_t dofs, uint32_t aofs,
+                        uint32_t oprsz, uint32_t maxsz)
+{
+    do_ext(vece, dofs, aofs, oprsz, maxsz, true, true);
+}
diff --git a/tcg/tcg-op-vec.c b/tcg/tcg-op-vec.c
index 160db2e26e..c685bb985a 100644
--- a/tcg/tcg-op-vec.c
+++ b/tcg/tcg-op-vec.c
@@ -525,3 +525,42 @@ void tcg_gen_mul_vec(unsigned vece, TCGv_vec r, TCGv_v=
ec a, TCGv_vec b)
         tcg_expand_vec_op(INDEX_op_mul_vec, type, vece, ri, ai, bi);
     }
 }
+
+static void do_ext(TCGOpcode opc, unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    TCGTemp *rt =3D tcgv_vec_temp(r);
+    TCGTemp *at =3D tcgv_vec_temp(a);
+    TCGArg ri =3D temp_arg(rt);
+    TCGArg ai =3D temp_arg(at);
+    TCGType type =3D rt->base_type;
+    int can;
+
+    tcg_debug_assert(at->base_type =3D=3D type);
+    can =3D tcg_can_emit_vec_op(opc, type, vece);
+    if (can > 0) {
+        vec_gen_2(opc, type, vece, ri, ai);
+    } else {
+        tcg_debug_assert(can < 0);
+        tcg_expand_vec_op(opc, type, vece, ri, ai);
+    }
+}
+
+void tcg_gen_extul_vec(unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    do_ext(INDEX_op_extul_vec, vece, r, a);
+}
+
+void tcg_gen_extuh_vec(unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    do_ext(INDEX_op_extuh_vec, vece, r, a);
+}
+
+void tcg_gen_extsl_vec(unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    do_ext(INDEX_op_extsl_vec, vece, r, a);
+}
+
+void tcg_gen_extsh_vec(unsigned vece, TCGv_vec r, TCGv_vec a)
+{
+    do_ext(INDEX_op_extsh_vec, vece, r, a);
+}
diff --git a/tcg/tcg.c b/tcg/tcg.c
index b0a7cb7d38..0130c42994 100644
--- a/tcg/tcg.c
+++ b/tcg/tcg.c
@@ -1427,6 +1427,12 @@ bool tcg_op_supported(TCGOpcode op)
     case INDEX_op_trne_vec:
     case INDEX_op_trno_vec:
         return have_vec && TCG_TARGET_HAS_trn_vec;
+    case INDEX_op_extul_vec:
+    case INDEX_op_extsl_vec:
+        return have_vec && TCG_TARGET_HAS_extl_vec;
+    case INDEX_op_extuh_vec:
+    case INDEX_op_extsh_vec:
+        return have_vec && TCG_TARGET_HAS_exth_vec;
=20
     default:
         tcg_debug_assert(op > INDEX_op_last_generic && op < NB_OPS);
diff --git a/tcg/README b/tcg/README
index 17695ff7f6..56c70764bc 100644
--- a/tcg/README
+++ b/tcg/README
@@ -634,6 +634,19 @@ E.g. VECL=3D1 -> 64 << 1 -> v128, and VECE=3D2 -> 1 <<=
 2 -> i32.
       v0[2i + 1] =3D v2[2i + part];
     }
=20
+* extul_vec  v0, v1
+
+  Extend unsigned the low VECL/VECE/2 elements of v1 into v0.
+
+* extuh_vec  v0, v1
+
+  Similarly for the high VECL/VECE/2 elements.
+
+* extsl_vec  v0, v1
+* extsh_vec  v0, v1
+
+  Similarly with signed extension.
+
 * cmp_vec  v0, v1, v2, cond
=20
   Compare vectors by element, storing -1 for true and 0 for false.
--=20
2.13.6


From nobody Tue Feb 10 16:16:34 2026
Delivered-To: importer@patchew.org
Received-SPF: temperror (zoho.com: Error in retrieving data from DNS)
 client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=temperror (zoho.com: Error in retrieving data from DNS)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (208.118.235.17 [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300543829310.5561044960133;
 Tue, 21 Nov 2017 13:42:23 -0800 (PST)
Received: from localhost ([::1]:36651 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGIs-0008D6-Q7
	for importer@patchew.org; Tue, 21 Nov 2017 16:42:02 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54212)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5R-0004gB-6d
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:10 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5Q-0007qx-94
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:09 -0500
Received: from mail-wr0-x244.google.com ([2a00:1450:400c:c0c::244]:34090)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5Q-0007qm-13
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:08 -0500
Received: by mail-wr0-x244.google.com with SMTP id k18so7664007wre.1
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:07 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.05 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:06 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=UfWLBriMEwBCkjQxTbR502Q73I7ejTcSkyhpjba8iuA=;
	b=PYVZ553Z7NWoK/QYwEUstXrN8JyPykS6PLa+BlRvrpsx1xTA0KjLESuyw+wJCdBmij
	Up9zjUpwp0aA9TDvilXlhP040cSN8cuskguFz07hkQ2oG9pTlRY87JDKzYNcL4rx6bBs
	c8+5dCqWj/jxOpPmFTu8HvRmJkyeogEKZDl6M=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=UfWLBriMEwBCkjQxTbR502Q73I7ejTcSkyhpjba8iuA=;
	b=J8eCicVjFmg5yw8nn0jqWfFE1sUUdW+Yo2FrI4Jf2z4iLQLMN0mRteEmWP+nu8qIyZ
	LXESAhhKu3xUJBh0rANEW0qD8DruxkcQfOeCswsMvdSwFika2Kgv3gjmMqFMPDLY6Jir
	fPNfgq3LGCubJ5K6kuRSq+M2I0xh7KI9ZJuGpydPmlQOceO4df3QvEpaVqpy2ZyN+lE/
	AF7R1JbzbEpdZJB9bTtnfNrb9VtYyETIHMVPhHMBJMH1a+tqZHCmUVIuPt9S572sAF77
	ldyV9alrDLg8Jc+KSqJd44lw/GMc6AJFQZHuk8px6HLrrpNt6WwZFdEQmxHstIWpIHCO
	nfhQ==
X-Gm-Message-State: AJaThX7yYucs2KFii9dRnj3vERJ1fiD5AykL7K9XTxUHDgTbpkeUZiQp
	2XnyQOpQuZfAqTiuCT5XdCGThfFyH/I=
X-Google-Smtp-Source: 
 AGs4zMb+l2suJcO2JJkNV8+Zknn3say/0/fECS9ZElGzml2pEqhuLCOftrNuS09q9qILAEJySq4Cag==
X-Received: by 10.223.142.143 with SMTP id q15mr10089196wrb.6.1511299686836;
	Tue, 21 Nov 2017 13:28:06 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:32 +0100
Message-Id: <20171121212534.5177-25-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::244
Subject: [Qemu-devel] [PATCH v6 24/26] target/arm: Use vector infrastructure
 for aa64 widening shifts
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_6  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/translate-a64.c | 29 ++++++++++++-----------------
 1 file changed, 12 insertions(+), 17 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index c47d9caa49..1f7e9c4e19 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -8705,12 +8705,7 @@ static void handle_vec_simd_wshli(DisasContext *s, b=
ool is_q, bool is_u,
     int size =3D 32 - clz32(immh) - 1;
     int immhb =3D immh << 3 | immb;
     int shift =3D immhb - (8 << size);
-    int dsize =3D 64;
-    int esize =3D 8 << size;
-    int elements =3D dsize/esize;
-    TCGv_i64 tcg_rn =3D new_tmp_a64(s);
-    TCGv_i64 tcg_rd =3D new_tmp_a64(s);
-    int i;
+    GVecGen2Fn *gvec_fn;
=20
     if (size >=3D 3) {
         unallocated_encoding(s);
@@ -8721,18 +8716,18 @@ static void handle_vec_simd_wshli(DisasContext *s, =
bool is_q, bool is_u,
         return;
     }
=20
-    /* For the LL variants the store is larger than the load,
-     * so if rd =3D=3D rn we would overwrite parts of our input.
-     * So load everything right now and use shifts in the main loop.
-     */
-    read_vec_element(s, tcg_rn, rn, is_q ? 1 : 0, MO_64);
-
-    for (i =3D 0; i < elements; i++) {
-        tcg_gen_shri_i64(tcg_rd, tcg_rn, i * esize);
-        ext_and_shift_reg(tcg_rd, tcg_rd, size | (!is_u << 2), 0);
-        tcg_gen_shli_i64(tcg_rd, tcg_rd, shift);
-        write_vec_element(s, tcg_rd, rd, i, size + 1);
+    if (is_u) {
+        gvec_fn =3D is_q ? tcg_gen_gvec_extuh : tcg_gen_gvec_extul;
+    } else {
+        gvec_fn =3D is_q ? tcg_gen_gvec_extsh : tcg_gen_gvec_extsl;
     }
+    gvec_fn(size, vec_full_reg_offset(s, rd),
+            vec_full_reg_offset(s, rn), 16, 16);
+
+    /* Perform the shift in the wider format.  */
+    tcg_gen_gvec_shli(size + 1, vec_full_reg_offset(s, rd),
+                      vec_full_reg_offset(s, rd),
+                      16, vec_full_reg_size(s), shift);
 }
=20
 /* SHRN/RSHRN - Shift right with narrowing (and potential rounding) */
--=20
2.13.6


From nobody Tue Feb 10 16:16:34 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300681724217.2203340495986;
 Tue, 21 Nov 2017 13:44:41 -0800 (PST)
Received: from localhost ([::1]:36664 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGLQ-0002fQ-Rm
	for importer@patchew.org; Tue, 21 Nov 2017 16:44:40 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54252)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5T-0004iQ-GO
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:17 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5R-0007ro-Px
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:11 -0500
Received: from mail-wr0-x242.google.com ([2a00:1450:400c:c0c::242]:41309)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5R-0007rA-Gx
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:09 -0500
Received: by mail-wr0-x242.google.com with SMTP id z14so12610528wrb.8
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:09 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.07 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:07 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=7EK0FNhRILTkyI03yMIiLDt55Nl6NalvbeMzTdjaFsk=;
	b=OE8H7JqNWCnixLgCrSG1xWtrGb1F+BwleqSY+YGgNDfoaahG4BToBJCrllt7qFylvd
	Dll0BexOu7BkJoEXkCMJwZ0lPblVj3FV4ZozVHt6Dlt4klDY94gQMJBWnjUkQDBnrPYl
	quMRyalX0TpBcbYdQ+ZjrNy4x2NGygHGjpPe4=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=7EK0FNhRILTkyI03yMIiLDt55Nl6NalvbeMzTdjaFsk=;
	b=DrUwiBhWEjOOqByfCmtsdZuNt/rv41EOT0dkZo+IZ4DzsyMdTuHa90SgB/WPvctHFn
	Ga0INwFs+s1MwE3MCRABI1UlH3zV0GXHipf0l02Lh6Ko04hWMGxie5j2zjpVLnpkysNj
	lSPii8dyIyZfTCoCD/qZJbdBwb2XL1h89/cIM4FQBqYbLztLYrLCchTjZLo2TsXoebpc
	eYGh+mxoekSSreiXEVlaFDVrYmXQcp9L56QCEBotIgaQr83S40rpuaRGbCpGJMAB6NaK
	IjpKymMRNn5lGeaUyI2JqHI5rkhiHWhrH8/xXQ2rXGVTXo5nNGPHjJID8fWK3VNjwS0v
	FNBA==
X-Gm-Message-State: AJaThX6X+goXlhJY7DM4sijBHy3YdROHd7vccNDACNL9wc7A3sZiCva8
	v33ke3VD552j50Kw+3rJJ0jobna5vaw=
X-Google-Smtp-Source: 
 AGs4zMZzIUyYjR1Q96v/5xUfq3NTE84156NCmUE7EHZaEXrYz7EGPpUqGpBgNHCwTmeiFovPgTYDNg==
X-Received: by 10.223.185.35 with SMTP id k32mr16276388wrf.50.1511299688216;
	Tue, 21 Nov 2017 13:28:08 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:33 +0100
Message-Id: <20171121212534.5177-26-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::242
Subject: [Qemu-devel] [PATCH v6 25/26] tcg/i386: Add vector
 operations/expansions for mul/extend
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/i386/tcg-target.h     |   4 +-
 tcg/i386/tcg-target.opc.h |   1 +
 tcg/i386/tcg-target.inc.c | 186 ++++++++++++++++++++++++++++++++++++++++++=
----
 3 files changed, 174 insertions(+), 17 deletions(-)

diff --git a/tcg/i386/tcg-target.h b/tcg/i386/tcg-target.h
index fedc3449c1..e77b95cc2c 100644
--- a/tcg/i386/tcg-target.h
+++ b/tcg/i386/tcg-target.h
@@ -184,8 +184,8 @@ extern bool have_avx2;
 #define TCG_TARGET_HAS_uzp_vec          0
 #define TCG_TARGET_HAS_trn_vec          0
 #define TCG_TARGET_HAS_cmp_vec          1
-#define TCG_TARGET_HAS_mul_vec          0
-#define TCG_TARGET_HAS_extl_vec         0
+#define TCG_TARGET_HAS_mul_vec          1
+#define TCG_TARGET_HAS_extl_vec         1
 #define TCG_TARGET_HAS_exth_vec         0
=20
 #define TCG_TARGET_deposit_i32_valid(ofs, len) \
diff --git a/tcg/i386/tcg-target.opc.h b/tcg/i386/tcg-target.opc.h
index 77125ef818..5f05df65e0 100644
--- a/tcg/i386/tcg-target.opc.h
+++ b/tcg/i386/tcg-target.opc.h
@@ -8,3 +8,4 @@ DEF(x86_blend_vec, 1, 2, 1, IMPLVEC)
 DEF(x86_packss_vec, 1, 2, 0, IMPLVEC)
 DEF(x86_packus_vec, 1, 2, 0, IMPLVEC)
 DEF(x86_psrldq_vec, 1, 1, 1, IMPLVEC)
+DEF(x86_vperm2i128_vec, 1, 2, 1, IMPLVEC)
diff --git a/tcg/i386/tcg-target.inc.c b/tcg/i386/tcg-target.inc.c
index 694d9e5cb5..e61aeebf3e 100644
--- a/tcg/i386/tcg-target.inc.c
+++ b/tcg/i386/tcg-target.inc.c
@@ -393,6 +393,14 @@ static inline int tcg_target_const_match(tcg_target_lo=
ng val, TCGType type,
 #define OPC_PCMPGTW     (0x65 | P_EXT | P_DATA16)
 #define OPC_PCMPGTD     (0x66 | P_EXT | P_DATA16)
 #define OPC_PCMPGTQ     (0x37 | P_EXT38 | P_DATA16)
+#define OPC_PMOVSXBW    (0x20 | P_EXT38 | P_DATA16)
+#define OPC_PMOVSXWD    (0x23 | P_EXT38 | P_DATA16)
+#define OPC_PMOVSXDQ    (0x25 | P_EXT38 | P_DATA16)
+#define OPC_PMOVZXBW    (0x30 | P_EXT38 | P_DATA16)
+#define OPC_PMOVZXWD    (0x33 | P_EXT38 | P_DATA16)
+#define OPC_PMOVZXDQ    (0x35 | P_EXT38 | P_DATA16)
+#define OPC_PMULLW      (0xd5 | P_EXT | P_DATA16)
+#define OPC_PMULLD      (0x40 | P_EXT38 | P_DATA16)
 #define OPC_POR         (0xeb | P_EXT | P_DATA16)
 #define OPC_PSHUFB      (0x00 | P_EXT38 | P_DATA16)
 #define OPC_PSHUFD      (0x70 | P_EXT | P_DATA16)
@@ -2675,6 +2683,9 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode o=
pc,
     static int const sub_insn[4] =3D {
         OPC_PSUBB, OPC_PSUBW, OPC_PSUBD, OPC_PSUBQ
     };
+    static int const mul_insn[4] =3D {
+        OPC_UD2, OPC_PMULLW, OPC_PMULLD, OPC_UD2
+    };
     static int const shift_imm_insn[4] =3D {
         OPC_UD2, OPC_PSHIFTW_Ib, OPC_PSHIFTD_Ib, OPC_PSHIFTQ_Ib
     };
@@ -2690,6 +2701,18 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
     static int const punpckh_insn[4] =3D {
         OPC_PUNPCKHBW, OPC_PUNPCKHWD, OPC_PUNPCKHDQ, OPC_PUNPCKHQDQ
     };
+    static int const packss_insn[4] =3D {
+        OPC_PACKSSWB, OPC_PACKSSDW, OPC_UD2, OPC_UD2
+    };
+    static int const packus_insn[4] =3D {
+        OPC_PACKUSWB, OPC_PACKUSDW, OPC_UD2, OPC_UD2
+    };
+    static int const pmovsx_insn[3] =3D {
+        OPC_PMOVSXBW, OPC_PMOVSXWD, OPC_PMOVSXDQ
+    };
+    static int const pmovzx_insn[3] =3D {
+        OPC_PMOVZXBW, OPC_PMOVZXWD, OPC_PMOVZXDQ
+    };
=20
     TCGType type =3D vecl + TCG_TYPE_V64;
     int insn, sub;
@@ -2706,6 +2729,9 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode o=
pc,
     case INDEX_op_sub_vec:
         insn =3D sub_insn[vece];
         goto gen_simd;
+    case INDEX_op_mul_vec:
+        insn =3D mul_insn[vece];
+        goto gen_simd;
     case INDEX_op_and_vec:
         insn =3D OPC_PAND;
         goto gen_simd;
@@ -2722,30 +2748,33 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode=
 opc,
         insn =3D punpckh_insn[vece];
         goto gen_simd;
     case INDEX_op_x86_packss_vec:
-        if (vece =3D=3D MO_8) {
-            insn =3D OPC_PACKSSWB;
-        } else if (vece =3D=3D MO_16) {
-            insn =3D OPC_PACKSSDW;
-        } else {
-            g_assert_not_reached();
-        }
+        insn =3D packss_insn[vece];
         goto gen_simd;
     case INDEX_op_x86_packus_vec:
-        if (vece =3D=3D MO_8) {
-            insn =3D OPC_PACKUSWB;
-        } else if (vece =3D=3D MO_16) {
-            insn =3D OPC_PACKUSDW;
-        } else {
-            g_assert_not_reached();
-        }
+        insn =3D packus_insn[vece];
         goto gen_simd;
     gen_simd:
+        tcg_debug_assert(insn !=3D OPC_UD2);
         if (type =3D=3D TCG_TYPE_V256) {
             insn |=3D P_VEXL;
         }
         tcg_out_vex_modrm(s, insn, a0, a1, a2);
         break;
=20
+    case INDEX_op_extsl_vec:
+        insn =3D pmovsx_insn[vece];
+        goto gen_simd2;
+    case INDEX_op_extul_vec:
+        insn =3D pmovzx_insn[vece];
+        goto gen_simd2;
+    gen_simd2:
+        tcg_debug_assert(vece < MO_64);
+        if (type =3D=3D TCG_TYPE_V256) {
+            insn |=3D P_VEXL;
+        }
+        tcg_out_vex_modrm(s, insn, a0, 0, a1);
+        break;
+
     case INDEX_op_cmp_vec:
         sub =3D args[3];
         if (sub =3D=3D TCG_COND_EQ) {
@@ -2811,6 +2840,10 @@ static void tcg_out_vec_op(TCGContext *s, TCGOpcode =
opc,
         }
         sub =3D args[3];
         goto gen_simd_imm8;
+    case INDEX_op_x86_vperm2i128_vec:
+        insn =3D OPC_VPERM2I128;
+        sub =3D args[3];
+        goto gen_simd_imm8;
     gen_simd_imm8:
         if (type =3D=3D TCG_TYPE_V256) {
             insn |=3D P_VEXL;
@@ -3073,6 +3106,7 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOpc=
ode op)
=20
     case INDEX_op_add_vec:
     case INDEX_op_sub_vec:
+    case INDEX_op_mul_vec:
     case INDEX_op_and_vec:
     case INDEX_op_or_vec:
     case INDEX_op_xor_vec:
@@ -3084,11 +3118,14 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGO=
pcode op)
     case INDEX_op_x86_blend_vec:
     case INDEX_op_x86_packss_vec:
     case INDEX_op_x86_packus_vec:
+    case INDEX_op_x86_vperm2i128_vec:
         return &x_x_x;
     case INDEX_op_dup_vec:
     case INDEX_op_shli_vec:
     case INDEX_op_shri_vec:
     case INDEX_op_sari_vec:
+    case INDEX_op_extsl_vec:
+    case INDEX_op_extul_vec:
     case INDEX_op_x86_psrldq_vec:
         return &x_x;
     case INDEX_op_x86_vpblendvb_vec:
@@ -3109,8 +3146,12 @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type,=
 unsigned vece)
     case INDEX_op_or_vec:
     case INDEX_op_xor_vec:
     case INDEX_op_andc_vec:
+    case INDEX_op_extsl_vec:
+    case INDEX_op_extul_vec:
         return 1;
     case INDEX_op_cmp_vec:
+    case INDEX_op_extsh_vec:
+    case INDEX_op_extuh_vec:
         return -1;
=20
     case INDEX_op_shli_vec:
@@ -3130,6 +3171,16 @@ int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type,=
 unsigned vece)
         }
         return 1;
=20
+    case INDEX_op_mul_vec:
+        if (vece =3D=3D MO_8) {
+            /* We can expand the operation for MO_8.  */
+            return -1;
+        }
+        if (vece =3D=3D MO_64) {
+            return 0;
+        }
+        return 1;
+
     case INDEX_op_zipl_vec:
         /* We could support v256, but with 3 insns per opcode.
            It is better to expand with v128 instead.  */
@@ -3157,7 +3208,7 @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, u=
nsigned vece,
 {
     va_list va;
     TCGArg a1, a2;
-    TCGv_vec v0, v1, v2, t1, t2;
+    TCGv_vec v0, v1, v2, t1, t2, t3, t4;
=20
     va_start(va, a0);
     v0 =3D temp_tcgv_vec(arg_temp(a0));
@@ -3248,6 +3299,91 @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, =
unsigned vece,
         tcg_temp_free_vec(t1);
         break;
=20
+    case INDEX_op_mul_vec:
+        tcg_debug_assert(vece =3D=3D MO_8);
+        a1 =3D va_arg(va, TCGArg);
+        a2 =3D va_arg(va, TCGArg);
+        switch (type) {
+        case TCG_TYPE_V64:
+            t1 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+            t2 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+            tcg_gen_dup16i_vec(t2, 0);
+            vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_8,
+                      tcgv_vec_arg(t1), a1, tcgv_vec_arg(t2));
+            vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_8,
+                      tcgv_vec_arg(t2), tcgv_vec_arg(t2), a2);
+            tcg_gen_mul_vec(MO_16, t1, t1, t2);
+            tcg_gen_shri_vec(MO_16, t1, t1, 8);
+            vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V128, MO_8,
+                      a0, tcgv_vec_arg(t1), tcgv_vec_arg(t1));
+            tcg_temp_free_vec(t1);
+            tcg_temp_free_vec(t2);
+            break;
+
+        case TCG_TYPE_V128:
+            t1 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+            t2 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+            t3 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+            t4 =3D tcg_temp_new_vec(TCG_TYPE_V128);
+            tcg_gen_dup16i_vec(t4, 0);
+            vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_8,
+                      tcgv_vec_arg(t1), a1, tcgv_vec_arg(t4));
+            vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V128, MO_8,
+                      tcgv_vec_arg(t2), tcgv_vec_arg(t4), a2);
+            vec_gen_3(INDEX_op_ziph_vec, TCG_TYPE_V128, MO_8,
+                      tcgv_vec_arg(t3), a1, tcgv_vec_arg(t4));
+            vec_gen_3(INDEX_op_ziph_vec, TCG_TYPE_V128, MO_8,
+                      tcgv_vec_arg(t4), tcgv_vec_arg(t4), a2);
+            tcg_gen_mul_vec(MO_16, t1, t1, t2);
+            tcg_gen_mul_vec(MO_16, t3, t3, t4);
+            tcg_gen_shri_vec(MO_16, t1, t1, 8);
+            tcg_gen_shri_vec(MO_16, t3, t3, 8);
+            vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V128, MO_8,
+                      a0, tcgv_vec_arg(t1), tcgv_vec_arg(t3));
+            tcg_temp_free_vec(t1);
+            tcg_temp_free_vec(t2);
+            tcg_temp_free_vec(t3);
+            tcg_temp_free_vec(t4);
+            break;
+
+        case TCG_TYPE_V256:
+            t1 =3D tcg_temp_new_vec(TCG_TYPE_V256);
+            t2 =3D tcg_temp_new_vec(TCG_TYPE_V256);
+            t3 =3D tcg_temp_new_vec(TCG_TYPE_V256);
+            t4 =3D tcg_temp_new_vec(TCG_TYPE_V256);
+            tcg_gen_dup16i_vec(t4, 0);
+            /* a1: A[0-7] ... D[0-7]; a2: W[0-7] ... Z[0-7]
+               t1: extends of B[0-7], D[0-7]
+               t2: extends of X[0-7], Z[0-7]
+               t3: extends of A[0-7], C[0-7]
+               t4: extends of W[0-7], Y[0-7].  */
+            vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V256, MO_8,
+                      tcgv_vec_arg(t1), a1, tcgv_vec_arg(t4));
+            vec_gen_3(INDEX_op_zipl_vec, TCG_TYPE_V256, MO_8,
+                      tcgv_vec_arg(t2), tcgv_vec_arg(t4), a2);
+            vec_gen_3(INDEX_op_ziph_vec, TCG_TYPE_V256, MO_8,
+                      tcgv_vec_arg(t3), a1, tcgv_vec_arg(t4));
+            vec_gen_3(INDEX_op_ziph_vec, TCG_TYPE_V256, MO_8,
+                      tcgv_vec_arg(t4), tcgv_vec_arg(t4), a2);
+            /* t1: BX DZ; t2: AW CY.  */
+            tcg_gen_mul_vec(MO_16, t1, t1, t2);
+            tcg_gen_mul_vec(MO_16, t3, t3, t4);
+            tcg_gen_shri_vec(MO_16, t1, t1, 8);
+            tcg_gen_shri_vec(MO_16, t3, t3, 8);
+            /* a0: AW BX CY DZ.  */
+            vec_gen_3(INDEX_op_x86_packus_vec, TCG_TYPE_V256, MO_8,
+                      a0, tcgv_vec_arg(t1), tcgv_vec_arg(t3));
+            tcg_temp_free_vec(t1);
+            tcg_temp_free_vec(t2);
+            tcg_temp_free_vec(t3);
+            tcg_temp_free_vec(t4);
+            break;
+
+        default:
+            g_assert_not_reached();
+        }
+        break;
+
     case INDEX_op_ziph_vec:
         tcg_debug_assert(type =3D=3D TCG_TYPE_V64);
         a1 =3D va_arg(va, TCGArg);
@@ -3256,6 +3392,26 @@ void tcg_expand_vec_op(TCGOpcode opc, TCGType type, =
unsigned vece,
         vec_gen_3(INDEX_op_x86_psrldq_vec, TCG_TYPE_V128, MO_64, a0, a0, 8=
);
         break;
=20
+    case INDEX_op_extsh_vec:
+    case INDEX_op_extuh_vec:
+        a1 =3D va_arg(va, TCGArg);
+        switch (type) {
+        case TCG_TYPE_V64:
+            vec_gen_3(INDEX_op_x86_psrldq_vec, type, MO_64, a0, a1, 4);
+            break;
+        case TCG_TYPE_V128:
+            vec_gen_3(INDEX_op_x86_psrldq_vec, type, MO_64, a0, a1, 8);
+            break;
+        case TCG_TYPE_V256:
+            vec_gen_4(INDEX_op_x86_vperm2i128_vec, type, 4, a0, a1, a1, 0x=
81);
+            break;
+        default:
+            g_assert_not_reached();
+        }
+        vec_gen_2(opc =3D=3D INDEX_op_extsh_vec ? INDEX_op_extsl_vec
+                  : INDEX_op_extul_vec, type, vece, a0, a0);
+        break;
+
     case INDEX_op_uzpe_vec:
         a1 =3D va_arg(va, TCGArg);
         a2 =3D va_arg(va, TCGArg);
--=20
2.13.6


From nobody Tue Feb 10 16:16:34 2026
Delivered-To: importer@patchew.org
Received-SPF: pass (zoho.com: domain of gnu.org designates 208.118.235.17 as
 permitted sender) client-ip=208.118.235.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zoho.com: domain of gnu.org designates 208.118.235.17 as permitted
 sender)  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [208.118.235.17]) by
 mx.zohomail.com
	with SMTPS id 1511300373250172.07856507317;
 Tue, 21 Nov 2017 13:39:33 -0800 (PST)
Received: from localhost ([::1]:36633 helo=lists.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1eHGGJ-0005s2-Ar
	for importer@patchew.org; Tue, 21 Nov 2017 16:39:23 -0500
Received: from eggs.gnu.org ([2001:4830:134:3::10]:54281)
	by lists.gnu.org with esmtp (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5X-0004lV-Pd
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:19 -0500
Received: from Debian-exim by eggs.gnu.org with spam-scanned (Exim 4.71)
	(envelope-from <richard.henderson@linaro.org>) id 1eHG5U-0007sp-3k
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:15 -0500
Received: from mail-wr0-x242.google.com ([2a00:1450:400c:c0c::242]:45850)
	by eggs.gnu.org with esmtps (TLS1.0:RSA_AES_128_CBC_SHA1:16)
	(Exim 4.71) (envelope-from <richard.henderson@linaro.org>)
	id 1eHG5T-0007sL-Lr
	for qemu-devel@nongnu.org; Tue, 21 Nov 2017 16:28:12 -0500
Received: by mail-wr0-x242.google.com with SMTP id a63so12599492wrc.12
	for <qemu-devel@nongnu.org>; Tue, 21 Nov 2017 13:28:11 -0800 (PST)
Received: from cloudburst.twiddle.net
	(70.red-37-158-60.dynamicip.rima-tde.net. [37.158.60.70])
	by smtp.gmail.com with ESMTPSA id
	e124sm706517wmg.34.2017.11.21.13.28.08 for <qemu-devel@nongnu.org>
	(version=TLS1_2 cipher=ECDHE-RSA-CHACHA20-POLY1305 bits=256/256);
	Tue, 21 Nov 2017 13:28:09 -0800 (PST)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=linaro.org; s=google;
	h=from:to:subject:date:message-id:in-reply-to:references;
	bh=qINC7joXp7uw4KPCQ67WFGXLT7ugR58Q6zkus8Zk1hI=;
	b=Ar6epBmOFW/51C/Xyfx/17TwDJbg7WFqDVdVZg3lDW9sDx7AdnE0vM2lASBRhq5snp
	own7bJGdWcfTLbxo8epb/9NYjnSL2XZoihQ7xNN1IN9UTNpYBIxQ+4w5V9oY0I25ved3
	fdlgn25BbJtskvxFVpCnwFBwpsK3DBv0H2GiI=
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
	d=1e100.net; s=20161025;
	h=x-gm-message-state:from:to:subject:date:message-id:in-reply-to
	:references;
	bh=qINC7joXp7uw4KPCQ67WFGXLT7ugR58Q6zkus8Zk1hI=;
	b=OJrqI0+IGX5XBg+xF+h7M+7ZtXLXI8PfJX48YbASQFq83llkka9+4zz0iQMt9GKhY1
	FrfqVoiRILP7PiVsiyDPrx5h/yob1mmx5gszPiCLzLRvvxIVkTBj894KgtUiskt+7n7h
	eyeyjXCXg0kNc/Kgvsou0stcc5AYrY/Dy5ugwIPjvCyOgs4VG5X4b3oyow+mR3PiPbJT
	yfzf73wAzKOHBtjvF0KMeosR7dscu8IBO7Irww8JCxZeOtVXo1/5zHDy+ggwGTQhIai1
	o/kmtWmBquQmrZXW+F1avoSRC2Ua8Ex78M7KVMLd4xVngHJkju61iIrQafPpZ1L1jcZ8
	CFWw==
X-Gm-Message-State: AJaThX78/rSyXRl78GXOu+fijsghBq8BGwB1WGjWHfyx2/OvpgdFIva/
	NFAhaSmE3OjvTPjGVAo/lL1whIKoY9Y=
X-Google-Smtp-Source: 
 AGs4zMbBJGOtgS9FH8Nw49bbZa3EQMEO7xGmRbLAzPF1OLbt7CETZPoiIJt6bvaQNpEg2Z9l0qnaYw==
X-Received: by 10.223.165.4 with SMTP id i4mr16647589wrb.158.1511299689984;
	Tue, 21 Nov 2017 13:28:09 -0800 (PST)
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Date: Tue, 21 Nov 2017 22:25:34 +0100
Message-Id: <20171121212534.5177-27-richard.henderson@linaro.org>
X-Mailer: git-send-email 2.13.6
In-Reply-To: <20171121212534.5177-1-richard.henderson@linaro.org>
References: <20171121212534.5177-1-richard.henderson@linaro.org>
X-detected-operating-system: by eggs.gnu.org: Genre and OS details not
	recognized.
X-Received-From: 2a00:1450:400c:c0c::242
Subject: [Qemu-devel] [PATCH v6 26/26] tcg/aarch64: Add vector operations
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.21
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <http://lists.nongnu.org/archive/html/qemu-devel/>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
	<mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZohoMail: RDKM_2  RSF_0  Z_629925259 SPT_0
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0
Content-Type: text/plain; charset="utf-8"

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/aarch64/tcg-target.h     |  30 +-
 tcg/aarch64/tcg-target.opc.h |   3 +
 tcg/aarch64/tcg-target.inc.c | 674 +++++++++++++++++++++++++++++++++++++++=
+---
 3 files changed, 660 insertions(+), 47 deletions(-)
 create mode 100644 tcg/aarch64/tcg-target.opc.h

diff --git a/tcg/aarch64/tcg-target.h b/tcg/aarch64/tcg-target.h
index c2525066ab..46434ecca4 100644
--- a/tcg/aarch64/tcg-target.h
+++ b/tcg/aarch64/tcg-target.h
@@ -31,13 +31,22 @@ typedef enum {
     TCG_REG_SP =3D 31,
     TCG_REG_XZR =3D 31,
=20
+    TCG_REG_V0 =3D 32, TCG_REG_V1, TCG_REG_V2, TCG_REG_V3,
+    TCG_REG_V4, TCG_REG_V5, TCG_REG_V6, TCG_REG_V7,
+    TCG_REG_V8, TCG_REG_V9, TCG_REG_V10, TCG_REG_V11,
+    TCG_REG_V12, TCG_REG_V13, TCG_REG_V14, TCG_REG_V15,
+    TCG_REG_V16, TCG_REG_V17, TCG_REG_V18, TCG_REG_V19,
+    TCG_REG_V20, TCG_REG_V21, TCG_REG_V22, TCG_REG_V23,
+    TCG_REG_V24, TCG_REG_V25, TCG_REG_V26, TCG_REG_V27,
+    TCG_REG_V28, TCG_REG_V29, TCG_REG_V30, TCG_REG_V31,
+
     /* Aliases.  */
     TCG_REG_FP =3D TCG_REG_X29,
     TCG_REG_LR =3D TCG_REG_X30,
     TCG_AREG0  =3D TCG_REG_X19,
 } TCGReg;
=20
-#define TCG_TARGET_NB_REGS 32
+#define TCG_TARGET_NB_REGS 64
=20
 /* used for function call generation */
 #define TCG_REG_CALL_STACK              TCG_REG_SP
@@ -113,6 +122,25 @@ typedef enum {
 #define TCG_TARGET_HAS_mulsh_i64        1
 #define TCG_TARGET_HAS_direct_jump      1
=20
+#define TCG_TARGET_HAS_v64              1
+#define TCG_TARGET_HAS_v128             1
+#define TCG_TARGET_HAS_v256             0
+
+#define TCG_TARGET_HAS_andc_vec         1
+#define TCG_TARGET_HAS_orc_vec          1
+#define TCG_TARGET_HAS_not_vec          1
+#define TCG_TARGET_HAS_neg_vec          1
+#define TCG_TARGET_HAS_shi_vec          1
+#define TCG_TARGET_HAS_shs_vec          0
+#define TCG_TARGET_HAS_shv_vec          0
+#define TCG_TARGET_HAS_zip_vec          1
+#define TCG_TARGET_HAS_uzp_vec          1
+#define TCG_TARGET_HAS_trn_vec          1
+#define TCG_TARGET_HAS_cmp_vec          1
+#define TCG_TARGET_HAS_mul_vec          1
+#define TCG_TARGET_HAS_extl_vec         1
+#define TCG_TARGET_HAS_exth_vec         1
+
 #define TCG_TARGET_DEFAULT_MO (0)
=20
 static inline void flush_icache_range(uintptr_t start, uintptr_t stop)
diff --git a/tcg/aarch64/tcg-target.opc.h b/tcg/aarch64/tcg-target.opc.h
new file mode 100644
index 0000000000..4816a6c3d4
--- /dev/null
+++ b/tcg/aarch64/tcg-target.opc.h
@@ -0,0 +1,3 @@
+/* Target-specific opcodes for host vector expansion.  These will be
+   emitted by tcg_expand_vec_op.  For those familiar with GCC internals,
+   consider these to be UNSPEC with names.  */
diff --git a/tcg/aarch64/tcg-target.inc.c b/tcg/aarch64/tcg-target.inc.c
index 150530f30e..b2ce818d7c 100644
--- a/tcg/aarch64/tcg-target.inc.c
+++ b/tcg/aarch64/tcg-target.inc.c
@@ -20,10 +20,15 @@ QEMU_BUILD_BUG_ON(TCG_TYPE_I32 !=3D 0 || TCG_TYPE_I64 !=
=3D 1);
=20
 #ifdef CONFIG_DEBUG_TCG
 static const char * const tcg_target_reg_names[TCG_TARGET_NB_REGS] =3D {
-    "%x0", "%x1", "%x2", "%x3", "%x4", "%x5", "%x6", "%x7",
-    "%x8", "%x9", "%x10", "%x11", "%x12", "%x13", "%x14", "%x15",
-    "%x16", "%x17", "%x18", "%x19", "%x20", "%x21", "%x22", "%x23",
-    "%x24", "%x25", "%x26", "%x27", "%x28", "%fp", "%x30", "%sp",
+    "x0", "x1", "x2", "x3", "x4", "x5", "x6", "x7",
+    "x8", "x9", "x10", "x11", "x12", "x13", "x14", "x15",
+    "x16", "x17", "x18", "x19", "x20", "x21", "x22", "x23",
+    "x24", "x25", "x26", "x27", "x28", "fp", "x30", "sp",
+
+    "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
+    "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15",
+    "v16", "v17", "v18", "v19", "v20", "v21", "v22", "v23",
+    "v24", "v25", "v26", "v27", "v28", "fp", "v30", "v31",
 };
 #endif /* CONFIG_DEBUG_TCG */
=20
@@ -43,6 +48,14 @@ static const int tcg_target_reg_alloc_order[] =3D {
     /* X19 reserved for AREG0 */
     /* X29 reserved as fp */
     /* X30 reserved as temporary */
+
+    TCG_REG_V0, TCG_REG_V1, TCG_REG_V2, TCG_REG_V3,
+    TCG_REG_V4, TCG_REG_V5, TCG_REG_V6, TCG_REG_V7,
+    /* V8 - V15 are call-saved, and skipped.  */
+    TCG_REG_V16, TCG_REG_V17, TCG_REG_V18, TCG_REG_V19,
+    TCG_REG_V20, TCG_REG_V21, TCG_REG_V22, TCG_REG_V23,
+    TCG_REG_V24, TCG_REG_V25, TCG_REG_V26, TCG_REG_V27,
+    TCG_REG_V28, TCG_REG_V29, TCG_REG_V30, TCG_REG_V31,
 };
=20
 static const int tcg_target_call_iarg_regs[8] =3D {
@@ -54,6 +67,7 @@ static const int tcg_target_call_oarg_regs[1] =3D {
 };
=20
 #define TCG_REG_TMP TCG_REG_X30
+#define TCG_VEC_TMP TCG_REG_V31
=20
 #ifndef CONFIG_SOFTMMU
 /* Note that XZR cannot be encoded in the address base register slot,
@@ -119,9 +133,13 @@ static const char *target_parse_constraint(TCGArgConst=
raint *ct,
                                            const char *ct_str, TCGType typ=
e)
 {
     switch (*ct_str++) {
-    case 'r':
+    case 'r': /* general registers */
         ct->ct |=3D TCG_CT_REG;
-        ct->u.regs =3D 0xffffffffu;
+        ct->u.regs |=3D 0xffffffffu;
+        break;
+    case 'w': /* advsimd registers */
+        ct->ct |=3D TCG_CT_REG;
+        ct->u.regs |=3D 0xffffffff00000000ull;
         break;
     case 'l': /* qemu_ld / qemu_st address, data_reg */
         ct->ct |=3D TCG_CT_REG;
@@ -178,6 +196,98 @@ static inline bool is_limm(uint64_t val)
     return (val & (val - 1)) =3D=3D 0;
 }
=20
+static bool is_fimm(uint64_t v64, int *op, int *cmode, int *imm8)
+{
+    int i;
+
+    *op =3D 0;
+    if (v64 =3D=3D (-1ull / 0xff) * (v64 & 0xff)) {
+        *cmode =3D 0xe;
+        *imm8 =3D v64 & 0xff;
+        return true;
+    }
+    if (v64 =3D=3D (-1ull / 0xffff) * (v64 & 0xffff)) {
+        uint64_t v16 =3D v64 & 0xffff;
+
+        if (v16 =3D=3D (v64 & 0xff)) {
+            *cmode =3D 0x8;
+            *imm8 =3D v64 & 0xff;
+            return true;
+        } else if (v16 =3D=3D (v64 & 0xff00)) {
+            *cmode =3D 0xa;
+            *imm8 =3D v16 >> 8;
+            return true;
+        }
+    }
+    if (v64 =3D=3D deposit64(v64, 32, 32, v64)) {
+        uint64_t v32 =3D (uint32_t)v64;
+
+        if (v32 =3D=3D (v64 & 0xff)) {
+            *cmode =3D 0x0;
+            *imm8 =3D v64 & 0xff;
+            return true;
+        } else if (v32 =3D=3D (v32 & 0xff00)) {
+            *cmode =3D 0x2;
+            *imm8 =3D (v64 >> 8) & 0xff;
+            return true;
+        } else if (v32 =3D=3D (v32 & 0xff0000)) {
+            *cmode =3D 0x4;
+            *imm8 =3D (v64 >> 16) & 0xff;
+            return true;
+        } else if (v32 =3D=3D (v32 & 0xff000000)) {
+            *cmode =3D 0x6;
+            *imm8 =3D v32 >> 24;
+            return true;
+        } else if ((v32 & 0xffff00ff) =3D=3D 0xff) {
+            *cmode =3D 0xc;
+            *imm8 =3D (v64 >> 8) & 0xff;
+            return true;
+        } else if ((v32 & 0xff00ffff) =3D=3D 0xffff) {
+            *cmode =3D 0xd;
+            *imm8 =3D (v64 >> 16) & 0xff;
+            return true;
+        } else if (extract32(v32, 0, 19) =3D=3D 0
+                   && (extract32(v32, 25, 6) =3D=3D 0x20
+                       || extract32(v32, 25, 6) =3D=3D 0x1f)) {
+            *cmode =3D 0xf;
+            *imm8 =3D (extract32(v32, 31, 1) << 7)
+                  | (extract32(v32, 25, 1) << 6)
+                  | extract32(v32, 19, 6);
+            return true;
+        }
+    }
+    if (extract64(v64, 0, 48) =3D=3D 0
+        && (extract64(v64, 54, 9) =3D=3D 0x100
+            || extract64(v64, 54, 9) =3D=3D 0x0ff)) {
+        *cmode =3D 0xf;
+        *op =3D 1;
+        *imm8 =3D (extract64(v64, 63, 1) << 7)
+              | (extract64(v64, 54, 1) << 6)
+              | extract64(v64, 48, 6);
+        return true;
+    }
+    for (i =3D 0; i < 64; i +=3D 8) {
+        uint64_t byte =3D extract64(v64, i, 8);
+        if (byte !=3D 0 && byte !=3D 0xff) {
+            break;
+        }
+    }
+    if (i =3D=3D 64) {
+        *cmode =3D 0xe;
+        *op =3D 1;
+        *imm8 =3D (extract64(v64, 0, 1) << 0)
+              | (extract64(v64, 8, 1) << 1)
+              | (extract64(v64, 16, 1) << 2)
+              | (extract64(v64, 24, 1) << 3)
+              | (extract64(v64, 32, 1) << 4)
+              | (extract64(v64, 40, 1) << 5)
+              | (extract64(v64, 48, 1) << 6)
+              | (extract64(v64, 56, 1) << 7);
+        return true;
+    }
+    return false;
+}
+
 static int tcg_target_const_match(tcg_target_long val, TCGType type,
                                   const TCGArgConstraint *arg_ct)
 {
@@ -271,6 +381,9 @@ typedef enum {
=20
     /* Load literal for loading the address at pc-relative offset */
     I3305_LDR       =3D 0x58000000,
+    I3305_LDR_v64   =3D 0x5c000000,
+    I3305_LDR_v128  =3D 0x9c000000,
+
     /* Load/store register.  Described here as 3.3.12, but the helper
        that emits them can transform to 3.3.10 or 3.3.13.  */
     I3312_STRB      =3D 0x38000000 | LDST_ST << 22 | MO_8 << 30,
@@ -290,6 +403,15 @@ typedef enum {
     I3312_LDRSHX    =3D 0x38000000 | LDST_LD_S_X << 22 | MO_16 << 30,
     I3312_LDRSWX    =3D 0x38000000 | LDST_LD_S_X << 22 | MO_32 << 30,
=20
+    I3312_LDRVS     =3D 0x3c000000 | LDST_LD << 22 | MO_32 << 30,
+    I3312_STRVS     =3D 0x3c000000 | LDST_ST << 22 | MO_32 << 30,
+
+    I3312_LDRVD     =3D 0x3c000000 | LDST_LD << 22 | MO_64 << 30,
+    I3312_STRVD     =3D 0x3c000000 | LDST_ST << 22 | MO_64 << 30,
+
+    I3312_LDRVQ     =3D 0x3c000000 | 3 << 22 | 0 << 30,
+    I3312_STRVQ     =3D 0x3c000000 | 2 << 22 | 0 << 30,
+
     I3312_TO_I3310  =3D 0x00200800,
     I3312_TO_I3313  =3D 0x01000000,
=20
@@ -374,8 +496,58 @@ typedef enum {
     I3510_EON       =3D 0x4a200000,
     I3510_ANDS      =3D 0x6a000000,
=20
-    NOP             =3D 0xd503201f,
+    /* AdvSIMD zip.uzp/trn */
+    I3603_ZIP1      =3D 0x0e003800,
+    I3603_UZP1      =3D 0x0e001800,
+    I3603_TRN1      =3D 0x0e002800,
+    I3603_ZIP2      =3D 0x0e007800,
+    I3603_UZP2      =3D 0x0e005800,
+    I3603_TRN2      =3D 0x0e006800,
+
+    /* AdvSIMD copy */
+    I3605_DUP      =3D 0x0e000400,
+    I3605_INS      =3D 0x4e001c00,
+    I3605_UMOV     =3D 0x0e003c00,
+
+    /* AdvSIMD modified immediate */
+    I3606_MOVI      =3D 0x0f000400,
+
+    /* AdvSIMD shift by immediate */
+    I3614_SSHR      =3D 0x0f000400,
+    I3614_SSRA      =3D 0x0f001400,
+    I3614_SHL       =3D 0x0f005400,
+    I3614_SSHLL     =3D 0x0f00a400,
+    I3614_USHR      =3D 0x2f000400,
+    I3614_USRA      =3D 0x2f001400,
+    I3614_USHLL     =3D 0x2f00a400,
+
+    /* AdvSIMD three same.  */
+    I3616_ADD       =3D 0x0e208400,
+    I3616_AND       =3D 0x0e201c00,
+    I3616_BIC       =3D 0x0e601c00,
+    I3616_EOR       =3D 0x2e201c00,
+    I3616_MUL       =3D 0x0e209c00,
+    I3616_ORR       =3D 0x0ea01c00,
+    I3616_ORN       =3D 0x0ee01c00,
+    I3616_SUB       =3D 0x2e208400,
+    I3616_CMGT      =3D 0x0e203400,
+    I3616_CMGE      =3D 0x0e203c00,
+    I3616_CMTST     =3D 0x0e208c00,
+    I3616_CMHI      =3D 0x2e203400,
+    I3616_CMHS      =3D 0x2e203c00,
+    I3616_CMEQ      =3D 0x2e208c00,
+
+    /* AdvSIMD two-reg misc.  */
+    I3617_CMGT0     =3D 0x0e208800,
+    I3617_CMEQ0     =3D 0x0e209800,
+    I3617_CMLT0     =3D 0x0e20a800,
+    I3617_CMGE0     =3D 0x2e208800,
+    I3617_CMLE0     =3D 0x2e20a800,
+    I3617_NOT       =3D 0x2e205800,
+    I3617_NEG       =3D 0x2e20b800,
+
     /* System instructions.  */
+    NOP             =3D 0xd503201f,
     DMB_ISH         =3D 0xd50338bf,
     DMB_LD          =3D 0x00000100,
     DMB_ST          =3D 0x00000200,
@@ -520,26 +692,71 @@ static void tcg_out_insn_3509(TCGContext *s, AArch64I=
nsn insn, TCGType ext,
     tcg_out32(s, insn | ext << 31 | rm << 16 | ra << 10 | rn << 5 | rd);
 }
=20
+static void tcg_out_insn_3603(TCGContext *s, AArch64Insn insn, bool q,
+                              unsigned size, TCGReg rd, TCGReg rn, TCGReg =
rm)
+{
+    tcg_out32(s, insn | q << 30 | (size << 22) | (rd & 0x1f)
+              | (rn & 0x1f) << 5 | (rm & 0x1f) << 16);
+}
+
+static void tcg_out_insn_3605(TCGContext *s, AArch64Insn insn, bool q,
+                              TCGReg rd, TCGReg rn, int dst_idx, int src_i=
dx)
+{
+    /* Note that bit 11 set means general register input.  Therefore
+       we can handle both register sets with one function.  */
+    tcg_out32(s, insn | q << 30 | (dst_idx << 16) | (src_idx << 11)
+              | (rd & 0x1f) | (~rn & 0x20) << 6 | (rn & 0x1f) << 5);
+}
+
+static void tcg_out_insn_3606(TCGContext *s, AArch64Insn insn, bool q,
+                              TCGReg rd, bool op, int cmode, uint8_t imm8)
+{
+    tcg_out32(s, insn | q << 30 | op << 29 | cmode << 12 | (rd & 0x1f)
+              | (imm8 & 0xe0) << (16 - 5) | (imm8 & 0x1f) << 5);
+}
+
+static void tcg_out_insn_3614(TCGContext *s, AArch64Insn insn, bool q,
+                              TCGReg rd, TCGReg rn, unsigned immhb)
+{
+    tcg_out32(s, insn | q << 30 | immhb << 16
+              | (rn & 0x1f) << 5 | (rd & 0x1f));
+}
+
+static void tcg_out_insn_3616(TCGContext *s, AArch64Insn insn, bool q,
+                              unsigned size, TCGReg rd, TCGReg rn, TCGReg =
rm)
+{
+    tcg_out32(s, insn | q << 30 | (size << 22) | (rm & 0x1f) << 16
+              | (rn & 0x1f) << 5 | (rd & 0x1f));
+}
+
+static void tcg_out_insn_3617(TCGContext *s, AArch64Insn insn, bool q,
+                              unsigned size, TCGReg rd, TCGReg rn)
+{
+    tcg_out32(s, insn | q << 30 | (size << 22)
+              | (rn & 0x1f) << 5 | (rd & 0x1f));
+}
+
 static void tcg_out_insn_3310(TCGContext *s, AArch64Insn insn,
                               TCGReg rd, TCGReg base, TCGType ext,
                               TCGReg regoff)
 {
     /* Note the AArch64Insn constants above are for C3.3.12.  Adjust.  */
     tcg_out32(s, insn | I3312_TO_I3310 | regoff << 16 |
-              0x4000 | ext << 13 | base << 5 | rd);
+              0x4000 | ext << 13 | base << 5 | (rd & 0x1f));
 }
=20
 static void tcg_out_insn_3312(TCGContext *s, AArch64Insn insn,
                               TCGReg rd, TCGReg rn, intptr_t offset)
 {
-    tcg_out32(s, insn | (offset & 0x1ff) << 12 | rn << 5 | rd);
+    tcg_out32(s, insn | (offset & 0x1ff) << 12 | rn << 5 | (rd & 0x1f));
 }
=20
 static void tcg_out_insn_3313(TCGContext *s, AArch64Insn insn,
                               TCGReg rd, TCGReg rn, uintptr_t scaled_uimm)
 {
     /* Note the AArch64Insn constants above are for C3.3.12.  Adjust.  */
-    tcg_out32(s, insn | I3312_TO_I3313 | scaled_uimm << 10 | rn << 5 | rd);
+    tcg_out32(s, insn | I3312_TO_I3313 | scaled_uimm << 10
+              | rn << 5 | (rd & 0x1f));
 }
=20
 /* Register to register move using ORR (shifted register with no shift). */
@@ -585,6 +802,35 @@ static void tcg_out_logicali(TCGContext *s, AArch64Ins=
n insn, TCGType ext,
     tcg_out_insn_3404(s, insn, ext, rd, rn, ext, r, c);
 }
=20
+static void tcg_out_dupi_vec(TCGContext *s, TCGType type,
+                             TCGReg rd, uint64_t v64)
+{
+    int op, cmode, imm8;
+
+    if (is_fimm(v64, &op, &cmode, &imm8)) {
+        tcg_out_insn(s, 3606, MOVI, type =3D=3D TCG_TYPE_V128, rd, op, cmo=
de, imm8);
+    } else if (type =3D=3D TCG_TYPE_V128) {
+        new_pool_l2(s, R_AARCH64_CONDBR19, s->code_ptr, 0, v64, v64);
+        tcg_out_insn(s, 3305, LDR_v128, 0, rd);
+    } else {
+        new_pool_label(s, v64, R_AARCH64_CONDBR19, s->code_ptr, 0);
+        tcg_out_insn(s, 3305, LDR_v64, 0, rd);
+    }
+}
+
+static void tcg_out_movi_vec(TCGContext *s, TCGType type,
+                             TCGReg ret, const TCGArg *a)
+{
+    if (type =3D=3D TCG_TYPE_V128) {
+        /* We assume that INDEX_op_dupi could not be used and
+           therefore we must use a constant pool entry.  */
+        new_pool_l2(s, R_AARCH64_CONDBR19, s->code_ptr, 0, a[0], a[1]);
+        tcg_out_insn(s, 3305, LDR_v128, 0, ret);
+    } else {
+        tcg_out_dupi_vec(s, TCG_TYPE_V64, ret, a[0]);
+    }
+}
+
 static void tcg_out_movi(TCGContext *s, TCGType type, TCGReg rd,
                          tcg_target_long value)
 {
@@ -594,6 +840,22 @@ static void tcg_out_movi(TCGContext *s, TCGType type, =
TCGReg rd,
     int s0, s1;
     AArch64Insn opc;
=20
+    switch (type) {
+    case TCG_TYPE_I32:
+    case TCG_TYPE_I64:
+        tcg_debug_assert(rd < 32);
+        break;
+
+    case TCG_TYPE_V64:
+    case TCG_TYPE_V128:
+        tcg_debug_assert(rd >=3D 32);
+        tcg_out_dupi_vec(s, type, rd, value);
+        return;
+
+    default:
+        g_assert_not_reached();
+    }
+
     /* For 32-bit values, discard potential garbage in value.  For 64-bit
        values within [2**31, 2**32-1], we can create smaller sequences by
        interpreting this as a negative 32-bit number, while ensuring that
@@ -669,15 +931,13 @@ static void tcg_out_movi(TCGContext *s, TCGType type,=
 TCGReg rd,
 /* Define something more legible for general use.  */
 #define tcg_out_ldst_r  tcg_out_insn_3310
=20
-static void tcg_out_ldst(TCGContext *s, AArch64Insn insn,
-                         TCGReg rd, TCGReg rn, intptr_t offset)
+static void tcg_out_ldst(TCGContext *s, AArch64Insn insn, TCGReg rd,
+                         TCGReg rn, intptr_t offset, int lgsize)
 {
-    TCGMemOp size =3D (uint32_t)insn >> 30;
-
     /* If the offset is naturally aligned and in range, then we can
        use the scaled uimm12 encoding */
-    if (offset >=3D 0 && !(offset & ((1 << size) - 1))) {
-        uintptr_t scaled_uimm =3D offset >> size;
+    if (offset >=3D 0 && !(offset & ((1 << lgsize) - 1))) {
+        uintptr_t scaled_uimm =3D offset >> lgsize;
         if (scaled_uimm <=3D 0xfff) {
             tcg_out_insn_3313(s, insn, rd, rn, scaled_uimm);
             return;
@@ -695,32 +955,102 @@ static void tcg_out_ldst(TCGContext *s, AArch64Insn =
insn,
     tcg_out_ldst_r(s, insn, rd, rn, TCG_TYPE_I64, TCG_REG_TMP);
 }
=20
-static inline void tcg_out_mov(TCGContext *s,
-                               TCGType type, TCGReg ret, TCGReg arg)
+static void tcg_out_mov(TCGContext *s, TCGType type, TCGReg ret, TCGReg ar=
g)
 {
-    if (ret !=3D arg) {
-        tcg_out_movr(s, type, ret, arg);
+    if (ret =3D=3D arg) {
+        return;
+    }
+    switch (type) {
+    case TCG_TYPE_I32:
+    case TCG_TYPE_I64:
+        if (ret < 32 && arg < 32) {
+            tcg_out_movr(s, type, ret, arg);
+            break;
+        } else if (ret < 32) {
+            tcg_out_insn(s, 3605, UMOV, type, ret, arg, 0, 0);
+            break;
+        } else if (arg < 32) {
+            tcg_out_insn(s, 3605, INS, 0, ret, arg, 4 << type, 0);
+            break;
+        }
+        /* FALLTHRU */
+
+    case TCG_TYPE_V64:
+        tcg_debug_assert(ret >=3D 32 && arg >=3D 32);
+        tcg_out_insn(s, 3616, ORR, 0, 0, ret, arg, arg);
+        break;
+    case TCG_TYPE_V128:
+        tcg_debug_assert(ret >=3D 32 && arg >=3D 32);
+        tcg_out_insn(s, 3616, ORR, 1, 0, ret, arg, arg);
+        break;
+
+    default:
+        g_assert_not_reached();
     }
 }
=20
-static inline void tcg_out_ld(TCGContext *s, TCGType type, TCGReg arg,
-                              TCGReg arg1, intptr_t arg2)
+static void tcg_out_ld(TCGContext *s, TCGType type, TCGReg ret,
+                       TCGReg base, intptr_t ofs)
 {
-    tcg_out_ldst(s, type =3D=3D TCG_TYPE_I32 ? I3312_LDRW : I3312_LDRX,
-                 arg, arg1, arg2);
+    AArch64Insn insn;
+    int lgsz;
+
+    switch (type) {
+    case TCG_TYPE_I32:
+        insn =3D (ret < 32 ? I3312_LDRW : I3312_LDRVS);
+        lgsz =3D 2;
+        break;
+    case TCG_TYPE_I64:
+        insn =3D (ret < 32 ? I3312_LDRX : I3312_LDRVD);
+        lgsz =3D 3;
+        break;
+    case TCG_TYPE_V64:
+        insn =3D I3312_LDRVD;
+        lgsz =3D 3;
+        break;
+    case TCG_TYPE_V128:
+        insn =3D I3312_LDRVQ;
+        lgsz =3D 4;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    tcg_out_ldst(s, insn, ret, base, ofs, lgsz);
 }
=20
-static inline void tcg_out_st(TCGContext *s, TCGType type, TCGReg arg,
-                              TCGReg arg1, intptr_t arg2)
+static void tcg_out_st(TCGContext *s, TCGType type, TCGReg src,
+                       TCGReg base, intptr_t ofs)
 {
-    tcg_out_ldst(s, type =3D=3D TCG_TYPE_I32 ? I3312_STRW : I3312_STRX,
-                 arg, arg1, arg2);
+    AArch64Insn insn;
+    int lgsz;
+
+    switch (type) {
+    case TCG_TYPE_I32:
+        insn =3D (src < 32 ? I3312_STRW : I3312_STRVS);
+        lgsz =3D 2;
+        break;
+    case TCG_TYPE_I64:
+        insn =3D (src < 32 ? I3312_STRX : I3312_STRVD);
+        lgsz =3D 3;
+        break;
+    case TCG_TYPE_V64:
+        insn =3D I3312_STRVD;
+        lgsz =3D 3;
+        break;
+    case TCG_TYPE_V128:
+        insn =3D I3312_STRVQ;
+        lgsz =3D 4;
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    tcg_out_ldst(s, insn, src, base, ofs, lgsz);
 }
=20
 static inline bool tcg_out_sti(TCGContext *s, TCGType type, TCGArg val,
                                TCGReg base, intptr_t ofs)
 {
-    if (val =3D=3D 0) {
+    if (type <=3D TCG_TYPE_I64 && val =3D=3D 0) {
         tcg_out_st(s, type, TCG_REG_XZR, base, ofs);
         return true;
     }
@@ -1210,14 +1540,15 @@ static void tcg_out_tlb_read(TCGContext *s, TCGReg =
addr_reg, TCGMemOp opc,
     /* Merge "low bits" from tlb offset, load the tlb comparator into X0.
        X0 =3D load [X2 + (tlb_offset & 0x000fff)] */
     tcg_out_ldst(s, TARGET_LONG_BITS =3D=3D 32 ? I3312_LDRW : I3312_LDRX,
-                 TCG_REG_X0, TCG_REG_X2, tlb_offset & 0xfff);
+                 TCG_REG_X0, TCG_REG_X2, tlb_offset & 0xfff,
+                 TARGET_LONG_BITS =3D=3D 32 ? 2 : 3);
=20
     /* Load the tlb addend. Do that early to avoid stalling.
        X1 =3D load [X2 + (tlb_offset & 0xfff) + offsetof(addend)] */
     tcg_out_ldst(s, I3312_LDRX, TCG_REG_X1, TCG_REG_X2,
                  (tlb_offset & 0xfff) + (offsetof(CPUTLBEntry, addend)) -
                  (is_read ? offsetof(CPUTLBEntry, addr_read)
-                  : offsetof(CPUTLBEntry, addr_write)));
+                  : offsetof(CPUTLBEntry, addr_write)), 3);
=20
     /* Perform the address comparison. */
     tcg_out_cmp(s, (TARGET_LONG_BITS =3D=3D 64), TCG_REG_X0, TCG_REG_X3, 0=
);
@@ -1435,49 +1766,49 @@ static void tcg_out_op(TCGContext *s, TCGOpcode opc,
=20
     case INDEX_op_ld8u_i32:
     case INDEX_op_ld8u_i64:
-        tcg_out_ldst(s, I3312_LDRB, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRB, a0, a1, a2, 0);
         break;
     case INDEX_op_ld8s_i32:
-        tcg_out_ldst(s, I3312_LDRSBW, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRSBW, a0, a1, a2, 0);
         break;
     case INDEX_op_ld8s_i64:
-        tcg_out_ldst(s, I3312_LDRSBX, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRSBX, a0, a1, a2, 0);
         break;
     case INDEX_op_ld16u_i32:
     case INDEX_op_ld16u_i64:
-        tcg_out_ldst(s, I3312_LDRH, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRH, a0, a1, a2, 1);
         break;
     case INDEX_op_ld16s_i32:
-        tcg_out_ldst(s, I3312_LDRSHW, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRSHW, a0, a1, a2, 1);
         break;
     case INDEX_op_ld16s_i64:
-        tcg_out_ldst(s, I3312_LDRSHX, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRSHX, a0, a1, a2, 1);
         break;
     case INDEX_op_ld_i32:
     case INDEX_op_ld32u_i64:
-        tcg_out_ldst(s, I3312_LDRW, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRW, a0, a1, a2, 2);
         break;
     case INDEX_op_ld32s_i64:
-        tcg_out_ldst(s, I3312_LDRSWX, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRSWX, a0, a1, a2, 2);
         break;
     case INDEX_op_ld_i64:
-        tcg_out_ldst(s, I3312_LDRX, a0, a1, a2);
+        tcg_out_ldst(s, I3312_LDRX, a0, a1, a2, 3);
         break;
=20
     case INDEX_op_st8_i32:
     case INDEX_op_st8_i64:
-        tcg_out_ldst(s, I3312_STRB, REG0(0), a1, a2);
+        tcg_out_ldst(s, I3312_STRB, REG0(0), a1, a2, 0);
         break;
     case INDEX_op_st16_i32:
     case INDEX_op_st16_i64:
-        tcg_out_ldst(s, I3312_STRH, REG0(0), a1, a2);
+        tcg_out_ldst(s, I3312_STRH, REG0(0), a1, a2, 1);
         break;
     case INDEX_op_st_i32:
     case INDEX_op_st32_i64:
-        tcg_out_ldst(s, I3312_STRW, REG0(0), a1, a2);
+        tcg_out_ldst(s, I3312_STRW, REG0(0), a1, a2, 2);
         break;
     case INDEX_op_st_i64:
-        tcg_out_ldst(s, I3312_STRX, REG0(0), a1, a2);
+        tcg_out_ldst(s, I3312_STRX, REG0(0), a1, a2, 3);
         break;
=20
     case INDEX_op_add_i32:
@@ -1776,25 +2107,230 @@ static void tcg_out_op(TCGContext *s, TCGOpcode op=
c,
=20
     case INDEX_op_mov_i32:  /* Always emitted via tcg_out_mov.  */
     case INDEX_op_mov_i64:
+    case INDEX_op_mov_vec:
     case INDEX_op_movi_i32: /* Always emitted via tcg_out_movi.  */
     case INDEX_op_movi_i64:
+    case INDEX_op_dupi_vec:
     case INDEX_op_call:     /* Always emitted via tcg_out_call.  */
     default:
-        tcg_abort();
+        g_assert_not_reached();
     }
=20
 #undef REG0
 }
=20
+static void tcg_out_vec_op(TCGContext *s, TCGOpcode opc,
+                           unsigned vecl, unsigned vece,
+                           const TCGArg *args, const int *const_args)
+{
+    static const AArch64Insn cmp_insn[16] =3D {
+        [TCG_COND_EQ] =3D I3616_CMEQ,
+        [TCG_COND_GT] =3D I3616_CMGT,
+        [TCG_COND_GE] =3D I3616_CMGE,
+        [TCG_COND_GTU] =3D I3616_CMHI,
+        [TCG_COND_GEU] =3D I3616_CMHS,
+    };
+    static const AArch64Insn cmp0_insn[16] =3D {
+        [TCG_COND_EQ] =3D I3617_CMEQ0,
+        [TCG_COND_GT] =3D I3617_CMGT0,
+        [TCG_COND_GE] =3D I3617_CMGE0,
+        [TCG_COND_LT] =3D I3617_CMLT0,
+        [TCG_COND_LE] =3D I3617_CMLE0,
+    };
+
+    TCGType type =3D vecl + TCG_TYPE_V64;
+    unsigned is_q =3D vecl;
+    TCGArg a0, a1, a2;
+
+    a0 =3D args[0];
+    a1 =3D args[1];
+    a2 =3D args[2];
+
+    switch (opc) {
+    case INDEX_op_movi_vec:
+        tcg_out_movi_vec(s, type, a0, args + 1);
+        break;
+    case INDEX_op_ld_vec:
+        tcg_out_ld(s, type, a0, a1, a2);
+        break;
+    case INDEX_op_st_vec:
+        tcg_out_st(s, type, a0, a1, a2);
+        break;
+    case INDEX_op_add_vec:
+        tcg_out_insn(s, 3616, ADD, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_sub_vec:
+        tcg_out_insn(s, 3616, SUB, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_mul_vec:
+        tcg_out_insn(s, 3616, MUL, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_neg_vec:
+        tcg_out_insn(s, 3617, NEG, is_q, vece, a0, a1);
+        break;
+    case INDEX_op_and_vec:
+        tcg_out_insn(s, 3616, AND, is_q, 0, a0, a1, a2);
+        break;
+    case INDEX_op_or_vec:
+        tcg_out_insn(s, 3616, ORR, is_q, 0, a0, a1, a2);
+        break;
+    case INDEX_op_xor_vec:
+        tcg_out_insn(s, 3616, EOR, is_q, 0, a0, a1, a2);
+        break;
+    case INDEX_op_andc_vec:
+        tcg_out_insn(s, 3616, BIC, is_q, 0, a0, a1, a2);
+        break;
+    case INDEX_op_orc_vec:
+        tcg_out_insn(s, 3616, ORN, is_q, 0, a0, a1, a2);
+        break;
+    case INDEX_op_not_vec:
+        tcg_out_insn(s, 3617, NOT, is_q, 0, a0, a1);
+        break;
+    case INDEX_op_dup_vec:
+        tcg_out_insn(s, 3605, DUP, is_q, a0, a1, 1 << vece, 0);
+        break;
+    case INDEX_op_shli_vec:
+        tcg_out_insn(s, 3614, SHL, is_q, a0, a1, a2 + (8 << vece));
+        break;
+    case INDEX_op_shri_vec:
+        tcg_out_insn(s, 3614, USHR, is_q, a0, a1, (16 << vece) - a2);
+        break;
+    case INDEX_op_sari_vec:
+        tcg_out_insn(s, 3614, SSHR, is_q, a0, a1, (16 << vece) - a2);
+        break;
+    case INDEX_op_cmp_vec:
+        {
+            TCGCond cond =3D args[3];
+            AArch64Insn insn;
+
+            if (cond =3D=3D TCG_COND_NE) {
+                if (const_args[2]) {
+                    tcg_out_insn(s, 3616, CMTST, is_q, vece, a0, a1, a1);
+                } else {
+                    tcg_out_insn(s, 3616, CMEQ, is_q, vece, a0, a1, a2);
+                    tcg_out_insn(s, 3617, NOT, is_q, 0, a0, a0);
+                }
+            } else {
+                if (const_args[2]) {
+                    insn =3D cmp0_insn[cond];
+                    if (insn) {
+                        tcg_out_insn_3617(s, insn, is_q, vece, a0, a1);
+                        break;
+                    }
+                    tcg_out_dupi_vec(s, type, TCG_VEC_TMP, 0);
+                    a2 =3D TCG_VEC_TMP;
+                }
+                insn =3D cmp_insn[cond];
+                if (insn =3D=3D 0) {
+                    TCGArg t;
+                    t =3D a1, a1 =3D a2, a2 =3D t;
+                    cond =3D tcg_swap_cond(cond);
+                    insn =3D cmp_insn[cond];
+                    tcg_debug_assert(insn !=3D 0);
+                }
+                tcg_out_insn_3616(s, insn, is_q, vece, a0, a1, a2);
+            }
+        }
+        break;
+    case INDEX_op_zipl_vec:
+        tcg_out_insn(s, 3603, ZIP1, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_ziph_vec:
+        tcg_out_insn(s, 3603, ZIP2, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_uzpe_vec:
+        tcg_out_insn(s, 3603, UZP1, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_uzpo_vec:
+        tcg_out_insn(s, 3603, UZP2, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_trne_vec:
+        tcg_out_insn(s, 3603, TRN1, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_trno_vec:
+        tcg_out_insn(s, 3603, TRN2, is_q, vece, a0, a1, a2);
+        break;
+    case INDEX_op_extul_vec:
+        tcg_out_insn(s, 3614, USHLL, 0, a0, a1, 0 + (8 << vece));
+        break;
+    case INDEX_op_extuh_vec:
+        if (is_q) {
+            tcg_out_insn(s, 3614, USHLL, 1, a0, a1, 0 + (8 << vece));
+        } else {
+            tcg_out_insn(s, 3614, USHLL, 0, a0, a1, 0 + (8 << vece));
+            tcg_out_insn(s, 3605, INS, 0, a0, a0, 8, 16);
+        }
+        break;
+    case INDEX_op_extsl_vec:
+        tcg_out_insn(s, 3614, SSHLL, 0, a0, a1, 0 + (8 << vece));
+        break;
+    case INDEX_op_extsh_vec:
+        if (is_q) {
+            tcg_out_insn(s, 3614, SSHLL, 1, a0, a1, 0 + (8 << vece));
+        } else {
+            tcg_out_insn(s, 3614, SSHLL, 0, a0, a1, 0 + (8 << vece));
+            tcg_out_insn(s, 3605, INS, 0, a0, a0, 8, 16);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+int tcg_can_emit_vec_op(TCGOpcode opc, TCGType type, unsigned vece)
+{
+    switch (opc) {
+    case INDEX_op_add_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_mul_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_andc_vec:
+    case INDEX_op_orc_vec:
+    case INDEX_op_neg_vec:
+    case INDEX_op_not_vec:
+    case INDEX_op_cmp_vec:
+    case INDEX_op_zipl_vec:
+    case INDEX_op_ziph_vec:
+    case INDEX_op_uzpe_vec:
+    case INDEX_op_uzpo_vec:
+    case INDEX_op_trne_vec:
+    case INDEX_op_trno_vec:
+    case INDEX_op_shli_vec:
+    case INDEX_op_shri_vec:
+    case INDEX_op_sari_vec:
+    case INDEX_op_extul_vec:
+    case INDEX_op_extuh_vec:
+    case INDEX_op_extsl_vec:
+    case INDEX_op_extsh_vec:
+        return 1;
+
+    default:
+        return 0;
+    }
+}
+
+void tcg_expand_vec_op(TCGOpcode opc, TCGType type, unsigned vece,
+                       TCGArg a0, ...)
+{
+}
+
 static const TCGTargetOpDef *tcg_target_op_def(TCGOpcode op)
 {
     static const TCGTargetOpDef r =3D { .args_ct_str =3D { "r" } };
+    static const TCGTargetOpDef w =3D { .args_ct_str =3D { "w" } };
     static const TCGTargetOpDef r_r =3D { .args_ct_str =3D { "r", "r" } };
+    static const TCGTargetOpDef w_w =3D { .args_ct_str =3D { "w", "w" } };
+    static const TCGTargetOpDef w_r =3D { .args_ct_str =3D { "w", "r" } };
+    static const TCGTargetOpDef w_wr =3D { .args_ct_str =3D { "w", "wr" } =
};
     static const TCGTargetOpDef r_l =3D { .args_ct_str =3D { "r", "l" } };
     static const TCGTargetOpDef r_rA =3D { .args_ct_str =3D { "r", "rA" } =
};
     static const TCGTargetOpDef rZ_r =3D { .args_ct_str =3D { "rZ", "r" } =
};
     static const TCGTargetOpDef lZ_l =3D { .args_ct_str =3D { "lZ", "l" } =
};
     static const TCGTargetOpDef r_r_r =3D { .args_ct_str =3D { "r", "r", "=
r" } };
+    static const TCGTargetOpDef w_w_w =3D { .args_ct_str =3D { "w", "w", "=
w" } };
+    static const TCGTargetOpDef w_w_wZ =3D { .args_ct_str =3D { "w", "w", =
"wZ" } };
     static const TCGTargetOpDef r_r_ri =3D { .args_ct_str =3D { "r", "r", =
"ri" } };
     static const TCGTargetOpDef r_r_rA =3D { .args_ct_str =3D { "r", "r", =
"rA" } };
     static const TCGTargetOpDef r_r_rL =3D { .args_ct_str =3D { "r", "r", =
"rL" } };
@@ -1938,6 +2474,41 @@ static const TCGTargetOpDef *tcg_target_op_def(TCGOp=
code op)
     case INDEX_op_sub2_i64:
         return &add2;
=20
+    case INDEX_op_movi_vec:
+        return &w;
+    case INDEX_op_add_vec:
+    case INDEX_op_sub_vec:
+    case INDEX_op_mul_vec:
+    case INDEX_op_and_vec:
+    case INDEX_op_or_vec:
+    case INDEX_op_xor_vec:
+    case INDEX_op_andc_vec:
+    case INDEX_op_orc_vec:
+    case INDEX_op_zipl_vec:
+    case INDEX_op_ziph_vec:
+    case INDEX_op_uzpe_vec:
+    case INDEX_op_uzpo_vec:
+    case INDEX_op_trne_vec:
+    case INDEX_op_trno_vec:
+        return &w_w_w;
+    case INDEX_op_not_vec:
+    case INDEX_op_neg_vec:
+    case INDEX_op_shli_vec:
+    case INDEX_op_shri_vec:
+    case INDEX_op_sari_vec:
+    case INDEX_op_extul_vec:
+    case INDEX_op_extuh_vec:
+    case INDEX_op_extsl_vec:
+    case INDEX_op_extsh_vec:
+        return &w_w;
+    case INDEX_op_ld_vec:
+    case INDEX_op_st_vec:
+        return &w_r;
+    case INDEX_op_dup_vec:
+        return &w_wr;
+    case INDEX_op_cmp_vec:
+        return &w_w_wZ;
+
     default:
         return NULL;
     }
@@ -1947,8 +2518,10 @@ static void tcg_target_init(TCGContext *s)
 {
     tcg_target_available_regs[TCG_TYPE_I32] =3D 0xffffffffu;
     tcg_target_available_regs[TCG_TYPE_I64] =3D 0xffffffffu;
+    tcg_target_available_regs[TCG_TYPE_V64] =3D 0xffffffff00000000ull;
+    tcg_target_available_regs[TCG_TYPE_V128] =3D 0xffffffff00000000ull;
=20
-    tcg_target_call_clobber_regs =3D 0xfffffffu;
+    tcg_target_call_clobber_regs =3D -1ull;
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_X19);
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_X20);
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_X21);
@@ -1960,12 +2533,21 @@ static void tcg_target_init(TCGContext *s)
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_X27);
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_X28);
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_X29);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V8);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V9);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V10);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V11);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V12);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V13);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V14);
+    tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_V15);
=20
     s->reserved_regs =3D 0;
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_SP);
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_FP);
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_TMP);
     tcg_regset_set_reg(s->reserved_regs, TCG_REG_X18); /* platform registe=
r */
+    tcg_regset_set_reg(s->reserved_regs, TCG_VEC_TMP);
 }
=20
 /* Saving pairs: (X19, X20) .. (X27, X28), (X29(fp), X30(lr)).  */
--=20
2.13.6