From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665697910; cv=none;
	d=zohomail.com; s=zohoarc;
	b=RmYqNdO0XEyxGQUkNRWuoeH+fT19y0CH3TX0ngwiza2KuaCEkgwsWPwdVJoyvmOnMyecJdbdlC7ScY+426KMCVxa4RmexGaYjqRUJeGU1ZriL6Yfge6GG/ivdaK2Z58/PRaXKJy4n5JaT3QvNBF9zWZ9b2temBdCDxLzIdD2U88=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665697910;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=kEyemxO9xMYMhd66NPRMZhd75CaPXlPzvYN7a53fY5Y=;
	b=FlcuVcybDbpbvQFqmyuJ+hbE6OWovdekdmSgFT+rCsHPMrnvQ1aInUMrN6qVwd8KMc2Vf8iezVk6jcdGTyEs+S6KCHAmZBTnsx+NfSdKcaVDBzcOujdy9kDS49kRl+miipze6gsP8ppUfirBP3zqdCDh6YDK8BuNWsWR56s3wGo=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665697910109667.2690537131931;
 Thu, 13 Oct 2022 14:51:50 -0700 (PDT)
Received: from localhost ([::1]:40944 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj67I-0005ZV-BI
	for importer@patchew.org; Thu, 13 Oct 2022 17:51:48 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:44878)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62i-0002SV-Ke
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:07 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:52975)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62g-0005BD-62
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:03 -0400
Received: from mail-ed1-f72.google.com (mail-ed1-f72.google.com
 [209.85.208.72]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-43-HEVpW308PyyQxMuG94rgJA-1; Thu, 13 Oct 2022 17:47:00 -0400
Received: by mail-ed1-f72.google.com with SMTP id
 h13-20020a056402280d00b0045cb282161cso2331433ede.8
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:00 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 k17-20020aa7c391000000b00456cbd8c65bsm556218edq.6.2022.10.13.14.46.57
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:46:57 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697621;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=kEyemxO9xMYMhd66NPRMZhd75CaPXlPzvYN7a53fY5Y=;
 b=MomER4icUgIJZbLQUsMxD+iFF6QUnT46cFMVlFYuimKRhjedMMQGjvorGaHTV/ishSygpc
 /3Zh9jHo8xKN963YTeW9Y8dyQH6VetcIfJkmOTaO6c9/Fnl7ilKn9gveWav9YFsU+GvkEc
 FjpmTNsAYvG7Ql86LciLdEWgvTwN3lk=
X-MC-Unique: HEVpW308PyyQxMuG94rgJA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=kEyemxO9xMYMhd66NPRMZhd75CaPXlPzvYN7a53fY5Y=;
 b=YPjWEmO2hT8CW7g19YfcqwSPb/R43GOW98ULVtfuLppY0yA3T0nr7Gfx09hwxjua4G
 bYEHh2C71rXwhlzBDThUBOtuwOZHHEBMc2xwSLSfRzCbO+9UveHVPvQSdDIDM8tbzmjt
 EYJe1ifwJ8XSoRfF/EERZijhhFb2mCXUt9T6NAN4gX+GXY5oijPFxs+uF+RFRKO1pj6h
 Iyf+cWKrbBpBROeRIqMAjC/WASvmkUm0egoSVa/LgYrlpq0kUnztGEX4zrVF3H0/kmWE
 QtT/VhPCQ1M/fWKgF8gtU/MEm+u79X9KBGt2kF7UyrGaMw+5SHKkraKU6hBJA2bgTlAY
 E96Q==
X-Gm-Message-State: ACrzQf3o53pEAJ28+5NBfXvgS/Ice6Gk2wgwqwSra2XH7Caa4SZhdxcO
 odopmjMrS41SJ+oS0GupfGcP9GEB7CRLNE/Txr0cZuSE80QlEDKkb1yUqGfoMvgGEZaAFu/8zYs
 QO5C5WGTl1tjuX5YNvoSFp5S53IZRH/n7yhwH7RMho4/ZQdjKccd2nZqqMMrMulILl00=
X-Received: by 2002:a05:6402:27cd:b0:45c:db6f:7e77 with SMTP id
 c13-20020a05640227cd00b0045cdb6f7e77mr1575920ede.149.1665697618830;
 Thu, 13 Oct 2022 14:46:58 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4z6D3tpvKuvm9BwS4TIGLlbpn13zOCte7MjkP8ZsuOcPcF6VYO9l5XkYlnZ5fewDEkKNeQZQ==
X-Received: by 2002:a05:6402:27cd:b0:45c:db6f:7e77 with SMTP id
 c13-20020a05640227cd00b0045cdb6f7e77mr1575906ede.149.1665697618540;
 Thu, 13 Oct 2022 14:46:58 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 01/35] target/i386: Define XMMReg and access macros,
 align ZMM registers
Date: Thu, 13 Oct 2022 23:46:17 +0200
Message-Id: <20221013214651.672114-2-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665697911998100001
Content-Type: text/plain; charset="utf-8"

From: Richard Henderson <richard.henderson@linaro.org>

This will be used for emission and endian adjustments of gvec operations.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-Id: <20220822223722.1697758-2-richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/cpu.h | 56 ++++++++++++++++++++++++++++++++++++-----------
 1 file changed, 43 insertions(+), 13 deletions(-)

diff --git a/target/i386/cpu.h b/target/i386/cpu.h
index 9327353fff..63bb500d07 100644
--- a/target/i386/cpu.h
+++ b/target/i386/cpu.h
@@ -1233,18 +1233,34 @@ typedef struct SegmentCache {
     uint32_t flags;
 } SegmentCache;
=20
-#define MMREG_UNION(n, bits)        \
-    union n {                       \
-        uint8_t  _b_##n[(bits)/8];  \
-        uint16_t _w_##n[(bits)/16]; \
-        uint32_t _l_##n[(bits)/32]; \
-        uint64_t _q_##n[(bits)/64]; \
-        float32  _s_##n[(bits)/32]; \
-        float64  _d_##n[(bits)/64]; \
-    }
+typedef union MMXReg {
+    uint8_t  _b_MMXReg[64 / 8];
+    uint16_t _w_MMXReg[64 / 16];
+    uint32_t _l_MMXReg[64 / 32];
+    uint64_t _q_MMXReg[64 / 64];
+    float32  _s_MMXReg[64 / 32];
+    float64  _d_MMXReg[64 / 64];
+} MMXReg;
=20
-typedef MMREG_UNION(ZMMReg, 512) ZMMReg;
-typedef MMREG_UNION(MMXReg, 64)  MMXReg;
+typedef union XMMReg {
+    uint64_t _q_XMMReg[128 / 64];
+} XMMReg;
+
+typedef union YMMReg {
+    uint64_t _q_YMMReg[256 / 64];
+    XMMReg   _x_YMMReg[256 / 128];
+} YMMReg;
+
+typedef union ZMMReg {
+    uint8_t  _b_ZMMReg[512 / 8];
+    uint16_t _w_ZMMReg[512 / 16];
+    uint32_t _l_ZMMReg[512 / 32];
+    uint64_t _q_ZMMReg[512 / 64];
+    float32  _s_ZMMReg[512 / 32];
+    float64  _d_ZMMReg[512 / 64];
+    XMMReg   _x_ZMMReg[512 / 128];
+    YMMReg   _y_ZMMReg[512 / 256];
+} ZMMReg;
=20
 typedef struct BNDReg {
     uint64_t lb;
@@ -1267,6 +1283,13 @@ typedef struct BNDCSReg {
 #define ZMM_S(n) _s_ZMMReg[15 - (n)]
 #define ZMM_Q(n) _q_ZMMReg[7 - (n)]
 #define ZMM_D(n) _d_ZMMReg[7 - (n)]
+#define ZMM_X(n) _x_ZMMReg[3 - (n)]
+#define ZMM_Y(n) _y_ZMMReg[1 - (n)]
+
+#define XMM_Q(n) _q_XMMReg[1 - (n)]
+
+#define YMM_Q(n) _q_YMMReg[3 - (n)]
+#define YMM_X(n) _x_YMMReg[1 - (n)]
=20
 #define MMX_B(n) _b_MMXReg[7 - (n)]
 #define MMX_W(n) _w_MMXReg[3 - (n)]
@@ -1279,6 +1302,13 @@ typedef struct BNDCSReg {
 #define ZMM_S(n) _s_ZMMReg[n]
 #define ZMM_Q(n) _q_ZMMReg[n]
 #define ZMM_D(n) _d_ZMMReg[n]
+#define ZMM_X(n) _x_ZMMReg[n]
+#define ZMM_Y(n) _y_ZMMReg[n]
+
+#define XMM_Q(n) _q_XMMReg[n]
+
+#define YMM_Q(n) _q_YMMReg[n]
+#define YMM_X(n) _x_YMMReg[n]
=20
 #define MMX_B(n) _b_MMXReg[n]
 #define MMX_W(n) _w_MMXReg[n]
@@ -1556,8 +1586,8 @@ typedef struct CPUArchState {
     float_status mmx_status; /* for 3DNow! float ops */
     float_status sse_status;
     uint32_t mxcsr;
-    ZMMReg xmm_regs[CPU_NB_REGS =3D=3D 8 ? 8 : 32];
-    ZMMReg xmm_t0;
+    ZMMReg xmm_regs[CPU_NB_REGS =3D=3D 8 ? 8 : 32] QEMU_ALIGNED(16);
+    ZMMReg xmm_t0 QEMU_ALIGNED(16);
     MMXReg mmx_t0;
=20
     uint64_t opmask_regs[NB_OPMASK_REGS];
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665697912; cv=none;
	d=zohomail.com; s=zohoarc;
	b=aSKeb18dnEHOdKw94jpEH7tSQmGS2qgM5m0T14RXlJDSmUIPK1QOctZNc6fGy1X7KqytGesJgD2JbGLZm5ULVZR90kLU05ouDnsDbtog8dTS9wkfYg50XDYqS6ecQoqdg0X1ZMo+FMvBTRafD19edg+zmaRjF9S0SngkjHDwn2Q=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665697912;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=U1Qr8/T6Q2NpqQHQJDLdWR/xvdeIlZ+M0wCk1UAdl9w=;
	b=O410pRmVKtoPGAq216jE989T1hX0hM6ykx9QlmbtCf3b9EAK9T+F06xpEKHUdXK5JyOkv+Dz8MV/AER2+mcNMewv/hdOWm36MpKtonGlYXJof/4A6K4b+RhAEUi6ppxh13UUHto3r24XPQxzPred0XHQpGw7MafbNRONPgRBWp8=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665697912905378.40011192548343;
 Thu, 13 Oct 2022 14:51:52 -0700 (PDT)
Received: from localhost ([::1]:40958 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj67K-0005bF-4K
	for importer@patchew.org; Thu, 13 Oct 2022 17:51:50 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:60522)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62m-0002Sp-0K
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:11 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:21131)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62k-0005BX-4L
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:07 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-488-BkAU6dinPruTn3X8CvYL8w-1; Thu, 13 Oct 2022 17:47:03 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 r16-20020a05640251d000b004599cfb8b95so2314221edd.5
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:03 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 a16-20020a170906191000b0078ae49ad169sm464286eje.91.2022.10.13.14.47.00
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:00 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697624;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=U1Qr8/T6Q2NpqQHQJDLdWR/xvdeIlZ+M0wCk1UAdl9w=;
 b=eIxBXlNxXRdrICUh0ezhra+RVi4MC6BQhMwecSuR4Z6JCx8b76VlmrHi2w6WmnXJx6Y23b
 ZrgJVHoifSL0VcKqc0yvE+v7ta9Z3S99oTdhW7FFpCoYyd9KkCobb2iSPjaNjDionsDJEH
 z6VNIgkxAURHNLbhYj37vV7ah9vl8Dk=
X-MC-Unique: BkAU6dinPruTn3X8CvYL8w-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=U1Qr8/T6Q2NpqQHQJDLdWR/xvdeIlZ+M0wCk1UAdl9w=;
 b=XD9z87Dp71uHGSfYMLVAXppCb7ET/zNCXgSHpxkdIcujgADunnsCCmUZsGhXFULpvC
 pLHm75zM22C2N24EHdkLpQ82UUrK8DjCdlYWVDgIjQeks2nTwMAUUMZi5Dq9T3RcAjrt
 A2civD79gu8SS6dgSqKmSUli6ekWQGbeLp9to5cLdH6qoPYHo4kIvwXp6ug2S5qJ2bb6
 GwlY9/WHs5NJ4Dmp87UvC9lbmVGJufkUv620xJkvHcUEfMsmSKmlVC22RsJCwdBh3r2U
 aQhP0Pv16dDrmZjN+6ndLVc1mROH2Dg0Z8Bxk1rEdpa4SaB2iuRF3MaO7u4kmcwQMO81
 MOMw==
X-Gm-Message-State: ACrzQf09eg+eBfaofMEpXnHDWmdDjI+M2dRV09SAK2ectdKl9O/wZE1v
 omrRO+i0y7DL3+WlJhRRlmENhc7SZKAHI1a3PQ0DhY7CXQersvGWG7i2jMRBm6w2awJuJ6KLSMZ
 tj0jwDGKvScaxYHPimYfTeV3fjRc+HR3/NDpYs55mk+/mUUC9Tt1mstR9wjzeuJyL0kg=
X-Received: by 2002:a05:6402:1555:b0:458:ed89:24e9 with SMTP id
 p21-20020a056402155500b00458ed8924e9mr1563709edx.55.1665697621699;
 Thu, 13 Oct 2022 14:47:01 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6FV9uVqs9/7Tsi0HxZdhPfVRRDqUv2p8o69TsEsnNy+uxQa1vi8xwzcOTN+aEcykyeiIPtcg==
X-Received: by 2002:a05:6402:1555:b0:458:ed89:24e9 with SMTP id
 p21-20020a056402155500b00458ed8924e9mr1563698edx.55.1665697621422;
 Thu, 13 Oct 2022 14:47:01 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 02/35] target/i386: make ldo/sto operations consistent with
 ldq
Date: Thu, 13 Oct 2022 23:46:18 +0200
Message-Id: <20221013214651.672114-3-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665697913563100003
Content-Type: text/plain; charset="utf-8"

ldq takes a pointer to the first byte to load the 64-bit word in;
ldo takes a pointer to the first byte of the ZMMReg.  Make them
consistent, which will be useful in the new SSE decoder's
load/writeback routines.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/translate.c | 43 +++++++++++++++++++------------------
 1 file changed, 22 insertions(+), 21 deletions(-)

diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 279a3ae999..41ee9450db 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -2868,29 +2868,29 @@ static inline void gen_ldo_env_A0(DisasContext *s, =
int offset, bool align)
     int mem_index =3D s->mem_index;
     tcg_gen_qemu_ld_i64(s->tmp1_i64, s->A0, mem_index,
                         MO_LEUQ | (align ? MO_ALIGN_16 : 0));
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(ZMMReg, ZMM_Q(0=
)));
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(XMMReg, XMM_Q(0=
)));
     tcg_gen_addi_tl(s->tmp0, s->A0, 8);
     tcg_gen_qemu_ld_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(ZMMReg, ZMM_Q(1=
)));
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(XMMReg, XMM_Q(1=
)));
 }
=20
 static inline void gen_sto_env_A0(DisasContext *s, int offset, bool align)
 {
     int mem_index =3D s->mem_index;
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(ZMMReg, ZMM_Q(0=
)));
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(XMMReg, XMM_Q(0=
)));
     tcg_gen_qemu_st_i64(s->tmp1_i64, s->A0, mem_index,
                         MO_LEUQ | (align ? MO_ALIGN_16 : 0));
     tcg_gen_addi_tl(s->tmp0, s->A0, 8);
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(ZMMReg, ZMM_Q(1=
)));
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(XMMReg, XMM_Q(1=
)));
     tcg_gen_qemu_st_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
 }
=20
 static inline void gen_op_movo(DisasContext *s, int d_offset, int s_offset)
 {
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(ZMMReg, ZMM_Q=
(0)));
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset + offsetof(ZMMReg, ZMM_Q=
(0)));
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(ZMMReg, ZMM_Q=
(1)));
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset + offsetof(ZMMReg, ZMM_Q=
(1)));
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(XMMReg, XMM_Q=
(0)));
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset + offsetof(XMMReg, XMM_Q=
(0)));
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(XMMReg, XMM_Q=
(1)));
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset + offsetof(XMMReg, XMM_Q=
(1)));
 }
=20
 static inline void gen_op_movq(DisasContext *s, int d_offset, int s_offset)
@@ -2912,6 +2912,7 @@ static inline void gen_op_movq_env_0(DisasContext *s,=
 int d_offset)
 }
=20
 #define ZMM_OFFSET(reg) offsetof(CPUX86State, xmm_regs[reg])
+#define XMM_OFFSET(reg) offsetof(CPUX86State, xmm_regs[reg].ZMM_X(0))
=20
 typedef void (*SSEFunc_i_ep)(TCGv_i32 val, TCGv_ptr env, TCGv_ptr reg);
 typedef void (*SSEFunc_l_ep)(TCGv_i64 val, TCGv_ptr env, TCGv_ptr reg);
@@ -3424,13 +3425,13 @@ static void gen_sse(CPUX86State *env, DisasContext =
*s, int b)
             if (mod =3D=3D 3)
                 goto illegal_op;
             gen_lea_modrm(env, s, modrm);
-            gen_sto_env_A0(s, ZMM_OFFSET(reg), true);
+            gen_sto_env_A0(s, XMM_OFFSET(reg), true);
             break;
         case 0x3f0: /* lddqu */
             if (mod =3D=3D 3)
                 goto illegal_op;
             gen_lea_modrm(env, s, modrm);
-            gen_ldo_env_A0(s, ZMM_OFFSET(reg), false);
+            gen_ldo_env_A0(s, XMM_OFFSET(reg), true);
             break;
         case 0x22b: /* movntss */
         case 0x32b: /* movntsd */
@@ -3499,12 +3500,12 @@ static void gen_sse(CPUX86State *env, DisasContext =
*s, int b)
         case 0x26f: /* movdqu xmm, ea */
             if (mod !=3D 3) {
                 gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, ZMM_OFFSET(reg),
+                gen_ldo_env_A0(s, XMM_OFFSET(reg),
                                /* movaps, movapd, movdqa */
                                b =3D=3D 0x028 || b =3D=3D 0x128 || b =3D=
=3D 0x16f);
             } else {
                 rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movo(s, ZMM_OFFSET(reg), ZMM_OFFSET(rm));
+                gen_op_movo(s, XMM_OFFSET(reg), XMM_OFFSET(rm));
             }
             break;
         case 0x210: /* movss xmm, ea */
@@ -3560,7 +3561,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
         case 0x212: /* movsldup */
             if (mod !=3D 3) {
                 gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, ZMM_OFFSET(reg), true);
+                gen_ldo_env_A0(s, XMM_OFFSET(reg), true);
             } else {
                 rm =3D (modrm & 7) | REX_B(s);
                 gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(0=
)),
@@ -3602,7 +3603,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
         case 0x216: /* movshdup */
             if (mod !=3D 3) {
                 gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, ZMM_OFFSET(reg), true);
+                gen_ldo_env_A0(s, XMM_OFFSET(reg), true);
             } else {
                 rm =3D (modrm & 7) | REX_B(s);
                 gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(1=
)),
@@ -3706,12 +3707,12 @@ static void gen_sse(CPUX86State *env, DisasContext =
*s, int b)
         case 0x27f: /* movdqu ea, xmm */
             if (mod !=3D 3) {
                 gen_lea_modrm(env, s, modrm);
-                gen_sto_env_A0(s, ZMM_OFFSET(reg),
+                gen_sto_env_A0(s, XMM_OFFSET(reg),
                                /* movaps, movapd, movdqa */
                                b =3D=3D 0x029 || b =3D=3D 0x129 || b =3D=
=3D 0x17f);
             } else {
                 rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movo(s, ZMM_OFFSET(rm), ZMM_OFFSET(reg));
+                gen_op_movo(s, XMM_OFFSET(rm), XMM_OFFSET(reg));
             }
             break;
         case 0x211: /* movss ea, xmm */
@@ -3863,7 +3864,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
             gen_helper_enter_mmx(cpu_env);
             if (mod !=3D 3) {
                 gen_lea_modrm(env, s, modrm);
-                op2_offset =3D offsetof(CPUX86State,xmm_t0);
+                op2_offset =3D offsetof(CPUX86State, xmm_t0.ZMM_X(0));
                 /* FIXME: should be 64-bit access if b1 =3D=3D 0.  */
                 gen_ldo_env_A0(s, op2_offset, !!b1);
             } else {
@@ -4055,10 +4056,10 @@ static void gen_sse(CPUX86State *env, DisasContext =
*s, int b)
                                         offsetof(ZMMReg, ZMM_W(0)));
                         break;
                     case 0x2a:            /* movntdqa */
-                        gen_ldo_env_A0(s, op1_offset, true);
+                        gen_ldo_env_A0(s, op1_offset + offsetof(ZMMReg, ZM=
M_X(0)), true);
                         return;
                     default:
-                        gen_ldo_env_A0(s, op2_offset, true);
+                        gen_ldo_env_A0(s, op2_offset + offsetof(ZMMReg, ZM=
M_X(0)), true);
                     }
                 }
                 if (!op6->fn[b1].op1) {
@@ -4640,7 +4641,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
             } else {
                 op2_offset =3D offsetof(CPUX86State, xmm_t0);
                 gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, op2_offset, true);
+                gen_ldo_env_A0(s, op2_offset + offsetof(ZMMReg, ZMM_X(0)),=
 true);
             }
=20
             val =3D x86_ldub_code(env, s);
@@ -4747,7 +4748,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
                     break;
                 default:
                     /* 128 bit access */
-                    gen_ldo_env_A0(s, op2_offset, true);
+                    gen_ldo_env_A0(s, offsetof(CPUX86State, xmm_t0.ZMM_X(0=
)), true);
                     break;
                 }
             } else {
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698060; cv=none;
	d=zohomail.com; s=zohoarc;
	b=KFF0CZV655JCrP/Im7bOKbkWAav0sOAHxsP8cMzfptT6YJBKRfcMd6TyzuOH7pSBw+XYYtzus+M2sc1xw7LRLZ3797XbbkdPT3YENWV0lPwXALQnwRJ/zXwRN1Ml9Yf8O1+k7N4EZUy+28OU1xxEr4DpPzbtUcMLpD1WmDCSWW4=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698060;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=Yjxc/0ZMWjTTFvWxwjTSbKTiTU+uDPD1sVeqDThhUhQ=;
	b=mqvt+TBPQZX+WHdUJg+2S+7ttSXxe2HxHOidRflJ89LxfIdQc287Uo9iSPcDZiztbb+6MksiHOREbXVvXG9kQ3uH6rFhKU9damnaVSKFJTVByd8KZqGm32DfCp9LTHe4dFiEv7i6d9aoCF36dWdFY114DzFNC+3BEn/Iz1Z8Tqo=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698060875652.285634267863;
 Thu, 13 Oct 2022 14:54:20 -0700 (PDT)
Received: from localhost ([::1]:35478 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj69j-0002nO-MK
	for importer@patchew.org; Thu, 13 Oct 2022 17:54:19 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:60526)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62s-0002T2-Dj
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:16 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:38023)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62n-0005Bj-Kr
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:14 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-457-Qtp0_t5NNlmIgXCmSLRlTw-1; Thu, 13 Oct 2022 17:47:07 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 i17-20020a05640242d100b0044f18a5379aso2354110edc.21
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:06 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 tz14-20020a170907c78e00b00738467f743dsm477440ejc.5.2022.10.13.14.47.03
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:03 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697628;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=Yjxc/0ZMWjTTFvWxwjTSbKTiTU+uDPD1sVeqDThhUhQ=;
 b=L2OyLfExfjJjFZeAdgZBBsdLpWlbxdzu7Bm+w7mtPkenm9abTVQdnQ8QZX1t9HX65nakEb
 KLEIAF6KWP2Q5gcaofDnTzW618mOmAW3Zv/SCMUv659iZnkUqUI8LOi9FxVMZyiw2yO2fy
 4QTmE5GtVtf7Y7NJAHXdAP91N5Fu6m0=
X-MC-Unique: Qtp0_t5NNlmIgXCmSLRlTw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=Yjxc/0ZMWjTTFvWxwjTSbKTiTU+uDPD1sVeqDThhUhQ=;
 b=KagC4kosmbT20lwNex84tF8fYGegIH8VbnTZY+6lIbBaWDB1vTNsZjCtKkAhammKn7
 XPlGv/FekjCTsQHngXOsq3suL2oZjIL+iVCRoElox9t4Un4KppInXTdwP14oTOC3pQO2
 M9et3WyBEmX/9VUTaJCRuOe7zHIzRTLkba2avIpih2ZS75zF6DD9tca5Z4szZwqgFh0u
 MATK9Z5Ull1Wi7QXd5BgSJCplYVhQxwfhdJiB5bfBboBlYzRZC7XvsQY25BlRUSr0e8O
 vf1IJTbWWRd3nlrd9SLHWW5P7325++CwusEVz456ManxSYrBaX7woYNR+JcRwIPHL3rY
 xVWA==
X-Gm-Message-State: ACrzQf2WKkY0pd7l38J6i0/qG7D+tIrllkhlGlxhqvkVhh0aU8FVaMyO
 Wg2jbVNVnYcHF+dZh7NYqWgggt1CFFe5md2SF+IPsm51HPxzozZbqs3H54lW18fLFbSNzXS5g2a
 hEHrf3vbD7JjwDv8lYjFQCTexXskS3YhfZr1t0xsMiMZ88EPnYik849Rd4azQqEfsEek=
X-Received: by 2002:a05:6402:1bc4:b0:458:ff47:3cd5 with SMTP id
 ch4-20020a0564021bc400b00458ff473cd5mr1532136edb.402.1665697625078;
 Thu, 13 Oct 2022 14:47:05 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM51Hqb+5A8rEZAxvuvqOKZ6zKB9lSO/vNB55Pb5T0GMMESdzb+GUr33UNre90BDekCgmoY7pg==
X-Received: by 2002:a05:6402:1bc4:b0:458:ff47:3cd5 with SMTP id
 ch4-20020a0564021bc400b00458ff473cd5mr1532096edb.402.1665697624200;
 Thu, 13 Oct 2022 14:47:04 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 03/35] target/i386: add core of new i386 decoder
Date: Thu, 13 Oct 2022 23:46:19 +0200
Message-Id: <20221013214651.672114-4-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698062660100003
Content-Type: text/plain; charset="utf-8"

The new decoder is based on three principles:

- use mostly table-driven decoding, using tables derived as much as possible
  from the Intel manual.  Centralizing the decode the operands makes it
  more homogeneous, for example all immediates are signed.  All modrm
  handling is in one function, and can be shared between SSE and ALU
  instructions (including XMM<->GPR instructions).  The SSE/AVX decoder
  will also not have duplicated code between the 0F, 0F38 and 0F3A tables.

- keep the code as "non-branchy" as possible.  Generally, the code for
  the new decoder is more verbose, but the control flow is simpler.
  Conditionals are not nested and have small bodies.  All instruction
  groups are resolved even before operands are decoded, and code
  generation is separated as much as possible within small functions
  that only handle one instruction each.

- keep address generation and (for ALU operands) memory loads and writeback
  as much in common code as possible.  All ALU operations for example
  are implemented as T0=3Df(T0,T1).  For non-ALU instructions,
  read-modify-write memory operations are rare, but registers do not
  have TCGv equivalents: therefore, the common logic sets up pointer
  temporaries with the operands, while load and writeback are handled
  by gvec or by helpers.

These principles make future code review and extensibility simpler, at
the cost of having a relatively large amount of code in the form of this
patch.  Even EVEX should not be _too_ hard to implement (it's just a crazy
large amount of possibilities).

This patch introduces the main decoder flow, and integrates the old
decoder with the new one.  The old decoder takes care of parsing
prefixes and then optionally drops to the new one.  The changes to the
old decoder are minimal and allow it to be replaced incrementally with
the new one.

There is a debugging mechanism through a "LIMIT" environment variable.
In user-mode emulation, the variable is the number of instructions
decoded by the new decoder before permanently switching to the old one.
In system emulation, the variable is the highest opcode that is decoded
by the new decoder (this is less friendly, but it's the best that can
be done without requiring deterministic execution).

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 748 +++++++++++++++++++++++++++++++
 target/i386/tcg/decode-new.h     | 181 ++++++++
 target/i386/tcg/emit.c.inc       |  31 ++
 target/i386/tcg/translate.c      |  68 ++-
 4 files changed, 1020 insertions(+), 8 deletions(-)
 create mode 100644 target/i386/tcg/decode-new.c.inc
 create mode 100644 target/i386/tcg/decode-new.h
 create mode 100644 target/i386/tcg/emit.c.inc

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
new file mode 100644
index 0000000000..a908e8b086
--- /dev/null
+++ b/target/i386/tcg/decode-new.c.inc
@@ -0,0 +1,748 @@
+/*
+ * New-style decoder for i386 instructions
+ *
+ *  Copyright (c) 2022 Red Hat, Inc.
+ *
+ * Author: Paolo Bonzini <pbonzini@redhat.com>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+/*
+ * The decoder is mostly based on tables copied from the Intel SDM.  As
+ * a result, most operand load and writeback is done entirely in common
+ * table-driven code using the same operand type (X86_TYPE_*) and
+ * size (X86_SIZE_*) codes used in the manual.
+ *
+ * The main difference is that the V, U and W types are extended to
+ * cover MMX as well; if an instruction is like
+ *
+ *      por   Pq, Qq
+ *  66  por   Vx, Hx, Wx
+ *
+ * only the second row is included and the instruction is marked as a
+ * valid MMX instruction.  The MMX flag directs the decoder to rewrite
+ * the V/U/H/W types to P/N/P/Q if there is no prefix, as well as changing
+ * "x" to "q" if there is no prefix.
+ *
+ * In addition, the ss/ps/sd/pd types are sometimes mushed together as "x"
+ * if the difference is expressed via prefixes.  Individual instructions
+ * are separated by prefix in the generator functions.
+ *
+ * There are a couple cases in which instructions (e.g. MOVD) write the
+ * whole XMM or MM register but are established incorrectly in the manual
+ * as "d" or "q".  These have to be fixed for the decoder to work correctl=
y.
+ */
+
+#define X86_OP_NONE { 0 },
+
+#define X86_OP_GROUP3(op, op0_, s0_, op1_, s1_, op2_, s2_, ...) { \
+    .decode =3D glue(decode_, op),                                  \
+    .op0 =3D glue(X86_TYPE_, op0_),                                 \
+    .s0 =3D glue(X86_SIZE_, s0_),                                   \
+    .op1 =3D glue(X86_TYPE_, op1_),                                 \
+    .s1 =3D glue(X86_SIZE_, s1_),                                   \
+    .op2 =3D glue(X86_TYPE_, op2_),                                 \
+    .s2 =3D glue(X86_SIZE_, s2_),                                   \
+    .is_decode =3D true,                                            \
+    ## __VA_ARGS__                                                \
+}
+
+#define X86_OP_GROUP2(op, op0, s0, op1, s1, ...)                  \
+    X86_OP_GROUP3(op, op0, s0, 2op, s0, op1, s1, ## __VA_ARGS__)
+#define X86_OP_GROUP0(op, ...)                                    \
+    X86_OP_GROUP3(op, None, None, None, None, None, None, ## __VA_ARGS__)
+
+#define X86_OP_ENTRY3(op, op0_, s0_, op1_, s1_, op2_, s2_, ...) { \
+    .gen =3D glue(gen_, op),                                        \
+    .op0 =3D glue(X86_TYPE_, op0_),                                 \
+    .s0 =3D glue(X86_SIZE_, s0_),                                   \
+    .op1 =3D glue(X86_TYPE_, op1_),                                 \
+    .s1 =3D glue(X86_SIZE_, s1_),                                   \
+    .op2 =3D glue(X86_TYPE_, op2_),                                 \
+    .s2 =3D glue(X86_SIZE_, s2_),                                   \
+    ## __VA_ARGS__                                                \
+}
+
+#define X86_OP_ENTRY4(op, op0_, s0_, op1_, s1_, op2_, s2_, ...)   \
+    X86_OP_ENTRY3(op, op0_, s0_, op1_, s1_, op2_, s2_,            \
+        .op3 =3D X86_TYPE_I, .s3 =3D X86_SIZE_b,                      \
+        ## __VA_ARGS__)
+
+#define X86_OP_ENTRY2(op, op0, s0, op1, s1, ...)                  \
+    X86_OP_ENTRY3(op, op0, s0, 2op, s0, op1, s1, ## __VA_ARGS__)
+#define X86_OP_ENTRY0(op, ...)                                    \
+    X86_OP_ENTRY3(op, None, None, None, None, None, None, ## __VA_ARGS__)
+
+#define i64 .special =3D X86_SPECIAL_i64,
+#define o64 .special =3D X86_SPECIAL_o64,
+#define xchg .special =3D X86_SPECIAL_Locked,
+#define mmx .special =3D X86_SPECIAL_MMX,
+#define zext0 .special =3D X86_SPECIAL_ZExtOp0,
+#define zext2 .special =3D X86_SPECIAL_ZExtOp2,
+
+static uint8_t get_modrm(DisasContext *s, CPUX86State *env)
+{
+    if (!s->has_modrm) {
+        s->modrm =3D x86_ldub_code(env, s);
+        s->has_modrm =3D true;
+    }
+    return s->modrm;
+}
+
+static const X86OpEntry opcodes_0F38_00toEF[240] =3D {
+};
+
+/* five rows for no prefix, 66, F3, F2, 66+F2  */
+static const X86OpEntry opcodes_0F38_F0toFF[16][5] =3D {
+};
+
+static void decode_0F38(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    *b =3D x86_ldub_code(env, s);
+    if (*b < 0xf0) {
+        *entry =3D opcodes_0F38_00toEF[*b];
+    } else {
+        int row =3D 0;
+        if (s->prefix & PREFIX_REPZ) {
+            /* The REPZ (F3) prefix has priority over 66 */
+            row =3D 2;
+        } else {
+            row +=3D s->prefix & PREFIX_REPNZ ? 3 : 0;
+            row +=3D s->prefix & PREFIX_DATA ? 1 : 0;
+        }
+        *entry =3D opcodes_0F38_F0toFF[*b & 15][row];
+    }
+}
+
+static const X86OpEntry opcodes_0F3A[256] =3D {
+};
+
+static void decode_0F3A(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    *b =3D x86_ldub_code(env, s);
+    *entry =3D opcodes_0F3A[*b];
+}
+
+static const X86OpEntry opcodes_0F[256] =3D {
+    [0x38] =3D X86_OP_GROUP0(0F38),
+    [0x3a] =3D X86_OP_GROUP0(0F3A),
+};
+
+static void do_decode_0F(DisasContext *s, CPUX86State *env, X86OpEntry *en=
try, uint8_t *b)
+{
+    *entry =3D opcodes_0F[*b];
+}
+
+static void decode_0F(DisasContext *s, CPUX86State *env, X86OpEntry *entry=
, uint8_t *b)
+{
+    *b =3D x86_ldub_code(env, s);
+    do_decode_0F(s, env, entry, b);
+}
+
+static const X86OpEntry opcodes_root[256] =3D {
+    [0x0F] =3D X86_OP_GROUP0(0F),
+};
+
+#undef mmx
+
+/*
+ * Decode the fixed part of the opcode and place the last
+ * in b.
+ */
+static void decode_root(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    *entry =3D opcodes_root[*b];
+}
+
+
+static int decode_modrm(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode,
+                        X86DecodedOp *op, X86OpType type)
+{
+    int modrm =3D get_modrm(s, env);
+    if ((modrm >> 6) =3D=3D 3) {
+        if (s->prefix & PREFIX_LOCK) {
+            decode->e.gen =3D gen_illegal;
+            return 0xff;
+        }
+        op->n =3D (modrm & 7);
+        if (type !=3D X86_TYPE_Q && type !=3D X86_TYPE_N) {
+            op->n |=3D REX_B(s);
+        }
+    } else {
+        op->has_ea =3D true;
+        op->n =3D -1;
+        decode->mem =3D gen_lea_modrm_0(env, s, get_modrm(s, env));
+    }
+    return modrm;
+}
+
+static bool decode_op_size(DisasContext *s, X86OpEntry *e, X86OpSize size,=
 MemOp *ot)
+{
+    switch (size) {
+    case X86_SIZE_b:  /* byte */
+        *ot =3D MO_8;
+        return true;
+
+    case X86_SIZE_d:  /* 32-bit */
+    case X86_SIZE_ss: /* SSE/AVX scalar single precision */
+        *ot =3D MO_32;
+        return true;
+
+    case X86_SIZE_p:  /* Far pointer, return offset size */
+    case X86_SIZE_s:  /* Descriptor, return offset size */
+    case X86_SIZE_v:  /* 16/32/64-bit, based on operand size */
+        *ot =3D s->dflag;
+        return true;
+
+    case X86_SIZE_pi: /* MMX */
+    case X86_SIZE_q:  /* 64-bit */
+    case X86_SIZE_sd: /* SSE/AVX scalar double precision */
+        *ot =3D MO_64;
+        return true;
+
+    case X86_SIZE_w:  /* 16-bit */
+        *ot =3D MO_16;
+        return true;
+
+    case X86_SIZE_y:  /* 32/64-bit, based on operand size */
+        *ot =3D s->dflag =3D=3D MO_16 ? MO_32 : s->dflag;
+        return true;
+
+    case X86_SIZE_z:  /* 16-bit for 16-bit operand size, else 32-bit */
+        *ot =3D s->dflag =3D=3D MO_16 ? MO_16 : MO_32;
+        return true;
+
+    case X86_SIZE_dq: /* SSE/AVX 128-bit */
+        if (e->special =3D=3D X86_SPECIAL_MMX &&
+            !(s->prefix & (PREFIX_DATA | PREFIX_REPZ | PREFIX_REPNZ))) {
+            *ot =3D MO_64;
+            return true;
+        }
+        if (s->vex_l && e->s0 !=3D X86_SIZE_qq && e->s1 !=3D X86_SIZE_qq) {
+            return false;
+        }
+        *ot =3D MO_128;
+        return true;
+
+    case X86_SIZE_qq: /* AVX 256-bit */
+        if (!s->vex_l) {
+            return false;
+        }
+        *ot =3D MO_256;
+        return true;
+
+    case X86_SIZE_x:  /* 128/256-bit, based on operand size */
+        if (e->special =3D=3D X86_SPECIAL_MMX &&
+            !(s->prefix & (PREFIX_DATA | PREFIX_REPZ | PREFIX_REPNZ))) {
+            *ot =3D MO_64;
+            return true;
+        }
+        /* fall through */
+    case X86_SIZE_ps: /* SSE/AVX packed single precision */
+    case X86_SIZE_pd: /* SSE/AVX packed double precision */
+        *ot =3D s->vex_l ? MO_256 : MO_128;
+        return true;
+
+    case X86_SIZE_d64:  /* Default to 64-bit in 64-bit mode */
+        *ot =3D CODE64(s) && s->dflag =3D=3D MO_32 ? MO_64 : s->dflag;
+        return true;
+
+    case X86_SIZE_f64:  /* Ignore size override prefix in 64-bit mode */
+        *ot =3D CODE64(s) ? MO_64 : s->dflag;
+        return true;
+
+    default:
+        *ot =3D -1;
+        return true;
+    }
+}
+
+static bool decode_op(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode,
+                      X86DecodedOp *op, X86OpType type, int b)
+{
+    int modrm;
+
+    switch (type) {
+    case X86_TYPE_None:  /* Implicit or absent */
+    case X86_TYPE_A:  /* Implicit */
+    case X86_TYPE_F:  /* EFLAGS/RFLAGS */
+        break;
+
+    case X86_TYPE_B:  /* VEX.vvvv selects a GPR */
+        op->unit =3D X86_OP_INT;
+        op->n =3D s->vex_v;
+        break;
+
+    case X86_TYPE_C:  /* REG in the modrm byte selects a control register =
*/
+        op->unit =3D X86_OP_CR;
+        goto get_reg;
+
+    case X86_TYPE_D:  /* REG in the modrm byte selects a debug register */
+        op->unit =3D X86_OP_DR;
+        goto get_reg;
+
+    case X86_TYPE_G:  /* REG in the modrm byte selects a GPR */
+        op->unit =3D X86_OP_INT;
+        goto get_reg;
+
+    case X86_TYPE_S:  /* reg selects a segment register */
+        op->unit =3D X86_OP_SEG;
+        goto get_reg;
+
+    case X86_TYPE_P:
+        op->unit =3D X86_OP_MMX;
+        goto get_reg;
+
+    case X86_TYPE_V:  /* reg in the modrm byte selects an XMM/YMM register=
 */
+        if (decode->e.special =3D=3D X86_SPECIAL_MMX &&
+            !(s->prefix & (PREFIX_DATA | PREFIX_REPZ | PREFIX_REPNZ))) {
+            op->unit =3D X86_OP_MMX;
+        } else {
+            op->unit =3D X86_OP_SSE;
+        }
+    get_reg:
+        op->n =3D ((get_modrm(s, env) >> 3) & 7) | REX_R(s);
+        break;
+
+    case X86_TYPE_E:  /* ALU modrm operand */
+        op->unit =3D X86_OP_INT;
+        goto get_modrm;
+
+    case X86_TYPE_Q:  /* MMX modrm operand */
+        op->unit =3D X86_OP_MMX;
+        goto get_modrm;
+
+    case X86_TYPE_W:  /* XMM/YMM modrm operand */
+        if (decode->e.special =3D=3D X86_SPECIAL_MMX &&
+            !(s->prefix & (PREFIX_DATA | PREFIX_REPZ | PREFIX_REPNZ))) {
+            op->unit =3D X86_OP_MMX;
+        } else {
+            op->unit =3D X86_OP_SSE;
+        }
+        goto get_modrm;
+
+    case X86_TYPE_N:  /* R/M in the modrm byte selects an MMX register */
+        op->unit =3D X86_OP_MMX;
+        goto get_modrm_reg;
+
+    case X86_TYPE_U:  /* R/M in the modrm byte selects an XMM/YMM register=
 */
+        if (decode->e.special =3D=3D X86_SPECIAL_MMX &&
+            !(s->prefix & (PREFIX_DATA | PREFIX_REPZ | PREFIX_REPNZ))) {
+            op->unit =3D X86_OP_MMX;
+        } else {
+            op->unit =3D X86_OP_SSE;
+        }
+        goto get_modrm_reg;
+
+    case X86_TYPE_R:  /* R/M in the modrm byte selects a register */
+        op->unit =3D X86_OP_INT;
+    get_modrm_reg:
+        modrm =3D get_modrm(s, env);
+        if ((modrm >> 6) !=3D 3) {
+            return false;
+        }
+        goto get_modrm;
+
+    case X86_TYPE_M:  /* modrm byte selects a memory operand */
+        modrm =3D get_modrm(s, env);
+        if ((modrm >> 6) =3D=3D 3) {
+            return false;
+        }
+    get_modrm:
+        decode_modrm(s, env, decode, op, type);
+        break;
+
+    case X86_TYPE_O:  /* Absolute address encoded in the instruction */
+        op->unit =3D X86_OP_INT;
+        op->has_ea =3D true;
+        op->n =3D -1;
+        decode->mem =3D (AddressParts) {
+            .def_seg =3D R_DS,
+            .base =3D -1,
+            .index =3D -1,
+            .disp =3D insn_get_addr(env, s, s->aflag)
+        };
+        break;
+
+    case X86_TYPE_H:  /* For AVX, VEX.vvvv selects an XMM/YMM register */
+        if ((s->prefix & PREFIX_VEX)) {
+            op->unit =3D X86_OP_SSE;
+            op->n =3D s->vex_v;
+            break;
+        }
+        if (op =3D=3D &decode->op[0]) {
+            /* shifts place the destination in VEX.vvvv, use modrm */
+            return decode_op(s, env, decode, op, decode->e.op1, b);
+        } else {
+            return decode_op(s, env, decode, op, decode->e.op0, b);
+        }
+
+    case X86_TYPE_I:  /* Immediate */
+        op->unit =3D X86_OP_IMM;
+        decode->immediate =3D insn_get_signed(env, s, op->ot);
+        break;
+
+    case X86_TYPE_J:  /* Relative offset for a jump */
+        op->unit =3D X86_OP_IMM;
+        decode->immediate =3D insn_get_signed(env, s, op->ot);
+        decode->immediate +=3D s->pc - s->cs_base;
+        if (s->dflag =3D=3D MO_16) {
+            decode->immediate &=3D 0xffff;
+        } else if (!CODE64(s)) {
+            decode->immediate &=3D 0xffffffffu;
+        }
+        break;
+
+    case X86_TYPE_L:  /* The upper 4 bits of the immediate select a 128-bi=
t register */
+        op->n =3D insn_get(env, s, op->ot) >> 4;
+        break;
+
+    case X86_TYPE_X:  /* string source */
+        op->n =3D -1;
+        decode->mem =3D (AddressParts) {
+            .def_seg =3D R_DS,
+            .base =3D R_ESI,
+            .index =3D -1,
+        };
+        break;
+
+    case X86_TYPE_Y:  /* string destination */
+        op->n =3D -1;
+        decode->mem =3D (AddressParts) {
+            .def_seg =3D R_ES,
+            .base =3D R_EDI,
+            .index =3D -1,
+        };
+        break;
+
+    case X86_TYPE_2op:
+        *op =3D decode->op[0];
+        break;
+
+    case X86_TYPE_LoBits:
+        op->n =3D (b & 7) | REX_B(s);
+        op->unit =3D X86_OP_INT;
+        break;
+
+    case X86_TYPE_0 ... X86_TYPE_7:
+        op->n =3D type - X86_TYPE_0;
+        op->unit =3D X86_OP_INT;
+        break;
+
+    case X86_TYPE_ES ... X86_TYPE_GS:
+        op->n =3D type - X86_TYPE_ES;
+        op->unit =3D X86_OP_SEG;
+        break;
+    }
+
+    return true;
+}
+
+static bool decode_insn(DisasContext *s, CPUX86State *env, X86DecodeFunc d=
ecode_func,
+                        X86DecodedInsn *decode)
+{
+    X86OpEntry *e =3D &decode->e;
+
+    decode_func(s, env, e, &decode->b);
+    while (e->is_decode) {
+        e->is_decode =3D false;
+        e->decode(s, env, e, &decode->b);
+    }
+
+    /* First compute size of operands in order to initialize s->rip_offset=
.  */
+    if (e->op0 !=3D X86_TYPE_None) {
+        if (!decode_op_size(s, e, e->s0, &decode->op[0].ot)) {
+            return false;
+        }
+        if (e->op0 =3D=3D X86_TYPE_I) {
+            s->rip_offset +=3D 1 << decode->op[0].ot;
+        }
+    }
+    if (e->op1 !=3D X86_TYPE_None) {
+        if (!decode_op_size(s, e, e->s1, &decode->op[1].ot)) {
+            return false;
+        }
+        if (e->op1 =3D=3D X86_TYPE_I) {
+            s->rip_offset +=3D 1 << decode->op[1].ot;
+        }
+    }
+    if (e->op2 !=3D X86_TYPE_None) {
+        if (!decode_op_size(s, e, e->s2, &decode->op[2].ot)) {
+            return false;
+        }
+        if (e->op2 =3D=3D X86_TYPE_I) {
+            s->rip_offset +=3D 1 << decode->op[2].ot;
+        }
+    }
+    if (e->op3 !=3D X86_TYPE_None) {
+        assert(e->op3 =3D=3D X86_TYPE_I && e->s3 =3D=3D X86_SIZE_b);
+        s->rip_offset +=3D 1;
+    }
+
+    if (e->op0 !=3D X86_TYPE_None &&
+        !decode_op(s, env, decode, &decode->op[0], e->op0, decode->b)) {
+        return false;
+    }
+
+    if (e->op1 !=3D X86_TYPE_None &&
+        !decode_op(s, env, decode, &decode->op[1], e->op1, decode->b)) {
+        return false;
+    }
+
+    if (e->op2 !=3D X86_TYPE_None &&
+        !decode_op(s, env, decode, &decode->op[2], e->op2, decode->b)) {
+        return false;
+    }
+
+    if (e->op3 !=3D X86_TYPE_None) {
+        decode->immediate =3D insn_get_signed(env, s, MO_8);
+    }
+
+    return true;
+}
+
+/*
+ * Convert one instruction. s->base.is_jmp is set if the translation must
+ * be stopped.
+ */
+static void disas_insn_new(DisasContext *s, CPUState *cpu, int b)
+{
+    CPUX86State *env =3D cpu->env_ptr;
+    bool first =3D true;
+    X86DecodedInsn decode;
+    X86DecodeFunc decode_func =3D decode_root;
+
+#ifdef CONFIG_USER_ONLY
+    if (limit) { --limit; }
+#endif
+    s->has_modrm =3D false;
+
+ next_byte:
+    if (first) {
+        first =3D false;
+    } else {
+        b =3D x86_ldub_code(env, s);
+    }
+    /* Collect prefixes.  */
+    switch (b) {
+    case 0xf3:
+        s->prefix |=3D PREFIX_REPZ;
+        s->prefix &=3D ~PREFIX_REPNZ;
+        goto next_byte;
+    case 0xf2:
+        s->prefix |=3D PREFIX_REPNZ;
+        s->prefix &=3D ~PREFIX_REPZ;
+        goto next_byte;
+    case 0xf0:
+        s->prefix |=3D PREFIX_LOCK;
+        goto next_byte;
+    case 0x2e:
+        s->override =3D R_CS;
+        goto next_byte;
+    case 0x36:
+        s->override =3D R_SS;
+        goto next_byte;
+    case 0x3e:
+        s->override =3D R_DS;
+        goto next_byte;
+    case 0x26:
+        s->override =3D R_ES;
+        goto next_byte;
+    case 0x64:
+        s->override =3D R_FS;
+        goto next_byte;
+    case 0x65:
+        s->override =3D R_GS;
+        goto next_byte;
+    case 0x66:
+        s->prefix |=3D PREFIX_DATA;
+        goto next_byte;
+    case 0x67:
+        s->prefix |=3D PREFIX_ADR;
+        goto next_byte;
+#ifdef TARGET_X86_64
+    case 0x40 ... 0x4f:
+        if (CODE64(s)) {
+            /* REX prefix */
+            s->prefix |=3D PREFIX_REX;
+            s->rex_w =3D (b >> 3) & 1;
+            s->rex_r =3D (b & 0x4) << 1;
+            s->rex_x =3D (b & 0x2) << 2;
+            s->rex_b =3D (b & 0x1) << 3;
+            goto next_byte;
+        }
+        break;
+#endif
+    case 0xc5: /* 2-byte VEX */
+    case 0xc4: /* 3-byte VEX */
+        /*
+         * VEX prefixes cannot be used except in 32-bit mode.
+         * Otherwise the instruction is LES or LDS.
+         */
+        if (CODE32(s) && !VM86(s)) {
+            static const int pp_prefix[4] =3D {
+                0, PREFIX_DATA, PREFIX_REPZ, PREFIX_REPNZ
+            };
+            int vex3, vex2 =3D x86_ldub_code(env, s);
+
+            if (!CODE64(s) && (vex2 & 0xc0) !=3D 0xc0) {
+                /*
+                 * 4.1.4.6: In 32-bit mode, bits [7:6] must be 11b,
+                 * otherwise the instruction is LES or LDS.
+                 */
+                s->pc--; /* rewind the advance_pc() x86_ldub_code() did */
+                break;
+            }
+
+            /* 4.1.1-4.1.3: No preceding lock, 66, f2, f3, or rex prefixes=
. */
+            if (s->prefix & (PREFIX_REPZ | PREFIX_REPNZ
+                             | PREFIX_LOCK | PREFIX_DATA | PREFIX_REX)) {
+                goto illegal_op;
+            }
+#ifdef TARGET_X86_64
+            s->rex_r =3D (~vex2 >> 4) & 8;
+#endif
+            if (b =3D=3D 0xc5) {
+                /* 2-byte VEX prefix: RVVVVlpp, implied 0f leading opcode =
byte */
+                vex3 =3D vex2;
+                decode_func =3D decode_0F;
+            } else {
+                /* 3-byte VEX prefix: RXBmmmmm wVVVVlpp */
+                vex3 =3D x86_ldub_code(env, s);
+#ifdef TARGET_X86_64
+                s->rex_x =3D (~vex2 >> 3) & 8;
+                s->rex_b =3D (~vex2 >> 2) & 8;
+                s->rex_w =3D (vex3 >> 7) & 1;
+#endif
+                switch (vex2 & 0x1f) {
+                case 0x01: /* Implied 0f leading opcode bytes.  */
+                    decode_func =3D decode_0F;
+                    break;
+                case 0x02: /* Implied 0f 38 leading opcode bytes.  */
+                    decode_func =3D decode_0F38;
+                    break;
+                case 0x03: /* Implied 0f 3a leading opcode bytes.  */
+                    decode_func =3D decode_0F3A;
+                    break;
+                default:   /* Reserved for future use.  */
+                    goto unknown_op;
+                }
+            }
+            s->vex_v =3D (~vex3 >> 3) & 0xf;
+            s->vex_l =3D (vex3 >> 2) & 1;
+            s->prefix |=3D pp_prefix[vex3 & 3] | PREFIX_VEX;
+        }
+        break;
+    default:
+        if (b >=3D 0x100) {
+            b -=3D 0x100;
+            decode_func =3D do_decode_0F;
+        }
+        break;
+    }
+
+    /* Post-process prefixes.  */
+    if (CODE64(s)) {
+        /*
+         * In 64-bit mode, the default data size is 32-bit.  Select 64-bit
+         * data with rex_w, and 16-bit data with 0x66; rex_w takes precede=
nce
+         * over 0x66 if both are present.
+         */
+        s->dflag =3D (REX_W(s) ? MO_64 : s->prefix & PREFIX_DATA ? MO_16 :=
 MO_32);
+        /* In 64-bit mode, 0x67 selects 32-bit addressing.  */
+        s->aflag =3D (s->prefix & PREFIX_ADR ? MO_32 : MO_64);
+    } else {
+        /* In 16/32-bit mode, 0x66 selects the opposite data size.  */
+        if (CODE32(s) ^ ((s->prefix & PREFIX_DATA) !=3D 0)) {
+            s->dflag =3D MO_32;
+        } else {
+            s->dflag =3D MO_16;
+        }
+        /* In 16/32-bit mode, 0x67 selects the opposite addressing.  */
+        if (CODE32(s) ^ ((s->prefix & PREFIX_ADR) !=3D 0)) {
+            s->aflag =3D MO_32;
+        }  else {
+            s->aflag =3D MO_16;
+        }
+    }
+
+    memset(&decode, 0, sizeof(decode));
+    decode.b =3D b;
+    if (!decode_insn(s, env, decode_func, &decode)) {
+        goto illegal_op;
+    }
+    if (!decode.e.gen) {
+        goto unknown_op;
+    }
+
+    switch (decode.e.special) {
+    case X86_SPECIAL_None:
+        break;
+
+    case X86_SPECIAL_Locked:
+        if (decode.op[0].has_ea) {
+            s->prefix |=3D PREFIX_LOCK;
+        }
+        break;
+
+    case X86_SPECIAL_ProtMode:
+        if (!PE(s) || VM86(s)) {
+            goto illegal_op;
+        }
+        break;
+
+    case X86_SPECIAL_i64:
+        if (CODE64(s)) {
+            goto illegal_op;
+        }
+        break;
+    case X86_SPECIAL_o64:
+        if (!CODE64(s)) {
+            goto illegal_op;
+        }
+        break;
+
+    case X86_SPECIAL_ZExtOp0:
+        assert(decode.op[0].unit =3D=3D X86_OP_INT);
+        if (!decode.op[0].has_ea) {
+            decode.op[0].ot =3D MO_32;
+        }
+        break;
+
+    case X86_SPECIAL_ZExtOp2:
+        assert(decode.op[2].unit =3D=3D X86_OP_INT);
+        if (!decode.op[2].has_ea) {
+            decode.op[2].ot =3D MO_32;
+        }
+        break;
+
+    case X86_SPECIAL_MMX:
+        if (!(s->prefix & (PREFIX_REPZ | PREFIX_REPNZ | PREFIX_DATA))) {
+            gen_helper_enter_mmx(cpu_env);
+        }
+        break;
+    }
+
+    if (decode.op[0].has_ea || decode.op[1].has_ea || decode.op[2].has_ea)=
 {
+        gen_load_ea(s, &decode.mem);
+    }
+    decode.e.gen(s, env, &decode);
+    return;
+ illegal_op:
+    gen_illegal_opcode(s);
+    return;
+ unknown_op:
+    gen_unknown_opcode(env, s);
+}
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
new file mode 100644
index 0000000000..2f22d4d22e
--- /dev/null
+++ b/target/i386/tcg/decode-new.h
@@ -0,0 +1,181 @@
+/*
+ * Decode table flags, mostly based on Intel SDM.
+ *
+ *  Copyright (c) 2022 Red Hat, Inc.
+ *
+ * Author: Paolo Bonzini <pbonzini@redhat.com>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+typedef enum X86OpType {
+    X86_TYPE_None,
+
+    X86_TYPE_A, /* Implicit */
+    X86_TYPE_B, /* VEX.vvvv selects a GPR */
+    X86_TYPE_C, /* REG in the modrm byte selects a control register */
+    X86_TYPE_D, /* REG in the modrm byte selects a debug register */
+    X86_TYPE_E, /* ALU modrm operand */
+    X86_TYPE_F, /* EFLAGS/RFLAGS */
+    X86_TYPE_G, /* REG in the modrm byte selects a GPR */
+    X86_TYPE_H, /* For AVX, VEX.vvvv selects an XMM/YMM register */
+    X86_TYPE_I, /* Immediate */
+    X86_TYPE_J, /* Relative offset for a jump */
+    X86_TYPE_L, /* The upper 4 bits of the immediate select a 128-bit regi=
ster */
+    X86_TYPE_M, /* modrm byte selects a memory operand */
+    X86_TYPE_N, /* R/M in the modrm byte selects an MMX register */
+    X86_TYPE_O, /* Absolute address encoded in the instruction */
+    X86_TYPE_P, /* reg in the modrm byte selects an MMX register */
+    X86_TYPE_Q, /* MMX modrm operand */
+    X86_TYPE_R, /* R/M in the modrm byte selects a register */
+    X86_TYPE_S, /* reg selects a segment register */
+    X86_TYPE_U, /* R/M in the modrm byte selects an XMM/YMM register */
+    X86_TYPE_V, /* reg in the modrm byte selects an XMM/YMM register */
+    X86_TYPE_W, /* XMM/YMM modrm operand */
+    X86_TYPE_X, /* string source */
+    X86_TYPE_Y, /* string destination */
+
+    /* Custom */
+    X86_TYPE_2op, /* 2-operand RMW instruction */
+    X86_TYPE_LoBits, /* encoded in bits 0-2 of the operand + REX.B */
+    X86_TYPE_0, /* Hard-coded GPRs (RAX..RDI) */
+    X86_TYPE_1,
+    X86_TYPE_2,
+    X86_TYPE_3,
+    X86_TYPE_4,
+    X86_TYPE_5,
+    X86_TYPE_6,
+    X86_TYPE_7,
+    X86_TYPE_ES, /* Hard-coded segment registers */
+    X86_TYPE_CS,
+    X86_TYPE_SS,
+    X86_TYPE_DS,
+    X86_TYPE_FS,
+    X86_TYPE_GS,
+} X86OpType;
+
+typedef enum X86OpSize {
+    X86_SIZE_None,
+
+    X86_SIZE_a,  /* BOUND operand */
+    X86_SIZE_b,  /* byte */
+    X86_SIZE_d,  /* 32-bit */
+    X86_SIZE_dq, /* SSE/AVX 128-bit */
+    X86_SIZE_p,  /* Far pointer */
+    X86_SIZE_pd, /* SSE/AVX packed double precision */
+    X86_SIZE_pi, /* MMX */
+    X86_SIZE_ps, /* SSE/AVX packed single precision */
+    X86_SIZE_q,  /* 64-bit */
+    X86_SIZE_qq, /* AVX 256-bit */
+    X86_SIZE_s,  /* Descriptor */
+    X86_SIZE_sd, /* SSE/AVX scalar double precision */
+    X86_SIZE_ss, /* SSE/AVX scalar single precision */
+    X86_SIZE_si, /* 32-bit GPR */
+    X86_SIZE_v,  /* 16/32/64-bit, based on operand size */
+    X86_SIZE_w,  /* 16-bit */
+    X86_SIZE_x,  /* 128/256-bit, based on operand size */
+    X86_SIZE_y,  /* 32/64-bit, based on operand size */
+    X86_SIZE_z,  /* 16-bit for 16-bit operand size, else 32-bit */
+
+    /* Custom */
+    X86_SIZE_d64,
+    X86_SIZE_f64,
+} X86OpSize;
+
+/* Execution flags */
+
+typedef enum X86OpUnit {
+    X86_OP_SKIP,    /* not valid or managed by emission function */
+    X86_OP_SEG,     /* segment selector */
+    X86_OP_CR,      /* control register */
+    X86_OP_DR,      /* debug register */
+    X86_OP_INT,     /* loaded into/stored from s->T0/T1 */
+    X86_OP_IMM,     /* immediate */
+    X86_OP_SSE,     /* address in either s->ptrX or s->A0 depending on has=
_ea */
+    X86_OP_MMX,     /* address in either s->ptrX or s->A0 depending on has=
_ea */
+} X86OpUnit;
+
+typedef enum X86InsnSpecial {
+    X86_SPECIAL_None,
+
+    /* Always locked if it has a memory operand (XCHG) */
+    X86_SPECIAL_Locked,
+
+    /* Fault outside protected mode */
+    X86_SPECIAL_ProtMode,
+
+    /*
+     * Register operand 0/2 is zero extended to 32 bits.  Rd/Mb or Rd/Mw
+     * in the manual.
+     */
+    X86_SPECIAL_ZExtOp0,
+    X86_SPECIAL_ZExtOp2,
+
+    /*
+     * MMX instruction exists with no prefix; if there is no prefix, V/H/W=
/U operands
+     * become P/P/Q/N, and size "x" becomes "q".
+     */
+    X86_SPECIAL_MMX,
+
+    /* Illegal or exclusive to 64-bit mode */
+    X86_SPECIAL_i64,
+    X86_SPECIAL_o64,
+} X86InsnSpecial;
+
+typedef struct X86OpEntry  X86OpEntry;
+typedef struct X86DecodedInsn X86DecodedInsn;
+
+/* Decode function for multibyte opcodes.  */
+typedef void (*X86DecodeFunc)(DisasContext *s, CPUX86State *env, X86OpEntr=
y *entry, uint8_t *b);
+
+/* Code generation function.  */
+typedef void (*X86GenFunc)(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode);
+
+struct X86OpEntry {
+    /* Based on the is_decode flags.  */
+    union {
+        X86GenFunc gen;
+        X86DecodeFunc decode;
+    };
+    /* op0 is always written, op1 and op2 are always read.  */
+    X86OpType    op0:8;
+    X86OpSize    s0:8;
+    X86OpType    op1:8;
+    X86OpSize    s1:8;
+    X86OpType    op2:8;
+    X86OpSize    s2:8;
+    /* Must be I and b respectively if present.  */
+    X86OpType    op3:8;
+    X86OpSize    s3:8;
+
+    X86InsnSpecial special:8;
+    bool         is_decode:1;
+};
+
+typedef struct X86DecodedOp {
+    int8_t n;
+    MemOp ot;     /* For b/c/d/p/s/q/v/w/y/z */
+    X86OpUnit unit;
+    bool has_ea;
+} X86DecodedOp;
+
+struct X86DecodedInsn {
+    X86OpEntry e;
+    X86DecodedOp op[3];
+    target_ulong immediate;
+    AddressParts mem;
+
+    uint8_t b;
+};
+
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
new file mode 100644
index 0000000000..e86364ffc1
--- /dev/null
+++ b/target/i386/tcg/emit.c.inc
@@ -0,0 +1,31 @@
+/*
+ * New-style TCG opcode generator for i386 instructions
+ *
+ *  Copyright (c) 2022 Red Hat, Inc.
+ *
+ * Author: Paolo Bonzini <pbonzini@redhat.com>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
+ */
+
+static void gen_illegal(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    gen_illegal_opcode(s);
+}
+
+static void gen_load_ea(DisasContext *s, AddressParts *mem)
+{
+    TCGv ea =3D gen_lea_modrm_1(s, *mem);
+    gen_lea_v_seg(s, s->aflag, ea, mem->def_seg, s->override);
+}
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 41ee9450db..292a8a8527 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -86,6 +86,9 @@ typedef struct DisasContext {
     int8_t override; /* -1 if no override, else R_CS, R_DS, etc */
     uint8_t prefix;
=20
+    bool has_modrm;
+    uint8_t modrm;
+
 #ifndef CONFIG_USER_ONLY
     uint8_t cpl;   /* code priv level */
     uint8_t iopl;  /* i/o priv level */
@@ -2425,6 +2428,31 @@ static inline uint32_t insn_get(CPUX86State *env, Di=
sasContext *s, MemOp ot)
     return ret;
 }
=20
+static target_long insn_get_signed(CPUX86State *env, DisasContext *s, MemO=
p ot)
+{
+    target_long ret;
+
+    switch (ot) {
+    case MO_8:
+        ret =3D (int8_t) x86_ldub_code(env, s);
+        break;
+    case MO_16:
+        ret =3D (int16_t) x86_lduw_code(env, s);
+        break;
+    case MO_32:
+        ret =3D (int32_t) x86_ldl_code(env, s);
+        break;
+#ifdef TARGET_X86_64
+    case MO_64:
+        ret =3D x86_ldq_code(env, s);
+        break;
+#endif
+    default:
+        g_assert_not_reached();
+    }
+    return ret;
+}
+
 static inline int insn_const_size(MemOp ot)
 {
     if (ot <=3D MO_32) {
@@ -2927,6 +2955,11 @@ typedef void (*SSEFunc_0_ppi)(TCGv_ptr reg_a, TCGv_p=
tr reg_b, TCGv_i32 val);
 typedef void (*SSEFunc_0_eppt)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
                                TCGv val);
=20
+static bool first =3D true; static unsigned long limit;
+#include "decode-new.h"
+#include "emit.c.inc"
+#include "decode-new.c.inc"
+
 #define SSE_OPF_CMP       (1 << 1) /* does not write for first operand */
 #define SSE_OPF_SPECIAL   (1 << 3) /* magic */
 #define SSE_OPF_3DNOW     (1 << 4) /* 3DNow! instruction */
@@ -4851,10 +4884,35 @@ static bool disas_insn(DisasContext *s, CPUState *c=
pu)
=20
     prefixes =3D 0;
=20
+    if (first) first =3D false, limit =3D getenv("LIMIT") ? atol(getenv("L=
IMIT")) : -1;
+    bool use_new =3D true;
+#ifdef CONFIG_USER_ONLY
+    use_new &=3D limit > 0;
+#endif
  next_byte:
+    s->prefix =3D prefixes;
     b =3D x86_ldub_code(env, s);
     /* Collect prefixes.  */
     switch (b) {
+    default:
+#ifndef CONFIG_USER_ONLY
+        use_new &=3D b <=3D limit;
+#endif
+        if (use_new && 0) {
+            disas_insn_new(s, cpu, b);
+            return s->pc;
+        }
+        break;
+    case 0x0f:
+        b =3D x86_ldub_code(env, s) + 0x100;
+#ifndef CONFIG_USER_ONLY
+        use_new &=3D b <=3D limit;
+#endif
+        if (use_new && 0) {
+            disas_insn_new(s, cpu, b + 0x100);
+            return s->pc;
+        }
+        break;
     case 0xf3:
         prefixes |=3D PREFIX_REPZ;
         prefixes &=3D ~PREFIX_REPNZ;
@@ -4905,6 +4963,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #endif
     case 0xc5: /* 2-byte VEX */
     case 0xc4: /* 3-byte VEX */
+        use_new =3D false;
         /* VEX prefixes cannot be used except in 32-bit mode.
            Otherwise the instruction is LES or LDS.  */
         if (CODE32(s) && !VM86(s)) {
@@ -4989,14 +5048,7 @@ static bool disas_insn(DisasContext *s, CPUState *cp=
u)
     s->dflag =3D dflag;
=20
     /* now check op code */
- reswitch:
-    switch(b) {
-    case 0x0f:
-        /**************************/
-        /* extended op code */
-        b =3D x86_ldub_code(env, s) | 0x100;
-        goto reswitch;
-
+    switch (b) {
         /**************************/
         /* arith & logic */
     case 0x00 ... 0x05:
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665697936; cv=none;
	d=zohomail.com; s=zohoarc;
	b=HbsvUBIopiDGrXm+a0JRYFlooYNsNggNZEv1gV9QteyfYLkk3PCw3I1ilnXBjVMkcEyR8c9WXJO1Y0AI401ErbGyPhWv23TUZK1PAzYGHB38T4t5cPqMDUNzbYnfyPCwd1isPSUtrPCgQoZSAM3FqVt5kjUXiav1SJTvp6mtV4g=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665697936;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=1m4GSqBqGlIa3q//KMDdJd3YNX7GLp4zH4HH4fvKc+s=;
	b=P9bUfJ6bTEmdZryHmUSN3ioiQ/WwqX4mmfuuCnzGYcBa3rFkwP3HB8WWzFo3Sx4eBdRTJ5Dku2hrsFr5Awrnh+h630ARh3DB7JFyCQfcci7PTLWlDSkuYE4Z9ke+6X3vD9DXPy3qVvBT0IzjbQE16GvLJuQjGaw+u7UYfpiHKxQ=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665697936030718.3102887248659;
 Thu, 13 Oct 2022 14:52:16 -0700 (PDT)
Received: from localhost ([::1]:53676 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj67i-0006PK-1O
	for importer@patchew.org; Thu, 13 Oct 2022 17:52:14 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:60524)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62r-0002Sy-K4
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:16 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:40509)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62p-0005Bt-3e
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:13 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-141-DYhjc2jHP5ilXWthqA8aLA-1; Thu, 13 Oct 2022 17:47:09 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 i17-20020a05640242d100b0044f18a5379aso2354152edc.21
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:08 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 l17-20020a1709060cd100b00783c545544fsm405242ejh.215.2022.10.13.14.47.06
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:06 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697630;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=1m4GSqBqGlIa3q//KMDdJd3YNX7GLp4zH4HH4fvKc+s=;
 b=QG11cSJsAAVrOnvFu16QpHVAoRGD2NPjTVFEoaanRBX6ojRZcIPJ5rszHwAo+6XVgZdNT8
 A8JiEewJ9CwnPbWiv63uqH3x++i4i7zBULta1+nHZbu8ZV5BM21mF2yMvBIPRb+T11RM4F
 FHVAWJ2koxdczpF18XXpadBQj0uhhig=
X-MC-Unique: DYhjc2jHP5ilXWthqA8aLA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=1m4GSqBqGlIa3q//KMDdJd3YNX7GLp4zH4HH4fvKc+s=;
 b=e0Qpl45x2tsC5K439moaIf6BlTm/40yJooJ38T8XCj6ak9IROY+xR+ueFBtzUYeD2f
 pkKj0HbWPrt07kpc86Au5icabZVe5skB/yW10yYg+atnFIqg14LH9Zq6MTwOWpOlu/v9
 s1wYJwxVl7f85EyCslqpqtdh0/CajrSdae6EVwkS9Qk+4hBS1U3EXIj4ooSbaF7wRmsv
 anjxUa8x96ljCgHbM/IFHrhtROMnIfKS1Ml+tnyjPjSBOvlLN7EAEBNEKQsqcYb+kXzK
 KYkPqrEoUk2hSg0yCl3A3YiEFWjlYyyCFXHcSUgj1svAqJPNbikt9zrr/cCW0Auev9eu
 r/EA==
X-Gm-Message-State: ACrzQf3+UvHhXUCLBSDYh0SJiDTXNmHRnO67E9JxvSmcSW6k3sTD5OCB
 5AcXzehIQB0/a6HFnJ0pa6pGo0wfNJEgMGtIZNYYmhtvIYAe0rHBVM3Mc2knCkFvop4ExBUglN9
 C3FrouvTrCPMfbg2ODFbDvQo/EBeok5JiJI31TlpIT37iy+sjv8u8E3rPtCpeZnJz2GY=
X-Received: by 2002:a05:6402:50d4:b0:45d:fe2:45 with SMTP id
 h20-20020a05640250d400b0045d0fe20045mr1237578edb.221.1665697627154;
 Thu, 13 Oct 2022 14:47:07 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7rcA/fOt4l5vpkx5MxAHuy7tq0VsmsyguWK6zz+YaMhO5XE8ZotTREqBbU0i87yaVtUpzy5g==
X-Received: by 2002:a05:6402:50d4:b0:45d:fe2:45 with SMTP id
 h20-20020a05640250d400b0045d0fe20045mr1237568edb.221.1665697626873;
 Thu, 13 Oct 2022 14:47:06 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 04/35] target/i386: add ALU load/writeback core
Date: Thu, 13 Oct 2022 23:46:20 +0200
Message-Id: <20221013214651.672114-5-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665697937647100001
Content-Type: text/plain; charset="utf-8"

Add generic code generation that takes care of preparing operands
around calls to decode.e.gen in a table-driven manner, so that ALU
operations need not take care of that.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  33 ++++++-
 target/i386/tcg/decode-new.h     |   7 ++
 target/i386/tcg/emit.c.inc       | 155 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |  18 ++++
 4 files changed, 212 insertions(+), 1 deletion(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index a908e8b086..be4e5705ed 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -513,6 +513,20 @@ static bool decode_insn(DisasContext *s, CPUX86State *=
env, X86DecodeFunc decode_
     return true;
 }
=20
+static void decode_temp_free(X86DecodedOp *op)
+{
+    if (op->v_ptr) {
+        tcg_temp_free_ptr(op->v_ptr);
+    }
+}
+
+static void decode_temps_free(X86DecodedInsn *decode)
+{
+    decode_temp_free(&decode->op[0]);
+    decode_temp_free(&decode->op[1]);
+    decode_temp_free(&decode->op[2]);
+}
+
 /*
  * Convert one instruction. s->base.is_jmp is set if the translation must
  * be stopped.
@@ -738,7 +752,24 @@ static void disas_insn_new(DisasContext *s, CPUState *=
cpu, int b)
     if (decode.op[0].has_ea || decode.op[1].has_ea || decode.op[2].has_ea)=
 {
         gen_load_ea(s, &decode.mem);
     }
-    decode.e.gen(s, env, &decode);
+    if (s->prefix & PREFIX_LOCK) {
+        if (decode.op[0].unit !=3D X86_OP_INT || !decode.op[0].has_ea) {
+            goto illegal_op;
+        }
+        gen_load(s, &decode, 2, s->T1);
+        decode.e.gen(s, env, &decode);
+    } else {
+        if (decode.op[0].unit =3D=3D X86_OP_MMX) {
+            compute_mmx_offset(&decode.op[0]);
+        } else if (decode.op[0].unit =3D=3D X86_OP_SSE) {
+            compute_xmm_offset(&decode.op[0]);
+        }
+        gen_load(s, &decode, 1, s->T0);
+        gen_load(s, &decode, 2, s->T1);
+        decode.e.gen(s, env, &decode);
+        gen_writeback(s, &decode, 0, s->T0);
+    }
+    decode_temps_free(&decode);
     return;
  illegal_op:
     gen_illegal_opcode(s);
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index 2f22d4d22e..3a856b48e7 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -168,6 +168,13 @@ typedef struct X86DecodedOp {
     MemOp ot;     /* For b/c/d/p/s/q/v/w/y/z */
     X86OpUnit unit;
     bool has_ea;
+    int offset;   /* For MMX and SSE */
+
+    /*
+     * This field is used internally by macros OP0_PTR/OP1_PTR/OP2_PTR,
+     * do not access directly!
+     */
+    TCGv_ptr v_ptr;
 } X86DecodedOp;
=20
 struct X86DecodedInsn {
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index e86364ffc1..f8ba888c33 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -29,3 +29,158 @@ static void gen_load_ea(DisasContext *s, AddressParts *=
mem)
     TCGv ea =3D gen_lea_modrm_1(s, *mem);
     gen_lea_v_seg(s, s->aflag, ea, mem->def_seg, s->override);
 }
+
+static inline int mmx_offset(MemOp ot)
+{
+    switch (ot) {
+    case MO_8:
+        return offsetof(MMXReg, MMX_B(0));
+    case MO_16:
+        return offsetof(MMXReg, MMX_W(0));
+    case MO_32:
+        return offsetof(MMXReg, MMX_L(0));
+    case MO_64:
+        return offsetof(MMXReg, MMX_Q(0));
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static inline int xmm_offset(MemOp ot)
+{
+    switch (ot) {
+    case MO_8:
+        return offsetof(ZMMReg, ZMM_B(0));
+    case MO_16:
+        return offsetof(ZMMReg, ZMM_W(0));
+    case MO_32:
+        return offsetof(ZMMReg, ZMM_L(0));
+    case MO_64:
+        return offsetof(ZMMReg, ZMM_Q(0));
+    case MO_128:
+        return offsetof(ZMMReg, ZMM_X(0));
+    case MO_256:
+        return offsetof(ZMMReg, ZMM_Y(0));
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void compute_mmx_offset(X86DecodedOp *op)
+{
+    if (!op->has_ea) {
+        op->offset =3D offsetof(CPUX86State, fpregs[op->n].mmx) + mmx_offs=
et(op->ot);
+    } else {
+        op->offset =3D offsetof(CPUX86State, mmx_t0) + mmx_offset(op->ot);
+    }
+}
+
+static void compute_xmm_offset(X86DecodedOp *op)
+{
+    if (!op->has_ea) {
+        op->offset =3D ZMM_OFFSET(op->n) + xmm_offset(op->ot);
+    } else {
+        op->offset =3D offsetof(CPUX86State, xmm_t0) + xmm_offset(op->ot);
+    }
+}
+
+static void gen_load_sse(DisasContext *s, TCGv temp, MemOp ot, int dest_of=
s, bool aligned)
+{
+    switch(ot) {
+    case MO_8:
+        gen_op_ld_v(s, MO_8, temp, s->A0);
+        tcg_gen_st8_tl(temp, cpu_env, dest_ofs);
+        break;
+    case MO_16:
+        gen_op_ld_v(s, MO_16, temp, s->A0);
+        tcg_gen_st16_tl(temp, cpu_env, dest_ofs);
+        break;
+    case MO_32:
+        gen_op_ld_v(s, MO_32, temp, s->A0);
+        tcg_gen_st32_tl(temp, cpu_env, dest_ofs);
+        break;
+    case MO_64:
+        gen_ldq_env_A0(s, dest_ofs);
+        break;
+    case MO_128:
+        gen_ldo_env_A0(s, dest_ofs, aligned);
+        break;
+    case MO_256:
+        gen_ldy_env_A0(s, dest_ofs, aligned);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void gen_load(DisasContext *s, X86DecodedInsn *decode, int opn, TCG=
v v)
+{
+    X86DecodedOp *op =3D &decode->op[opn];
+
+    switch (op->unit) {
+    case X86_OP_SKIP:
+        return;
+    case X86_OP_SEG:
+        tcg_gen_ld32u_tl(v, cpu_env,
+                         offsetof(CPUX86State,segs[op->n].selector));
+        break;
+    case X86_OP_CR:
+        tcg_gen_ld_tl(v, cpu_env, offsetof(CPUX86State, cr[op->n]));
+        break;
+    case X86_OP_DR:
+        tcg_gen_ld_tl(v, cpu_env, offsetof(CPUX86State, dr[op->n]));
+        break;
+    case X86_OP_INT:
+        if (op->has_ea) {
+            gen_op_ld_v(s, op->ot, v, s->A0);
+        } else {
+            gen_op_mov_v_reg(s, op->ot, v, op->n);
+        }
+        break;
+    case X86_OP_IMM:
+        tcg_gen_movi_tl(v, decode->immediate);
+        break;
+
+    case X86_OP_MMX:
+        compute_mmx_offset(op);
+        goto load_vector;
+
+    case X86_OP_SSE:
+        compute_xmm_offset(op);
+    load_vector:
+        if (op->has_ea) {
+            gen_load_sse(s, v, op->ot, op->offset, true);
+        }
+        break;
+
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void gen_writeback(DisasContext *s, X86DecodedInsn *decode, int opn=
, TCGv v)
+{
+    X86DecodedOp *op =3D &decode->op[opn];
+    switch (op->unit) {
+    case X86_OP_SKIP:
+        break;
+    case X86_OP_SEG:
+        /* Note that gen_movl_seg_T0 takes care of interrupt shadow and TF=
.  */
+        gen_movl_seg_T0(s, op->n);
+        break;
+    case X86_OP_INT:
+        if (op->has_ea) {
+            gen_op_st_v(s, op->ot, v, s->A0);
+        } else {
+            gen_op_mov_reg_v(s, op->ot, op->n, v);
+        }
+        break;
+    case X86_OP_MMX:
+    case X86_OP_SSE:
+        break;
+    case X86_OP_CR:
+    case X86_OP_DR:
+    default:
+        g_assert_not_reached();
+    }
+}
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 292a8a8527..4403d376e0 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -2913,6 +2913,24 @@ static inline void gen_sto_env_A0(DisasContext *s, i=
nt offset, bool align)
     tcg_gen_qemu_st_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
 }
=20
+static void gen_ldy_env_A0(DisasContext *s, int offset, bool align)
+{
+    int mem_index =3D s->mem_index;
+    tcg_gen_qemu_ld_i64(s->tmp1_i64, s->A0, mem_index,
+                        MO_LEUQ | (align ? MO_ALIGN_32 : 0));
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(0=
)));
+    tcg_gen_addi_tl(s->tmp0, s->A0, 8);
+    tcg_gen_qemu_ld_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(1=
)));
+
+    tcg_gen_addi_tl(s->tmp0, s->A0, 16);
+    tcg_gen_qemu_ld_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(2=
)));
+    tcg_gen_addi_tl(s->tmp0, s->A0, 24);
+    tcg_gen_qemu_ld_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(3=
)));
+}
+
 static inline void gen_op_movo(DisasContext *s, int d_offset, int s_offset)
 {
     tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(XMMReg, XMM_Q=
(0)));
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=fail;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=fail(p=none dis=none)  header.from=redhat.com
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698059796559.3882433466528;
 Thu, 13 Oct 2022 14:54:19 -0700 (PDT)
Received: from localhost ([::1]:35456 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj69i-0002la-Py
	for importer@patchew.org; Thu, 13 Oct 2022 17:54:18 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:60530)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62t-0002TC-25
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:16 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:53646)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62r-0005C3-IY
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:14 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-323-zfD5Ex4IMyS9dck3vJO4jA-1; Thu, 13 Oct 2022 17:47:11 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 c17-20020a05640227d100b0045c91f982a1so2333281ede.2
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:11 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 f7-20020a056402004700b00458d50b4a24sm478409edu.96.2022.10.13.14.47.08
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:09 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697632;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=owZpd2lbrfAxFaJKGE6lZlkqmFBquIIN5WL+QF/R+BI=;
 b=B1ubc/z1QIDhRhERzN71PuFPACRdXWwKPOGokMQt3gRjDPb68TWYhUdn+578PBS2vJjItu
 dOmzz+jwRgljvCFylZQa2HTvVAwcRyPuRYoVG5sMqXDjhGZ5h/+CZxGdMKWrXPhQLxKZGw
 gb3ZMNmwwMCrdz7yaZIjAikYffmiEK8=
X-MC-Unique: zfD5Ex4IMyS9dck3vJO4jA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=owZpd2lbrfAxFaJKGE6lZlkqmFBquIIN5WL+QF/R+BI=;
 b=x6TpmMHo432QgR3lVcEbrhOyYxVylfHmesj+aUlMdPvZ2fcuHYlujJsC0LDWqhlYx7
 bt5NsF9Rg5RPiSv4zc8m25863b3WP2pom6G9ceknkRwM8fmztzmbKJKxthSHi5QfUNDh
 7EQqnlVVX1HeBAc8jq+juoxpcDbSTCqSu/sUj3UFeeB2+UMEnOMsfAEoF1EdgCIMQpyE
 oJ7qMoYgz+k5FdI9o/u7Z8qx1ay1u3olLHQOQYdy/JZ/vNs1KaKaPuXuaNlqMYbwLDIE
 IT/0dZw2nJCkzfY8s7txc4qBEP51YmA+DExwrbIi/nK4vZX2zzeWUcIQKNU9MBt42Y5w
 kR7g==
X-Gm-Message-State: ACrzQf36B9EKHsHRfkduqg3vGwJRhsEuXR44ImtdLOrlQk5pUXY9ZCfU
 docRrgd12jmQugAoEFkQ9suCE+xFhsUskhTH4h3yZQ980JEy/uLHYLhrIs8BTWAf4p0J34WEonu
 Gat82Tjm/1BnheUV8MpA1gDz2jKAhEVPX6DM8zwHAfR2mYoNlF3w1AdMp0XblubZJgU4=
X-Received: by 2002:a17:907:847:b0:77f:f489:cc25 with SMTP id
 ww7-20020a170907084700b0077ff489cc25mr1323525ejb.80.1665697629981;
 Thu, 13 Oct 2022 14:47:09 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4jYNzPwz5wjiuB9UiRMwIx4aR9L7E/Vi59E29S3u8PtAikRMYds43+W6rjYXOVqHfdxv34Xw==
X-Received: by 2002:a17:907:847:b0:77f:f489:cc25 with SMTP id
 ww7-20020a170907084700b0077ff489cc25mr1323510ejb.80.1665697629714;
 Thu, 13 Oct 2022 14:47:09 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 05/35] target/i386: add CPUID[EAX=7,
 ECX=0].ECX to DisasContext
Date: Thu, 13 Oct 2022 23:46:21 +0200
Message-Id: <20221013214651.672114-6-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: fail (Header signature does not verify)
X-ZM-MESSAGEID: 1665698060583100001
Content-Type: text/plain; charset="utf-8"

TCG will shortly implement VAES instructions, so add the relevant feature
word to the DisasContext.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/translate.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 4403d376e0..f3ba3275d2 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -116,6 +116,7 @@ typedef struct DisasContext {
     int cpuid_ext2_features;
     int cpuid_ext3_features;
     int cpuid_7_0_ebx_features;
+    int cpuid_7_0_ecx_features;
     int cpuid_xsave_features;
=20
     /* TCG local temps */
@@ -8851,6 +8852,7 @@ static void i386_tr_init_disas_context(DisasContextBa=
se *dcbase, CPUState *cpu)
     dc->cpuid_ext2_features =3D env->features[FEAT_8000_0001_EDX];
     dc->cpuid_ext3_features =3D env->features[FEAT_8000_0001_ECX];
     dc->cpuid_7_0_ebx_features =3D env->features[FEAT_7_0_EBX];
+    dc->cpuid_7_0_ecx_features =3D env->features[FEAT_7_0_ECX];
     dc->cpuid_xsave_features =3D env->features[FEAT_XSAVE];
     dc->jmp_opt =3D !((cflags & CF_NO_GOTO_TB) ||
                     (flags & (HF_TF_MASK | HF_INHIBIT_IRQ_MASK)));
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698071; cv=none;
	d=zohomail.com; s=zohoarc;
	b=mIIGMNZBwsHT0MupVKWwfo39w/kd0hEJ6r2XDS2onHIO5hufNrdmIUm9HXbOLsCmgTTtLemE+H10+gyOhA15Cmuq00GoktI6E79NGH9S6GRLVqQHsHyPg29lv3qcLELRqmk+O/CIAA3yB2iET2qUYvUrWU6vEOOFQ+rNiEo2gTc=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698071;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=MBqo45zKkQbmdFAhY9C08GN3giMhyKJ+DTWQrmWfBb4=;
	b=S6oLH7vlcTbuAYU8BiXoxlXm7r7uktdFlw/HCFikwIAbDDju156E/c6iraU9tyvIR/oXAWPfte26ICJ1Q0aRVkB7UBHhFbPMtRPmeGsrpYlcKtKGgxe3DqEGCaiwuBXEih4F4BYZ+e5upczPm8maxhls6QhF41MGNtH/4glCPik=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 166569807142332.26882486212219;
 Thu, 13 Oct 2022 14:54:31 -0700 (PDT)
Received: from localhost ([::1]:51654 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj69u-0003Qr-D7
	for importer@patchew.org; Thu, 13 Oct 2022 17:54:30 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:50928)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62w-0002UF-EZ
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:18 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:38348)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62u-0005Ci-My
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:18 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-7-2-tz0NCbNXWAigc6UY6qsg-1; Thu, 13 Oct 2022 17:47:14 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 z20-20020a05640240d400b0045cec07c3dcso2123386edb.3
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:14 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 l18-20020a1709063d3200b0073d71792c8dsm410032ejf.180.2022.10.13.14.47.11
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:12 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697636;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=MBqo45zKkQbmdFAhY9C08GN3giMhyKJ+DTWQrmWfBb4=;
 b=iD4kfZ7BgyVl4wXDoGIYcf/RxLkIDmPq4XiDXDqlJVdCfgMoNvCWm1yhZjSdjYCp47NxUz
 BmZT3L6mc16Px4cy9rUA8Z11kKgWOPmyEDPSZMqNrl7EAzlhXGcopBKJ8q3fSbd02TRpY0
 EslKNNqJ2UkvpNntJZeq8IV72QD2rUk=
X-MC-Unique: 2-tz0NCbNXWAigc6UY6qsg-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=MBqo45zKkQbmdFAhY9C08GN3giMhyKJ+DTWQrmWfBb4=;
 b=qppz7ClxHQ4azJqeVRvluvcV/iljZ8iS/uttP+PLuWFpDZtO/gYjwA9aA/l2NeAtWQ
 LCrpDU/U3ePcUFRGqrrYeoDE0/Nd/2aQdKsixUglG6kaB68j/rHM71d80QNyZtMoM6HK
 QwWiOYrNQFr1LWsh2pP08TX6pSplftEiUXYEwq/w/oNA8ItOfAN7KagYlYhJjjdFT5/O
 wcw7Xcw2UyGzO2Hly6pUXrCq+JLmsPTsEDzbaIOdavGuNPq+EP8eW4/RKApLWBSDbAhc
 xRKmjk7pvus9XmGh95vEXKcTQPZGPZmQ712O3KogT5V2T1TSPzAYSxuNOEdidfKFSccS
 ekqA==
X-Gm-Message-State: ACrzQf2KJYC4TDEIPnc/JlNqrRd+TRy55PG79slfNWOtiyclEaxdoyRl
 sz7XzAjNaqRNDpvZdyd9QADNvXpFbapBOt90DorXXQUXxODdtM6GFwEkZP/7KCP6UhgYjRBG1z8
 cJBrysq8O2PgbARQZd/6LDRRszSPDAuQeCbseGzQgVqw9wgnTgSZ12BO6SgXebPpld/8=
X-Received: by 2002:a17:907:6088:b0:78d:8e24:40d0 with SMTP id
 ht8-20020a170907608800b0078d8e2440d0mr1331467ejc.590.1665697632869;
 Thu, 13 Oct 2022 14:47:12 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM51qAskAcaHFIychrZQx2xZzcNdcMAQoCvq8DIHgK0veegt7/yLN0sTxoIld9fevwNgbzKcSQ==
X-Received: by 2002:a17:907:6088:b0:78d:8e24:40d0 with SMTP id
 ht8-20020a170907608800b0078d8e2440d0mr1331443ejc.590.1665697632474;
 Thu, 13 Oct 2022 14:47:12 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 06/35] target/i386: add CPUID feature checks to new decoder
Date: Thu, 13 Oct 2022 23:46:22 +0200
Message-Id: <20221013214651.672114-7-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698072644100003
Content-Type: text/plain; charset="utf-8"

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 55 ++++++++++++++++++++++++++++++++
 target/i386/tcg/decode-new.h     | 20 ++++++++++++
 2 files changed, 75 insertions(+)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index be4e5705ed..e268b5fb48 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -85,6 +85,7 @@
 #define X86_OP_ENTRY0(op, ...)                                    \
     X86_OP_ENTRY3(op, None, None, None, None, None, None, ## __VA_ARGS__)
=20
+#define cpuid(feat) .cpuid =3D X86_FEAT_##feat,
 #define i64 .special =3D X86_SPECIAL_i64,
 #define o64 .special =3D X86_SPECIAL_o64,
 #define xchg .special =3D X86_SPECIAL_Locked,
@@ -513,6 +514,56 @@ static bool decode_insn(DisasContext *s, CPUX86State *=
env, X86DecodeFunc decode_
     return true;
 }
=20
+static bool has_cpuid_feature(DisasContext *s, X86CPUIDFeature cpuid)
+{
+    switch (cpuid) {
+    case X86_FEAT_None:
+        return true;
+    case X86_FEAT_MOVBE:
+        return (s->cpuid_ext_features & CPUID_EXT_MOVBE);
+    case X86_FEAT_PCLMULQDQ:
+        return (s->cpuid_ext_features & CPUID_EXT_PCLMULQDQ);
+    case X86_FEAT_SSE:
+        return (s->cpuid_ext_features & CPUID_SSE);
+    case X86_FEAT_SSE2:
+        return (s->cpuid_ext_features & CPUID_SSE2);
+    case X86_FEAT_SSE3:
+        return (s->cpuid_ext_features & CPUID_EXT_SSE3);
+    case X86_FEAT_SSSE3:
+        return (s->cpuid_ext_features & CPUID_EXT_SSSE3);
+    case X86_FEAT_SSE41:
+        return (s->cpuid_ext_features & CPUID_EXT_SSE41);
+    case X86_FEAT_SSE42:
+        return (s->cpuid_ext_features & CPUID_EXT_SSE42);
+    case X86_FEAT_AES:
+        if (!(s->cpuid_ext_features & CPUID_EXT_AES)) {
+            return false;
+        } else if (!(s->prefix & PREFIX_VEX)) {
+            return true;
+        } else if (!(s->cpuid_ext_features & CPUID_EXT_AVX)) {
+            return false;
+        } else {
+            return !s->vex_l || (s->cpuid_7_0_ecx_features & CPUID_7_0_ECX=
_VAES);
+        }
+
+    case X86_FEAT_AVX:
+        return (s->cpuid_ext_features & CPUID_EXT_AVX);
+
+    case X86_FEAT_SSE4A:
+        return (s->cpuid_ext3_features & CPUID_EXT3_SSE4A);
+
+    case X86_FEAT_ADX:
+        return (s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_ADX);
+    case X86_FEAT_BMI1:
+        return (s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI1);
+    case X86_FEAT_BMI2:
+        return (s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2);
+    case X86_FEAT_AVX2:
+        return (s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_AVX2);
+    }
+    g_assert_not_reached();
+}
+
 static void decode_temp_free(X86DecodedOp *op)
 {
     if (op->v_ptr) {
@@ -701,6 +752,10 @@ static void disas_insn_new(DisasContext *s, CPUState *=
cpu, int b)
         goto unknown_op;
     }
=20
+    if (!has_cpuid_feature(s, decode.e.cpuid)) {
+        goto illegal_op;
+    }
+
     switch (decode.e.special) {
     case X86_SPECIAL_None:
         break;
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index 3a856b48e7..e62e9c9d87 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -93,6 +93,25 @@ typedef enum X86OpSize {
     X86_SIZE_f64,
 } X86OpSize;
=20
+typedef enum X86CPUIDFeature {
+    X86_FEAT_None,
+    X86_FEAT_ADX,
+    X86_FEAT_AES,
+    X86_FEAT_AVX,
+    X86_FEAT_AVX2,
+    X86_FEAT_BMI1,
+    X86_FEAT_BMI2,
+    X86_FEAT_MOVBE,
+    X86_FEAT_PCLMULQDQ,
+    X86_FEAT_SSE,
+    X86_FEAT_SSE2,
+    X86_FEAT_SSE3,
+    X86_FEAT_SSSE3,
+    X86_FEAT_SSE41,
+    X86_FEAT_SSE42,
+    X86_FEAT_SSE4A,
+} X86CPUIDFeature;
+
 /* Execution flags */
=20
 typedef enum X86OpUnit {
@@ -160,6 +179,7 @@ struct X86OpEntry {
     X86OpSize    s3:8;
=20
     X86InsnSpecial special:8;
+    X86CPUIDFeature cpuid:8;
     bool         is_decode:1;
 };
=20
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698262; cv=none;
	d=zohomail.com; s=zohoarc;
	b=jgfj/2kTK4L/LXysh6+cZivp3hWD4E5b6t6GFViG/rE1Ig8pqro8s0pDy/xAoxMTAzr9/IfSsgF5HJPSIUeZwLf9XzUWlJUbrZ60QN6xvuVHnQbIUIkAKBXgrOWCS4EnSYLE8wKTiPYajLXgWHK5dJC18TUaCvp8veOJXuyj1L8=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698262;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=ds+oyezvjsvQGyPBBqDdCHyAyAoEkuJZ5PMWpBjju5g=;
	b=XOK1Z2HXFjnpX4Lm7ubT0PeBISIGWjjiWVXfzAp2inhO2M+UtdxvYmv8qUOqPi+CcxqhCKvL6Gq34sHQA2Dexotr3yEvAnbYsSrdqCr6trV6KF5hnG0YbTOVi2WXIc6lbyRoWB85X8ngzr7Gw0KeO42+GLxkoaYbti//JsO9tk0=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698262428661.2991439780955;
 Thu, 13 Oct 2022 14:57:42 -0700 (PDT)
Received: from localhost ([::1]:56966 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Cz-0000gV-8i
	for importer@patchew.org; Thu, 13 Oct 2022 17:57:41 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:50930)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62y-0002VZ-Qg
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:21 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:40882)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj62x-0005DO-6d
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:20 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-93-UeNYLA28MWmv84OHS6SlDA-1; Thu, 13 Oct 2022 17:47:17 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 m13-20020a056402510d00b0045c1a055ee7so2355007edd.22
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:16 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 j12-20020a170906474c00b0076f0ab9591esm429625ejs.125.2022.10.13.14.47.14
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:14 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697638;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=ds+oyezvjsvQGyPBBqDdCHyAyAoEkuJZ5PMWpBjju5g=;
 b=HR23JbjFCo4fe6MiQd897i55N+gnSAIrBsMBW+4+6zQegIg9emL9YiSLMcm5Qy0vF/TNKk
 6v151T5L7PBakjEDsHz6mC0O7x0GG0F9mdcaT53CEpIA+zugGarOfi3Frk5twMmnLHV1He
 FpnISUFnTZXRH2WAOfPM6HC2xB/fkoo=
X-MC-Unique: UeNYLA28MWmv84OHS6SlDA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=ds+oyezvjsvQGyPBBqDdCHyAyAoEkuJZ5PMWpBjju5g=;
 b=wVEnDturfGRZMtesfqe1nmnKc18abIZgpqycmfKFCAS1Q49noCnbP9VLSclbV0YyjU
 6Lij3oWBluDbcLEaKeDC4+mymtFr8P0j/piI8NqLDoodr1jy7CGqaMhIHMBDoZ2o9Cik
 X0yEcuh6BRgFCq1iQju8GD5hUuJ7YZufA8jYjyF0SVbF8AVRJ+1jPeD4Dmb8j4YrYj2I
 rNozlFWukxpwaYINhb0JNL9oCasKS4sYqaiYr2pnBocFFunZcW7D0r7F4XZduwkpTI52
 qA0B5XsHBSAyCqj/Rx1SfQ9hACh4JBR5lJm31MYrc8XzN1abCKXNcl5C1cIcO6inNWfr
 3jRg==
X-Gm-Message-State: ACrzQf04A88YqiEJ3L29BSUwJDC8FWEUy414YPy0VMfN4TU+evHHVOQN
 Iubxy6wuWXtAHrSkFRQ5n2tvi5q92TPSNt4Y4xKH3goiM6YMlT4C8FuVD2uQSiNQytPuz0yEZ9u
 FdjqL48cwbac2cXwHsWsjPGjPypRYJ2ulkjWT5bL31/BrqFP6r1VhvLiz3OBkIEy1aTA=
X-Received: by 2002:a17:906:8479:b0:78d:cf17:2d70 with SMTP id
 hx25-20020a170906847900b0078dcf172d70mr1274643ejc.319.1665697635437;
 Thu, 13 Oct 2022 14:47:15 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4P7DUL9wWTu9Pyx/NmmwxgeFfb+CD0VNLj7I/h5BaT/kpp2CLcXRnGao0QlalmBFRSjMcFCg==
X-Received: by 2002:a17:906:8479:b0:78d:cf17:2d70 with SMTP id
 hx25-20020a170906847900b0078dcf172d70mr1274627ejc.319.1665697635139;
 Thu, 13 Oct 2022 14:47:15 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 07/35] target/i386: add AVX_EN hflag
Date: Thu, 13 Oct 2022 23:46:23 +0200
Message-Id: <20221013214651.672114-8-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698264085100001
Content-Type: text/plain; charset="utf-8"

From: Paul Brook <paul@nowt.org>

Add a new hflag bit to determine whether AVX instructions are allowed

Signed-off-by: Paul Brook <paul@nowt.org>
Message-Id: <20220424220204.2493824-4-paul@nowt.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/cpu.h            |  3 +++
 target/i386/helper.c         | 12 ++++++++++++
 target/i386/tcg/fpu_helper.c |  1 +
 3 files changed, 16 insertions(+)

diff --git a/target/i386/cpu.h b/target/i386/cpu.h
index 63bb500d07..2687f3ba50 100644
--- a/target/i386/cpu.h
+++ b/target/i386/cpu.h
@@ -169,6 +169,7 @@ typedef enum X86Seg {
 #define HF_MPX_EN_SHIFT     25 /* MPX Enabled (CR4+XCR0+BNDCFGx) */
 #define HF_MPX_IU_SHIFT     26 /* BND registers in-use */
 #define HF_UMIP_SHIFT       27 /* CR4.UMIP */
+#define HF_AVX_EN_SHIFT     28 /* AVX Enabled (CR4+XCR0) */
=20
 #define HF_CPL_MASK          (3 << HF_CPL_SHIFT)
 #define HF_INHIBIT_IRQ_MASK  (1 << HF_INHIBIT_IRQ_SHIFT)
@@ -195,6 +196,7 @@ typedef enum X86Seg {
 #define HF_MPX_EN_MASK       (1 << HF_MPX_EN_SHIFT)
 #define HF_MPX_IU_MASK       (1 << HF_MPX_IU_SHIFT)
 #define HF_UMIP_MASK         (1 << HF_UMIP_SHIFT)
+#define HF_AVX_EN_MASK       (1 << HF_AVX_EN_SHIFT)
=20
 /* hflags2 */
=20
@@ -2124,6 +2126,7 @@ void host_cpuid(uint32_t function, uint32_t count,
=20
 /* helper.c */
 void x86_cpu_set_a20(X86CPU *cpu, int a20_state);
+void cpu_sync_avx_hflag(CPUX86State *env);
=20
 #ifndef CONFIG_USER_ONLY
 static inline int x86_asidx_from_attrs(CPUState *cs, MemTxAttrs attrs)
diff --git a/target/i386/helper.c b/target/i386/helper.c
index b954ccda50..b62a1e48e2 100644
--- a/target/i386/helper.c
+++ b/target/i386/helper.c
@@ -29,6 +29,17 @@
 #endif
 #include "qemu/log.h"
=20
+void cpu_sync_avx_hflag(CPUX86State *env)
+{
+    if ((env->cr[4] & CR4_OSXSAVE_MASK)
+        && (env->xcr0 & (XSTATE_SSE_MASK | XSTATE_YMM_MASK))
+            =3D=3D (XSTATE_SSE_MASK | XSTATE_YMM_MASK)) {
+        env->hflags |=3D HF_AVX_EN_MASK;
+    } else{
+        env->hflags &=3D ~HF_AVX_EN_MASK;
+    }
+}
+
 void cpu_sync_bndcs_hflags(CPUX86State *env)
 {
     uint32_t hflags =3D env->hflags;
@@ -209,6 +220,7 @@ void cpu_x86_update_cr4(CPUX86State *env, uint32_t new_=
cr4)
     env->hflags =3D hflags;
=20
     cpu_sync_bndcs_hflags(env);
+    cpu_sync_avx_hflag(env);
 }
=20
 #if !defined(CONFIG_USER_ONLY)
diff --git a/target/i386/tcg/fpu_helper.c b/target/i386/tcg/fpu_helper.c
index ad58931751..9b59026e37 100644
--- a/target/i386/tcg/fpu_helper.c
+++ b/target/i386/tcg/fpu_helper.c
@@ -2955,6 +2955,7 @@ void helper_xsetbv(CPUX86State *env, uint32_t ecx, ui=
nt64_t mask)
=20
     env->xcr0 =3D mask;
     cpu_sync_bndcs_hflags(env);
+    cpu_sync_avx_hflag(env);
     return;
=20
  do_gpf:
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698394; cv=none;
	d=zohomail.com; s=zohoarc;
	b=cs20msCAVeqUQUMRIhJa3i8LOPBsDLn2/Uq++6VHgH6Kix5bCdySrvYTFnpgILHUbdUBI1otllOXK4L/UwjZd2hGNm7jr+QJoJT89HPs115AdhF1FBx99OfO+c7R7R3ZFzrtTTM0h8c9O93/s7Ml/EED8/R61QkrVkN9EemPpNA=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698394;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=LpMlhKbH1w7WCEPLs6ndy62uIWinVXIOPCCenWPLDjk=;
	b=RVKcPEDXcqjVbEY8r3kbD9eiiHb4dE4HKPH0wD6TvvKwDSVf/+Iz3y76tZI91IhO0jjetNknmDm/UKGQQmifZH/0ELMsw/Q9wolDQj07+wEruydEQEm69ehWpCgRDDu4b+kr3/ZoAF0TZIi8NkBhTtQI69Vz+OI/edQOd79RILo=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698393144968.1215239650357;
 Thu, 13 Oct 2022 14:59:53 -0700 (PDT)
Received: from localhost ([::1]:49278 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6F6-0005hg-2C
	for importer@patchew.org; Thu, 13 Oct 2022 17:59:52 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:50506)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj634-0002YW-Ad
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:28 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:26440)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj630-0005EL-Py
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:25 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-601-fnqCSe42OmSuKcS9FoKX8w-1; Thu, 13 Oct 2022 17:47:20 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 y6-20020a056402358600b0045932521633so2341123edc.17
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:20 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 e11-20020a056402104b00b00459f4974128sm531969edu.50.2022.10.13.14.47.17
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:18 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697642;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=LpMlhKbH1w7WCEPLs6ndy62uIWinVXIOPCCenWPLDjk=;
 b=UVDZz+2GdmbnvaRZpSyNZqI0r95WWKRsbte76NZDkPEvgqxl3AvoAc722bWNjQGLOok229
 N/wjfW4Lo6L7OZDPOqYQ/cFc+OAI9gFHW679NuSoe5b5qelGrfcGPA5nYKxew5CFNlfFyI
 xBw/kKglo7iQBSG4IexO//B2R0X1AaQ=
X-MC-Unique: fnqCSe42OmSuKcS9FoKX8w-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=LpMlhKbH1w7WCEPLs6ndy62uIWinVXIOPCCenWPLDjk=;
 b=73rCFwsGFPlXP7wOBak/kvHS0iykE1VpBo3z+XSGNqC46qoPI2ekysMbQgVDD08RAI
 IeppJ89EgNdOmompltB1VnK757wRE+vzx2qHhuclTKYQmkuB5ZPNJXaEs7meQLtkDRsX
 CdfOwO8o8j3NOiKzvnBj4jnkLqPa/gytNWXNnF/BV+TI2kHjbOmiVglKpE3XHSty5Y2U
 Sgf6cXw5dprnOAvb5FyCPVvoJJEW/La8PGBDfjyP/i8jv1Kw+6r/BNQRU6oo7evqialE
 QOCVvM8yRsWhe0BBU2JysmbkbplS6/q/rrhvq/j9uF96XSw9YHSsQVztvUPQkoS7hkj0
 G8hg==
X-Gm-Message-State: ACrzQf0gEJfnefjK1s+PZINon3t6m4V91mxFb+T5HOAsLXCv3YpQQIOU
 TqGlmnty4zAUW9+5oqBFUJfVeVcmNMtG4ushrt1LdHprgANGOm7D6/PXbjaPIvnMZkGQF+zVYZE
 D5p/yl8ooyFeqZynNv1Iug9lVY4ONSXaxILDMuc/O9tJvSiBjB/RlUxuaXoNRY+XHpKY=
X-Received: by 2002:a05:6402:254d:b0:45c:94ed:396c with SMTP id
 l13-20020a056402254d00b0045c94ed396cmr1580043edb.124.1665697639046;
 Thu, 13 Oct 2022 14:47:19 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6/zyt4OSyWwftU/pBhiwHwd7wQ9ztQ7jeWtClx7KqN21Rf876Psppx9zuNaXHi02nw2Y4xxA==
X-Received: by 2002:a05:6402:254d:b0:45c:94ed:396c with SMTP id
 l13-20020a056402254d00b0045c94ed396cmr1580026edb.124.1665697638688;
 Thu, 13 Oct 2022 14:47:18 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 08/35] target/i386: validate VEX prefixes via the
 instructions' exception classes
Date: Thu, 13 Oct 2022 23:46:24 +0200
Message-Id: <20221013214651.672114-9-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698396677100001
Content-Type: text/plain; charset="utf-8"

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 164 ++++++++++++++++++++++++++++++-
 target/i386/tcg/decode-new.h     |  32 ++++++
 target/i386/tcg/emit.c.inc       |  37 ++++++-
 target/i386/tcg/translate.c      |  18 ++--
 4 files changed, 239 insertions(+), 12 deletions(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index e268b5fb48..f0d7b24a07 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -93,6 +93,23 @@
 #define zext0 .special =3D X86_SPECIAL_ZExtOp0,
 #define zext2 .special =3D X86_SPECIAL_ZExtOp2,
=20
+#define vex1 .vex_class =3D 1,
+#define vex1_rep3 .vex_class =3D 1, .vex_special =3D X86_VEX_REPScalar,
+#define vex2 .vex_class =3D 2,
+#define vex2_rep3 .vex_class =3D 2, .vex_special =3D X86_VEX_REPScalar,
+#define vex3 .vex_class =3D 3,
+#define vex4 .vex_class =3D 4,
+#define vex4_unal .vex_class =3D 4, .vex_special =3D X86_VEX_SSEUnaligned,
+#define vex5 .vex_class =3D 5,
+#define vex6 .vex_class =3D 6,
+#define vex7 .vex_class =3D 7,
+#define vex8 .vex_class =3D 8,
+#define vex11 .vex_class =3D 11,
+#define vex12 .vex_class =3D 12,
+#define vex13 .vex_class =3D 13,
+
+#define avx2_256 .vex_special =3D X86_VEX_AVX2_256,
+
 static uint8_t get_modrm(DisasContext *s, CPUX86State *env)
 {
     if (!s->has_modrm) {
@@ -157,6 +174,18 @@ static const X86OpEntry opcodes_root[256] =3D {
 };
=20
 #undef mmx
+#undef vex1
+#undef vex2
+#undef vex3
+#undef vex4
+#undef vex4_unal
+#undef vex5
+#undef vex6
+#undef vex7
+#undef vex8
+#undef vex11
+#undef vex12
+#undef vex13
=20
 /*
  * Decode the fixed part of the opcode and place the last
@@ -564,6 +593,136 @@ static bool has_cpuid_feature(DisasContext *s, X86CPU=
IDFeature cpuid)
     g_assert_not_reached();
 }
=20
+static bool validate_vex(DisasContext *s, X86DecodedInsn *decode)
+{
+    X86OpEntry *e =3D &decode->e;
+
+    switch (e->vex_special) {
+    case X86_VEX_REPScalar:
+        /*
+         * Instructions which differ between 00/66 and F2/F3 in the
+         * exception classification and the size of the memory operand.
+         */
+        assert(e->vex_class =3D=3D 1 || e->vex_class =3D=3D 2);
+        if (s->prefix & (PREFIX_REPZ | PREFIX_REPNZ)) {
+            e->vex_class =3D 3;
+            if (s->vex_l) {
+                goto illegal;
+            }
+            assert(decode->e.s2 =3D=3D X86_SIZE_x);
+            if (decode->op[2].has_ea) {
+                decode->op[2].ot =3D s->prefix & PREFIX_REPZ ? MO_32 : MO_=
64;
+            }
+        }
+        break;
+
+    case X86_VEX_SSEUnaligned:
+        /* handled in sse_needs_alignment.  */
+        break;
+
+    case X86_VEX_AVX2_256:
+        if ((s->prefix & PREFIX_VEX) && s->vex_l && !has_cpuid_feature(s, =
X86_FEAT_AVX2)) {
+            goto illegal;
+        }
+    }
+
+    /* TODO: instructions that require VEX.W=3D0 (Table 2-16) */
+
+    switch (e->vex_class) {
+    case 0:
+        if (s->prefix & PREFIX_VEX) {
+            goto illegal;
+        }
+        return true;
+    case 1:
+    case 2:
+    case 3:
+    case 4:
+    case 5:
+    case 7:
+        if (s->prefix & PREFIX_VEX) {
+            if (!(s->flags & HF_AVX_EN_MASK)) {
+                goto illegal;
+            }
+        } else {
+            if (!(s->flags & HF_OSFXSR_MASK)) {
+                goto illegal;
+            }
+        }
+        break;
+    case 12:
+        /* Must have a VSIB byte and no address prefix.  */
+        assert(s->has_modrm);
+        if ((s->modrm & 7) !=3D 4 || s->aflag =3D=3D MO_16) {
+            goto illegal;
+        }
+
+        /* Check no overlap between registers.  */
+        if (!decode->op[0].has_ea &&
+            (decode->op[0].n =3D=3D decode->mem.index || decode->op[0].n =
=3D=3D decode->op[1].n)) {
+            goto illegal;
+        }
+        assert(!decode->op[1].has_ea);
+        if (decode->op[1].n =3D=3D decode->mem.index) {
+            goto illegal;
+        }
+        if (!decode->op[2].has_ea &&
+            (decode->op[2].n =3D=3D decode->mem.index || decode->op[2].n =
=3D=3D decode->op[1].n)) {
+            goto illegal;
+        }
+        /* fall through */
+    case 6:
+    case 11:
+        if (!(s->prefix & PREFIX_VEX)) {
+            goto illegal;
+        }
+        if (!(s->flags & HF_AVX_EN_MASK)) {
+            goto illegal;
+        }
+        break;
+    case 8:
+        if (!(s->prefix & PREFIX_VEX)) {
+            /* EMMS */
+            return true;
+        }
+        if (!(s->flags & HF_AVX_EN_MASK)) {
+            goto illegal;
+        }
+        break;
+    case 13:
+        if (!(s->prefix & PREFIX_VEX)) {
+            goto illegal;
+        }
+        if (s->vex_l) {
+            goto illegal;
+        }
+        /* All integer instructions use VEX.vvvv, so exit.  */
+        return true;
+    }
+
+    if (s->vex_v !=3D 0 &&
+        e->op0 !=3D X86_TYPE_H && e->op0 !=3D X86_TYPE_B &&
+        e->op1 !=3D X86_TYPE_H && e->op1 !=3D X86_TYPE_B &&
+        e->op2 !=3D X86_TYPE_H && e->op2 !=3D X86_TYPE_B) {
+        goto illegal;
+    }
+
+    if (s->flags & HF_TS_MASK) {
+        goto nm_exception;
+    }
+    if (s->flags & HF_EM_MASK) {
+        goto illegal;
+    }
+    return true;
+
+nm_exception:
+    gen_NM_exception(s);
+    return false;
+illegal:
+    gen_illegal_opcode(s);
+    return false;
+}
+
 static void decode_temp_free(X86DecodedOp *op)
 {
     if (op->v_ptr) {
@@ -804,8 +963,11 @@ static void disas_insn_new(DisasContext *s, CPUState *=
cpu, int b)
         break;
     }
=20
+    if (!validate_vex(s, &decode)) {
+        return;
+    }
     if (decode.op[0].has_ea || decode.op[1].has_ea || decode.op[2].has_ea)=
 {
-        gen_load_ea(s, &decode.mem);
+        gen_load_ea(s, &decode.mem, decode.e.vex_class =3D=3D 12);
     }
     if (s->prefix & PREFIX_LOCK) {
         if (decode.op[0].unit !=3D X86_OP_INT || !decode.op[0].has_ea) {
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index e62e9c9d87..25e5400a8a 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -152,6 +152,36 @@ typedef enum X86InsnSpecial {
     X86_SPECIAL_o64,
 } X86InsnSpecial;
=20
+/*
+ * Special cases for instructions that operate on XMM/YMM registers.  Intel
+ * retconned all of them to have VEX exception classes other than 0 and 13=
, so
+ * all these only matter for instructions that have a VEX exception class.
+ * Based on tables in the "AVX and SSE Instruction Exception Specification"
+ * section of the manual.
+ */
+typedef enum X86VEXSpecial {
+    /* Legacy SSE instructions that allow unaligned operands */
+    X86_VEX_SSEUnaligned,
+
+    /*
+     * Used for instructions that distinguish the XMM operand type with an
+     * instruction prefix; legacy SSE encodings will allow unaligned opera=
nds
+     * for scalar operands only (identified by a REP prefix).  In this cas=
e,
+     * the decoding table uses "x" for the vector operands instead of spec=
ifying
+     * pd/ps/sd/ss individually.
+     */
+    X86_VEX_REPScalar,
+
+    /*
+     * VEX instructions that only support 256-bit operands with AVX2 (Tabl=
e 2-17
+     * column 3).  Columns 2 and 4 (instructions limited to 256- and 127-b=
it
+     * operands respectively) are implicit in the presence of dq and qq
+     * operands, and thus handled by decode_op_size.
+     */
+    X86_VEX_AVX2_256,
+} X86VEXSpecial;
+
+
 typedef struct X86OpEntry  X86OpEntry;
 typedef struct X86DecodedInsn X86DecodedInsn;
=20
@@ -180,6 +210,8 @@ struct X86OpEntry {
=20
     X86InsnSpecial special:8;
     X86CPUIDFeature cpuid:8;
+    unsigned     vex_class:8;
+    X86VEXSpecial vex_special:8;
     bool         is_decode:1;
 };
=20
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index f8ba888c33..85b0aeac60 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -19,14 +19,19 @@
  * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
  */
=20
+static void gen_NM_exception(DisasContext *s)
+{
+    gen_exception(s, EXCP07_PREX);
+}
+
 static void gen_illegal(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
 {
     gen_illegal_opcode(s);
 }
=20
-static void gen_load_ea(DisasContext *s, AddressParts *mem)
+static void gen_load_ea(DisasContext *s, AddressParts *mem, bool is_vsib)
 {
-    TCGv ea =3D gen_lea_modrm_1(s, *mem);
+    TCGv ea =3D gen_lea_modrm_1(s, *mem, is_vsib);
     gen_lea_v_seg(s, s->aflag, ea, mem->def_seg, s->override);
 }
=20
@@ -113,6 +118,25 @@ static void gen_load_sse(DisasContext *s, TCGv temp, M=
emOp ot, int dest_ofs, boo
     }
 }
=20
+static bool sse_needs_alignment(DisasContext *s, X86DecodedInsn *decode, M=
emOp ot)
+{
+    switch (decode->e.vex_class) {
+    case 2:
+    case 4:
+        if ((s->prefix & PREFIX_VEX) ||
+            decode->e.vex_special =3D=3D X86_VEX_SSEUnaligned) {
+            /* MOST legacy SSE instructions require aligned memory operand=
s, but not all.  */
+            return false;
+        }
+        /* fall through */
+    case 1:
+        return ot >=3D MO_128;
+
+    default:
+        return false;
+    }
+}
+
 static void gen_load(DisasContext *s, X86DecodedInsn *decode, int opn, TCG=
v v)
 {
     X86DecodedOp *op =3D &decode->op[opn];
@@ -149,7 +173,8 @@ static void gen_load(DisasContext *s, X86DecodedInsn *d=
ecode, int opn, TCGv v)
         compute_xmm_offset(op);
     load_vector:
         if (op->has_ea) {
-            gen_load_sse(s, v, op->ot, op->offset, true);
+            bool aligned =3D sse_needs_alignment(s, decode, op->ot);
+            gen_load_sse(s, v, op->ot, op->offset, aligned);
         }
         break;
=20
@@ -176,7 +201,13 @@ static void gen_writeback(DisasContext *s, X86DecodedI=
nsn *decode, int opn, TCGv
         }
         break;
     case X86_OP_MMX:
+        break;
     case X86_OP_SSE:
+        if ((s->prefix & PREFIX_VEX) && op->ot =3D=3D MO_128) {
+            tcg_gen_gvec_dup_imm(MO_64,
+                                 offsetof(CPUX86State, xmm_regs[op->n].ZMM=
_X(1)),
+                                 16, 16, 0);
+        }
         break;
     case X86_OP_CR:
     case X86_OP_DR:
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index f3ba3275d2..89d8492e34 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -23,6 +23,7 @@
 #include "disas/disas.h"
 #include "exec/exec-all.h"
 #include "tcg/tcg-op.h"
+#include "tcg/tcg-op-gvec.h"
 #include "exec/cpu_ldst.h"
 #include "exec/translator.h"
=20
@@ -2281,11 +2282,11 @@ static AddressParts gen_lea_modrm_0(CPUX86State *en=
v, DisasContext *s,
 }
=20
 /* Compute the address, with a minimum number of TCG ops.  */
-static TCGv gen_lea_modrm_1(DisasContext *s, AddressParts a)
+static TCGv gen_lea_modrm_1(DisasContext *s, AddressParts a, bool is_vsib)
 {
     TCGv ea =3D NULL;
=20
-    if (a.index >=3D 0) {
+    if (a.index >=3D 0 && !is_vsib) {
         if (a.scale =3D=3D 0) {
             ea =3D cpu_regs[a.index];
         } else {
@@ -2318,7 +2319,7 @@ static TCGv gen_lea_modrm_1(DisasContext *s, AddressP=
arts a)
 static void gen_lea_modrm(CPUX86State *env, DisasContext *s, int modrm)
 {
     AddressParts a =3D gen_lea_modrm_0(env, s, modrm);
-    TCGv ea =3D gen_lea_modrm_1(s, a);
+    TCGv ea =3D gen_lea_modrm_1(s, a, false);
     gen_lea_v_seg(s, s->aflag, ea, a.def_seg, s->override);
 }
=20
@@ -2331,7 +2332,8 @@ static void gen_nop_modrm(CPUX86State *env, DisasCont=
ext *s, int modrm)
 static void gen_bndck(CPUX86State *env, DisasContext *s, int modrm,
                       TCGCond cond, TCGv_i64 bndv)
 {
-    TCGv ea =3D gen_lea_modrm_1(s, gen_lea_modrm_0(env, s, modrm));
+    AddressParts a =3D gen_lea_modrm_0(env, s, modrm);
+    TCGv ea =3D gen_lea_modrm_1(s, a, false);
=20
     tcg_gen_extu_tl_i64(s->tmp1_i64, ea);
     if (!CODE64(s)) {
@@ -6003,7 +6005,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         reg =3D ((modrm >> 3) & 7) | REX_R(s);
         {
             AddressParts a =3D gen_lea_modrm_0(env, s, modrm);
-            TCGv ea =3D gen_lea_modrm_1(s, a);
+            TCGv ea =3D gen_lea_modrm_1(s, a, false);
             gen_lea_v_seg(s, s->aflag, ea, -1, -1);
             gen_op_mov_reg_v(s, dflag, reg, s->A0);
         }
@@ -6226,7 +6228,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
             if (mod !=3D 3) {
                 /* memory op */
                 AddressParts a =3D gen_lea_modrm_0(env, s, modrm);
-                TCGv ea =3D gen_lea_modrm_1(s, a);
+                TCGv ea =3D gen_lea_modrm_1(s, a, false);
                 TCGv last_addr =3D tcg_temp_new();
                 bool update_fdp =3D true;
=20
@@ -7221,7 +7223,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
             gen_exts(ot, s->T1);
             tcg_gen_sari_tl(s->tmp0, s->T1, 3 + ot);
             tcg_gen_shli_tl(s->tmp0, s->tmp0, ot);
-            tcg_gen_add_tl(s->A0, gen_lea_modrm_1(s, a), s->tmp0);
+            tcg_gen_add_tl(s->A0, gen_lea_modrm_1(s, a, false), s->tmp0);
             gen_lea_v_seg(s, s->aflag, s->A0, a.def_seg, s->override);
             if (!(s->prefix & PREFIX_LOCK)) {
                 gen_op_ld_v(s, ot, s->T0, s->A0);
@@ -8270,7 +8272,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
                     /* rip-relative generates #ud */
                     goto illegal_op;
                 }
-                tcg_gen_not_tl(s->A0, gen_lea_modrm_1(s, a));
+                tcg_gen_not_tl(s->A0, gen_lea_modrm_1(s, a, false));
                 if (!CODE64(s)) {
                     tcg_gen_ext32u_tl(s->A0, s->A0);
                 }
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698060; cv=none;
	d=zohomail.com; s=zohoarc;
	b=FQw9G60mDcMq9XOUZhidaXHbIsSctizKB5gb50V7/7246iYXTqs1pFlH8m4F1yw8HzZsx8ITHE8v+cVY2ZX8F94hR3EfwYgFX855L9PkCJGoR5L5izCzcdl6I8KZqHszPQTQKXQTseDM3ds7Z0lnxZxI6dS1TJ+Gt6hz2uxFyQ0=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698060;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=ZrsFbZrksxRdixl7OjnTw4wWKEtKGk44EhOWWwZVK4c=;
	b=b1lN1Z1dTWz/shMeFq/e0IpBd+JKZCXC3PSwv19/lCSeonENPXDwEAwux2YBUDOgmdz+lFsES9dXqNmJQoVTRFtSHR4vu+oHfnAb8Oyb1ZLtI1D30T9i9oKRhiIfviNZqzvZt1b5uJT2lMC6/YFWSAqOKyP+hn7Xr5Zm9PSNSCI=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698060698399.75699461025147;
 Thu, 13 Oct 2022 14:54:20 -0700 (PDT)
Received: from localhost ([::1]:35468 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj69j-0002nM-Im
	for importer@patchew.org; Thu, 13 Oct 2022 17:54:19 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:50508)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj636-0002au-R2
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:28 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:59010)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj635-0005EW-4j
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:28 -0400
Received: from mail-ed1-f72.google.com (mail-ed1-f72.google.com
 [209.85.208.72]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-274-fFdcSxsoOG6gMgBddEQ-Pw-1; Thu, 13 Oct 2022 17:47:23 -0400
Received: by mail-ed1-f72.google.com with SMTP id
 v4-20020a056402348400b0045bd50cb9adso2350703edc.0
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:22 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 ku15-20020a170907788f00b0078b551d2fa3sm450848ejc.103.2022.10.13.14.47.20
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:20 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697646;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=ZrsFbZrksxRdixl7OjnTw4wWKEtKGk44EhOWWwZVK4c=;
 b=T1nuR3O3v24jAxDGhMIYZ87ugBvStWOvNh97MbMnp9RFekTiaTT7C+k5+q6gl9S1WB8RO2
 htWVnNSbOyHoXQuzw3fssGZbWqn1+AwqFHGWpi4LLqG7D/0JmTsZgODPpxnxQJkf+qU8p3
 o9qi9d5398+jhyYQVBlDlUe2p7KXlHU=
X-MC-Unique: fFdcSxsoOG6gMgBddEQ-Pw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=ZrsFbZrksxRdixl7OjnTw4wWKEtKGk44EhOWWwZVK4c=;
 b=FCQihNC+LiYlD9u6qfrT1eCWeKxw0HQocc67pMQ6HXQ12p4mYmSsSouMX/8fyQaQBv
 CQg9g9enBygv7II2wCDKveIfSSgwkBnXUK0TQtEDvta38h1QAJSkO93pTY07euBIvmMp
 Is3PpSR/H/IWl7RWwYSeDC2rEq/yxDO6QWn+8/9DoF0I3IAuHHts/PKTYtYSc72vHvU8
 OYRp5ujZbSpmJvG945kg/ljf+YuxUm8IXekJsL8Z7agAIbxwHPt4BedS6yZuZTMJ0GRD
 crHN+dk0JvP0HdgDEwrFJUkvu3gcEe/g99vYPUYc9ucTqkSfTIgJZddvtx7J5uKU37Ao
 ZiKQ==
X-Gm-Message-State: ACrzQf0BVFX2nlO7/JXyuDjYNQMQ0LN1jTozFkWJOAtAPKyTKBDmMYvK
 SO6cjQbJtsGgkqsBOvJ4fghBI6sNHwdZ7AqyNuHiA7mH3xs8HtDfGyUiNAxaBpqxJ6tRvVAkl7C
 jsXQDHngErMUpTXj5eK/Q24P3SWFfH/HGSNpn/J3jUjdXWdSesL1Q6dRVbQfhRIBVV2o=
X-Received: by 2002:a05:6402:5110:b0:459:e912:17c8 with SMTP id
 m16-20020a056402511000b00459e91217c8mr1568420edd.137.1665697641619;
 Thu, 13 Oct 2022 14:47:21 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7ydhCDNoZvF/BPuO+rNtI77RbA3fsnw/UbYgzqUXbLEyhOEjyFJnj+tXPO31+0E9hA+8L8dw==
X-Received: by 2002:a05:6402:5110:b0:459:e912:17c8 with SMTP id
 m16-20020a056402511000b00459e91217c8mr1568407edd.137.1665697641395;
 Thu, 13 Oct 2022 14:47:21 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 09/35] target/i386: validate SSE prefixes directly in the
 decoding table
Date: Thu, 13 Oct 2022 23:46:25 +0200
Message-Id: <20221013214651.672114-10-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698062622100001
Content-Type: text/plain; charset="utf-8"

Many SSE and AVX instructions are only valid with specific prefixes
(none, 66, F3, F2).  Introduce a direct way to encode this in the
decoding table to avoid using decode groups too much.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 37 ++++++++++++++++++++++++++++++++
 target/i386/tcg/decode-new.h     |  1 +
 2 files changed, 38 insertions(+)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index f0d7b24a07..ff3f45dc8c 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -110,6 +110,22 @@
=20
 #define avx2_256 .vex_special =3D X86_VEX_AVX2_256,
=20
+#define P_00          1
+#define P_66          (1 << PREFIX_DATA)
+#define P_F3          (1 << PREFIX_REPZ)
+#define P_F2          (1 << PREFIX_REPNZ)
+
+#define p_00          .valid_prefix =3D P_00,
+#define p_66          .valid_prefix =3D P_66,
+#define p_f3          .valid_prefix =3D P_F3,
+#define p_f2          .valid_prefix =3D P_F2,
+#define p_00_66       .valid_prefix =3D P_00 | P_66,
+#define p_00_f3       .valid_prefix =3D P_00 | P_F3,
+#define p_66_f2       .valid_prefix =3D P_66 | P_F2,
+#define p_00_66_f3    .valid_prefix =3D P_00 | P_66 | P_F3,
+#define p_66_f3_f2    .valid_prefix =3D P_66 | P_F3 | P_F2,
+#define p_00_66_f3_f2 .valid_prefix =3D P_00 | P_66 | P_F3 | P_F2,
+
 static uint8_t get_modrm(DisasContext *s, CPUX86State *env)
 {
     if (!s->has_modrm) {
@@ -480,6 +496,23 @@ static bool decode_op(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode,
     return true;
 }
=20
+static bool validate_sse_prefix(DisasContext *s, X86OpEntry *e)
+{
+    uint16_t sse_prefixes;
+
+    if (!e->valid_prefix) {
+        return true;
+    }
+    if (s->prefix & (PREFIX_REPZ | PREFIX_REPNZ)) {
+        /* In SSE instructions, 0xF3 and 0xF2 cancel 0x66.  */
+        s->prefix &=3D ~PREFIX_DATA;
+    }
+
+    /* Now, either zero or one bit is set in sse_prefixes.  */
+    sse_prefixes =3D s->prefix & (PREFIX_REPZ | PREFIX_REPNZ | PREFIX_DATA=
);
+    return e->valid_prefix & (1 << sse_prefixes);
+}
+
 static bool decode_insn(DisasContext *s, CPUX86State *env, X86DecodeFunc d=
ecode_func,
                         X86DecodedInsn *decode)
 {
@@ -491,6 +524,10 @@ static bool decode_insn(DisasContext *s, CPUX86State *=
env, X86DecodeFunc decode_
         e->decode(s, env, e, &decode->b);
     }
=20
+    if (!validate_sse_prefix(s, e)) {
+        return false;
+    }
+
     /* First compute size of operands in order to initialize s->rip_offset=
.  */
     if (e->op0 !=3D X86_TYPE_None) {
         if (!decode_op_size(s, e, e->s0, &decode->op[0].ot)) {
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index 25e5400a8a..8456ae67ad 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -212,6 +212,7 @@ struct X86OpEntry {
     X86CPUIDFeature cpuid:8;
     unsigned     vex_class:8;
     X86VEXSpecial vex_special:8;
+    uint16_t     valid_prefix:16;
     bool         is_decode:1;
 };
=20
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698800; cv=none;
	d=zohomail.com; s=zohoarc;
	b=oKrWN609QUybQSQ4sXrtK4/9WvHAk4IXR2pSYVu9/n74Gjx+4CAKRtSc6faQJ9ltJxxyHpttAXdQhow84ikCJqG7lApFcj+F5yFpsOk83XNnaQ2LZJUsvTGzKV0F7hxClNUNAm7ccTKZmM2EYuPK5oEG54mcMRw19qgZoGVMfVs=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698800;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=Uw/oX4GS4LQfKC/ZUOP7grmY4vBl2enoKap9wIUPIKk=;
	b=XJ4o99YF5C3RI/XA0Vj7RH1r3XCMMdB7fJiYCWSs/jmj2wMAwIUMEUez//uF+SpJ2n/ZFMWI/uhYML83XJPHBlC19oxwIBR5qjl+QO3LxtkP4Vizt2j8vAEn3JmA/87kDQnk5f1uJIgc4eG+fbnEKxY0JMMgThcYJgzCWQlRyRI=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698800139219.89728893882068;
 Thu, 13 Oct 2022 15:06:40 -0700 (PDT)
Received: from localhost ([::1]:53148 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Le-0005Bz-Nk
	for importer@patchew.org; Thu, 13 Oct 2022 18:06:38 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:50510)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj639-0002e6-71
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:34 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:60578)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj636-0005Fi-8k
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:30 -0400
Received: from mail-ej1-f70.google.com (mail-ej1-f70.google.com
 [209.85.218.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-41-aR81nvWpMpimhV7G67PNlw-1; Thu, 13 Oct 2022 17:47:26 -0400
Received: by mail-ej1-f70.google.com with SMTP id
 ga20-20020a1709070c1400b0078db506c555so1448022ejc.6
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:26 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 z22-20020a1709060f1600b0078b1ff41f05sm477170eji.43.2022.10.13.14.47.23
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:23 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697647;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=Uw/oX4GS4LQfKC/ZUOP7grmY4vBl2enoKap9wIUPIKk=;
 b=XtBLfVTtXMrZXaIeJxrP78TC5RSn5i+JtAbAqhtyq3xiKuArsMiRx1NiyDGhSLbGvm3Now
 PjGra1WO3Y7pLl2zdEbgJQW9LBVjcQZB+ligi+UFT3/AYmSibeqOQgxM9z2mB5Su94HogI
 KdrS+XbBr688uhalD1CAx3U8d2zrNeM=
X-MC-Unique: aR81nvWpMpimhV7G67PNlw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=Uw/oX4GS4LQfKC/ZUOP7grmY4vBl2enoKap9wIUPIKk=;
 b=hgzIOwoLzk9w/aP+OBGIeFFOcrIRgobH2UNGb65N7tfbFA+ZY3fPTQfx+afGzwNNfm
 k5wTb36Ps2EO4moczu5f/e5vmEFoazEAHcBhcfzPqL1K1mJPJ26QLkY8zjmmYvUEtQt+
 3oDLa5GX0o27RQ/evC9OBjAt8PZGIYVMKFLk8LoPwm5tGsaO0jV0yiEcQo3cbPF+bLFe
 ZmfWlcNHrl+/Zysc13YceZR+DoO14uiVjN2I4DBFavH6Pm4uRyXRfmwKpQIO1XDTvyKd
 3EkwU3s8JY0JgeH9HlPfvikdqyS3MLJ/itT3pVQ/TjgyW+8vTlX2rIlOSJY3RHaPjUD1
 mT2A==
X-Gm-Message-State: ACrzQf2ETRleiHTnw2QMLOt2e9ydA3JkXFJXTelt/tidkoiMv/02Xd0z
 e4G2AQRLcJawkteRfezcHNx3BmuDIOeA6rZs19qXRjk/ewvzS80YMacWMK1k7NaleqnbZSAI7fA
 8YX9CtA/XE/LM83cH9R16xpFB9NEUJqcLXV4iyZpqyGNa31oav0/t6InbvtYGM7UY3eg=
X-Received: by 2002:a05:6402:2949:b0:451:fabf:d88a with SMTP id
 ed9-20020a056402294900b00451fabfd88amr1529107edb.324.1665697644701;
 Thu, 13 Oct 2022 14:47:24 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4oT+pewBul5E6ah04wZyqlBGyBFyK3slxeoBhkwMoZwFFmsDcfI+XSUkpB4Mrz4hZJU2czcA==
X-Received: by 2002:a05:6402:2949:b0:451:fabf:d88a with SMTP id
 ed9-20020a056402294900b00451fabfd88amr1529084edb.324.1665697644214;
 Thu, 13 Oct 2022 14:47:24 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 10/35] target/i386: move scalar 0F 38 and 0F 3A instruction to
 new decoder
Date: Thu, 13 Oct 2022 23:46:26 +0200
Message-Id: <20221013214651.672114-11-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698801850100001
Content-Type: text/plain; charset="utf-8"

Because these are the only VEX instructions that QEMU supports, the
new decoder is entered on the first byte of a valid VEX prefix, and VEX
decoding only needs to be done in decode-new.c.inc.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  59 +++++++
 target/i386/tcg/emit.c.inc       | 258 +++++++++++++++++++++++++++
 target/i386/tcg/translate.c      | 293 +------------------------------
 3 files changed, 321 insertions(+), 289 deletions(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index ff3f45dc8c..013e155343 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -135,11 +135,69 @@ static uint8_t get_modrm(DisasContext *s, CPUX86State=
 *env)
     return s->modrm;
 }
=20
+static void decode_group17(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
+{
+    static const X86GenFunc group17_gen[8] =3D {
+        NULL, gen_BLSR, gen_BLSMSK, gen_BLSI,
+    };
+    int op =3D (get_modrm(s, env) >> 3) & 7;
+    entry->gen =3D group17_gen[op];
+}
+
 static const X86OpEntry opcodes_0F38_00toEF[240] =3D {
 };
=20
 /* five rows for no prefix, 66, F3, F2, 66+F2  */
 static const X86OpEntry opcodes_0F38_F0toFF[16][5] =3D {
+    [0] =3D {
+        X86_OP_ENTRY3(MOVBE, G,y, M,y, None,None, cpuid(MOVBE)),
+        X86_OP_ENTRY3(MOVBE, G,w, M,w, None,None, cpuid(MOVBE)),
+        {},
+        X86_OP_ENTRY2(CRC32, G,d, E,b, cpuid(SSE42)),
+        X86_OP_ENTRY2(CRC32, G,d, E,b, cpuid(SSE42)),
+    },
+    [1] =3D {
+        X86_OP_ENTRY3(MOVBE, M,y, G,y, None,None, cpuid(MOVBE)),
+        X86_OP_ENTRY3(MOVBE, M,w, G,w, None,None, cpuid(MOVBE)),
+        {},
+        X86_OP_ENTRY2(CRC32, G,d, E,y, cpuid(SSE42)),
+        X86_OP_ENTRY2(CRC32, G,d, E,w, cpuid(SSE42)),
+    },
+    [2] =3D {
+        X86_OP_ENTRY3(ANDN, G,y, B,y, E,y, vex13 cpuid(BMI1)),
+        {},
+        {},
+        {},
+        {},
+    },
+    [3] =3D {
+        X86_OP_GROUP3(group17, B,y, E,y, None,None, vex13 cpuid(BMI1)),
+        {},
+        {},
+        {},
+        {},
+    },
+    [5] =3D {
+        X86_OP_ENTRY3(BZHI, G,y, E,y, B,y, vex13 cpuid(BMI1)),
+        {},
+        X86_OP_ENTRY3(PEXT, G,y, B,y, E,y, vex13 cpuid(BMI2)),
+        X86_OP_ENTRY3(PDEP, G,y, B,y, E,y, vex13 cpuid(BMI2)),
+        {},
+    },
+    [6] =3D {
+        {},
+        X86_OP_ENTRY2(ADCX, G,y, E,y, cpuid(ADX)),
+        X86_OP_ENTRY2(ADOX, G,y, E,y, cpuid(ADX)),
+        X86_OP_ENTRY3(MULX, /* B,y, */ G,y, E,y, 2,y, vex13 cpuid(BMI2)),
+        {},
+    },
+    [7] =3D {
+        X86_OP_ENTRY3(BEXTR, G,y, E,y, B,y, vex13 cpuid(BMI1)),
+        X86_OP_ENTRY3(SHLX, G,y, E,y, B,y, vex13 cpuid(BMI1)),
+        X86_OP_ENTRY3(SARX, G,y, E,y, B,y, vex13 cpuid(BMI1)),
+        X86_OP_ENTRY3(SHRX, G,y, E,y, B,y, vex13 cpuid(BMI1)),
+        {},
+    },
 };
=20
 static void decode_0F38(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
@@ -161,6 +219,7 @@ static void decode_0F38(DisasContext *s, CPUX86State *e=
nv, X86OpEntry *entry, ui
 }
=20
 static const X86OpEntry opcodes_0F3A[256] =3D {
+    [0xF0] =3D X86_OP_ENTRY3(RORX, G,y, E,y, I,b, vex13 cpuid(BMI2) p_f2),
 };
=20
 static void decode_0F3A(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 85b0aeac60..947deacd37 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -215,3 +215,261 @@ static void gen_writeback(DisasContext *s, X86Decoded=
Insn *decode, int opn, TCGv
         g_assert_not_reached();
     }
 }
+
+static void gen_ADCOX(DisasContext *s, CPUX86State *env, MemOp ot, int cc_=
op)
+{
+    TCGv carry_in =3D NULL;
+    TCGv carry_out =3D (cc_op =3D=3D CC_OP_ADCX ? cpu_cc_dst : cpu_cc_src2=
);
+    TCGv zero;
+
+    if (cc_op =3D=3D s->cc_op || s->cc_op =3D=3D CC_OP_ADCOX) {
+        /* Re-use the carry-out from a previous round.  */
+        carry_in =3D carry_out;
+        cc_op =3D s->cc_op;
+    } else if (s->cc_op =3D=3D CC_OP_ADCX || s->cc_op =3D=3D CC_OP_ADOX) {
+        /* Merge with the carry-out from the opposite instruction.  */
+        cc_op =3D CC_OP_ADCOX;
+    }
+
+    /* If we don't have a carry-in, get it out of EFLAGS.  */
+    if (!carry_in) {
+        if (s->cc_op !=3D CC_OP_ADCX && s->cc_op !=3D CC_OP_ADOX) {
+            gen_compute_eflags(s);
+        }
+        carry_in =3D s->tmp0;
+        tcg_gen_extract_tl(carry_in, cpu_cc_src,
+            ctz32(cc_op =3D=3D CC_OP_ADCX ? CC_C : CC_O), 1);
+    }
+
+    switch (ot) {
+#ifdef TARGET_X86_64
+    case MO_32:
+        /* If TL is 64-bit just do everything in 64-bit arithmetic.  */
+        tcg_gen_add_i64(s->T0, s->T0, s->T1);
+        tcg_gen_add_i64(s->T0, s->T0, carry_in);
+        tcg_gen_shri_i64(carry_out, s->T0, 32);
+        break;
+#endif
+    default:
+        zero =3D tcg_constant_tl(0);
+        tcg_gen_add2_tl(s->T0, carry_out, s->T0, zero, carry_in, zero);
+        tcg_gen_add2_tl(s->T0, carry_out, s->T0, carry_out, s->T1, zero);
+        break;
+    }
+    set_cc_op(s, cc_op);
+}
+
+static void gen_ADCX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    gen_ADCOX(s, env, decode->op[0].ot, CC_OP_ADCX);
+}
+
+static void gen_ADOX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    gen_ADCOX(s, env, decode->op[0].ot, CC_OP_ADOX);
+}
+
+static void gen_ANDN(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+
+    tcg_gen_andc_tl(s->T0, s->T1, s->T0);
+    gen_op_update1_cc(s);
+    set_cc_op(s, CC_OP_LOGICB + ot);
+}
+
+static void gen_BEXTR(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    MemOp ot =3D decode->op[0].ot;
+    TCGv bound, zero;
+
+    /*
+     * Extract START, and shift the operand.
+     * Shifts larger than operand size get zeros.
+     */
+    tcg_gen_ext8u_tl(s->A0, s->T1);
+    tcg_gen_shr_tl(s->T0, s->T0, s->A0);
+
+    bound =3D tcg_constant_tl(ot =3D=3D MO_64 ? 63 : 31);
+    zero =3D tcg_constant_tl(0);
+    tcg_gen_movcond_tl(TCG_COND_LEU, s->T0, s->A0, bound, s->T0, zero);
+
+    /*
+     * Extract the LEN into a mask.  Lengths larger than
+     * operand size get all ones.
+     */
+    tcg_gen_extract_tl(s->A0, s->T1, 8, 8);
+    tcg_gen_movcond_tl(TCG_COND_LEU, s->A0, s->A0, bound, s->A0, bound);
+
+    tcg_gen_movi_tl(s->T1, 1);
+    tcg_gen_shl_tl(s->T1, s->T1, s->A0);
+    tcg_gen_subi_tl(s->T1, s->T1, 1);
+    tcg_gen_and_tl(s->T0, s->T0, s->T1);
+
+    gen_op_update1_cc(s);
+    set_cc_op(s, CC_OP_LOGICB + ot);
+}
+
+static void gen_BLSI(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+
+    tcg_gen_neg_tl(s->T1, s->T0);
+    tcg_gen_and_tl(s->T0, s->T0, s->T1);
+    tcg_gen_mov_tl(cpu_cc_dst, s->T0);
+    set_cc_op(s, CC_OP_BMILGB + ot);
+}
+
+static void gen_BLSMSK(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    MemOp ot =3D decode->op[0].ot;
+
+    tcg_gen_subi_tl(s->T1, s->T0, 1);
+    tcg_gen_xor_tl(s->T0, s->T0, s->T1);
+    tcg_gen_mov_tl(cpu_cc_dst, s->T0);
+    set_cc_op(s, CC_OP_BMILGB + ot);
+}
+
+static void gen_BLSR(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+
+    tcg_gen_subi_tl(s->T1, s->T0, 1);
+    tcg_gen_and_tl(s->T0, s->T0, s->T1);
+    tcg_gen_mov_tl(cpu_cc_dst, s->T0);
+    set_cc_op(s, CC_OP_BMILGB + ot);
+}
+
+static void gen_BZHI(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+    TCGv bound;
+
+    tcg_gen_ext8u_tl(s->T1, cpu_regs[s->vex_v]);
+    bound =3D tcg_constant_tl(ot =3D=3D MO_64 ? 63 : 31);
+
+    /*
+     * Note that since we're using BMILG (in order to get O
+     * cleared) we need to store the inverse into C.
+     */
+    tcg_gen_setcond_tl(TCG_COND_LT, cpu_cc_src, s->T1, bound);
+    tcg_gen_movcond_tl(TCG_COND_GT, s->T1, s->T1, bound, bound, s->T1);
+
+    tcg_gen_movi_tl(s->A0, -1);
+    tcg_gen_shl_tl(s->A0, s->A0, s->T1);
+    tcg_gen_andc_tl(s->T0, s->T0, s->A0);
+
+    gen_op_update1_cc(s);
+    set_cc_op(s, CC_OP_BMILGB + ot);
+}
+
+static void gen_CRC32(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    MemOp ot =3D decode->op[2].ot;
+
+    tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
+    gen_helper_crc32(s->T0, s->tmp2_i32, s->T1, tcg_constant_i32(8 << ot));
+}
+
+static void gen_MOVBE(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    MemOp ot =3D decode->op[0].ot;
+
+    /* M operand type does not load/store */
+    if (decode->e.op0 =3D=3D X86_TYPE_M) {
+        tcg_gen_qemu_st_tl(s->T0, s->A0, s->mem_index, ot | MO_BE);
+    } else {
+        tcg_gen_qemu_ld_tl(s->T0, s->A0, s->mem_index, ot | MO_BE);
+    }
+}
+
+static void gen_MULX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+
+    /* low part of result in VEX.vvvv, high in MODRM */
+    switch (ot) {
+    default:
+        tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
+        tcg_gen_trunc_tl_i32(s->tmp3_i32, s->T1);
+        tcg_gen_mulu2_i32(s->tmp2_i32, s->tmp3_i32,
+                          s->tmp2_i32, s->tmp3_i32);
+        tcg_gen_extu_i32_tl(cpu_regs[s->vex_v], s->tmp2_i32);
+        tcg_gen_extu_i32_tl(s->T0, s->tmp3_i32);
+        break;
+#ifdef TARGET_X86_64
+    case MO_64:
+        tcg_gen_mulu2_i64(cpu_regs[s->vex_v], s->T0, s->T0, s->T1);
+        break;
+#endif
+    }
+
+}
+
+static void gen_PDEP(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[1].ot;
+    if (ot < MO_64) {
+        tcg_gen_ext32u_tl(s->T0, s->T0);
+    }
+    gen_helper_pdep(s->T0, s->T0, s->T1);
+}
+
+static void gen_PEXT(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[1].ot;
+    if (ot < MO_64) {
+        tcg_gen_ext32u_tl(s->T0, s->T0);
+    }
+    gen_helper_pext(s->T0, s->T0, s->T1);
+}
+
+static void gen_RORX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+    int b =3D decode->immediate;
+
+    if (ot =3D=3D MO_64) {
+        tcg_gen_rotri_tl(s->T0, s->T0, b & 63);
+    } else {
+        tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
+        tcg_gen_rotri_i32(s->tmp2_i32, s->tmp2_i32, b & 31);
+        tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
+    }
+}
+
+static void gen_SARX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+    int mask;
+
+    mask =3D ot =3D=3D MO_64 ? 63 : 31;
+    tcg_gen_andi_tl(s->T1, s->T1, mask);
+    if (ot !=3D MO_64) {
+        tcg_gen_ext32s_tl(s->T0, s->T0);
+    }
+    tcg_gen_sar_tl(s->T0, s->T0, s->T1);
+}
+
+static void gen_SHLX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+    int mask;
+
+    mask =3D ot =3D=3D MO_64 ? 63 : 31;
+    tcg_gen_andi_tl(s->T1, s->T1, mask);
+    tcg_gen_shl_tl(s->T0, s->T0, s->T1);
+}
+
+static void gen_SHRX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    MemOp ot =3D decode->op[0].ot;
+    int mask;
+
+    mask =3D ot =3D=3D MO_64 ? 63 : 31;
+    tcg_gen_andi_tl(s->T1, s->T1, mask);
+    if (ot !=3D MO_64) {
+        tcg_gen_ext32u_tl(s->T0, s->T0);
+    }
+    tcg_gen_shr_tl(s->T0, s->T0, s->T1);
+}
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 89d8492e34..af3fd355e0 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4210,151 +4210,6 @@ static void gen_sse(CPUX86State *env, DisasContext =
*s, int b)
                                        s->mem_index, ot | MO_BE);
                 }
                 break;
-
-            case 0x0f2: /* andn Gy, By, Ey */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI1)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                tcg_gen_andc_tl(s->T0, s->T0, cpu_regs[s->vex_v]);
-                gen_op_mov_reg_v(s, ot, reg, s->T0);
-                gen_op_update1_cc(s);
-                set_cc_op(s, CC_OP_LOGICB + ot);
-                break;
-
-            case 0x0f7: /* bextr Gy, Ey, By */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI1)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                {
-                    TCGv bound, zero;
-
-                    gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                    /* Extract START, and shift the operand.
-                       Shifts larger than operand size get zeros.  */
-                    tcg_gen_ext8u_tl(s->A0, cpu_regs[s->vex_v]);
-                    tcg_gen_shr_tl(s->T0, s->T0, s->A0);
-
-                    bound =3D tcg_const_tl(ot =3D=3D MO_64 ? 63 : 31);
-                    zero =3D tcg_const_tl(0);
-                    tcg_gen_movcond_tl(TCG_COND_LEU, s->T0, s->A0, bound,
-                                       s->T0, zero);
-                    tcg_temp_free(zero);
-
-                    /* Extract the LEN into a mask.  Lengths larger than
-                       operand size get all ones.  */
-                    tcg_gen_extract_tl(s->A0, cpu_regs[s->vex_v], 8, 8);
-                    tcg_gen_movcond_tl(TCG_COND_LEU, s->A0, s->A0, bound,
-                                       s->A0, bound);
-                    tcg_temp_free(bound);
-                    tcg_gen_movi_tl(s->T1, 1);
-                    tcg_gen_shl_tl(s->T1, s->T1, s->A0);
-                    tcg_gen_subi_tl(s->T1, s->T1, 1);
-                    tcg_gen_and_tl(s->T0, s->T0, s->T1);
-
-                    gen_op_mov_reg_v(s, ot, reg, s->T0);
-                    gen_op_update1_cc(s);
-                    set_cc_op(s, CC_OP_LOGICB + ot);
-                }
-                break;
-
-            case 0x0f5: /* bzhi Gy, Ey, By */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                tcg_gen_ext8u_tl(s->T1, cpu_regs[s->vex_v]);
-                {
-                    TCGv bound =3D tcg_const_tl(ot =3D=3D MO_64 ? 63 : 31);
-                    /* Note that since we're using BMILG (in order to get O
-                       cleared) we need to store the inverse into C.  */
-                    tcg_gen_setcond_tl(TCG_COND_LT, cpu_cc_src,
-                                       s->T1, bound);
-                    tcg_gen_movcond_tl(TCG_COND_GT, s->T1, s->T1,
-                                       bound, bound, s->T1);
-                    tcg_temp_free(bound);
-                }
-                tcg_gen_movi_tl(s->A0, -1);
-                tcg_gen_shl_tl(s->A0, s->A0, s->T1);
-                tcg_gen_andc_tl(s->T0, s->T0, s->A0);
-                gen_op_mov_reg_v(s, ot, reg, s->T0);
-                gen_op_update1_cc(s);
-                set_cc_op(s, CC_OP_BMILGB + ot);
-                break;
-
-            case 0x3f6: /* mulx By, Gy, rdx, Ey */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                switch (ot) {
-                default:
-                    tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
-                    tcg_gen_trunc_tl_i32(s->tmp3_i32, cpu_regs[R_EDX]);
-                    tcg_gen_mulu2_i32(s->tmp2_i32, s->tmp3_i32,
-                                      s->tmp2_i32, s->tmp3_i32);
-                    tcg_gen_extu_i32_tl(cpu_regs[s->vex_v], s->tmp2_i32);
-                    tcg_gen_extu_i32_tl(cpu_regs[reg], s->tmp3_i32);
-                    break;
-#ifdef TARGET_X86_64
-                case MO_64:
-                    tcg_gen_mulu2_i64(s->T0, s->T1,
-                                      s->T0, cpu_regs[R_EDX]);
-                    tcg_gen_mov_i64(cpu_regs[s->vex_v], s->T0);
-                    tcg_gen_mov_i64(cpu_regs[reg], s->T1);
-                    break;
-#endif
-                }
-                break;
-
-            case 0x3f5: /* pdep Gy, By, Ey */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                /* Note that by zero-extending the source operand, we
-                   automatically handle zero-extending the result.  */
-                if (ot =3D=3D MO_64) {
-                    tcg_gen_mov_tl(s->T1, cpu_regs[s->vex_v]);
-                } else {
-                    tcg_gen_ext32u_tl(s->T1, cpu_regs[s->vex_v]);
-                }
-                gen_helper_pdep(cpu_regs[reg], s->T1, s->T0);
-                break;
-
-            case 0x2f5: /* pext Gy, By, Ey */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                /* Note that by zero-extending the source operand, we
-                   automatically handle zero-extending the result.  */
-                if (ot =3D=3D MO_64) {
-                    tcg_gen_mov_tl(s->T1, cpu_regs[s->vex_v]);
-                } else {
-                    tcg_gen_ext32u_tl(s->T1, cpu_regs[s->vex_v]);
-                }
-                gen_helper_pext(cpu_regs[reg], s->T1, s->T0);
-                break;
-
             case 0x1f6: /* adcx Gy, Ey */
             case 0x2f6: /* adox Gy, Ey */
                 CHECK_NO_VEX(s);
@@ -4434,73 +4289,6 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
                 }
                 break;
=20
-            case 0x1f7: /* shlx Gy, Ey, By */
-            case 0x2f7: /* sarx Gy, Ey, By */
-            case 0x3f7: /* shrx Gy, Ey, By */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                if (ot =3D=3D MO_64) {
-                    tcg_gen_andi_tl(s->T1, cpu_regs[s->vex_v], 63);
-                } else {
-                    tcg_gen_andi_tl(s->T1, cpu_regs[s->vex_v], 31);
-                }
-                if (b =3D=3D 0x1f7) {
-                    tcg_gen_shl_tl(s->T0, s->T0, s->T1);
-                } else if (b =3D=3D 0x2f7) {
-                    if (ot !=3D MO_64) {
-                        tcg_gen_ext32s_tl(s->T0, s->T0);
-                    }
-                    tcg_gen_sar_tl(s->T0, s->T0, s->T1);
-                } else {
-                    if (ot !=3D MO_64) {
-                        tcg_gen_ext32u_tl(s->T0, s->T0);
-                    }
-                    tcg_gen_shr_tl(s->T0, s->T0, s->T1);
-                }
-                gen_op_mov_reg_v(s, ot, reg, s->T0);
-                break;
-
-            case 0x0f3:
-            case 0x1f3:
-            case 0x2f3:
-            case 0x3f3: /* Group 17 */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI1)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-
-                tcg_gen_mov_tl(cpu_cc_src, s->T0);
-                switch (reg & 7) {
-                case 1: /* blsr By,Ey */
-                    tcg_gen_subi_tl(s->T1, s->T0, 1);
-                    tcg_gen_and_tl(s->T0, s->T0, s->T1);
-                    break;
-                case 2: /* blsmsk By,Ey */
-                    tcg_gen_subi_tl(s->T1, s->T0, 1);
-                    tcg_gen_xor_tl(s->T0, s->T0, s->T1);
-                    break;
-                case 3: /* blsi By, Ey */
-                    tcg_gen_neg_tl(s->T1, s->T0);
-                    tcg_gen_and_tl(s->T0, s->T0, s->T1);
-                    break;
-                default:
-                    goto unknown_op;
-                }
-                tcg_gen_mov_tl(cpu_cc_dst, s->T0);
-                gen_op_mov_reg_v(s, ot, s->vex_v, s->T0);
-                set_cc_op(s, CC_OP_BMILGB + ot);
-                break;
-
-            default:
-                goto unknown_op;
             }
             break;
=20
@@ -4716,37 +4504,6 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
             }
             break;
=20
-        case 0x33a:
-            /* Various integer extensions at 0f 3a f[0-f].  */
-            b =3D modrm | (b1 << 8);
-            modrm =3D x86_ldub_code(env, s);
-            reg =3D ((modrm >> 3) & 7) | REX_R(s);
-
-            switch (b) {
-            case 0x3f0: /* rorx Gy,Ey, Ib */
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_BMI2)
-                    || !(s->prefix & PREFIX_VEX)
-                    || s->vex_l !=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                b =3D x86_ldub_code(env, s);
-                if (ot =3D=3D MO_64) {
-                    tcg_gen_rotri_tl(s->T0, s->T0, b & 63);
-                } else {
-                    tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
-                    tcg_gen_rotri_i32(s->tmp2_i32, s->tmp2_i32, b & 31);
-                    tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
-                }
-                gen_op_mov_reg_v(s, ot, reg, s->T0);
-                break;
-
-            default:
-                goto unknown_op;
-            }
-            break;
-
         default:
         unknown_op:
             gen_unknown_opcode(env, s);
@@ -4984,59 +4741,17 @@ static bool disas_insn(DisasContext *s, CPUState *c=
pu)
 #endif
     case 0xc5: /* 2-byte VEX */
     case 0xc4: /* 3-byte VEX */
-        use_new =3D false;
-        /* VEX prefixes cannot be used except in 32-bit mode.
-           Otherwise the instruction is LES or LDS.  */
         if (CODE32(s) && !VM86(s)) {
-            static const int pp_prefix[4] =3D {
-                0, PREFIX_DATA, PREFIX_REPZ, PREFIX_REPNZ
-            };
-            int vex3, vex2 =3D x86_ldub_code(env, s);
+            int vex2 =3D x86_ldub_code(env, s);
+            s->pc--; /* rewind the advance_pc() x86_ldub_code() did */
=20
             if (!CODE64(s) && (vex2 & 0xc0) !=3D 0xc0) {
                 /* 4.1.4.6: In 32-bit mode, bits [7:6] must be 11b,
                    otherwise the instruction is LES or LDS.  */
-                s->pc--; /* rewind the advance_pc() x86_ldub_code() did */
                 break;
             }
-
-            /* 4.1.1-4.1.3: No preceding lock, 66, f2, f3, or rex prefixes=
. */
-            if (prefixes & (PREFIX_REPZ | PREFIX_REPNZ
-                            | PREFIX_LOCK | PREFIX_DATA | PREFIX_REX)) {
-                goto illegal_op;
-            }
-#ifdef TARGET_X86_64
-            s->rex_r =3D (~vex2 >> 4) & 8;
-#endif
-            if (b =3D=3D 0xc5) {
-                /* 2-byte VEX prefix: RVVVVlpp, implied 0f leading opcode =
byte */
-                vex3 =3D vex2;
-                b =3D x86_ldub_code(env, s) | 0x100;
-            } else {
-                /* 3-byte VEX prefix: RXBmmmmm wVVVVlpp */
-                vex3 =3D x86_ldub_code(env, s);
-#ifdef TARGET_X86_64
-                s->rex_x =3D (~vex2 >> 3) & 8;
-                s->rex_b =3D (~vex2 >> 2) & 8;
-                s->rex_w =3D (vex3 >> 7) & 1;
-#endif
-                switch (vex2 & 0x1f) {
-                case 0x01: /* Implied 0f leading opcode bytes.  */
-                    b =3D x86_ldub_code(env, s) | 0x100;
-                    break;
-                case 0x02: /* Implied 0f 38 leading opcode bytes.  */
-                    b =3D 0x138;
-                    break;
-                case 0x03: /* Implied 0f 3a leading opcode bytes.  */
-                    b =3D 0x13a;
-                    break;
-                default:   /* Reserved for future use.  */
-                    goto unknown_op;
-                }
-            }
-            s->vex_v =3D (~vex3 >> 3) & 0xf;
-            s->vex_l =3D (vex3 >> 2) & 1;
-            prefixes |=3D pp_prefix[vex3 & 3] | PREFIX_VEX;
+            disas_insn_new(s, cpu, b);
+            return s->pc;
         }
         break;
     }
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698248; cv=none;
	d=zohomail.com; s=zohoarc;
	b=ImxY5VF6D0bJD0TECtOeWadtd49WtcAC35Zfhr3DLHSxlT7cL6Iijz1T6wk2/sq4adOr8pbY9kQvUS/qh6008bsHW8nZL74sy1lILvPdLca59kiKuaUlM5YM1fg0rl+d8DjULZa0bVOBPuOM/bwPegEL1TQeKC+ZCpTz2PZDOWw=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698248;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=uc7wD+lI3WJ/B3hYnqHB7VyRq1+TbEhatASAzR8zQNI=;
	b=jutdibOMjYNqIYQ4lg6qFYDuhS1THpkGegXMCubS8h7B7Ulx4XcREt5CQs6ZiuU+sIHsNXbraZqZp7stnAajaIWUASFqAGXk67MvVh9G/FtEF4tA3A4x1X4Iz/pMoUOMygiwIqyexKaOSi6FM0rJo6E0tXVKlr/v8SsS1hLnIy8=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698248571417.5911752374474;
 Thu, 13 Oct 2022 14:57:28 -0700 (PDT)
Received: from localhost ([::1]:52114 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Cl-0008SM-4S
	for importer@patchew.org; Thu, 13 Oct 2022 17:57:27 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:50512)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63B-0002eI-4d
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:34 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:43009)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj638-0005Fx-Qs
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:32 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-641-f1CH54RxOk-y9SmuezXzKw-1; Thu, 13 Oct 2022 17:47:29 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 z11-20020a056402274b00b0045ca9510fc8so2342748edd.23
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:29 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 v1-20020a170906292100b0078116c361d9sm501323ejd.10.2022.10.13.14.47.26
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:26 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697650;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=uc7wD+lI3WJ/B3hYnqHB7VyRq1+TbEhatASAzR8zQNI=;
 b=CllrQJq7XKjofZn2At2wEUEGvxegseGJ874xqT6Z9oJ92MjyePqLnXgGvrdNcfYUtRbhnB
 bUW0KgDTwc5PWEWrunFt3Rwmzcy/2yFGK8L51m1ibqk/iHOakQ3FduhmWsCkaCH5geFeP9
 zGFcD3Hpfc3Kl+D13Kv1f39Ac8C97gc=
X-MC-Unique: f1CH54RxOk-y9SmuezXzKw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=uc7wD+lI3WJ/B3hYnqHB7VyRq1+TbEhatASAzR8zQNI=;
 b=B7S8cEW7OQFmYWhR5OUB9AsN9viUZduQtlOusEdZuZdNdx2ndFPgXoF6MbKkRtiFGE
 XqmjZ4wimF8yb9hqtz5tOqNS2K4WeWzM3EEF4hM3H4rt7DPDTJmx3dEkAR7T2B6kPSdM
 jyKDTATq0n0islyY5jR00vU7CBD0K7wpsemmvE5reZZ/0VlsSyPDt/8lZho4aUxH1gTP
 /dOkw8bBvINbjN50L15CG1a+84/NXl6oPKsnqsNCBAiyz/0w67vYMCHojKq0qL56Qimz
 q4aemKIiDeIo05f6eTS5zByh36IIqF9yAmdpvgxWte6ARaU7ugu3uPzM36oOPLlGY5Xr
 JVxQ==
X-Gm-Message-State: ACrzQf2ZW1mdvC86OuP8bVV3QTArSxZCVfOlsH2yR7uA2Bzm87UDcL0d
 QsWfsVNRU5zeoKLbFBCB7wJz0Xr5U7n/2i810954d9PitB28xJqrDfYPlKVNQRFt2gVEomkC9iK
 mqFxUsW+cesLd/3kvDS8oK3tmd7Zlz+amNS4vmKyMosgfwm6+Fv24fKMHoLXNBH9GHjU=
X-Received: by 2002:a05:6402:1941:b0:457:13a:cce9 with SMTP id
 f1-20020a056402194100b00457013acce9mr1541293edz.265.1665697647647;
 Thu, 13 Oct 2022 14:47:27 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM5dUOY3GMOi6cxATUbbkPeLPphCBFa0oGEp/QfdMHEAPNXQcMK4zehBwa1Sj8OYszaR8tNu+A==
X-Received: by 2002:a05:6402:1941:b0:457:13a:cce9 with SMTP id
 f1-20020a056402194100b00457013acce9mr1541271edz.265.1665697647225;
 Thu, 13 Oct 2022 14:47:27 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 11/35] target/i386: Prepare ops_sse_header.h for 256 bit AVX
Date: Thu, 13 Oct 2022 23:46:27 +0200
Message-Id: <20221013214651.672114-12-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698251053100001
Content-Type: text/plain; charset="utf-8"

From: Paul Brook <paul@nowt.org>

Adjust all #ifdefs to match the ones in ops_sse.h.

Signed-off-by: Paul Brook <paul@nowt.org>
Message-Id: <20220424220204.2493824-23-paul@nowt.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse_header.h | 114 +++++++++++++++++++++++------------
 1 file changed, 75 insertions(+), 39 deletions(-)

diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 400b24c091..9d9a115df4 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -43,7 +43,7 @@ DEF_HELPER_3(glue(pslld, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(psrlq, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(psllq, SUFFIX), void, env, Reg, Reg)
=20
-#if SHIFT =3D=3D 1
+#if SHIFT >=3D 1
 DEF_HELPER_3(glue(psrldq, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pslldq, SUFFIX), void, env, Reg, Reg)
 #endif
@@ -101,7 +101,7 @@ SSE_HELPER_L(pcmpeql, FCMPEQ)
=20
 SSE_HELPER_W(pmullw, FMULLW)
 #if SHIFT =3D=3D 0
-SSE_HELPER_W(pmulhrw, FMULHRW)
+DEF_HELPER_3(glue(pmulhrw, SUFFIX), void, env, Reg, Reg)
 #endif
 SSE_HELPER_W(pmulhuw, FMULHUW)
 SSE_HELPER_W(pmulhw, FMULHW)
@@ -113,7 +113,9 @@ DEF_HELPER_3(glue(pmuludq, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmaddwd, SUFFIX), void, env, Reg, Reg)
=20
 DEF_HELPER_3(glue(psadbw, SUFFIX), void, env, Reg, Reg)
+#if SHIFT < 2
 DEF_HELPER_4(glue(maskmov, SUFFIX), void, env, Reg, Reg, tl)
+#endif
 DEF_HELPER_2(glue(movl_mm_T0, SUFFIX), void, Reg, i32)
 #ifdef TARGET_X86_64
 DEF_HELPER_2(glue(movq_mm_T0, SUFFIX), void, Reg, i64)
@@ -122,38 +124,63 @@ DEF_HELPER_2(glue(movq_mm_T0, SUFFIX), void, Reg, i64)
 #if SHIFT =3D=3D 0
 DEF_HELPER_3(glue(pshufw, SUFFIX), void, Reg, Reg, int)
 #else
-DEF_HELPER_3(glue(shufps, SUFFIX), void, Reg, Reg, int)
-DEF_HELPER_3(glue(shufpd, SUFFIX), void, Reg, Reg, int)
 DEF_HELPER_3(glue(pshufd, SUFFIX), void, Reg, Reg, int)
 DEF_HELPER_3(glue(pshuflw, SUFFIX), void, Reg, Reg, int)
 DEF_HELPER_3(glue(pshufhw, SUFFIX), void, Reg, Reg, int)
 #endif
=20
-#if SHIFT =3D=3D 1
+#if SHIFT >=3D 1
 /* FPU ops */
 /* XXX: not accurate */
=20
-#define SSE_HELPER_S(name, F)                            \
-    DEF_HELPER_3(glue(name ## ps, SUFFIX), void, env, Reg, Reg)        \
-    DEF_HELPER_3(name ## ss, void, env, Reg, Reg)        \
-    DEF_HELPER_3(glue(name ## pd, SUFFIX), void, env, Reg, Reg)        \
+#define SSE_HELPER_P4(name)                                             \
+    DEF_HELPER_3(glue(name ## ps, SUFFIX), void, env, Reg, Reg)         \
+    DEF_HELPER_3(glue(name ## pd, SUFFIX), void, env, Reg, Reg)
+
+#define SSE_HELPER_P3(name, ...)                                        \
+    DEF_HELPER_3(glue(name ## ps, SUFFIX), void, env, Reg, Reg)         \
+    DEF_HELPER_3(glue(name ## pd, SUFFIX), void, env, Reg, Reg)
+
+#if SHIFT =3D=3D 1
+#define SSE_HELPER_S4(name)                                             \
+    SSE_HELPER_P4(name)                                                 \
+    DEF_HELPER_3(name ## ss, void, env, Reg, Reg)                       \
     DEF_HELPER_3(name ## sd, void, env, Reg, Reg)
+#define SSE_HELPER_S3(name)                                             \
+    SSE_HELPER_P3(name)                                                 \
+    DEF_HELPER_3(name ## ss, void, env, Reg, Reg)                       \
+    DEF_HELPER_3(name ## sd, void, env, Reg, Reg)
+#else
+#define SSE_HELPER_S4(name, ...) SSE_HELPER_P4(name)
+#define SSE_HELPER_S3(name, ...) SSE_HELPER_P3(name)
+#endif
=20
-SSE_HELPER_S(add, FPU_ADD)
-SSE_HELPER_S(sub, FPU_SUB)
-SSE_HELPER_S(mul, FPU_MUL)
-SSE_HELPER_S(div, FPU_DIV)
-SSE_HELPER_S(min, FPU_MIN)
-SSE_HELPER_S(max, FPU_MAX)
-SSE_HELPER_S(sqrt, FPU_SQRT)
+DEF_HELPER_3(glue(shufps, SUFFIX), void, Reg, Reg, int)
+DEF_HELPER_3(glue(shufpd, SUFFIX), void, Reg, Reg, int)
=20
+SSE_HELPER_S4(add)
+SSE_HELPER_S4(sub)
+SSE_HELPER_S4(mul)
+SSE_HELPER_S4(div)
+SSE_HELPER_S4(min)
+SSE_HELPER_S4(max)
+
+SSE_HELPER_S3(sqrt)
=20
 DEF_HELPER_3(glue(cvtps2pd, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(cvtpd2ps, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(cvtss2sd, void, env, Reg, Reg)
-DEF_HELPER_3(cvtsd2ss, void, env, Reg, Reg)
 DEF_HELPER_3(glue(cvtdq2ps, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(cvtdq2pd, SUFFIX), void, env, Reg, Reg)
+
+DEF_HELPER_3(glue(cvtps2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
+DEF_HELPER_3(glue(cvtpd2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
+
+DEF_HELPER_3(glue(cvttps2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
+DEF_HELPER_3(glue(cvttpd2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
+
+#if SHIFT =3D=3D 1
+DEF_HELPER_3(cvtss2sd, void, env, Reg, Reg)
+DEF_HELPER_3(cvtsd2ss, void, env, Reg, Reg)
 DEF_HELPER_3(cvtpi2ps, void, env, ZMMReg, MMXReg)
 DEF_HELPER_3(cvtpi2pd, void, env, ZMMReg, MMXReg)
 DEF_HELPER_3(cvtsi2ss, void, env, ZMMReg, i32)
@@ -164,8 +191,6 @@ DEF_HELPER_3(cvtsq2ss, void, env, ZMMReg, i64)
 DEF_HELPER_3(cvtsq2sd, void, env, ZMMReg, i64)
 #endif
=20
-DEF_HELPER_3(glue(cvtps2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(cvtpd2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(cvtps2pi, void, env, MMXReg, ZMMReg)
 DEF_HELPER_3(cvtpd2pi, void, env, MMXReg, ZMMReg)
 DEF_HELPER_2(cvtss2si, s32, env, ZMMReg)
@@ -175,8 +200,6 @@ DEF_HELPER_2(cvtss2sq, s64, env, ZMMReg)
 DEF_HELPER_2(cvtsd2sq, s64, env, ZMMReg)
 #endif
=20
-DEF_HELPER_3(glue(cvttps2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(cvttpd2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(cvttps2pi, void, env, MMXReg, ZMMReg)
 DEF_HELPER_3(cvttpd2pi, void, env, MMXReg, ZMMReg)
 DEF_HELPER_2(cvttss2si, s32, env, ZMMReg)
@@ -185,27 +208,24 @@ DEF_HELPER_2(cvttsd2si, s32, env, ZMMReg)
 DEF_HELPER_2(cvttss2sq, s64, env, ZMMReg)
 DEF_HELPER_2(cvttsd2sq, s64, env, ZMMReg)
 #endif
+#endif
=20
 DEF_HELPER_3(glue(rsqrtps, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(rsqrtss, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(glue(rcpps, SUFFIX), void, env, ZMMReg, ZMMReg)
+#if SHIFT =3D=3D 1
+DEF_HELPER_3(rsqrtss, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(rcpss, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(extrq_r, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_4(extrq_i, void, env, ZMMReg, int, int)
 DEF_HELPER_3(insertq_r, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_5(insertq_i, void, env, ZMMReg, ZMMReg, int, int)
-DEF_HELPER_3(glue(haddps, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(haddpd, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(hsubps, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(hsubpd, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(addsubps, SUFFIX), void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(glue(addsubpd, SUFFIX), void, env, ZMMReg, ZMMReg)
+#endif
=20
-#define SSE_HELPER_CMP(name, F, C)                              \
-    DEF_HELPER_3(glue(name ## ps, SUFFIX), void, env, Reg, Reg) \
-    DEF_HELPER_3(name ## ss, void, env, Reg, Reg)               \
-    DEF_HELPER_3(glue(name ## pd, SUFFIX), void, env, Reg, Reg) \
-    DEF_HELPER_3(name ## sd, void, env, Reg, Reg)
+SSE_HELPER_P4(hadd)
+SSE_HELPER_P4(hsub)
+SSE_HELPER_P4(addsub)
+
+#define SSE_HELPER_CMP(name, F, C) SSE_HELPER_S4(name)
=20
 SSE_HELPER_CMP(cmpeq, FPU_CMPQ, FPU_EQ)
 SSE_HELPER_CMP(cmplt, FPU_CMPS, FPU_LT)
@@ -216,10 +236,13 @@ SSE_HELPER_CMP(cmpnlt, FPU_CMPS, !FPU_LT)
 SSE_HELPER_CMP(cmpnle, FPU_CMPS, !FPU_LE)
 SSE_HELPER_CMP(cmpord, FPU_CMPQ, !FPU_UNORD)
=20
+#if SHIFT =3D=3D 1
 DEF_HELPER_3(ucomiss, void, env, Reg, Reg)
 DEF_HELPER_3(comiss, void, env, Reg, Reg)
 DEF_HELPER_3(ucomisd, void, env, Reg, Reg)
 DEF_HELPER_3(comisd, void, env, Reg, Reg)
+#endif
+
 DEF_HELPER_2(glue(movmskps, SUFFIX), i32, env, Reg)
 DEF_HELPER_2(glue(movmskpd, SUFFIX), i32, env, Reg)
 #endif
@@ -236,7 +259,7 @@ DEF_HELPER_3(glue(packssdw, SUFFIX), void, env, Reg, Re=
g)
 UNPCK_OP(l, 0)
 UNPCK_OP(h, 1)
=20
-#if SHIFT =3D=3D 1
+#if SHIFT >=3D 1
 DEF_HELPER_3(glue(punpcklqdq, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(punpckhqdq, SUFFIX), void, env, Reg, Reg)
 #endif
@@ -283,7 +306,7 @@ DEF_HELPER_3(glue(psignd, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_4(glue(palignr, SUFFIX), void, env, Reg, Reg, s32)
=20
 /* SSE4.1 op helpers */
-#if SHIFT =3D=3D 1
+#if SHIFT >=3D 1
 DEF_HELPER_3(glue(pblendvb, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(blendvps, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(blendvpd, SUFFIX), void, env, Reg, Reg)
@@ -312,22 +335,30 @@ DEF_HELPER_3(glue(pmaxsd, SUFFIX), void, env, Reg, Re=
g)
 DEF_HELPER_3(glue(pmaxuw, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmaxud, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmulld, SUFFIX), void, env, Reg, Reg)
+#if SHIFT =3D=3D 1
 DEF_HELPER_3(glue(phminposuw, SUFFIX), void, env, Reg, Reg)
+#endif
 DEF_HELPER_4(glue(roundps, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(roundpd, SUFFIX), void, env, Reg, Reg, i32)
+#if SHIFT =3D=3D 1
 DEF_HELPER_4(glue(roundss, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(roundsd, SUFFIX), void, env, Reg, Reg, i32)
+#endif
 DEF_HELPER_4(glue(blendps, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(blendpd, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(pblendw, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(dpps, SUFFIX), void, env, Reg, Reg, i32)
+#if SHIFT =3D=3D 1
 DEF_HELPER_4(glue(dppd, SUFFIX), void, env, Reg, Reg, i32)
+#endif
 DEF_HELPER_4(glue(mpsadbw, SUFFIX), void, env, Reg, Reg, i32)
 #endif
=20
 /* SSE4.2 op helpers */
-#if SHIFT =3D=3D 1
+#if SHIFT >=3D 1
 DEF_HELPER_3(glue(pcmpgtq, SUFFIX), void, env, Reg, Reg)
+#endif
+#if SHIFT =3D=3D 1
 DEF_HELPER_4(glue(pcmpestri, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(pcmpestrm, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(pcmpistri, SUFFIX), void, env, Reg, Reg, i32)
@@ -336,13 +367,15 @@ DEF_HELPER_3(crc32, tl, i32, tl, i32)
 #endif
=20
 /* AES-NI op helpers */
-#if SHIFT =3D=3D 1
+#if SHIFT >=3D 1
 DEF_HELPER_3(glue(aesdec, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(aesdeclast, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(aesenc, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(aesenclast, SUFFIX), void, env, Reg, Reg)
+#if SHIFT =3D=3D 1
 DEF_HELPER_3(glue(aesimc, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_4(glue(aeskeygenassist, SUFFIX), void, env, Reg, Reg, i32)
+#endif
 DEF_HELPER_4(glue(pclmulqdq, SUFFIX), void, env, Reg, Reg, i32)
 #endif
=20
@@ -354,6 +387,9 @@ DEF_HELPER_4(glue(pclmulqdq, SUFFIX), void, env, Reg, R=
eg, i32)
 #undef SSE_HELPER_W
 #undef SSE_HELPER_L
 #undef SSE_HELPER_Q
-#undef SSE_HELPER_S
+#undef SSE_HELPER_S3
+#undef SSE_HELPER_S4
+#undef SSE_HELPER_P3
+#undef SSE_HELPER_P4
 #undef SSE_HELPER_CMP
 #undef UNPCK_OP
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698397; cv=none;
	d=zohomail.com; s=zohoarc;
	b=b0VltvFNiNAg+FG7R5WXSTIlZkGn1CLW/ByLUZRQXS4IUM76n8dzA2kgwE9ZdsL/xb6HUCT9HktGoQj3GPGzAk4adPr+Oyz4qMPswvdAFCqoC7vTJ8DM6sbEQTdcYIN56E69r638rVLe/eG6WokX35pDNVOY0UYW4tDMS5xjQ4s=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698397;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=g1hw+IIbNE47GQ3liQgvqdcr1p6RVuEuG3h0hTEiF6M=;
	b=TmolhhwNQUq3IrYaJQnrHQtaoH77cKSwhJL2y0+KN0xNofH3tPXv0tdb5oCF1GGo9xK1QlQu58uaezvGr1KcGLyVCwBe5JGnO72RpPQvZEpIWQc5L80MXqXSsL86rTUqjyUzMcN4+g2X5HoxC3tLJLjc4KqCaicuu0ts3icSeEw=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698397876532.4741575656036;
 Thu, 13 Oct 2022 14:59:57 -0700 (PDT)
Received: from localhost ([::1]:49282 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6FA-0005rD-KS
	for importer@patchew.org; Thu, 13 Oct 2022 17:59:56 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55414)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63J-0002jE-2U
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:49 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:46537)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63E-0005GM-39
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:40 -0400
Received: from mail-ej1-f71.google.com (mail-ej1-f71.google.com
 [209.85.218.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-228--HLBw325OQeL9zbDGkMwsw-1; Thu, 13 Oct 2022 17:47:33 -0400
Received: by mail-ej1-f71.google.com with SMTP id
 sa6-20020a1709076d0600b0078d84ed54b9so1465938ejc.18
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:33 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 n25-20020a170906165900b007317f017e64sm436696ejd.134.2022.10.13.14.47.29
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:29 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697655;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=g1hw+IIbNE47GQ3liQgvqdcr1p6RVuEuG3h0hTEiF6M=;
 b=er04mlsdbGcenWVRlv0531vhUusA33dYuCcH0iG7hDT+NMt9h2to7eXQxVxsdyUA3TJ2Kz
 LIy2JEaqwckRlnylRNfxblIuDP+q4MPaYV+yEA7FpsEYMdD5f5agtnlTvkEDZecvNkD9Rh
 bxlZAzEtKOWxAs9UIHnleVAqASfkgE8=
X-MC-Unique: -HLBw325OQeL9zbDGkMwsw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=g1hw+IIbNE47GQ3liQgvqdcr1p6RVuEuG3h0hTEiF6M=;
 b=6Cw390IQt+1XS/JDMfvcwStOQjmrw7sgfs5lUeiIhhYIZxKYfow/yboFdn+ZuL+mAl
 959yZajJy6r4zMwRsVuaH3sFoqlSBT7nrFEra3N/E2Jwzzz1Wer0oftdC7MLkNd0uwO8
 kOJT5SALDL6ys4dw65X2OEMl0GnEwaDe7jvD91E2mNbXYCNKqVqXFBWuh+oeQXtYR9A4
 Khy2ECc/BfwiEqsVOgkkLYjmJb5x8Ms903R+3cAlrOuqSL9Is/zvM8E7GYgXOKuR9m9w
 gXnSGlFnMtRYcNLufQD2xVjaIx4uFzSs8oVinIAPxBvJj2n2da6rK+ll1fpoW4emvcUY
 +h7Q==
X-Gm-Message-State: ACrzQf0eNaS64bzuIfwV/upcI+yGBQwXE7Dy4RMTr4oMl5POjtblbUnH
 6fW7fGu2Jc67eZOVEC8dTPOy/MpnAZzIB0AQMi2e5e8OQ2N/mhzN1PqW58bEjgp/weD3/OR/sZv
 lEZOIqYnEGgGIHtc16ca9Fm0V3zBp61Y+7EszU2FinojVvC5QNNmzf4t7UswZZizi/lY=
X-Received: by 2002:a17:907:c78e:b0:78d:138a:ec4b with SMTP id
 tz14-20020a170907c78e00b0078d138aec4bmr1296077ejc.381.1665697651237;
 Thu, 13 Oct 2022 14:47:31 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4N15+chDi1kWAHBJzAOoeqM/I1OcnOUfXxKio8RfqgG8hIiteNBr0F8crEjxDjM8xy5/j6WA==
X-Received: by 2002:a17:907:c78e:b0:78d:138a:ec4b with SMTP id
 tz14-20020a170907c78e00b0078d138aec4bmr1296039ejc.381.1665697650175;
 Thu, 13 Oct 2022 14:47:30 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 12/35] target/i386: extend helpers to support VEX.V 3- and 4-
 operand encodings
Date: Thu, 13 Oct 2022 23:46:28 +0200
Message-Id: <20221013214651.672114-13-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698398685100003
Content-Type: text/plain; charset="utf-8"

Add to the helpers all the operands that are needed to implement AVX.

Extracted from a patch by Paul Brook <paul@nowt.org>.

Message-Id: <20220424220204.2493824-26-paul@nowt.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h        | 173 +++++++++++++--------------------
 target/i386/ops_sse_header.h | 149 ++++++++++++++--------------
 target/i386/tcg/translate.c  | 181 ++++++++++++++++++++++++-----------
 3 files changed, 265 insertions(+), 238 deletions(-)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 7bf8bb967d..5f0ee9db52 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -48,9 +48,8 @@
 #define FPSLL(x, c) ((x) << shift)
 #endif
=20
-void glue(helper_psrlw, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psrlw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 15) {
         for (int i =3D 0; i < 1 << SHIFT; i++) {
@@ -64,9 +63,8 @@ void glue(helper_psrlw, SUFFIX)(CPUX86State *env, Reg *d,=
 Reg *c)
     }
 }
=20
-void glue(helper_psllw, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psllw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 15) {
         for (int i =3D 0; i < 1 << SHIFT; i++) {
@@ -80,9 +78,8 @@ void glue(helper_psllw, SUFFIX)(CPUX86State *env, Reg *d,=
 Reg *c)
     }
 }
=20
-void glue(helper_psraw, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psraw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 15) {
         shift =3D 15;
@@ -94,9 +91,8 @@ void glue(helper_psraw, SUFFIX)(CPUX86State *env, Reg *d,=
 Reg *c)
     }
 }
=20
-void glue(helper_psrld, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psrld, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 31) {
         for (int i =3D 0; i < 1 << SHIFT; i++) {
@@ -110,9 +106,8 @@ void glue(helper_psrld, SUFFIX)(CPUX86State *env, Reg *=
d, Reg *c)
     }
 }
=20
-void glue(helper_pslld, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_pslld, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 31) {
         for (int i =3D 0; i < 1 << SHIFT; i++) {
@@ -126,9 +121,8 @@ void glue(helper_pslld, SUFFIX)(CPUX86State *env, Reg *=
d, Reg *c)
     }
 }
=20
-void glue(helper_psrad, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psrad, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 31) {
         shift =3D 31;
@@ -140,9 +134,8 @@ void glue(helper_psrad, SUFFIX)(CPUX86State *env, Reg *=
d, Reg *c)
     }
 }
=20
-void glue(helper_psrlq, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psrlq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 63) {
         for (int i =3D 0; i < 1 << SHIFT; i++) {
@@ -156,9 +149,8 @@ void glue(helper_psrlq, SUFFIX)(CPUX86State *env, Reg *=
d, Reg *c)
     }
 }
=20
-void glue(helper_psllq, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psllq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift;
     if (c->Q(0) > 63) {
         for (int i =3D 0; i < 1 << SHIFT; i++) {
@@ -173,9 +165,8 @@ void glue(helper_psllq, SUFFIX)(CPUX86State *env, Reg *=
d, Reg *c)
 }
=20
 #if SHIFT >=3D 1
-void glue(helper_psrldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_psrldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift, i, j;
=20
     shift =3D c->L(0);
@@ -192,9 +183,8 @@ void glue(helper_psrldq, SUFFIX)(CPUX86State *env, Reg =
*d, Reg *c)
     }
 }
=20
-void glue(helper_pslldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *c)
+void glue(helper_pslldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s, Reg *c)
 {
-    Reg *s =3D d;
     int shift, i, j;
=20
     shift =3D c->L(0);
@@ -222,9 +212,8 @@ void glue(helper_pslldq, SUFFIX)(CPUX86State *env, Reg =
*d, Reg *c)
     }
=20
 #define SSE_HELPER_2(name, elem, num, F)                        \
-    void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)   \
+    void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)   \
     {                                                           \
-        Reg *v =3D d;                                             \
         int n =3D num;                                            \
         for (int i =3D 0; i < n; i++) {                           \
             d->elem(i) =3D F(v->elem(i), s->elem(i));             \
@@ -362,18 +351,24 @@ SSE_HELPER_W(helper_pcmpeqw, FCMPEQ)
 SSE_HELPER_L(helper_pcmpeql, FCMPEQ)
=20
 SSE_HELPER_W(helper_pmullw, FMULLW)
-#if SHIFT =3D=3D 0
-SSE_HELPER_W(helper_pmulhrw, FMULHRW)
-#endif
 SSE_HELPER_W(helper_pmulhuw, FMULHUW)
 SSE_HELPER_W(helper_pmulhw, FMULHW)
=20
+#if SHIFT =3D=3D 0
+void glue(helper_pmulhrw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+{
+    d->W(0) =3D FMULHRW(d->W(0), s->W(0));
+    d->W(1) =3D FMULHRW(d->W(1), s->W(1));
+    d->W(2) =3D FMULHRW(d->W(2), s->W(2));
+    d->W(3) =3D FMULHRW(d->W(3), s->W(3));
+}
+#endif
+
 SSE_HELPER_B(helper_pavgb, FAVG)
 SSE_HELPER_W(helper_pavgw, FAVG)
=20
-void glue(helper_pmuludq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_pmuludq, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
-    Reg *v =3D d;
     int i;
=20
     for (i =3D 0; i < (1 << SHIFT); i++) {
@@ -381,9 +376,8 @@ void glue(helper_pmuludq, SUFFIX)(CPUX86State *env, Reg=
 *d, Reg *s)
     }
 }
=20
-void glue(helper_pmaddwd, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_pmaddwd, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
-    Reg *v =3D d;
     int i;
=20
     for (i =3D 0; i < (2 << SHIFT); i++) {
@@ -402,10 +396,8 @@ static inline int abs1(int a)
     }
 }
 #endif
-
-void glue(helper_psadbw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_psadbw, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
-    Reg *v =3D d;
     int i;
=20
     for (i =3D 0; i < (1 << SHIFT); i++) {
@@ -478,9 +470,8 @@ void glue(helper_pshufw, SUFFIX)(Reg *d, Reg *s, int or=
der)
     SHUFFLE4(W, s, s, 0);
 }
 #else
-void glue(helper_shufps, SUFFIX)(Reg *d, Reg *s, int order)
+void glue(helper_shufps, SUFFIX)(Reg *d, Reg *v, Reg *s, int order)
 {
-    Reg *v =3D d;
     uint32_t r0, r1, r2, r3;
     int i;
=20
@@ -489,9 +480,8 @@ void glue(helper_shufps, SUFFIX)(Reg *d, Reg *s, int or=
der)
     }
 }
=20
-void glue(helper_shufpd, SUFFIX)(Reg *d, Reg *s, int order)
+void glue(helper_shufpd, SUFFIX)(Reg *d, Reg *v, Reg *s, int order)
 {
-    Reg *v =3D d;
     uint64_t r0, r1;
     int i;
=20
@@ -543,9 +533,8 @@ void glue(helper_pshufhw, SUFFIX)(Reg *d, Reg *s, int o=
rder)
=20
 #define SSE_HELPER_P(name, F)                                           \
     void glue(helper_ ## name ## ps, SUFFIX)(CPUX86State *env,          \
-            Reg *d, Reg *s)                                             \
+            Reg *d, Reg *v, Reg *s)                                     \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         int i;                                                          \
         for (i =3D 0; i < 2 << SHIFT; i++) {                              \
             d->ZMM_S(i) =3D F(32, v->ZMM_S(i), s->ZMM_S(i));              \
@@ -553,9 +542,8 @@ void glue(helper_pshufhw, SUFFIX)(Reg *d, Reg *s, int o=
rder)
     }                                                                   \
                                                                         \
     void glue(helper_ ## name ## pd, SUFFIX)(CPUX86State *env,          \
-            Reg *d, Reg *s)                                     \
+            Reg *d, Reg *v, Reg *s)                                     \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         int i;                                                          \
         for (i =3D 0; i < 1 << SHIFT; i++) {                              \
             d->ZMM_D(i) =3D F(64, v->ZMM_D(i), s->ZMM_D(i));              \
@@ -567,15 +555,13 @@ void glue(helper_pshufhw, SUFFIX)(Reg *d, Reg *s, int=
 order)
 #define SSE_HELPER_S(name, F)                                           \
     SSE_HELPER_P(name, F)                                               \
                                                                         \
-    void helper_ ## name ## ss(CPUX86State *env, Reg *d, Reg *s)\
+    void helper_ ## name ## ss(CPUX86State *env, Reg *d, Reg *v, Reg *s)\
     {                                                                   \
-        Reg *v =3D d;                                                     \
         d->ZMM_S(0) =3D F(32, v->ZMM_S(0), s->ZMM_S(0));                  \
     }                                                                   \
                                                                         \
-    void helper_ ## name ## sd(CPUX86State *env, Reg *d, Reg *s)\
+    void helper_ ## name ## sd(CPUX86State *env, Reg *d, Reg *v, Reg *s)\
     {                                                                   \
-        Reg *v =3D d;                                                     \
         d->ZMM_D(0) =3D F(64, v->ZMM_D(0), s->ZMM_D(0));                  \
     }
=20
@@ -958,9 +944,8 @@ void helper_insertq_i(CPUX86State *env, ZMMReg *d, ZMMR=
eg *s, int index, int len
 #endif
=20
 #define SSE_HELPER_HPS(name, F)  \
-void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s) \
+void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s) \
 {                                                                 \
-    Reg *v =3D d;                                                   \
     float32 r[2 << SHIFT];                                        \
     int i, j, k;                                                  \
     for (k =3D 0; k < 2 << SHIFT; k +=3D LANE_WIDTH / 4) {            \
@@ -980,9 +965,8 @@ SSE_HELPER_HPS(haddps, float32_add)
 SSE_HELPER_HPS(hsubps, float32_sub)
=20
 #define SSE_HELPER_HPD(name, F)  \
-void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s) \
+void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s) \
 {                                                                 \
-    Reg *v =3D d;                                                   \
     float64 r[1 << SHIFT];                                        \
     int i, j, k;                                                  \
     for (k =3D 0; k < 1 << SHIFT; k +=3D LANE_WIDTH / 8) {            \
@@ -1001,9 +985,8 @@ void glue(helper_ ## name, SUFFIX)(CPUX86State *env, R=
eg *d, Reg *s) \
 SSE_HELPER_HPD(haddpd, float64_add)
 SSE_HELPER_HPD(hsubpd, float64_sub)
=20
-void glue(helper_addsubps, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_addsubps, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s)
 {
-    Reg *v =3D d;
     int i;
     for (i =3D 0; i < 2 << SHIFT; i +=3D 2) {
         d->ZMM_S(i) =3D float32_sub(v->ZMM_S(i), s->ZMM_S(i), &env->sse_st=
atus);
@@ -1011,9 +994,8 @@ void glue(helper_addsubps, SUFFIX)(CPUX86State *env, R=
eg *d, Reg *s)
     }
 }
=20
-void glue(helper_addsubpd, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_addsubpd, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s)
 {
-    Reg *v =3D d;
     int i;
     for (i =3D 0; i < 1 << SHIFT; i +=3D 2) {
         d->ZMM_D(i) =3D float64_sub(v->ZMM_D(i), s->ZMM_D(i), &env->sse_st=
atus);
@@ -1023,9 +1005,8 @@ void glue(helper_addsubpd, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
=20
 #define SSE_HELPER_CMP_P(name, F, C)                                    \
     void glue(helper_ ## name ## ps, SUFFIX)(CPUX86State *env,          \
-                                             Reg *d, Reg *s)    \
+                                             Reg *d, Reg *v, Reg *s)    \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         int i;                                                          \
         for (i =3D 0; i < 2 << SHIFT; i++) {                              \
             d->ZMM_L(i) =3D C(F(32, v->ZMM_S(i), s->ZMM_S(i))) ? -1 : 0;  \
@@ -1033,9 +1014,8 @@ void glue(helper_addsubpd, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
     }                                                                   \
                                                                         \
     void glue(helper_ ## name ## pd, SUFFIX)(CPUX86State *env,          \
-                                             Reg *d, Reg *s)    \
+                                             Reg *d, Reg *v, Reg *s)    \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         int i;                                                          \
         for (i =3D 0; i < 1 << SHIFT; i++) {                              \
             d->ZMM_Q(i) =3D C(F(64, v->ZMM_D(i), s->ZMM_D(i))) ? -1 : 0;  \
@@ -1045,15 +1025,13 @@ void glue(helper_addsubpd, SUFFIX)(CPUX86State *env=
, Reg *d, Reg *s)
 #if SHIFT =3D=3D 1
 #define SSE_HELPER_CMP(name, F, C)                                        =
  \
     SSE_HELPER_CMP_P(name, F, C)                                          =
  \
-    void helper_ ## name ## ss(CPUX86State *env, Reg *d, Reg *s)    \
+    void helper_ ## name ## ss(CPUX86State *env, Reg *d, Reg *v, Reg *s)  =
  \
     {                                                                     =
  \
-        Reg *v =3D d;                                                     =
    \
         d->ZMM_L(0) =3D C(F(32, v->ZMM_S(0), s->ZMM_S(0))) ? -1 : 0;      =
    \
     }                                                                     =
  \
                                                                           =
  \
-    void helper_ ## name ## sd(CPUX86State *env, Reg *d, Reg *s)    \
+    void helper_ ## name ## sd(CPUX86State *env, Reg *d, Reg *v, Reg *s)  =
  \
     {                                                                     =
  \
-        Reg *v =3D d;                                                     =
    \
         d->ZMM_Q(0) =3D C(F(64, v->ZMM_D(0), s->ZMM_D(0))) ? -1 : 0;      =
    \
     }
=20
@@ -1179,9 +1157,8 @@ uint32_t glue(helper_pmovmskb, SUFFIX)(CPUX86State *e=
nv, Reg *s)
=20
 #define PACK_HELPER_B(name, F) \
 void glue(helper_pack ## name, SUFFIX)(CPUX86State *env,      \
-        Reg *d, Reg *s)                                       \
+        Reg *d, Reg *v, Reg *s)                               \
 {                                                             \
-    Reg *v =3D d;                                               \
     uint8_t r[PACK_WIDTH * 2];                                \
     int j, k;                                                 \
     for (j =3D 0; j < 4 << SHIFT; j +=3D PACK_WIDTH) {            \
@@ -1200,9 +1177,8 @@ void glue(helper_pack ## name, SUFFIX)(CPUX86State *e=
nv,      \
 PACK_HELPER_B(sswb, satsb)
 PACK_HELPER_B(uswb, satub)
=20
-void glue(helper_packssdw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_packssdw, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s)
 {
-    Reg *v =3D d;
     uint16_t r[PACK_WIDTH];
     int j, k;
=20
@@ -1222,9 +1198,8 @@ void glue(helper_packssdw, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
 #define UNPCK_OP(base_name, base)                                       \
                                                                         \
     void glue(helper_punpck ## base_name ## bw, SUFFIX)(CPUX86State *env,\
-                                                Reg *d, Reg *s) \
+                                                Reg *d, Reg *v, Reg *s) \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         uint8_t r[PACK_WIDTH * 2];                                      \
         int j, i;                                                       \
                                                                         \
@@ -1241,9 +1216,8 @@ void glue(helper_packssdw, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
     }                                                                   \
                                                                         \
     void glue(helper_punpck ## base_name ## wd, SUFFIX)(CPUX86State *env,\
-                                                Reg *d, Reg *s) \
+                                                Reg *d, Reg *v, Reg *s) \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         uint16_t r[PACK_WIDTH];                                         \
         int j, i;                                                       \
                                                                         \
@@ -1260,9 +1234,8 @@ void glue(helper_packssdw, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
     }                                                                   \
                                                                         \
     void glue(helper_punpck ## base_name ## dq, SUFFIX)(CPUX86State *env,\
-                                                Reg *d, Reg *s) \
+                                                Reg *d, Reg *v, Reg *s) \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         uint32_t r[PACK_WIDTH / 2];                                     \
         int j, i;                                                       \
                                                                         \
@@ -1280,9 +1253,8 @@ void glue(helper_packssdw, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
                                                                         \
     XMM_ONLY(                                                           \
              void glue(helper_punpck ## base_name ## qdq, SUFFIX)(      \
-                        CPUX86State *env, Reg *d, Reg *s)       \
+                        CPUX86State *env, Reg *d, Reg *v, Reg *s)       \
              {                                                          \
-                 Reg *v =3D d;                                            \
                  uint64_t r[2];                                         \
                  int i;                                                 \
                                                                         \
@@ -1453,9 +1425,8 @@ void helper_pswapd(CPUX86State *env, MMXReg *d, MMXRe=
g *s)
 #endif
=20
 /* SSSE3 op helpers */
-void glue(helper_pshufb, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_pshufb, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
-    Reg *v =3D d;
     int i;
 #if SHIFT =3D=3D 0
     uint8_t r[8];
@@ -1480,9 +1451,8 @@ void glue(helper_pshufb, SUFFIX)(CPUX86State *env, Re=
g *d, Reg *s)
 }
=20
 #define SSE_HELPER_HW(name, F)  \
-void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s) \
+void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s) \
 {                                                          \
-    Reg *v =3D d;                                            \
     uint16_t r[4 << SHIFT];                                \
     int i, j, k;                                           \
     for (k =3D 0; k < 4 << SHIFT; k +=3D LANE_WIDTH / 2) {     \
@@ -1499,9 +1469,8 @@ void glue(helper_ ## name, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s) \
 }
=20
 #define SSE_HELPER_HL(name, F)  \
-void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s) \
+void glue(helper_ ## name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s) \
 {                                                          \
-    Reg *v =3D d;                                            \
     uint32_t r[2 << SHIFT];                                \
     int i, j, k;                                           \
     for (k =3D 0; k < 2 << SHIFT; k +=3D LANE_WIDTH / 4) {     \
@@ -1527,9 +1496,8 @@ SSE_HELPER_HL(phsubd, FSUB)
 #undef SSE_HELPER_HW
 #undef SSE_HELPER_HL
=20
-void glue(helper_pmaddubsw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_pmaddubsw, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg =
*s)
 {
-    Reg *v =3D d;
     int i;
     for (i =3D 0; i < 4 << SHIFT; i++) {
         d->W(i) =3D satsw((int8_t)s->B(i * 2) * (uint8_t)v->B(i * 2) +
@@ -1554,10 +1522,9 @@ SSE_HELPER_B(helper_psignb, FSIGNB)
 SSE_HELPER_W(helper_psignw, FSIGNW)
 SSE_HELPER_L(helper_psignd, FSIGNL)
=20
-void glue(helper_palignr, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,
+void glue(helper_palignr, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,
                                   int32_t shift)
 {
-    Reg *v =3D d;
     int i;
=20
     /* XXX could be checked during translation */
@@ -1594,10 +1561,9 @@ void glue(helper_palignr, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s,
 #if SHIFT >=3D 1
=20
 #define SSE_HELPER_V(name, elem, num, F)                                \
-    void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)   \
+    void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,   \
+                            Reg *m)                                     \
     {                                                                   \
-        Reg *v =3D d;                                                     \
-        Reg *m =3D &env->xmm_regs[0];                                     \
         int i;                                                          \
         for (i =3D 0; i < num; i++) {                                     \
             d->elem(i) =3D F(v->elem(i), s->elem(i), m->elem(i));         \
@@ -1605,10 +1571,9 @@ void glue(helper_palignr, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s,
     }
=20
 #define SSE_HELPER_I(name, elem, num, F)                                \
-    void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,   \
+    void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,   \
                             uint32_t imm)                               \
     {                                                                   \
-        Reg *v =3D d;                                                     \
         int i;                                                          \
         for (i =3D 0; i < num; i++) {                                     \
             int j =3D i & 7;                                              \
@@ -1660,9 +1625,8 @@ SSE_HELPER_F(helper_pmovzxwq, Q, 1 << SHIFT, s->W)
 SSE_HELPER_F(helper_pmovzxdq, Q, 1 << SHIFT, s->L)
 #endif
=20
-void glue(helper_pmuldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_pmuldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
-    Reg *v =3D d;
     int i;
=20
     for (i =3D 0; i < 1 << SHIFT; i++) {
@@ -1673,9 +1637,8 @@ void glue(helper_pmuldq, SUFFIX)(CPUX86State *env, Re=
g *d, Reg *s)
 #define FCMPEQQ(d, s) (d =3D=3D s ? -1 : 0)
 SSE_HELPER_Q(helper_pcmpeqq, FCMPEQQ)
=20
-void glue(helper_packusdw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_packusdw, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s)
 {
-    Reg *v =3D d;
     uint16_t r[8];
     int i, j, k;
=20
@@ -1893,10 +1856,9 @@ SSE_HELPER_I(helper_blendps, L, 2 << SHIFT, FBLENDP)
 SSE_HELPER_I(helper_blendpd, Q, 1 << SHIFT, FBLENDP)
 SSE_HELPER_I(helper_pblendw, W, 4 << SHIFT, FBLENDP)
=20
-void glue(helper_dpps, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,
+void glue(helper_dpps, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,
                                uint32_t mask)
 {
-    Reg *v =3D d;
     float32 prod1, prod2, temp2, temp3, temp4;
     int i;
=20
@@ -1939,9 +1901,8 @@ void glue(helper_dpps, SUFFIX)(CPUX86State *env, Reg =
*d, Reg *s,
 #if SHIFT =3D=3D 1
 /* Oddly, there is no ymm version of dppd */
 void glue(helper_dppd, SUFFIX)(CPUX86State *env,
-                               Reg *d, Reg *s, uint32_t mask)
+                               Reg *d, Reg *v, Reg *s, uint32_t mask)
 {
-    Reg *v =3D d;
     float64 prod1, prod2, temp2;
=20
     if (mask & (1 << 4)) {
@@ -1960,10 +1921,9 @@ void glue(helper_dppd, SUFFIX)(CPUX86State *env,
 }
 #endif
=20
-void glue(helper_mpsadbw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,
+void glue(helper_mpsadbw, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,
                                   uint32_t offset)
 {
-    Reg *v =3D d;
     int i, j;
     uint16_t r[8];
=20
@@ -2236,10 +2196,9 @@ static void clmulq(uint64_t *dest_l, uint64_t *dest_=
h,
 }
 #endif
=20
-void glue(helper_pclmulqdq, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,
+void glue(helper_pclmulqdq, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg =
*s,
                                     uint32_t ctrl)
 {
-    Reg *v =3D d;
     uint64_t a, b;
     int i;
=20
@@ -2250,10 +2209,10 @@ void glue(helper_pclmulqdq, SUFFIX)(CPUX86State *en=
v, Reg *d, Reg *s,
     }
 }
=20
-void glue(helper_aesdec, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_aesdec, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
     int i;
-    Reg st =3D *d;
+    Reg st =3D *v;
     Reg rk =3D *s;
=20
     for (i =3D 0 ; i < 2 << SHIFT ; i++) {
@@ -2265,10 +2224,10 @@ void glue(helper_aesdec, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
     }
 }
=20
-void glue(helper_aesdeclast, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_aesdeclast, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg=
 *s)
 {
     int i;
-    Reg st =3D *d;
+    Reg st =3D *v;
     Reg rk =3D *s;
=20
     for (i =3D 0; i < 8 << SHIFT; i++) {
@@ -2276,10 +2235,10 @@ void glue(helper_aesdeclast, SUFFIX)(CPUX86State *e=
nv, Reg *d, Reg *s)
     }
 }
=20
-void glue(helper_aesenc, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_aesenc, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
     int i;
-    Reg st =3D *d;
+    Reg st =3D *v;
     Reg rk =3D *s;
=20
     for (i =3D 0 ; i < 2 << SHIFT ; i++) {
@@ -2291,10 +2250,10 @@ void glue(helper_aesenc, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
     }
 }
=20
-void glue(helper_aesenclast, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+void glue(helper_aesenclast, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg=
 *s)
 {
     int i;
-    Reg st =3D *d;
+    Reg st =3D *v;
     Reg rk =3D *s;
=20
     for (i =3D 0; i < 8 << SHIFT; i++) {
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 9d9a115df4..b60fe2f0d4 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -34,31 +34,31 @@
 #define dh_typecode_ZMMReg dh_typecode_ptr
 #define dh_typecode_MMXReg dh_typecode_ptr
=20
-DEF_HELPER_3(glue(psrlw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psraw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psllw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psrld, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psrad, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pslld, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psrlq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psllq, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(psrlw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psraw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psllw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psrld, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psrad, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pslld, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psrlq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psllq, SUFFIX), void, env, Reg, Reg, Reg)
=20
 #if SHIFT >=3D 1
-DEF_HELPER_3(glue(psrldq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pslldq, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(psrldq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pslldq, SUFFIX), void, env, Reg, Reg, Reg)
 #endif
=20
 #define SSE_HELPER_B(name, F)\
-    DEF_HELPER_3(glue(name, SUFFIX), void, env, Reg, Reg)
+    DEF_HELPER_4(glue(name, SUFFIX), void, env, Reg, Reg, Reg)
=20
 #define SSE_HELPER_W(name, F)\
-    DEF_HELPER_3(glue(name, SUFFIX), void, env, Reg, Reg)
+    DEF_HELPER_4(glue(name, SUFFIX), void, env, Reg, Reg, Reg)
=20
 #define SSE_HELPER_L(name, F)\
-    DEF_HELPER_3(glue(name, SUFFIX), void, env, Reg, Reg)
+    DEF_HELPER_4(glue(name, SUFFIX), void, env, Reg, Reg, Reg)
=20
 #define SSE_HELPER_Q(name, F)\
-    DEF_HELPER_3(glue(name, SUFFIX), void, env, Reg, Reg)
+    DEF_HELPER_4(glue(name, SUFFIX), void, env, Reg, Reg, Reg)
=20
 SSE_HELPER_B(paddb, FADD)
 SSE_HELPER_W(paddw, FADD)
@@ -109,10 +109,10 @@ SSE_HELPER_W(pmulhw, FMULHW)
 SSE_HELPER_B(pavgb, FAVG)
 SSE_HELPER_W(pavgw, FAVG)
=20
-DEF_HELPER_3(glue(pmuludq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmaddwd, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(pmuludq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmaddwd, SUFFIX), void, env, Reg, Reg, Reg)
=20
-DEF_HELPER_3(glue(psadbw, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(psadbw, SUFFIX), void, env, Reg, Reg, Reg)
 #if SHIFT < 2
 DEF_HELPER_4(glue(maskmov, SUFFIX), void, env, Reg, Reg, tl)
 #endif
@@ -134,8 +134,8 @@ DEF_HELPER_3(glue(pshufhw, SUFFIX), void, Reg, Reg, int)
 /* XXX: not accurate */
=20
 #define SSE_HELPER_P4(name)                                             \
-    DEF_HELPER_3(glue(name ## ps, SUFFIX), void, env, Reg, Reg)         \
-    DEF_HELPER_3(glue(name ## pd, SUFFIX), void, env, Reg, Reg)
+    DEF_HELPER_4(glue(name ## ps, SUFFIX), void, env, Reg, Reg, Reg)    \
+    DEF_HELPER_4(glue(name ## pd, SUFFIX), void, env, Reg, Reg, Reg)
=20
 #define SSE_HELPER_P3(name, ...)                                        \
     DEF_HELPER_3(glue(name ## ps, SUFFIX), void, env, Reg, Reg)         \
@@ -144,8 +144,8 @@ DEF_HELPER_3(glue(pshufhw, SUFFIX), void, Reg, Reg, int)
 #if SHIFT =3D=3D 1
 #define SSE_HELPER_S4(name)                                             \
     SSE_HELPER_P4(name)                                                 \
-    DEF_HELPER_3(name ## ss, void, env, Reg, Reg)                       \
-    DEF_HELPER_3(name ## sd, void, env, Reg, Reg)
+    DEF_HELPER_4(name ## ss, void, env, Reg, Reg, Reg)                  \
+    DEF_HELPER_4(name ## sd, void, env, Reg, Reg, Reg)
 #define SSE_HELPER_S3(name)                                             \
     SSE_HELPER_P3(name)                                                 \
     DEF_HELPER_3(name ## ss, void, env, Reg, Reg)                       \
@@ -155,8 +155,8 @@ DEF_HELPER_3(glue(pshufhw, SUFFIX), void, Reg, Reg, int)
 #define SSE_HELPER_S3(name, ...) SSE_HELPER_P3(name)
 #endif
=20
-DEF_HELPER_3(glue(shufps, SUFFIX), void, Reg, Reg, int)
-DEF_HELPER_3(glue(shufpd, SUFFIX), void, Reg, Reg, int)
+DEF_HELPER_4(glue(shufps, SUFFIX), void, Reg, Reg, Reg, int)
+DEF_HELPER_4(glue(shufpd, SUFFIX), void, Reg, Reg, Reg, int)
=20
 SSE_HELPER_S4(add)
 SSE_HELPER_S4(sub)
@@ -212,6 +212,7 @@ DEF_HELPER_2(cvttsd2sq, s64, env, ZMMReg)
=20
 DEF_HELPER_3(glue(rsqrtps, SUFFIX), void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(glue(rcpps, SUFFIX), void, env, ZMMReg, ZMMReg)
+
 #if SHIFT =3D=3D 1
 DEF_HELPER_3(rsqrtss, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_3(rcpss, void, env, ZMMReg, ZMMReg)
@@ -248,20 +249,20 @@ DEF_HELPER_2(glue(movmskpd, SUFFIX), i32, env, Reg)
 #endif
=20
 DEF_HELPER_2(glue(pmovmskb, SUFFIX), i32, env, Reg)
-DEF_HELPER_3(glue(packsswb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(packuswb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(packssdw, SUFFIX), void, env, Reg, Reg)
-#define UNPCK_OP(base_name, base)                                       \
-    DEF_HELPER_3(glue(punpck ## base_name ## bw, SUFFIX), void, env, Reg, =
Reg) \
-    DEF_HELPER_3(glue(punpck ## base_name ## wd, SUFFIX), void, env, Reg, =
Reg) \
-    DEF_HELPER_3(glue(punpck ## base_name ## dq, SUFFIX), void, env, Reg, =
Reg)
+DEF_HELPER_4(glue(packsswb, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(packuswb, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(packssdw, SUFFIX), void, env, Reg, Reg, Reg)
+#define UNPCK_OP(name, base)                                       \
+    DEF_HELPER_4(glue(punpck ## name ## bw, SUFFIX), void, env, Reg, Reg, =
Reg) \
+    DEF_HELPER_4(glue(punpck ## name ## wd, SUFFIX), void, env, Reg, Reg, =
Reg) \
+    DEF_HELPER_4(glue(punpck ## name ## dq, SUFFIX), void, env, Reg, Reg, =
Reg)
=20
 UNPCK_OP(l, 0)
 UNPCK_OP(h, 1)
=20
 #if SHIFT >=3D 1
-DEF_HELPER_3(glue(punpcklqdq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(punpckhqdq, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(punpcklqdq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(punpckhqdq, SUFFIX), void, env, Reg, Reg, Reg)
 #endif
=20
 /* 3DNow! float ops */
@@ -288,28 +289,28 @@ DEF_HELPER_3(pswapd, void, env, MMXReg, MMXReg)
 #endif
=20
 /* SSSE3 op helpers */
-DEF_HELPER_3(glue(phaddw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(phaddd, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(phaddsw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(phsubw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(phsubd, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(phsubsw, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(phaddw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(phaddd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(phaddsw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(phsubw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(phsubd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(phsubsw, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_3(glue(pabsb, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pabsw, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pabsd, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmaddubsw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmulhrsw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pshufb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psignb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psignw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(psignd, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_4(glue(palignr, SUFFIX), void, env, Reg, Reg, s32)
+DEF_HELPER_4(glue(pmaddubsw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmulhrsw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pshufb, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psignb, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psignw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(psignd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_5(glue(palignr, SUFFIX), void, env, Reg, Reg, Reg, s32)
=20
 /* SSE4.1 op helpers */
 #if SHIFT >=3D 1
-DEF_HELPER_3(glue(pblendvb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(blendvps, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(blendvpd, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_5(glue(pblendvb, SUFFIX), void, env, Reg, Reg, Reg, Reg)
+DEF_HELPER_5(glue(blendvps, SUFFIX), void, env, Reg, Reg, Reg, Reg)
+DEF_HELPER_5(glue(blendvpd, SUFFIX), void, env, Reg, Reg, Reg, Reg)
 DEF_HELPER_3(glue(ptest, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovsxbw, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovsxbd, SUFFIX), void, env, Reg, Reg)
@@ -323,40 +324,40 @@ DEF_HELPER_3(glue(pmovzxbq, SUFFIX), void, env, Reg, =
Reg)
 DEF_HELPER_3(glue(pmovzxwd, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovzxwq, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovzxdq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmuldq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pcmpeqq, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(packusdw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pminsb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pminsd, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pminuw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pminud, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmaxsb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmaxsd, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmaxuw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmaxud, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pmulld, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(pmuldq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pcmpeqq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(packusdw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pminsb, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pminsd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pminuw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pminud, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmaxsb, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmaxsd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmaxuw, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmaxud, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(pmulld, SUFFIX), void, env, Reg, Reg, Reg)
 #if SHIFT =3D=3D 1
 DEF_HELPER_3(glue(phminposuw, SUFFIX), void, env, Reg, Reg)
 #endif
 DEF_HELPER_4(glue(roundps, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(roundpd, SUFFIX), void, env, Reg, Reg, i32)
 #if SHIFT =3D=3D 1
-DEF_HELPER_4(glue(roundss, SUFFIX), void, env, Reg, Reg, i32)
-DEF_HELPER_4(glue(roundsd, SUFFIX), void, env, Reg, Reg, i32)
+DEF_HELPER_4(roundss_xmm, void, env, Reg, Reg, i32)
+DEF_HELPER_4(roundsd_xmm, void, env, Reg, Reg, i32)
 #endif
-DEF_HELPER_4(glue(blendps, SUFFIX), void, env, Reg, Reg, i32)
-DEF_HELPER_4(glue(blendpd, SUFFIX), void, env, Reg, Reg, i32)
-DEF_HELPER_4(glue(pblendw, SUFFIX), void, env, Reg, Reg, i32)
-DEF_HELPER_4(glue(dpps, SUFFIX), void, env, Reg, Reg, i32)
+DEF_HELPER_5(glue(blendps, SUFFIX), void, env, Reg, Reg, Reg, i32)
+DEF_HELPER_5(glue(blendpd, SUFFIX), void, env, Reg, Reg, Reg, i32)
+DEF_HELPER_5(glue(pblendw, SUFFIX), void, env, Reg, Reg, Reg, i32)
+DEF_HELPER_5(glue(dpps, SUFFIX), void, env, Reg, Reg, Reg, i32)
 #if SHIFT =3D=3D 1
-DEF_HELPER_4(glue(dppd, SUFFIX), void, env, Reg, Reg, i32)
+DEF_HELPER_5(glue(dppd, SUFFIX), void, env, Reg, Reg, Reg, i32)
 #endif
-DEF_HELPER_4(glue(mpsadbw, SUFFIX), void, env, Reg, Reg, i32)
+DEF_HELPER_5(glue(mpsadbw, SUFFIX), void, env, Reg, Reg, Reg, i32)
 #endif
=20
 /* SSE4.2 op helpers */
 #if SHIFT >=3D 1
-DEF_HELPER_3(glue(pcmpgtq, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(pcmpgtq, SUFFIX), void, env, Reg, Reg, Reg)
 #endif
 #if SHIFT =3D=3D 1
 DEF_HELPER_4(glue(pcmpestri, SUFFIX), void, env, Reg, Reg, i32)
@@ -368,15 +369,15 @@ DEF_HELPER_3(crc32, tl, i32, tl, i32)
=20
 /* AES-NI op helpers */
 #if SHIFT >=3D 1
-DEF_HELPER_3(glue(aesdec, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(aesdeclast, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(aesenc, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(aesenclast, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(aesdec, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(aesdeclast, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(aesenc, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(aesenclast, SUFFIX), void, env, Reg, Reg, Reg)
 #if SHIFT =3D=3D 1
 DEF_HELPER_3(glue(aesimc, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_4(glue(aeskeygenassist, SUFFIX), void, env, Reg, Reg, i32)
 #endif
-DEF_HELPER_4(glue(pclmulqdq, SUFFIX), void, env, Reg, Reg, i32)
+DEF_HELPER_5(glue(pclmulqdq, SUFFIX), void, env, Reg, Reg, Reg, i32)
 #endif
=20
 #undef SHIFT
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index af3fd355e0..adcb5e696a 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -131,6 +131,7 @@ typedef struct DisasContext {
     TCGv tmp4;
     TCGv_ptr ptr0;
     TCGv_ptr ptr1;
+    TCGv_ptr ptr2;
     TCGv_i32 tmp2_i32;
     TCGv_i32 tmp3_i32;
     TCGv_i64 tmp1_i64;
@@ -2970,18 +2971,28 @@ typedef void (*SSEFunc_0_epl)(TCGv_ptr env, TCGv_pt=
r reg, TCGv_i64 val);
 typedef void (*SSEFunc_0_epp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_b=
);
 typedef void (*SSEFunc_0_eppp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
                                TCGv_ptr reg_c);
+typedef void (*SSEFunc_0_epppp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
+                                TCGv_ptr reg_c, TCGv_ptr reg_d);
 typedef void (*SSEFunc_0_eppi)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
                                TCGv_i32 val);
+typedef void (*SSEFunc_0_epppi)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
+                                TCGv_ptr reg_c, TCGv_i32 val);
 typedef void (*SSEFunc_0_ppi)(TCGv_ptr reg_a, TCGv_ptr reg_b, TCGv_i32 val=
);
+typedef void (*SSEFunc_0_pppi)(TCGv_ptr reg_a, TCGv_ptr reg_b, TCGv_ptr re=
g_c,
+                               TCGv_i32 val);
 typedef void (*SSEFunc_0_eppt)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
                                TCGv val);
+typedef void (*SSEFunc_0_epppt)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
+                                TCGv_ptr reg_c, TCGv val);
=20
 static bool first =3D true; static unsigned long limit;
 #include "decode-new.h"
 #include "emit.c.inc"
 #include "decode-new.c.inc"
=20
+#define SSE_OPF_V0        (1 << 0) /* vex.v must be 1111b (only 2 operands=
) */
 #define SSE_OPF_CMP       (1 << 1) /* does not write for first operand */
+#define SSE_OPF_BLENDV    (1 << 2) /* blendv* instruction */
 #define SSE_OPF_SPECIAL   (1 << 3) /* magic */
 #define SSE_OPF_3DNOW     (1 << 4) /* 3DNow! instruction */
 #define SSE_OPF_MMX       (1 << 5) /* MMX/integer/AVX2 instruction */
@@ -2991,10 +3002,10 @@ static bool first =3D true; static unsigned long li=
mit;
 #define OP(op, flags, a, b, c, d)       \
     {flags, {{.op =3D a}, {.op =3D b}, {.op =3D c}, {.op =3D d} } }
=20
-#define MMX_OP(x) OP(op1, SSE_OPF_MMX, \
+#define MMX_OP(x) OP(op2, SSE_OPF_MMX, \
         gen_helper_ ## x ## _mmx, gen_helper_ ## x ## _xmm, NULL, NULL)
=20
-#define SSE_FOP(name) OP(op1, SSE_OPF_SCALAR, \
+#define SSE_FOP(name) OP(op2, SSE_OPF_SCALAR, \
         gen_helper_##name##ps##_xmm, gen_helper_##name##pd##_xmm, \
         gen_helper_##name##ss, gen_helper_##name##sd)
 #define SSE_OP(sname, dname, op, flags) OP(op, flags, \
@@ -3004,6 +3015,9 @@ typedef union SSEFuncs {
     SSEFunc_0_epp op1;
     SSEFunc_0_ppi op1i;
     SSEFunc_0_eppt op1t;
+    SSEFunc_0_eppp op2;
+    SSEFunc_0_pppi op2i;
+    SSEFunc_0_epppp op3;
 } SSEFuncs;
=20
 struct SSEOpHelper_table1 {
@@ -3023,8 +3037,8 @@ static const struct SSEOpHelper_table1 sse_op_table1[=
256] =3D {
     [0x11] =3D SSE_SPECIAL, /* movups, movupd, movss, movsd */
     [0x12] =3D SSE_SPECIAL, /* movlps, movlpd, movsldup, movddup */
     [0x13] =3D SSE_SPECIAL, /* movlps, movlpd */
-    [0x14] =3D SSE_OP(punpckldq, punpcklqdq, op1, 0), /* unpcklps, unpcklp=
d */
-    [0x15] =3D SSE_OP(punpckhdq, punpckhqdq, op1, 0), /* unpckhps, unpckhp=
d */
+    [0x14] =3D SSE_OP(punpckldq, punpcklqdq, op2, 0), /* unpcklps, unpcklp=
d */
+    [0x15] =3D SSE_OP(punpckhdq, punpckhqdq, op2, 0), /* unpckhps, unpckhp=
d */
     [0x16] =3D SSE_SPECIAL, /* movhps, movhpd, movshdup */
     [0x17] =3D SSE_SPECIAL, /* movhps, movhpd */
=20
@@ -3034,28 +3048,28 @@ static const struct SSEOpHelper_table1 sse_op_table=
1[256] =3D {
     [0x2b] =3D SSE_SPECIAL, /* movntps, movntpd, movntss, movntsd */
     [0x2c] =3D SSE_SPECIAL, /* cvttps2pi, cvttpd2pi, cvttsd2si, cvttss2si =
*/
     [0x2d] =3D SSE_SPECIAL, /* cvtps2pi, cvtpd2pi, cvtsd2si, cvtss2si */
-    [0x2e] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR,
+    [0x2e] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR | SSE_OPF_V0,
             gen_helper_ucomiss, gen_helper_ucomisd, NULL, NULL),
-    [0x2f] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR,
+    [0x2f] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR | SSE_OPF_V0,
             gen_helper_comiss, gen_helper_comisd, NULL, NULL),
     [0x50] =3D SSE_SPECIAL, /* movmskps, movmskpd */
-    [0x51] =3D OP(op1, SSE_OPF_SCALAR,
+    [0x51] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
                 gen_helper_sqrtps_xmm, gen_helper_sqrtpd_xmm,
                 gen_helper_sqrtss, gen_helper_sqrtsd),
-    [0x52] =3D OP(op1, SSE_OPF_SCALAR,
+    [0x52] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
                 gen_helper_rsqrtps_xmm, NULL, gen_helper_rsqrtss, NULL),
-    [0x53] =3D OP(op1, SSE_OPF_SCALAR,
+    [0x53] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
                 gen_helper_rcpps_xmm, NULL, gen_helper_rcpss, NULL),
-    [0x54] =3D SSE_OP(pand, pand, op1, 0), /* andps, andpd */
-    [0x55] =3D SSE_OP(pandn, pandn, op1, 0), /* andnps, andnpd */
-    [0x56] =3D SSE_OP(por, por, op1, 0), /* orps, orpd */
-    [0x57] =3D SSE_OP(pxor, pxor, op1, 0), /* xorps, xorpd */
+    [0x54] =3D SSE_OP(pand, pand, op2, 0), /* andps, andpd */
+    [0x55] =3D SSE_OP(pandn, pandn, op2, 0), /* andnps, andnpd */
+    [0x56] =3D SSE_OP(por, por, op2, 0), /* orps, orpd */
+    [0x57] =3D SSE_OP(pxor, pxor, op2, 0), /* xorps, xorpd */
     [0x58] =3D SSE_FOP(add),
     [0x59] =3D SSE_FOP(mul),
-    [0x5a] =3D OP(op1, SSE_OPF_SCALAR,
+    [0x5a] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
                 gen_helper_cvtps2pd_xmm, gen_helper_cvtpd2ps_xmm,
                 gen_helper_cvtss2sd, gen_helper_cvtsd2ss),
-    [0x5b] =3D OP(op1, 0,
+    [0x5b] =3D OP(op1, SSE_OPF_V0,
                 gen_helper_cvtdq2ps_xmm, gen_helper_cvtps2dq_xmm,
                 gen_helper_cvttps2dq_xmm, NULL),
     [0x5c] =3D SSE_FOP(sub),
@@ -3064,7 +3078,7 @@ static const struct SSEOpHelper_table1 sse_op_table1[=
256] =3D {
     [0x5f] =3D SSE_FOP(max),
=20
     [0xc2] =3D SSE_FOP(cmpeq), /* sse_op_table4 */
-    [0xc6] =3D SSE_OP(shufps, shufpd, op1i, SSE_OPF_SHUF),
+    [0xc6] =3D SSE_OP(shufps, shufpd, op2i, SSE_OPF_SHUF),
=20
     /* SSSE3, SSE4, MOVBE, CRC32, BMI1, BMI2, ADX.  */
     [0x38] =3D SSE_SPECIAL,
@@ -3083,13 +3097,13 @@ static const struct SSEOpHelper_table1 sse_op_table=
1[256] =3D {
     [0x69] =3D MMX_OP(punpckhwd),
     [0x6a] =3D MMX_OP(punpckhdq),
     [0x6b] =3D MMX_OP(packssdw),
-    [0x6c] =3D OP(op1, SSE_OPF_MMX,
+    [0x6c] =3D OP(op2, SSE_OPF_MMX,
                 NULL, gen_helper_punpcklqdq_xmm, NULL, NULL),
-    [0x6d] =3D OP(op1, SSE_OPF_MMX,
+    [0x6d] =3D OP(op2, SSE_OPF_MMX,
                 NULL, gen_helper_punpckhqdq_xmm, NULL, NULL),
     [0x6e] =3D SSE_SPECIAL, /* movd mm, ea */
     [0x6f] =3D SSE_SPECIAL, /* movq, movdqa, , movqdu */
-    [0x70] =3D OP(op1i, SSE_OPF_SHUF | SSE_OPF_MMX,
+    [0x70] =3D OP(op1i, SSE_OPF_SHUF | SSE_OPF_MMX | SSE_OPF_V0,
             gen_helper_pshufw_mmx, gen_helper_pshufd_xmm,
             gen_helper_pshufhw_xmm, gen_helper_pshuflw_xmm),
     [0x71] =3D SSE_SPECIAL, /* shiftw */
@@ -3100,17 +3114,17 @@ static const struct SSEOpHelper_table1 sse_op_table=
1[256] =3D {
     [0x76] =3D MMX_OP(pcmpeql),
     [0x77] =3D SSE_SPECIAL, /* emms */
     [0x78] =3D SSE_SPECIAL, /* extrq_i, insertq_i (sse4a) */
-    [0x79] =3D OP(op1, 0,
+    [0x79] =3D OP(op1, SSE_OPF_V0,
             NULL, gen_helper_extrq_r, NULL, gen_helper_insertq_r),
-    [0x7c] =3D OP(op1, 0,
+    [0x7c] =3D OP(op2, 0,
                 NULL, gen_helper_haddpd_xmm, NULL, gen_helper_haddps_xmm),
-    [0x7d] =3D OP(op1, 0,
+    [0x7d] =3D OP(op2, 0,
                 NULL, gen_helper_hsubpd_xmm, NULL, gen_helper_hsubps_xmm),
     [0x7e] =3D SSE_SPECIAL, /* movd, movd, , movq */
     [0x7f] =3D SSE_SPECIAL, /* movq, movdqa, movdqu */
     [0xc4] =3D SSE_SPECIAL, /* pinsrw */
     [0xc5] =3D SSE_SPECIAL, /* pextrw */
-    [0xd0] =3D OP(op1, 0,
+    [0xd0] =3D OP(op2, 0,
                 NULL, gen_helper_addsubpd_xmm, NULL, gen_helper_addsubps_x=
mm),
     [0xd1] =3D MMX_OP(psrlw),
     [0xd2] =3D MMX_OP(psrld),
@@ -3133,7 +3147,7 @@ static const struct SSEOpHelper_table1 sse_op_table1[=
256] =3D {
     [0xe3] =3D MMX_OP(pavgw),
     [0xe4] =3D MMX_OP(pmulhuw),
     [0xe5] =3D MMX_OP(pmulhw),
-    [0xe6] =3D OP(op1, 0,
+    [0xe6] =3D OP(op1, SSE_OPF_V0,
             NULL, gen_helper_cvttpd2dq_xmm,
             gen_helper_cvtdq2pd_xmm, gen_helper_cvtpd2dq_xmm),
     [0xe7] =3D SSE_SPECIAL,  /* movntq, movntq */
@@ -3152,7 +3166,7 @@ static const struct SSEOpHelper_table1 sse_op_table1[=
256] =3D {
     [0xf4] =3D MMX_OP(pmuludq),
     [0xf5] =3D MMX_OP(pmaddwd),
     [0xf6] =3D MMX_OP(psadbw),
-    [0xf7] =3D OP(op1t, SSE_OPF_MMX,
+    [0xf7] =3D OP(op1t, SSE_OPF_MMX | SSE_OPF_V0,
                 gen_helper_maskmov_mmx, gen_helper_maskmov_xmm, NULL, NULL=
),
     [0xf8] =3D MMX_OP(psubb),
     [0xf9] =3D MMX_OP(psubw),
@@ -3170,7 +3184,7 @@ static const struct SSEOpHelper_table1 sse_op_table1[=
256] =3D {
=20
 #define MMX_OP2(x) { gen_helper_ ## x ## _mmx, gen_helper_ ## x ## _xmm }
=20
-static const SSEFunc_0_epp sse_op_table2[3 * 8][2] =3D {
+static const SSEFunc_0_eppp sse_op_table2[3 * 8][2] =3D {
     [0 + 2] =3D MMX_OP2(psrlw),
     [0 + 4] =3D MMX_OP2(psraw),
     [0 + 6] =3D MMX_OP2(psllw),
@@ -3214,7 +3228,7 @@ static const SSEFunc_l_ep sse_op_table3bq[] =3D {
 #define SSE_CMP(x) { \
     gen_helper_ ## x ## ps ## _xmm, gen_helper_ ## x ## pd ## _xmm, \
     gen_helper_ ## x ## ss, gen_helper_ ## x ## sd}
-static const SSEFunc_0_epp sse_op_table4[8][4] =3D {
+static const SSEFunc_0_eppp sse_op_table4[8][4] =3D {
     SSE_CMP(cmpeq),
     SSE_CMP(cmplt),
     SSE_CMP(cmple),
@@ -3226,6 +3240,11 @@ static const SSEFunc_0_epp sse_op_table4[8][4] =3D {
 };
 #undef SSE_CMP
=20
+static void gen_helper_pavgusb(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b)
+{
+    gen_helper_pavgb_mmx(env, reg_a, reg_a, reg_b);
+}
+
 static const SSEFunc_0_epp sse_op_table5[256] =3D {
     [0x0c] =3D gen_helper_pi2fw,
     [0x0d] =3D gen_helper_pi2fd,
@@ -3250,7 +3269,7 @@ static const SSEFunc_0_epp sse_op_table5[256] =3D {
     [0xb6] =3D gen_helper_movq, /* pfrcpit2 */
     [0xb7] =3D gen_helper_pmulhrw_mmx,
     [0xbb] =3D gen_helper_pswapd,
-    [0xbf] =3D gen_helper_pavgb_mmx,
+    [0xbf] =3D gen_helper_pavgusb,
 };
=20
 struct SSEOpHelper_table6 {
@@ -3262,6 +3281,8 @@ struct SSEOpHelper_table6 {
 struct SSEOpHelper_table7 {
     union {
         SSEFunc_0_eppi op1;
+        SSEFunc_0_epppi op2;
+        SSEFunc_0_epppp op3;
     } fn[2];
     uint32_t ext_mask;
     int flags;
@@ -3273,15 +3294,15 @@ struct SSEOpHelper_table7 {
     {{{.op =3D mmx_name}, {.op =3D gen_helper_ ## name ## _xmm} }, \
         CPUID_EXT_ ## ext, flags}
 #define BINARY_OP_MMX(name, ext) \
-    OP(name, op1, SSE_OPF_MMX, ext, gen_helper_ ## name ## _mmx)
+    OP(name, op2, SSE_OPF_MMX, ext, gen_helper_ ## name ## _mmx)
 #define BINARY_OP(name, ext, flags) \
-    OP(name, op1, flags, ext, NULL)
+    OP(name, op2, flags, ext, NULL)
 #define UNARY_OP_MMX(name, ext) \
-    OP(name, op1, SSE_OPF_MMX, ext, gen_helper_ ## name ## _mmx)
+    OP(name, op1, SSE_OPF_V0 | SSE_OPF_MMX, ext, gen_helper_ ## name ## _m=
mx)
 #define UNARY_OP(name, ext, flags) \
-    OP(name, op1, flags, ext, NULL)
-#define BLENDV_OP(name, ext, flags) OP(name, op1, 0, ext, NULL)
-#define CMP_OP(name, ext) OP(name, op1, SSE_OPF_CMP, ext, NULL)
+    OP(name, op1, SSE_OPF_V0 | flags, ext, NULL)
+#define BLENDV_OP(name, ext, flags) OP(name, op3, SSE_OPF_BLENDV, ext, NUL=
L)
+#define CMP_OP(name, ext) OP(name, op1, SSE_OPF_CMP | SSE_OPF_V0, ext, NUL=
L)
 #define SPECIAL_OP(ext) OP(special, op1, SSE_OPF_SPECIAL, ext, NULL)
=20
 /* prefix [66] 0f 38 */
@@ -3838,7 +3859,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
                 op1_offset =3D offsetof(CPUX86State,mmx_t0);
             }
             assert(b1 < 2);
-            SSEFunc_0_epp fn =3D sse_op_table2[((b - 1) & 3) * 8 +
+            SSEFunc_0_eppp fn =3D sse_op_table2[((b - 1) & 3) * 8 +
                                        (((modrm >> 3)) & 7)][b1];
             if (!fn) {
                 goto unknown_op;
@@ -3851,8 +3872,9 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
                 op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
             }
             tcg_gen_addi_ptr(s->ptr0, cpu_env, op2_offset);
-            tcg_gen_addi_ptr(s->ptr1, cpu_env, op1_offset);
-            fn(cpu_env, s->ptr0, s->ptr1);
+            tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
+            tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
+            fn(cpu_env, s->ptr0, s->ptr1, s->ptr2);
             break;
         case 0x050: /* movmskps */
             rm =3D (modrm & 7) | REX_B(s);
@@ -4121,7 +4143,21 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
                 }
                 tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
                 tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                op6->fn[b1].op1(cpu_env, s->ptr0, s->ptr1);
+                if (op6->flags & SSE_OPF_V0) {
+                    op6->fn[b1].op1(cpu_env, s->ptr0, s->ptr1);
+                } else {
+                    tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
+                    if (op6->flags & SSE_OPF_BLENDV) {
+                        TCGv_ptr mask =3D tcg_temp_new_ptr();
+                        tcg_gen_addi_ptr(mask, cpu_env, ZMM_OFFSET(0));
+                        op6->fn[b1].op3(cpu_env, s->ptr0, s->ptr2, s->ptr1,
+                                       mask);
+                        tcg_temp_free_ptr(mask);
+                    } else {
+                        SSEFunc_0_eppp fn =3D op6->fn[b1].op2;
+                        fn(cpu_env, s->ptr0, s->ptr2, s->ptr1);
+                    }
+                }
             } else {
                 CHECK_NO_VEX(s);
                 if ((op6->flags & SSE_OPF_MMX) =3D=3D 0) {
@@ -4137,7 +4173,11 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
                 }
                 tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
                 tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                op6->fn[0].op1(cpu_env, s->ptr0, s->ptr1);
+                if (op6->flags & SSE_OPF_V0) {
+                    op6->fn[0].op1(cpu_env, s->ptr0, s->ptr1);
+                } else {
+                    op6->fn[0].op2(cpu_env, s->ptr0, s->ptr0, s->ptr1);
+                }
             }
=20
             if (op6->flags & SSE_OPF_CMP) {
@@ -4471,7 +4511,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
                 /* We only actually have one MMX instuction (palignr) */
                 assert(b =3D=3D 0x0f);
=20
-                op7->fn[0].op1(cpu_env, s->ptr0, s->ptr1,
+                op7->fn[0].op2(cpu_env, s->ptr0, s->ptr0, s->ptr1,
                                tcg_const_i32(val));
                 break;
             }
@@ -4498,7 +4538,13 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
=20
             tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
             tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-            op7->fn[b1].op1(cpu_env, s->ptr0, s->ptr1, tcg_const_i32(val));
+            if (op7->flags & SSE_OPF_V0) {
+                op7->fn[b1].op1(cpu_env, s->ptr0, s->ptr1, tcg_const_i32(v=
al));
+            } else {
+                tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
+                op7->fn[b1].op2(cpu_env, s->ptr0, s->ptr2, s->ptr1,
+                               tcg_const_i32(val));
+            }
             if (op7->flags & SSE_OPF_CMP) {
                 set_cc_op(s, CC_OP_EFLAGS);
             }
@@ -4590,26 +4636,46 @@ static void gen_sse(CPUX86State *env, DisasContext =
*s, int b)
                 return;
             }
         }
+
+
         tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
         tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-        if (sse_op_flags & SSE_OPF_SHUF) {
-            val =3D x86_ldub_code(env, s);
-            sse_op_fn.op1i(s->ptr0, s->ptr1, tcg_const_i32(val));
-        } else if (b =3D=3D 0xf7) {
-            /* maskmov : we must prepare A0 */
-            if (mod !=3D 3) {
-                goto illegal_op;
+        if (sse_op_flags & SSE_OPF_V0) {
+            if (sse_op_flags & SSE_OPF_SHUF) {
+                val =3D x86_ldub_code(env, s);
+                sse_op_fn.op1i(s->ptr0, s->ptr1, tcg_const_i32(val));
+            } else if (b =3D=3D 0xf7) {
+                /* maskmov : we must prepare A0 */
+                if (mod !=3D 3) {
+                    goto illegal_op;
+                }
+                tcg_gen_mov_tl(s->A0, cpu_regs[R_EDI]);
+                gen_extu(s->aflag, s->A0);
+                gen_add_A0_ds_seg(s);
+
+                tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
+                tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
+                sse_op_fn.op1t(cpu_env, s->ptr0, s->ptr1, s->A0);
+                /* Does not write to the fist operand */
+                return;
+            } else {
+                sse_op_fn.op1(cpu_env, s->ptr0, s->ptr1);
             }
-            tcg_gen_mov_tl(s->A0, cpu_regs[R_EDI]);
-            gen_extu(s->aflag, s->A0);
-            gen_add_A0_ds_seg(s);
-            sse_op_fn.op1t(cpu_env, s->ptr0, s->ptr1, s->A0);
-        } else if (b =3D=3D 0xc2) {
-            /* compare insns, bits 7:3 (7:5 for AVX) are ignored */
-            val =3D x86_ldub_code(env, s) & 7;
-            sse_op_table4[val][b1](cpu_env, s->ptr0, s->ptr1);
         } else {
-            sse_op_fn.op1(cpu_env, s->ptr0, s->ptr1);
+            tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
+            if (sse_op_flags & SSE_OPF_SHUF) {
+                val =3D x86_ldub_code(env, s);
+                sse_op_fn.op2i(s->ptr0, s->ptr2, s->ptr1,
+                                   tcg_const_i32(val));
+            } else {
+                SSEFunc_0_eppp fn =3D sse_op_fn.op2;
+                if (b =3D=3D 0xc2) {
+                    /* compare insns */
+                    val =3D x86_ldub_code(env, s) & 7;
+                    fn =3D sse_op_table4[val][b1];
+                }
+                fn(cpu_env, s->ptr0, s->ptr2, s->ptr1);
+            }
         }
=20
         if (sse_op_flags & SSE_OPF_CMP) {
@@ -8591,6 +8657,7 @@ static void i386_tr_init_disas_context(DisasContextBa=
se *dcbase, CPUState *cpu)
     dc->tmp4 =3D tcg_temp_new();
     dc->ptr0 =3D tcg_temp_new_ptr();
     dc->ptr1 =3D tcg_temp_new_ptr();
+    dc->ptr2 =3D tcg_temp_new_ptr();
     dc->cc_srcT =3D tcg_temp_local_new();
 }
=20
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699397; cv=none;
	d=zohomail.com; s=zohoarc;
	b=gx0cDR1BJ+21TrGji259MwJq3UkISkKF8RohIdj8n8f/t2jDlTHEwmycHYnZ1lhXtMmtGPSwTLW3QlOroJuyeQv6ycteohbTnKrDTl60zuXBSA18bH/j1yOMqAu7abkAAEOI+3Jul0OZuD83SwRAHhSwYPwEPjdAOOpWUa9e94Y=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699397;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=D/CaNeQ1w3CFkO4CLWwaCNSZW6YsiwflkbB1p4abvQo=;
	b=A4/rJk5cfYHilwxaIc8HA3KaZawZDTl7qGkXEXyvXMnBGYpVB4ZmufSsOoARNj3C2trfu093iWxWt6CYXb7j8jGN2d1YhzgI15EQEz/8flKkRmvKAWqk8KP2QaKwvGvuL+J5HyVsXHmnnrXZehPRr5bM/oaNf4gKMFXyiOzHA9M=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 16656993971271012.550866431416;
 Thu, 13 Oct 2022 15:16:37 -0700 (PDT)
Received: from localhost ([::1]:53106 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6VI-0004Ic-2V
	for importer@patchew.org; Thu, 13 Oct 2022 18:16:36 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55412)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63G-0002iv-BH
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:45 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:22121)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63E-0005GQ-OZ
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:38 -0400
Received: from mail-ej1-f72.google.com (mail-ej1-f72.google.com
 [209.85.218.72]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-27-lnlIBklQNMi6LWkchkPL-g-1; Thu, 13 Oct 2022 17:47:35 -0400
Received: by mail-ej1-f72.google.com with SMTP id
 qw17-20020a1709066a1100b0078e25b6a52fso3592ejc.3
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:34 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 q7-20020a170906540700b0078d9cd0d2d6sm498992ejo.11.2022.10.13.14.47.32
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:32 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697656;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=D/CaNeQ1w3CFkO4CLWwaCNSZW6YsiwflkbB1p4abvQo=;
 b=bh6g0tPkLTQK5LjMeLGHNJgowz5CkQJS7mycKgiYMpbk61wj3gBQuVORXaocYdgP/0huoY
 Qkgc80HPXSljyL/YoHHS76wiPj29cyeVjLWbF6egetqyS0FAl57f8K7mizVjqBAqcJCivR
 5t+e++l7TKnhgDkXAc/STKwPPBTl/ew=
X-MC-Unique: lnlIBklQNMi6LWkchkPL-g-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=D/CaNeQ1w3CFkO4CLWwaCNSZW6YsiwflkbB1p4abvQo=;
 b=CuUP8rJhfwv1yUZA1NB0DFlBrGTjzlsPr5vY2ABJpX5E2qiDzeBvu167sBq10SZ3yD
 +O2EFCTB8b6Qsg2QSq1avwqEbrNNBLB6xnV2nmjmcg+tPR5VnDFc5OzYEM5eZKuYqc0U
 zSRxBCVqsvMJB40yT5Txe39GoD7necYSQFQDM91YGFw5EZzE+0QmW6Pkm8Jk1YiH94rk
 rapKt+nIR+HhckW6AYfZoWWNcbbVnjya01JnREaKNi4u+PVFlzS4s+5xAalND2mAYeuf
 E6LbURAK+NxGZp54G1F8V8fqYieK5J+LsKKuUBhb25s7kHmW6nGjyLzbLvMl8w9dZw6Y
 Swlg==
X-Gm-Message-State: ACrzQf36JrIbyUxsEqpWKIboTKsVddHfadN9DyOzsiellUIfb661ftkp
 FET5wf6j5ftFDnU78fu5UVh2vSM5z6TzgrJPgmEgSR03XklkpPCTD5csD8fSCcrcNCu1HPw3dr0
 garQs6k/0fl+es6e4jyNH7RQ15m/DI2aJ74PfYdj4jCwaMOTiydKw10gLdbDmMWXEZ+w=
X-Received: by 2002:a05:6402:358e:b0:45c:aa8b:f7e9 with SMTP id
 y14-20020a056402358e00b0045caa8bf7e9mr1538294edc.33.1665697653448;
 Thu, 13 Oct 2022 14:47:33 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7+OVk3AJl7kauHi1SDxshCFzTq7sGSy8ZbmxTKHuuaLxkUGNz9rPomNZLw6t+JwNLntSCdeQ==
X-Received: by 2002:a05:6402:358e:b0:45c:aa8b:f7e9 with SMTP id
 y14-20020a056402358e00b0045caa8bf7e9mr1538281edc.33.1665697653160;
 Thu, 13 Oct 2022 14:47:33 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 13/35] target/i386: support operand merging in binary scalar
 helpers
Date: Thu, 13 Oct 2022 23:46:29 +0200
Message-Id: <20221013214651.672114-14-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699397838100001
Content-Type: text/plain; charset="utf-8"

Compared to Paul's implementation, the new decoder will use a different app=
roach
to implement AVX's merging of dst with src1 on scalar operations.  Adjust t=
he
helpers to provide this functionality.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 5f0ee9db52..ddedc46f36 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -557,12 +557,20 @@ void glue(helper_pshufhw, SUFFIX)(Reg *d, Reg *s, int=
 order)
                                                                         \
     void helper_ ## name ## ss(CPUX86State *env, Reg *d, Reg *v, Reg *s)\
     {                                                                   \
+        int i;                                                          \
         d->ZMM_S(0) =3D F(32, v->ZMM_S(0), s->ZMM_S(0));                  \
+        for (i =3D 1; i < 2 << SHIFT; i++) {                              \
+            d->ZMM_L(i) =3D v->ZMM_L(i);                                  \
+        }                                                               \
     }                                                                   \
                                                                         \
     void helper_ ## name ## sd(CPUX86State *env, Reg *d, Reg *v, Reg *s)\
     {                                                                   \
+        int i;                                                          \
         d->ZMM_D(0) =3D F(64, v->ZMM_D(0), s->ZMM_D(0));                  \
+        for (i =3D 1; i < 1 << SHIFT; i++) {                              \
+            d->ZMM_Q(i) =3D v->ZMM_Q(i);                                  \
+        }                                                               \
     }
=20
 #else
@@ -1027,12 +1035,20 @@ void glue(helper_addsubpd, SUFFIX)(CPUX86State *env=
, Reg *d, Reg *v, Reg *s)
     SSE_HELPER_CMP_P(name, F, C)                                          =
  \
     void helper_ ## name ## ss(CPUX86State *env, Reg *d, Reg *v, Reg *s)  =
  \
     {                                                                     =
  \
+        int i;                                                            =
  \
         d->ZMM_L(0) =3D C(F(32, v->ZMM_S(0), s->ZMM_S(0))) ? -1 : 0;      =
    \
+        for (i =3D 1; i < 2 << SHIFT; i++) {                              =
    \
+            d->ZMM_L(i) =3D v->ZMM_L(i);                                  =
    \
+        }                                                                 =
  \
     }                                                                     =
  \
                                                                           =
  \
     void helper_ ## name ## sd(CPUX86State *env, Reg *d, Reg *v, Reg *s)  =
  \
     {                                                                     =
  \
+        int i;                                                            =
  \
         d->ZMM_Q(0) =3D C(F(64, v->ZMM_D(0), s->ZMM_D(0))) ? -1 : 0;      =
    \
+        for (i =3D 1; i < 1 << SHIFT; i++) {                              =
    \
+            d->ZMM_Q(i) =3D v->ZMM_Q(i);                                  =
    \
+        }                                                                 =
  \
     }
=20
 #define FPU_EQ(x) (x =3D=3D float_relation_equal)
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699026; cv=none;
	d=zohomail.com; s=zohoarc;
	b=W+NdlOGlU2UMN+ntoE7mCBfnbvUYOJKoNesnGerusDZbeYyLN1tYLLmI8csGaQYw5t/f0dRTKnmSxnmlAy85vyeZYCAnu0W6OoObVDINxgrh6kv/26ziFKCqgrl9VtWt1v1RtM8pk+ZdhISjtmc/0Ybmhd8Uh63/eOCVC5ON4qQ=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699026;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=11b+anNzONj5vFalM7BFoOBZ1yeYcEzq0WkqgWd2l3I=;
	b=BzU9gNpnabKACJ+3XgYolcLfR0wV+gktw1VeodRVwl55t/P81c8lOc4O3sHUoBxzwUQxU8yf9Zpz6UH8xAH8FxUY0IIjLOFTBUTeJvCbPgSTKgDeRFAuXmk61O5bzl5DD3XV2Gf1GFf/Ms8YXqsoOASa38eIKI57rQgGPwBRudU=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699026943199.25674801691946;
 Thu, 13 Oct 2022 15:10:26 -0700 (PDT)
Received: from localhost ([::1]:38126 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6PJ-0002uA-Lk
	for importer@patchew.org; Thu, 13 Oct 2022 18:10:25 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55416)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63L-0002jF-Ml
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:49 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:40979)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63I-0005Gd-0i
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:42 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-323-8ur4V8MuPICScbwkglDe0w-1; Thu, 13 Oct 2022 17:47:38 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 h9-20020a05640250c900b0045cfb639f56so1602328edb.13
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:37 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 f20-20020a50fe14000000b0045720965c7asm547430edt.11.2022.10.13.14.47.35
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:35 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697659;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=11b+anNzONj5vFalM7BFoOBZ1yeYcEzq0WkqgWd2l3I=;
 b=aEBFO/MUGAHtxg3CvrQ0Nh5e2EBNRdLMRdnDnIjNYg2cCaEljWub8wHRgRxZy/XB7yQAcS
 G7Uzu+exOCov3WSmp0CmrCY30G/qt7QwtR9sEd1BpGa2COl+h3sLWpkwo2kQC63c8bJtzy
 3A7lEHVq9lWM+SEulQIAoS/jnGS62I0=
X-MC-Unique: 8ur4V8MuPICScbwkglDe0w-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=11b+anNzONj5vFalM7BFoOBZ1yeYcEzq0WkqgWd2l3I=;
 b=33eevy2Trd3cQCa1q31q3J5fIubUvQOK40NuUto04L71O3qcUo1mz1QpofGe5MQxnP
 i0pVAVcwVjZnT/qVRIO1eu2F4gxfpTYfWLzDqpoBTyOCq3jBBAgiVreCUZ5Cnb0nNyWE
 VxYSHrYt2Y10YvR+7tc78Q1P/EdsJkapKCMUUofmZaOjayVcIAGpipl12Ehxsqb03tKK
 8ZLICVMe5QUri1ZWaOo/Ps3NEDRrtMOObvHUhvEliBxbePNjcq0MSfeFOpd1cl+191Vk
 j4K+JjYon8qKa0t4i3aXdL7UTp9kX7Katw1UFZDoE6eazQJbPLIrHu/+87h4b+igajGh
 XnUA==
X-Gm-Message-State: ACrzQf1cMbLJKRaYFRjPdKn0scdYFA6FLdyimHRJcrxZzR10a+ZSnCda
 RmhJllghSrF29kPCzHslRQv/7pKzwDR9pIkB32i34/I4Hcd1cG6QTPutgXtQgUmmxargDG/Kwy8
 faA3mc47n0aeIVC7lLOGMF5R/N5puoN+mPAV7udRyxA3/KZvFAhZl2zR63LUXEezLI3U=
X-Received: by 2002:a17:907:7203:b0:78d:b8ba:c1a4 with SMTP id
 dr3-20020a170907720300b0078db8bac1a4mr1317515ejc.60.1665697656313;
 Thu, 13 Oct 2022 14:47:36 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM61YG/dJ8JiRNsr/O+qc+EJzbR+hn+xSkCw3QelEetz47fJz3fDtqd75nIAOVjOb5cs5qZPxw==
X-Received: by 2002:a17:907:7203:b0:78d:b8ba:c1a4 with SMTP id
 dr3-20020a170907720300b0078db8bac1a4mr1317495ejc.60.1665697655973;
 Thu, 13 Oct 2022 14:47:35 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 14/35] target/i386: provide 3-operand versions of unary scalar
 helpers
Date: Thu, 13 Oct 2022 23:46:30 +0200
Message-Id: <20221013214651.672114-15-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699027459100001
Content-Type: text/plain; charset="utf-8"

Compared to Paul's implementation, the new decoder will use a different app=
roach
to implement AVX's merging of dst with src1 on scalar operations.  Adjust t=
he
old SSE decoder to be compatible with new-style helpers.

The affected instructions are CVTSx2Sx, ROUNDSx, RSQRTSx, SQRTSx, RCPSx.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h        | 48 ++++++++++++++++++++++++++++++------
 target/i386/ops_sse_header.h | 16 ++++++------
 target/i386/tcg/translate.c  | 22 ++++++++++-------
 3 files changed, 61 insertions(+), 25 deletions(-)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index ddedc46f36..8bb7293975 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -617,14 +617,22 @@ void glue(helper_sqrtpd, SUFFIX)(CPUX86State *env, Re=
g *d, Reg *s)
 }
=20
 #if SHIFT =3D=3D 1
-void helper_sqrtss(CPUX86State *env, Reg *d, Reg *s)
+void helper_sqrtss(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
+    int i;
     d->ZMM_S(0) =3D float32_sqrt(s->ZMM_S(0), &env->sse_status);
+    for (i =3D 1; i < 2 << SHIFT; i++) {
+        d->ZMM_L(i) =3D v->ZMM_L(i);
+    }
 }
=20
-void helper_sqrtsd(CPUX86State *env, Reg *d, Reg *s)
+void helper_sqrtsd(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
+    int i;
     d->ZMM_D(0) =3D float64_sqrt(s->ZMM_D(0), &env->sse_status);
+    for (i =3D 1; i < 1 << SHIFT; i++) {
+        d->ZMM_Q(i) =3D v->ZMM_Q(i);
+    }
 }
 #endif
=20
@@ -649,14 +657,22 @@ void glue(helper_cvtpd2ps, SUFFIX)(CPUX86State *env, =
Reg *d, Reg *s)
 }
=20
 #if SHIFT =3D=3D 1
-void helper_cvtss2sd(CPUX86State *env, Reg *d, Reg *s)
+void helper_cvtss2sd(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
+    int i;
     d->ZMM_D(0) =3D float32_to_float64(s->ZMM_S(0), &env->sse_status);
+    for (i =3D 1; i < 1 << SHIFT; i++) {
+        d->ZMM_Q(i) =3D v->ZMM_Q(i);
+    }
 }
=20
-void helper_cvtsd2ss(CPUX86State *env, Reg *d, Reg *s)
+void helper_cvtsd2ss(CPUX86State *env, Reg *d, Reg *v, Reg *s)
 {
+    int i;
     d->ZMM_S(0) =3D float64_to_float32(s->ZMM_D(0), &env->sse_status);
+    for (i =3D 1; i < 2 << SHIFT; i++) {
+        d->ZMM_L(i) =3D v->ZMM_L(i);
+    }
 }
 #endif
=20
@@ -876,13 +892,17 @@ void glue(helper_rsqrtps, SUFFIX)(CPUX86State *env, Z=
MMReg *d, ZMMReg *s)
 }
=20
 #if SHIFT =3D=3D 1
-void helper_rsqrtss(CPUX86State *env, ZMMReg *d, ZMMReg *s)
+void helper_rsqrtss(CPUX86State *env, ZMMReg *d, ZMMReg *v, ZMMReg *s)
 {
     uint8_t old_flags =3D get_float_exception_flags(&env->sse_status);
+    int i;
     d->ZMM_S(0) =3D float32_div(float32_one,
                               float32_sqrt(s->ZMM_S(0), &env->sse_status),
                               &env->sse_status);
     set_float_exception_flags(old_flags, &env->sse_status);
+    for (i =3D 1; i < 2 << SHIFT; i++) {
+        d->ZMM_L(i) =3D v->ZMM_L(i);
+    }
 }
 #endif
=20
@@ -897,10 +917,14 @@ void glue(helper_rcpps, SUFFIX)(CPUX86State *env, ZMM=
Reg *d, ZMMReg *s)
 }
=20
 #if SHIFT =3D=3D 1
-void helper_rcpss(CPUX86State *env, ZMMReg *d, ZMMReg *s)
+void helper_rcpss(CPUX86State *env, ZMMReg *d, ZMMReg *v, ZMMReg *s)
 {
     uint8_t old_flags =3D get_float_exception_flags(&env->sse_status);
+    int i;
     d->ZMM_S(0) =3D float32_div(float32_one, s->ZMM_S(0), &env->sse_status=
);
+    for (i =3D 1; i < 2 << SHIFT; i++) {
+        d->ZMM_L(i) =3D v->ZMM_L(i);
+    }
     set_float_exception_flags(old_flags, &env->sse_status);
 }
 #endif
@@ -1798,11 +1822,12 @@ void glue(helper_roundpd, SUFFIX)(CPUX86State *env,=
 Reg *d, Reg *s,
 }
=20
 #if SHIFT =3D=3D 1
-void glue(helper_roundss, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,
+void glue(helper_roundss, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,
                                   uint32_t mode)
 {
     uint8_t old_flags =3D get_float_exception_flags(&env->sse_status);
     signed char prev_rounding_mode;
+    int i;
=20
     prev_rounding_mode =3D env->sse_status.float_rounding_mode;
     if (!(mode & (1 << 2))) {
@@ -1823,6 +1848,9 @@ void glue(helper_roundss, SUFFIX)(CPUX86State *env, R=
eg *d, Reg *s,
     }
=20
     d->ZMM_S(0) =3D float32_round_to_int(s->ZMM_S(0), &env->sse_status);
+    for (i =3D 1; i < 2 << SHIFT; i++) {
+        d->ZMM_L(i) =3D v->ZMM_L(i);
+    }
=20
     if (mode & (1 << 3) && !(old_flags & float_flag_inexact)) {
         set_float_exception_flags(get_float_exception_flags(&env->sse_stat=
us) &
@@ -1832,11 +1860,12 @@ void glue(helper_roundss, SUFFIX)(CPUX86State *env,=
 Reg *d, Reg *s,
     env->sse_status.float_rounding_mode =3D prev_rounding_mode;
 }
=20
-void glue(helper_roundsd, SUFFIX)(CPUX86State *env, Reg *d, Reg *s,
+void glue(helper_roundsd, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,
                                   uint32_t mode)
 {
     uint8_t old_flags =3D get_float_exception_flags(&env->sse_status);
     signed char prev_rounding_mode;
+    int i;
=20
     prev_rounding_mode =3D env->sse_status.float_rounding_mode;
     if (!(mode & (1 << 2))) {
@@ -1857,6 +1886,9 @@ void glue(helper_roundsd, SUFFIX)(CPUX86State *env, R=
eg *d, Reg *s,
     }
=20
     d->ZMM_D(0) =3D float64_round_to_int(s->ZMM_D(0), &env->sse_status);
+    for (i =3D 1; i < 1 << SHIFT; i++) {
+        d->ZMM_Q(i) =3D v->ZMM_Q(i);
+    }
=20
     if (mode & (1 << 3) && !(old_flags & float_flag_inexact)) {
         set_float_exception_flags(get_float_exception_flags(&env->sse_stat=
us) &
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index b60fe2f0d4..32ffa8445b 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -148,8 +148,8 @@ DEF_HELPER_3(glue(pshufhw, SUFFIX), void, Reg, Reg, int)
     DEF_HELPER_4(name ## sd, void, env, Reg, Reg, Reg)
 #define SSE_HELPER_S3(name)                                             \
     SSE_HELPER_P3(name)                                                 \
-    DEF_HELPER_3(name ## ss, void, env, Reg, Reg)                       \
-    DEF_HELPER_3(name ## sd, void, env, Reg, Reg)
+    DEF_HELPER_4(name ## ss, void, env, Reg, Reg, Reg)                  \
+    DEF_HELPER_4(name ## sd, void, env, Reg, Reg, Reg)
 #else
 #define SSE_HELPER_S4(name, ...) SSE_HELPER_P4(name)
 #define SSE_HELPER_S3(name, ...) SSE_HELPER_P3(name)
@@ -179,8 +179,8 @@ DEF_HELPER_3(glue(cvttps2dq, SUFFIX), void, env, ZMMReg=
, ZMMReg)
 DEF_HELPER_3(glue(cvttpd2dq, SUFFIX), void, env, ZMMReg, ZMMReg)
=20
 #if SHIFT =3D=3D 1
-DEF_HELPER_3(cvtss2sd, void, env, Reg, Reg)
-DEF_HELPER_3(cvtsd2ss, void, env, Reg, Reg)
+DEF_HELPER_4(cvtss2sd, void, env, Reg, Reg, Reg)
+DEF_HELPER_4(cvtsd2ss, void, env, Reg, Reg, Reg)
 DEF_HELPER_3(cvtpi2ps, void, env, ZMMReg, MMXReg)
 DEF_HELPER_3(cvtpi2pd, void, env, ZMMReg, MMXReg)
 DEF_HELPER_3(cvtsi2ss, void, env, ZMMReg, i32)
@@ -214,8 +214,8 @@ DEF_HELPER_3(glue(rsqrtps, SUFFIX), void, env, ZMMReg, =
ZMMReg)
 DEF_HELPER_3(glue(rcpps, SUFFIX), void, env, ZMMReg, ZMMReg)
=20
 #if SHIFT =3D=3D 1
-DEF_HELPER_3(rsqrtss, void, env, ZMMReg, ZMMReg)
-DEF_HELPER_3(rcpss, void, env, ZMMReg, ZMMReg)
+DEF_HELPER_4(rsqrtss, void, env, ZMMReg, ZMMReg, ZMMReg)
+DEF_HELPER_4(rcpss, void, env, ZMMReg, ZMMReg, ZMMReg)
 DEF_HELPER_3(extrq_r, void, env, ZMMReg, ZMMReg)
 DEF_HELPER_4(extrq_i, void, env, ZMMReg, int, int)
 DEF_HELPER_3(insertq_r, void, env, ZMMReg, ZMMReg)
@@ -342,8 +342,8 @@ DEF_HELPER_3(glue(phminposuw, SUFFIX), void, env, Reg, =
Reg)
 DEF_HELPER_4(glue(roundps, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(roundpd, SUFFIX), void, env, Reg, Reg, i32)
 #if SHIFT =3D=3D 1
-DEF_HELPER_4(roundss_xmm, void, env, Reg, Reg, i32)
-DEF_HELPER_4(roundsd_xmm, void, env, Reg, Reg, i32)
+DEF_HELPER_5(roundss_xmm, void, env, Reg, Reg, Reg, i32)
+DEF_HELPER_5(roundsd_xmm, void, env, Reg, Reg, Reg, i32)
 #endif
 DEF_HELPER_5(glue(blendps, SUFFIX), void, env, Reg, Reg, Reg, i32)
 DEF_HELPER_5(glue(blendpd, SUFFIX), void, env, Reg, Reg, Reg, i32)
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index adcb5e696a..bb3076528f 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -3011,6 +3011,9 @@ static bool first =3D true; static unsigned long limi=
t;
 #define SSE_OP(sname, dname, op, flags) OP(op, flags, \
         gen_helper_##sname##_xmm, gen_helper_##dname##_xmm, NULL, NULL)
=20
+#define SSE_OP_UNARY(a, b, c, d)       \
+    {SSE_OPF_SCALAR | SSE_OPF_V0, {{.op1 =3D a}, {.op1 =3D b}, {.op2 =3D c=
}, {.op2 =3D d} } }
+
 typedef union SSEFuncs {
     SSEFunc_0_epp op1;
     SSEFunc_0_ppi op1i;
@@ -3053,12 +3056,12 @@ static const struct SSEOpHelper_table1 sse_op_table=
1[256] =3D {
     [0x2f] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR | SSE_OPF_V0,
             gen_helper_comiss, gen_helper_comisd, NULL, NULL),
     [0x50] =3D SSE_SPECIAL, /* movmskps, movmskpd */
-    [0x51] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
+    [0x51] =3D SSE_OP_UNARY(
                 gen_helper_sqrtps_xmm, gen_helper_sqrtpd_xmm,
                 gen_helper_sqrtss, gen_helper_sqrtsd),
-    [0x52] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
+    [0x52] =3D SSE_OP_UNARY(
                 gen_helper_rsqrtps_xmm, NULL, gen_helper_rsqrtss, NULL),
-    [0x53] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
+    [0x53] =3D SSE_OP_UNARY(
                 gen_helper_rcpps_xmm, NULL, gen_helper_rcpss, NULL),
     [0x54] =3D SSE_OP(pand, pand, op2, 0), /* andps, andpd */
     [0x55] =3D SSE_OP(pandn, pandn, op2, 0), /* andnps, andnpd */
@@ -3066,9 +3069,9 @@ static const struct SSEOpHelper_table1 sse_op_table1[=
256] =3D {
     [0x57] =3D SSE_OP(pxor, pxor, op2, 0), /* xorps, xorpd */
     [0x58] =3D SSE_FOP(add),
     [0x59] =3D SSE_FOP(mul),
-    [0x5a] =3D OP(op1, SSE_OPF_SCALAR | SSE_OPF_V0,
-                gen_helper_cvtps2pd_xmm, gen_helper_cvtpd2ps_xmm,
-                gen_helper_cvtss2sd, gen_helper_cvtsd2ss),
+    [0x5a] =3D SSE_OP_UNARY(
+                 gen_helper_cvtps2pd_xmm, gen_helper_cvtpd2ps_xmm,
+                 gen_helper_cvtss2sd, gen_helper_cvtsd2ss),
     [0x5b] =3D OP(op1, SSE_OPF_V0,
                 gen_helper_cvtdq2ps_xmm, gen_helper_cvtps2dq_xmm,
                 gen_helper_cvttps2dq_xmm, NULL),
@@ -3364,8 +3367,8 @@ static const struct SSEOpHelper_table6 sse_op_table6[=
256] =3D {
 static const struct SSEOpHelper_table7 sse_op_table7[256] =3D {
     [0x08] =3D UNARY_OP(roundps, SSE41, 0),
     [0x09] =3D UNARY_OP(roundpd, SSE41, 0),
-    [0x0a] =3D UNARY_OP(roundss, SSE41, SSE_OPF_SCALAR),
-    [0x0b] =3D UNARY_OP(roundsd, SSE41, SSE_OPF_SCALAR),
+    [0x0a] =3D BINARY_OP(roundss, SSE41, SSE_OPF_SCALAR),
+    [0x0b] =3D BINARY_OP(roundsd, SSE41, SSE_OPF_SCALAR),
     [0x0c] =3D BINARY_OP(blendps, SSE41, 0),
     [0x0d] =3D BINARY_OP(blendpd, SSE41, 0),
     [0x0e] =3D BINARY_OP(pblendw, SSE41, SSE_OPF_MMX),
@@ -4640,7 +4643,8 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
=20
         tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
         tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-        if (sse_op_flags & SSE_OPF_V0) {
+        if ((sse_op_flags & SSE_OPF_V0) &&
+            !((sse_op_flags & SSE_OPF_SCALAR) && b1 >=3D 2)) {
             if (sse_op_flags & SSE_OPF_SHUF) {
                 val =3D x86_ldub_code(env, s);
                 sse_op_fn.op1i(s->ptr0, s->ptr1, tcg_const_i32(val));
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698978; cv=none;
	d=zohomail.com; s=zohoarc;
	b=BpkjDnowZE4sLoc8j7Fh6Ruin1QalwnTXFel/SiGLEeU9lcrJClLKWyC1dPMqJtIQhUQBg4XwbYGt6jW0kPIkNJqQkT8TW6ucr0iFExrxq3kOysaJ50V/VCrM+bWeZAhw/TbkK7gjrxFFD6548DxkE+CiM2ouG64qGJpYyA2UJA=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698978;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=jGWfq6eTVwMpCraC7JzJ6/JuO3n3PCIS41bQQLFgqiA=;
	b=QtwrwTfJod0tmYnavuO37iwvSCTgu+J0ZJziVbi1WCLfuj93vY/LZkTv9P8kQyK7Xrr2ooBQ3OTvrAhJJ4lrkNMbE7ljuwsdjs6hE9AdIuuVkQZmmbFt+X6mq4as8DxoB7q4khYWgaPntbGVeYXZzW7PSwqYnaMBlkfcWcx29N8=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698978398472.6575760759199;
 Thu, 13 Oct 2022 15:09:38 -0700 (PDT)
Received: from localhost ([::1]:58104 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6OW-000150-Dk
	for importer@patchew.org; Thu, 13 Oct 2022 18:09:36 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55418)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63M-0002jJ-P9
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:49 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:54085)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63K-0005Gq-84
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:44 -0400
Received: from mail-ej1-f71.google.com (mail-ej1-f71.google.com
 [209.85.218.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-197-WVpjkkBlONSYu9PztdtSBg-1; Thu, 13 Oct 2022 17:47:40 -0400
Received: by mail-ej1-f71.google.com with SMTP id
 hr29-20020a1709073f9d00b0078333782c48so1469958ejc.10
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:40 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 s11-20020a50d48b000000b00458947539desm494103edi.78.2022.10.13.14.47.37
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:38 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697661;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=jGWfq6eTVwMpCraC7JzJ6/JuO3n3PCIS41bQQLFgqiA=;
 b=bMklFlyNtXKbRG5InGEOsdxzMdySreo28QbZ5frU7icQM61vsiRIvCfEVbf+wUnJQpB4g9
 CbBRG3k0Q6pd8ImurfTNuqtcKcGjp9L79NWOwFi4nAHEaktQMplioLVW1rFllMXQgHoyZw
 xWU+nWOyaquhzRrr2f8V8pUacCdJEKs=
X-MC-Unique: WVpjkkBlONSYu9PztdtSBg-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=jGWfq6eTVwMpCraC7JzJ6/JuO3n3PCIS41bQQLFgqiA=;
 b=1FSd5e2hjqUdE+3F4shNk/P2HESFpQg0XP0DYX+dj6qVSy8UZk6zYMCZQBH7VTgRjG
 Gc/2TqsjlTuNA2kP9z2BzoNKHDRWSul2bR03sytIfxnJH0DOgFZNjjxDrBcv00IU/YhZ
 uwA/sOzcr7rxauQt7EXddmPwzLphZttfdJ5wVgeVZfAI4QWo6TAFfHZUB7hD5YSbqUIr
 +CfITSKj7FjcvFIn9MT5aMrEfBhpKNERTabiBadr54VDyU6BM32H2aCy3EuYTwZnFJcb
 x6Yi4HqsztcT6vPXonaLiK44KmPbGd59fYLohBiuD0aeRJQN4eJ6+WEXzPPnN8o5eEZg
 JWIg==
X-Gm-Message-State: ACrzQf2YiSDYf+WIj0D19Qa+cXFo5jKgiud/wTQ7cUt1XWQ5VwmThJnM
 uptxTxBCt9u3E61INHDYS2Ajm6iM3PHYd5r3oXPK2Evjp/1kIj6a9PUiI5ozF7x9Rd4V8tDri5J
 1cngtPy1oTLwVr01KS2QDs9l4JRewXCxUO7wggumhwDwtbftHvN1Ns8BxP0UEW5h6XFI=
X-Received: by 2002:a17:907:3207:b0:741:3a59:738d with SMTP id
 xg7-20020a170907320700b007413a59738dmr1326019ejb.110.1665697659135;
 Thu, 13 Oct 2022 14:47:39 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6NoW1SM7y52zu9GAs0c0bnL9Ae7q17q2GPUVgpoMwqNblOzAARAdacmS1v2v3ndVt7+vf24A==
X-Received: by 2002:a17:907:3207:b0:741:3a59:738d with SMTP id
 xg7-20020a170907320700b007413a59738dmr1326011ejb.110.1665697658903;
 Thu, 13 Oct 2022 14:47:38 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 15/35] target/i386: implement additional AVX comparison
 operators
Date: Thu, 13 Oct 2022 23:46:31 +0200
Message-Id: <20221013214651.672114-16-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698978978100003
Content-Type: text/plain; charset="utf-8"

The new implementation of SSE will cover AVX from the get go, so include
the 24 extra comparison operators that are only available with the VEX
prefix.

Based on a patch by Paul Brook <paul@nowt.org>.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h        | 38 ++++++++++++++++++++++++++++++++++++
 target/i386/ops_sse_header.h | 27 +++++++++++++++++++++++++
 2 files changed, 65 insertions(+)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 8bb7293975..18d217ebf5 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -1075,10 +1075,21 @@ void glue(helper_addsubpd, SUFFIX)(CPUX86State *env=
, Reg *d, Reg *v, Reg *s)
         }                                                                 =
  \
     }
=20
+static inline bool FPU_EQU(FloatRelation x)
+{
+    return (x =3D=3D float_relation_equal || x =3D=3D float_relation_unord=
ered);
+}
+static inline bool FPU_GE(FloatRelation x)
+{
+    return (x =3D=3D float_relation_equal || x =3D=3D float_relation_great=
er);
+}
 #define FPU_EQ(x) (x =3D=3D float_relation_equal)
 #define FPU_LT(x) (x =3D=3D float_relation_less)
 #define FPU_LE(x) (x <=3D float_relation_equal)
+#define FPU_GT(x) (x =3D=3D float_relation_greater)
 #define FPU_UNORD(x) (x =3D=3D float_relation_unordered)
+/* We must make sure we evaluate the argument in case it is a signalling N=
AN */
+#define FPU_FALSE(x) (x =3D=3D float_relation_equal && 0)
=20
 #define FPU_CMPQ(size, a, b) \
     float ## size ## _compare_quiet(a, b, &env->sse_status)
@@ -1098,6 +1109,33 @@ SSE_HELPER_CMP(cmpnlt, FPU_CMPS, !FPU_LT)
 SSE_HELPER_CMP(cmpnle, FPU_CMPS, !FPU_LE)
 SSE_HELPER_CMP(cmpord, FPU_CMPQ, !FPU_UNORD)
=20
+SSE_HELPER_CMP(cmpequ, FPU_CMPQ, FPU_EQU)
+SSE_HELPER_CMP(cmpnge, FPU_CMPS, !FPU_GE)
+SSE_HELPER_CMP(cmpngt, FPU_CMPS, !FPU_GT)
+SSE_HELPER_CMP(cmpfalse, FPU_CMPQ,  FPU_FALSE)
+SSE_HELPER_CMP(cmpnequ, FPU_CMPQ, !FPU_EQU)
+SSE_HELPER_CMP(cmpge, FPU_CMPS, FPU_GE)
+SSE_HELPER_CMP(cmpgt, FPU_CMPS, FPU_GT)
+SSE_HELPER_CMP(cmptrue, FPU_CMPQ,  !FPU_FALSE)
+
+SSE_HELPER_CMP(cmpeqs, FPU_CMPS, FPU_EQ)
+SSE_HELPER_CMP(cmpltq, FPU_CMPQ, FPU_LT)
+SSE_HELPER_CMP(cmpleq, FPU_CMPQ, FPU_LE)
+SSE_HELPER_CMP(cmpunords, FPU_CMPS,  FPU_UNORD)
+SSE_HELPER_CMP(cmpneqq, FPU_CMPS, !FPU_EQ)
+SSE_HELPER_CMP(cmpnltq, FPU_CMPQ, !FPU_LT)
+SSE_HELPER_CMP(cmpnleq, FPU_CMPQ, !FPU_LE)
+SSE_HELPER_CMP(cmpords, FPU_CMPS, !FPU_UNORD)
+
+SSE_HELPER_CMP(cmpequs, FPU_CMPS, FPU_EQU)
+SSE_HELPER_CMP(cmpngeq, FPU_CMPQ, !FPU_GE)
+SSE_HELPER_CMP(cmpngtq, FPU_CMPQ, !FPU_GT)
+SSE_HELPER_CMP(cmpfalses, FPU_CMPS,  FPU_FALSE)
+SSE_HELPER_CMP(cmpnequs, FPU_CMPS, !FPU_EQU)
+SSE_HELPER_CMP(cmpgeq, FPU_CMPQ, FPU_GE)
+SSE_HELPER_CMP(cmpgtq, FPU_CMPQ, FPU_GT)
+SSE_HELPER_CMP(cmptrues, FPU_CMPS,  !FPU_FALSE)
+
 #undef SSE_HELPER_CMP
=20
 #if SHIFT =3D=3D 1
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 32ffa8445b..e7866a8395 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -237,6 +237,33 @@ SSE_HELPER_CMP(cmpnlt, FPU_CMPS, !FPU_LT)
 SSE_HELPER_CMP(cmpnle, FPU_CMPS, !FPU_LE)
 SSE_HELPER_CMP(cmpord, FPU_CMPQ, !FPU_UNORD)
=20
+SSE_HELPER_CMP(cmpequ, FPU_CMPQ, FPU_EQU)
+SSE_HELPER_CMP(cmpnge, FPU_CMPS, !FPU_GE)
+SSE_HELPER_CMP(cmpngt, FPU_CMPS, !FPU_GT)
+SSE_HELPER_CMP(cmpfalse, FPU_CMPQ,  FPU_FALSE)
+SSE_HELPER_CMP(cmpnequ, FPU_CMPQ, !FPU_EQU)
+SSE_HELPER_CMP(cmpge, FPU_CMPS, FPU_GE)
+SSE_HELPER_CMP(cmpgt, FPU_CMPS, FPU_GT)
+SSE_HELPER_CMP(cmptrue, FPU_CMPQ,  !FPU_FALSE)
+
+SSE_HELPER_CMP(cmpeqs, FPU_CMPS, FPU_EQ)
+SSE_HELPER_CMP(cmpltq, FPU_CMPQ, FPU_LT)
+SSE_HELPER_CMP(cmpleq, FPU_CMPQ, FPU_LE)
+SSE_HELPER_CMP(cmpunords, FPU_CMPS,  FPU_UNORD)
+SSE_HELPER_CMP(cmpneqq, FPU_CMPS, !FPU_EQ)
+SSE_HELPER_CMP(cmpnltq, FPU_CMPQ, !FPU_LT)
+SSE_HELPER_CMP(cmpnleq, FPU_CMPQ, !FPU_LE)
+SSE_HELPER_CMP(cmpords, FPU_CMPS, !FPU_UNORD)
+
+SSE_HELPER_CMP(cmpequs, FPU_CMPS, FPU_EQU)
+SSE_HELPER_CMP(cmpngeq, FPU_CMPQ, !FPU_GE)
+SSE_HELPER_CMP(cmpngtq, FPU_CMPQ, !FPU_GT)
+SSE_HELPER_CMP(cmpfalses, FPU_CMPS,  FPU_FALSE)
+SSE_HELPER_CMP(cmpnequs, FPU_CMPS, !FPU_EQU)
+SSE_HELPER_CMP(cmpgeq, FPU_CMPQ, FPU_GE)
+SSE_HELPER_CMP(cmpgtq, FPU_CMPQ, FPU_GT)
+SSE_HELPER_CMP(cmptrues, FPU_CMPS,  !FPU_FALSE)
+
 #if SHIFT =3D=3D 1
 DEF_HELPER_3(ucomiss, void, env, Reg, Reg)
 DEF_HELPER_3(comiss, void, env, Reg, Reg)
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698409; cv=none;
	d=zohomail.com; s=zohoarc;
	b=VFwyQ82oB0QxMrwo7I2uCV4HpM3Q4W3lbC78+Pfjx2b2drb+gTg84OmjNc7yICfT4jJbS8wPVFUOAZhe1yLpSGkXEeWZOgHplOdg1O/CB/gh1zfOQ49+Lai9UY5nc8jxQmegUPXApYWUUQf79WCp4PE2tWCuKMasTUEP6qYv+TU=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698409;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=PJCZ+hmRZX0Jpm2zSyk7ySgDbKMl90N7cMnNG1VhTh0=;
	b=Y9ltHYa7BfkvHefMCYh7Lu13j4PmBAZS4nhZNkc7EiRN7GIW7T30g7soGOTWtCE09OUqJRmbTnS08SHVTfklZP3yNZg2SGLykqYWxbq/Ms6a/Ic3vFTcddZO4nlEcCUyp/AGxU6mMnmH+WOC6THcwX7hVBONnZX+m3u05NuA0MY=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698409142733.6610867473846;
 Thu, 13 Oct 2022 15:00:09 -0700 (PDT)
Received: from localhost ([::1]:48238 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6FL-0006DH-5Q
	for importer@patchew.org; Thu, 13 Oct 2022 18:00:07 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:44252)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63P-0002jw-7h
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:55 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:30925)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63N-0005HF-5W
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:46 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-12-5vA-dh0kPSKW9EapJtSHeA-1; Thu, 13 Oct 2022 17:47:43 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 b8-20020a056402278800b0045c948cc65fso2324009ede.9
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:43 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 h24-20020aa7c958000000b0045920b019a9sm474763edt.95.2022.10.13.14.47.40
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:41 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697664;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=PJCZ+hmRZX0Jpm2zSyk7ySgDbKMl90N7cMnNG1VhTh0=;
 b=a/rOZohfXAUy+jTOuNt0PAyEHcw3JMNNN117oMBolvZGFDEoClyD+F6tIQbv1cLDvoBz9q
 ksYXq40YdpjA8YI8t+PlUh5cT8WphJCX4CSmoLl/qh0jWdZPKSNxGbByK5SLIIpMNrGTo4
 6pbI5i4hLTC/5ogJXsZCqHmt6UopRCY=
X-MC-Unique: 5vA-dh0kPSKW9EapJtSHeA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=PJCZ+hmRZX0Jpm2zSyk7ySgDbKMl90N7cMnNG1VhTh0=;
 b=wvCQ3pFc8mTOyor8wBGeXQIj1inRNUuyUuWrRLp9FZq4i4MSNW9CccCFCoNLNd3U+3
 wQyM9irV71DkVwktTPjH5pzoKDTrwwDxlwgLJA8cdsTIb8O4HWK0U3K08ZlOKk6gNugo
 oMIykhN85mb5UXn07cwIhc1Ul7y31+BhDL8zsh1Jqxe5lgenq/AiLdxSXxER1qxthtEc
 a2uRAxTOpRau0f4BtlXEzuhQQr5y44uPYNspcqndf5vBXpdJEc2+VanG3v5FWnhjmuiQ
 ucWmLEoaT+Wyse6gFRrJmCMbMf0pSEun/IgiOYfJJLh135hXF1+gmQKp4wpFyL2EAA+k
 Ev8w==
X-Gm-Message-State: ACrzQf20auR8R++rNMxoITUsxr3dxVrFlG+C4Mzq1tjiR06RLVMtOjuT
 wnqKzo/EFlR/Ava9+D9oo3kbvkhVCEOp3YENfjLUkRoAM0TXlxzZsADo9VT8/3ID8PJSViGJ6/F
 OTySUmvPycPU9HpeaHoOi6XnO1QRnPsdUyvJqnwPZ/ofagCG0gy2T/ltaDdw3rK1mQrY=
X-Received: by 2002:a05:6402:496:b0:443:a5f5:d3b with SMTP id
 k22-20020a056402049600b00443a5f50d3bmr1560103edv.331.1665697661777;
 Thu, 13 Oct 2022 14:47:41 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM5CNQvbbR/osrZgRk6q9yNmOtmofz8toBl3JtVDcGhGaRUqxNygCBfnLrxM6sZQInOIVbufTw==
X-Received: by 2002:a05:6402:496:b0:443:a5f5:d3b with SMTP id
 k22-20020a056402049600b00443a5f50d3bmr1560090edv.331.1665697661546;
 Thu, 13 Oct 2022 14:47:41 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 16/35] target/i386: Introduce 256-bit vector helpers
Date: Thu, 13 Oct 2022 23:46:32 +0200
Message-Id: <20221013214651.672114-17-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698410752100001
Content-Type: text/plain; charset="utf-8"

The new implementation of SSE will cover AVX from the get go, because
all the work for the helper functions is already done.  We just need to
build them.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/helper.h         | 2 ++
 target/i386/ops_sse.h        | 5 +++++
 target/i386/ops_sse_header.h | 4 ++++
 target/i386/tcg/fpu_helper.c | 3 +++
 4 files changed, 14 insertions(+)

diff --git a/target/i386/helper.h b/target/i386/helper.h
index 39a3c24182..a2c2c085a3 100644
--- a/target/i386/helper.h
+++ b/target/i386/helper.h
@@ -218,6 +218,8 @@ DEF_HELPER_3(movq, void, env, ptr, ptr)
 #include "ops_sse_header.h"
 #define SHIFT 1
 #include "ops_sse_header.h"
+#define SHIFT 2
+#include "ops_sse_header.h"
=20
 DEF_HELPER_3(rclb, tl, env, tl, tl)
 DEF_HELPER_3(rclw, tl, env, tl, tl)
diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 18d217ebf5..090ba013b3 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -35,7 +35,11 @@
 #define W(n) ZMM_W(n)
 #define L(n) ZMM_L(n)
 #define Q(n) ZMM_Q(n)
+#if SHIFT =3D=3D 1
 #define SUFFIX _xmm
+#else
+#define SUFFIX _ymm
+#endif
 #endif
=20
 #define LANE_WIDTH (SHIFT ? 16 : 8)
@@ -2379,6 +2383,7 @@ void glue(helper_aeskeygenassist, SUFFIX)(CPUX86State=
 *env, Reg *d, Reg *s,
=20
 #undef SSE_HELPER_S
=20
+#undef LANE_WIDTH
 #undef SHIFT
 #undef XMM_ONLY
 #undef Reg
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index e7866a8395..440f1c0e78 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -21,7 +21,11 @@
 #define SUFFIX _mmx
 #else
 #define Reg ZMMReg
+#if SHIFT =3D=3D 1
 #define SUFFIX _xmm
+#else
+#define SUFFIX _ymm
+#endif
 #endif
=20
 #define dh_alias_Reg ptr
diff --git a/target/i386/tcg/fpu_helper.c b/target/i386/tcg/fpu_helper.c
index 9b59026e37..5f3f7a1085 100644
--- a/target/i386/tcg/fpu_helper.c
+++ b/target/i386/tcg/fpu_helper.c
@@ -3065,3 +3065,6 @@ void helper_movq(CPUX86State *env, void *d, void *s)
=20
 #define SHIFT 1
 #include "ops_sse.h"
+
+#define SHIFT 2
+#include "ops_sse.h"
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698250; cv=none;
	d=zohomail.com; s=zohoarc;
	b=FGqDzZsJO4QuO+E1siA//O23ANz3/G5eTvtshUFFgz0LQzYHl170A0lmn0bJDHOhk5tu6f2NJP3IxqnWzxTHawmbId718eG9oRInv9rhHhGBKIhLnClbO/G0hYi593CKpcsxq9rK51bP5fNCfItM7iJlX0ohKg+a4jbgxUaS+ns=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698250;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=UKNGYPjj1fH+LOvJEQuLX6aJLFNQ00rp8CkStTPkFj0=;
	b=C0pWaeTxaudKvnNCyQ/vkuOR13XrReyP12yqp9xGCu8C5BpWAvXO4X0DxuFwhnT8kuyvLiWli/oVK5AoAx1PS3fTmbKqvLHIwfO/BFd8jkOsa0Y/erZ+n9olaiR0QQrNcMPLZz09S9kVk38aGMDBREkd+TLz4OlWLSlnJnBYNM4=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698250131504.0650850361211;
 Thu, 13 Oct 2022 14:57:30 -0700 (PDT)
Received: from localhost ([::1]:52126 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Cm-0008VY-MB
	for importer@patchew.org; Thu, 13 Oct 2022 17:57:28 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:44254)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63U-0002kA-0X
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:55 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:58448)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63R-0005Hd-S3
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:51 -0400
Received: from mail-ej1-f69.google.com (mail-ej1-f69.google.com
 [209.85.218.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-662-HpHKBohuPBGpKD8RIDQIyQ-1; Thu, 13 Oct 2022 17:47:48 -0400
Received: by mail-ej1-f69.google.com with SMTP id
 xj11-20020a170906db0b00b0077b6ecb23fcso1460554ejb.5
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:48 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 f17-20020a50fc91000000b00458f077aecasm545216edq.17.2022.10.13.14.47.43
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:43 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697669;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=UKNGYPjj1fH+LOvJEQuLX6aJLFNQ00rp8CkStTPkFj0=;
 b=abB/nI2S72+boxevtvMvj6muy4QvvjIOpeRQTfHHPXHNYlpliVnay6Ol15udgkcTP8WBE2
 txAsjkkrkTrRNmnIoLb/vw/uh6lDlLvoBZqHJBE5BzCIjXvsyioZcyFU1FrElny8prZuMg
 91ibfb2b/H694GwIz9mNcAupS9nCiGc=
X-MC-Unique: HpHKBohuPBGpKD8RIDQIyQ-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=UKNGYPjj1fH+LOvJEQuLX6aJLFNQ00rp8CkStTPkFj0=;
 b=N1lELu52BjuiP0+hCnFlD6lDEPCFuVtV71v9iua4tRnRqX7uClNbDRfWfsmzk/oMbr
 uFvANm11YEdCV9N2goLjla+uNAQIUM44O6LgQWQ0P2m5Egt4mmiky+Su+7NIbE6Dg7uu
 tyEhEh3MnY7/vKEWAO26rxSPu6qJlRKVzFgdTYopfXm2HLoVqnbqnnmMat8llXpM4Fiz
 qvdN7UxU7LOLkNMmz9MmYPwqgzNArscxvqf8URLBo+L2fIh46iXqy4slk833nk3frJYL
 JGMlhlEjc2IX638q6vOYk8fqR4iXpzZHTbfQwtmr8nKkWeWf9MWpKkjgtN+QIgSGJaqI
 yiiQ==
X-Gm-Message-State: ACrzQf0W64HgwFciMiX8oSBW9XuBYarz1VjVIiBQbxifrD9DoHupaomt
 7YBkim80kfhVKtNTo5Ywwkhyo9hH0S4AAMYuUukWp9CM1O6aV3SK7GyAPLb2caVT0CBXCGuY6jy
 ehqQOdO8bU1ZRdFqjXy/+ed4fLO1LbWQ012A9n2eND05ZkA8Xwj0IQwTFmOxdue7HAGU=
X-Received: by 2002:a17:907:a044:b0:78d:b569:b891 with SMTP id
 gz4-20020a170907a04400b0078db569b891mr1297379ejc.224.1665697665049;
 Thu, 13 Oct 2022 14:47:45 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6RZjGfoy9MVNGrP3MYwSPTBFNaT67PcBR0jL0iF2nVMV09WPRn0P5jcKWTBUwrmA+Q05tPlw==
X-Received: by 2002:a17:907:a044:b0:78d:b569:b891 with SMTP id
 gz4-20020a170907a04400b0078db569b891mr1297359ejc.224.1665697664492;
 Thu, 13 Oct 2022 14:47:44 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 17/35] target/i386: reimplement 0x0f 0x60-0x6f, add AVX
Date: Thu, 13 Oct 2022 23:46:33 +0200
Message-Id: <20221013214651.672114-18-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698251954100003
Content-Type: text/plain; charset="utf-8"

These are both MMX and SSE/AVX instructions, except for vmovdqu.  In both
cases the inputs and output is in s->ptr{0,1,2}, so the only difference
between MMX, SSE, and AVX is which helper to call.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  42 +++++++
 target/i386/tcg/emit.c.inc       | 202 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |  19 ++-
 3 files changed, 262 insertions(+), 1 deletion(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 013e155343..673c522b4f 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -135,6 +135,19 @@ static uint8_t get_modrm(DisasContext *s, CPUX86State =
*env)
     return s->modrm;
 }
=20
+static inline const X86OpEntry *decode_by_prefix(DisasContext *s, const X8=
6OpEntry entries[4])
+{
+    if (s->prefix & PREFIX_REPNZ) {
+        return &entries[3];
+    } else if (s->prefix & PREFIX_REPZ) {
+        return &entries[2];
+    } else if (s->prefix & PREFIX_DATA) {
+        return &entries[1];
+    } else {
+        return &entries[0];
+    }
+}
+
 static void decode_group17(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
 {
     static const X86GenFunc group17_gen[8] =3D {
@@ -144,6 +157,17 @@ static void decode_group17(DisasContext *s, CPUX86Stat=
e *env, X86OpEntry *entry,
     entry->gen =3D group17_gen[op];
 }
=20
+static void decode_0F6F(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F6F[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,       P,q, None,None, Q,q, vex1 mmx),  /* mov=
q */
+        X86_OP_ENTRY3(MOVDQ,       V,x, None,None, W,x, vex1),      /* mov=
dqa */
+        X86_OP_ENTRY3(MOVDQ,       V,x, None,None, W,x, vex4_unal), /* mov=
dqu */
+        {},
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F6F);
+}
+
 static const X86OpEntry opcodes_0F38_00toEF[240] =3D {
 };
=20
@@ -229,8 +253,26 @@ static void decode_0F3A(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
 }
=20
 static const X86OpEntry opcodes_0F[256] =3D {
+    [0x60] =3D X86_OP_ENTRY3(PUNPCKLBW,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x61] =3D X86_OP_ENTRY3(PUNPCKLWD,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x62] =3D X86_OP_ENTRY3(PUNPCKLDQ,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x63] =3D X86_OP_ENTRY3(PACKSSWB,   V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x64] =3D X86_OP_ENTRY3(PCMPGTB,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x65] =3D X86_OP_ENTRY3(PCMPGTW,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x66] =3D X86_OP_ENTRY3(PCMPGTD,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x67] =3D X86_OP_ENTRY3(PACKUSWB,   V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+
     [0x38] =3D X86_OP_GROUP0(0F38),
     [0x3a] =3D X86_OP_GROUP0(0F3A),
+
+    [0x68] =3D X86_OP_ENTRY3(PUNPCKHBW,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x69] =3D X86_OP_ENTRY3(PUNPCKHWD,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x6a] =3D X86_OP_ENTRY3(PUNPCKHDQ,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x6b] =3D X86_OP_ENTRY3(PACKSSDW,   V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x6c] =3D X86_OP_ENTRY3(PUNPCKLQDQ, V,x, H,x, W,x,  vex4 p_66 avx2_25=
6),
+    [0x6d] =3D X86_OP_ENTRY3(PUNPCKHQDQ, V,x, H,x, W,x,  vex4 p_66 avx2_25=
6),
+    [0x6e] =3D X86_OP_ENTRY3(MOVD_to,    V,x, None,None, E,y, vex5 mmx p_0=
0_66),  /* wrong dest Vy on SDM! */
+    [0x6f] =3D X86_OP_GROUP0(0F6F),
 };
=20
 static void do_decode_0F(DisasContext *s, CPUX86State *env, X86OpEntry *en=
try, uint8_t *b)
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 947deacd37..8dbacc21ed 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -71,6 +71,56 @@ static inline int xmm_offset(MemOp ot)
     }
 }
=20
+static int vector_reg_offset(X86DecodedOp *op)
+{
+    assert(op->unit =3D=3D X86_OP_MMX || op->unit =3D=3D X86_OP_SSE);
+
+    if (op->unit =3D=3D X86_OP_MMX) {
+        return op->offset - mmx_offset(op->ot);
+    } else {
+        return op->offset - xmm_offset(op->ot);
+    }
+}
+
+static int vector_elem_offset(X86DecodedOp *op, MemOp ot, int n)
+{
+    int base_ofs =3D vector_reg_offset(op);
+    switch(ot) {
+    case MO_8:
+        if (op->unit =3D=3D X86_OP_MMX) {
+            return base_ofs + offsetof(MMXReg, MMX_B(n));
+        } else {
+            return base_ofs + offsetof(ZMMReg, ZMM_B(n));
+        }
+    case MO_16:
+        if (op->unit =3D=3D X86_OP_MMX) {
+            return base_ofs + offsetof(MMXReg, MMX_W(n));
+        } else {
+            return base_ofs + offsetof(ZMMReg, ZMM_W(n));
+        }
+    case MO_32:
+        if (op->unit =3D=3D X86_OP_MMX) {
+            return base_ofs + offsetof(MMXReg, MMX_L(n));
+        } else {
+            return base_ofs + offsetof(ZMMReg, ZMM_L(n));
+        }
+    case MO_64:
+        if (op->unit =3D=3D X86_OP_MMX) {
+            return base_ofs;
+        } else {
+            return base_ofs + offsetof(ZMMReg, ZMM_Q(n));
+        }
+    case MO_128:
+        assert(op->unit =3D=3D X86_OP_SSE);
+        return base_ofs + offsetof(ZMMReg, ZMM_X(n));
+    case MO_256:
+        assert(op->unit =3D=3D X86_OP_SSE);
+        return base_ofs + offsetof(ZMMReg, ZMM_Y(n));
+    default:
+        g_assert_not_reached();
+    }
+}
+
 static void compute_mmx_offset(X86DecodedOp *op)
 {
     if (!op->has_ea) {
@@ -183,6 +233,23 @@ static void gen_load(DisasContext *s, X86DecodedInsn *=
decode, int opn, TCGv v)
     }
 }
=20
+static TCGv_ptr op_ptr(X86DecodedInsn *decode, int opn)
+{
+    X86DecodedOp *op =3D &decode->op[opn];
+    if (op->v_ptr) {
+        return op->v_ptr;
+    }
+    op->v_ptr =3D tcg_temp_new_ptr();
+
+    /* The temporary points to the MMXReg or ZMMReg.  */
+    tcg_gen_addi_ptr(op->v_ptr, cpu_env, vector_reg_offset(op));
+    return op->v_ptr;
+}
+
+#define OP_PTR0 op_ptr(decode, 0)
+#define OP_PTR1 op_ptr(decode, 1)
+#define OP_PTR2 op_ptr(decode, 2)
+
 static void gen_writeback(DisasContext *s, X86DecodedInsn *decode, int opn=
, TCGv v)
 {
     X86DecodedOp *op =3D &decode->op[opn];
@@ -216,6 +283,114 @@ static void gen_writeback(DisasContext *s, X86Decoded=
Insn *decode, int opn, TCGv
     }
 }
=20
+static inline int vector_len(DisasContext *s, X86DecodedInsn *decode)
+{
+    if (decode->e.special =3D=3D X86_SPECIAL_MMX &&
+        !(s->prefix & (PREFIX_DATA | PREFIX_REPZ | PREFIX_REPNZ))) {
+        return 8;
+    }
+    return s->vex_l ? 32 : 16;
+}
+
+static void gen_store_sse(DisasContext *s, X86DecodedInsn *decode, int src=
_ofs)
+{
+    MemOp ot =3D decode->op[0].ot;
+    int vec_len =3D vector_len(s, decode);
+    bool aligned =3D sse_needs_alignment(s, decode, ot);
+
+    if (!decode->op[0].has_ea) {
+        tcg_gen_gvec_mov(MO_64, decode->op[0].offset, src_ofs, vec_len, ve=
c_len);
+        return;
+    }
+
+    switch (ot) {
+    case MO_64:
+        gen_stq_env_A0(s, src_ofs);
+        break;
+    case MO_128:
+        gen_sto_env_A0(s, src_ofs, aligned);
+        break;
+    case MO_256:
+        gen_sty_env_A0(s, src_ofs, aligned);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+#define BINARY_INT_GVEC(uname, func, ...)                                 =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    int vec_len =3D vector_len(s, decode);                                =
          \
+                                                                          =
         \
+    func(__VA_ARGS__,                                                     =
         \
+         decode->op[0].offset, decode->op[1].offset,                      =
         \
+         decode->op[2].offset, vec_len, vec_len);                         =
         \
+}
+
+BINARY_INT_GVEC(PCMPGTB, tcg_gen_gvec_cmp, TCG_COND_GT, MO_8)
+BINARY_INT_GVEC(PCMPGTW, tcg_gen_gvec_cmp, TCG_COND_GT, MO_16)
+BINARY_INT_GVEC(PCMPGTD, tcg_gen_gvec_cmp, TCG_COND_GT, MO_32)
+
+
+/*
+ * 00 =3D p*  Pq, Qq (if mmx not NULL; no VEX)
+ * 66 =3D vp* Vx, Hx, Wx
+ *
+ * These are really the same encoding, because 1) V is the same as P when =
VEX.V
+ * is not present 2) P and Q are the same as H and W apart from MM/XMM
+ */
+static inline void gen_binary_int_sse(DisasContext *s, CPUX86State *env, X=
86DecodedInsn *decode,
+                                      SSEFunc_0_eppp mmx, SSEFunc_0_eppp x=
mm, SSEFunc_0_eppp ymm)
+{
+    assert(!!mmx =3D=3D !!(decode->e.special =3D=3D X86_SPECIAL_MMX));
+
+    if (mmx && (s->prefix & PREFIX_VEX) && !(s->prefix & PREFIX_DATA)) {
+        /* VEX encoding is not applicable to MMX instructions.  */
+        gen_illegal_opcode(s);
+        return;
+    }
+    if (!(s->prefix & PREFIX_DATA)) {
+        mmx(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+    } else if (!s->vex_l) {
+        xmm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+    } else {
+        ymm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+    }
+}
+
+
+#define BINARY_INT_MMX(uname, lname)                                      =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_binary_int_sse(s, env, decode,                                    =
         \
+                          gen_helper_##lname##_mmx,                       =
         \
+                          gen_helper_##lname##_xmm,                       =
         \
+                          gen_helper_##lname##_ymm);                      =
         \
+}
+BINARY_INT_MMX(PUNPCKLBW,  punpcklbw)
+BINARY_INT_MMX(PUNPCKLWD,  punpcklwd)
+BINARY_INT_MMX(PUNPCKLDQ,  punpckldq)
+BINARY_INT_MMX(PACKSSWB,   packsswb)
+BINARY_INT_MMX(PACKUSWB,   packuswb)
+BINARY_INT_MMX(PUNPCKHBW,  punpckhbw)
+BINARY_INT_MMX(PUNPCKHWD,  punpckhwd)
+BINARY_INT_MMX(PUNPCKHDQ,  punpckhdq)
+BINARY_INT_MMX(PACKSSDW,   packssdw)
+
+/* Instructions with no MMX equivalent.  */
+#define BINARY_INT_SSE(uname, lname)                                      =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_binary_int_sse(s, env, decode,                                    =
         \
+                          NULL,                                           =
         \
+                          gen_helper_##lname##_xmm,                       =
         \
+                          gen_helper_##lname##_ymm);                      =
         \
+}
+
+BINARY_INT_SSE(PUNPCKLQDQ, punpcklqdq)
+BINARY_INT_SSE(PUNPCKHQDQ, punpckhqdq)
+
 static void gen_ADCOX(DisasContext *s, CPUX86State *env, MemOp ot, int cc_=
op)
 {
     TCGv carry_in =3D NULL;
@@ -383,6 +558,33 @@ static void gen_MOVBE(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     }
 }
=20
+static void gen_MOVD_to(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    MemOp ot =3D decode->op[2].ot;
+    int vec_len =3D vector_len(s, decode);
+    int lo_ofs =3D vector_elem_offset(&decode->op[0], ot, 0);
+
+    tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len, 0);
+
+    switch (ot) {
+    case MO_32:
+#ifdef TARGET_X86_64
+        tcg_gen_st32_tl(s->T1, cpu_env, lo_ofs);
+        break;
+    case MO_64:
+#endif
+        tcg_gen_st_tl(s->T1, cpu_env, lo_ofs);
+        break;
+    default:
+        g_assert_not_reached();
+    }
+}
+
+static void gen_MOVDQ(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    gen_store_sse(s, decode, decode->op[2].offset);
+}
+
 static void gen_MULX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     MemOp ot =3D decode->op[0].ot;
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index bb3076528f..20cc059c31 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -2935,6 +2935,23 @@ static void gen_ldy_env_A0(DisasContext *s, int offs=
et, bool align)
     tcg_gen_st_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(3=
)));
 }
=20
+static void gen_sty_env_A0(DisasContext *s, int offset, bool align)
+{
+    int mem_index =3D s->mem_index;
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(0=
)));
+    tcg_gen_qemu_st_i64(s->tmp1_i64, s->A0, mem_index,
+                        MO_LEUQ | (align ? MO_ALIGN_32 : 0));
+    tcg_gen_addi_tl(s->tmp0, s->A0, 8);
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(1=
)));
+    tcg_gen_qemu_st_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
+    tcg_gen_addi_tl(s->tmp0, s->A0, 16);
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(2=
)));
+    tcg_gen_qemu_st_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
+    tcg_gen_addi_tl(s->tmp0, s->A0, 24);
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, offset + offsetof(YMMReg, YMM_Q(3=
)));
+    tcg_gen_qemu_st_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
+}
+
 static inline void gen_op_movo(DisasContext *s, int d_offset, int s_offset)
 {
     tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(XMMReg, XMM_Q=
(0)));
@@ -4756,7 +4773,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #ifndef CONFIG_USER_ONLY
         use_new &=3D b <=3D limit;
 #endif
-        if (use_new && 0) {
+        if (use_new && (b >=3D 0x160 && b <=3D 0x16f)) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
         }
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698730; cv=none;
	d=zohomail.com; s=zohoarc;
	b=OvPu9DiqyMlO6cptHiFc06/HezOLGiUB5wVfgg2M/tXdE2B195JRIaipXY+9raBZxoFm02MO0k2mRYUlnbxH5X0SlB+PhVlPSi8Q0Tc4GeAEeFDO/n1KhKpDTgwDiRhoDJ35PC3Tn+muZi8u+cGpWvHdBSGevMhK4JHHv+sqylM=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698730;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=WrYf/uFnJWVmussTx7R1qsjyN7jYqgO6UZ2Saidrdpw=;
	b=lwzRBoIyCAb6aRUdo/Kh8LEcZCxbRN7rfWfL4Ez9LIKRInWDrK5AElGd5+N7iW0d4T1gNN9Ku6KR+fy2/c+rsv0BnVbU7v3smLkZsMVRwkyHkV4uGPZ0rmxK0QjPszyARm2vSGpwRP+hlB4eIXAfXbG3ypv1e06XEzV3lZuOiN4=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698730225109.14726357823486;
 Thu, 13 Oct 2022 15:05:30 -0700 (PDT)
Received: from localhost ([::1]:32966 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6KX-0003Zn-7W
	for importer@patchew.org; Thu, 13 Oct 2022 18:05:29 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:44256)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63U-0002kB-Gb
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:55 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:38363)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63S-0005Hl-Pa
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:52 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-56-14nL5fROMCSPKOrcVzH5dA-1; Thu, 13 Oct 2022 17:47:49 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 f16-20020a0564021e9000b0045beb029117so2320549edf.12
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:48 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 t29-20020a056402241d00b0045ce419ecffsm526344eda.58.2022.10.13.14.47.46
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:46 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697670;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=WrYf/uFnJWVmussTx7R1qsjyN7jYqgO6UZ2Saidrdpw=;
 b=H1tUC6k7IDfdZWSV1cteyDlmFDT2rFtvHXJ91xqkw7q2p/Sh2S1SD9YsGOTNv1Xn5JddYy
 MR6FVYS8K6D+FAzw8VjIdC9i8y96OGqEibiFN/qPS9kt4+6vbCq0WpmEiTrI6sQuztcHDp
 bFqeMwyr4bqFmW0g3xaNS0JrxCAtLxs=
X-MC-Unique: 14nL5fROMCSPKOrcVzH5dA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=WrYf/uFnJWVmussTx7R1qsjyN7jYqgO6UZ2Saidrdpw=;
 b=G707Wn7ShjkmRhZN7Fvf0V4STv/99e8BMdAyytLuEXZnmvDpikkW3wik3oYPnplcA0
 2suqJbJCyxJSOJuzRWnTYQYDqmXbVD21nAWOZojyYAczmgdCAQj8zqISOrU2m2DQ98+R
 zAXgPZjoeZ4JoAq7nz+RaNfyCr5dv+aIquNk0T6U/zZp8h7SbFDne/rkvSeIi6OG6bUq
 PUfMTrnRnoHMOAr80vwlKWwix8EnOTZ739Oj79E0P9La10iNCNCLYJrU21fHBI1u+zVA
 BDkUIxRvHlOd3cZAI5HXiH52xSte/SJ6Xwbs0c0F+qt6UCiFzBH9t4g25L9i/Dpen4hH
 qBFQ==
X-Gm-Message-State: ACrzQf2CKBO1MLPk12D7TTfHy2fBNs0ybzFKxJ1B9dTlOW91P+IX9e2q
 kSL490YxHMq+n64qegejSJd4xeXRnlJGXNrGTLo+D/dKq+IsmnuikCzeOTHrhTDJNsH2fq9TMyw
 5olr6UzoKp/h9QZ2/nLA3xCiS3xj2Fea038qemwmjCjjqBdC2KnL9lJaqMdbPW6piKjc=
X-Received: by 2002:a17:907:8a1c:b0:78d:ef44:7759 with SMTP id
 sc28-20020a1709078a1c00b0078def447759mr1334046ejc.441.1665697667391;
 Thu, 13 Oct 2022 14:47:47 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6EPSCYb2cZXWO3qYPt8nDg2dADZa2b/0imV3nZC9QeeY/lRf7owrj8aab8n3+yswYg5UK1Jw==
X-Received: by 2002:a17:907:8a1c:b0:78d:ef44:7759 with SMTP id
 sc28-20020a1709078a1c00b0078def447759mr1334034ejc.441.1665697667128;
 Thu, 13 Oct 2022 14:47:47 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 18/35] target/i386: reimplement 0x0f 0xd8-0xdf, 0xe8-0xef,
 0xf8-0xff, add AVX
Date: Thu, 13 Oct 2022 23:46:34 +0200
Message-Id: <20221013214651.672114-19-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698731482100001
Content-Type: text/plain; charset="utf-8"

These are more simple integer instructions present in both MMX and SSE/AVX,
with no holes that were later occupied by newer instructions.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 28 ++++++++++++++++++++++++++++
 target/i386/tcg/emit.c.inc       | 32 ++++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |  4 +++-
 3 files changed, 63 insertions(+), 1 deletion(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 673c522b4f..35b24c6d68 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -273,6 +273,34 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x6d] =3D X86_OP_ENTRY3(PUNPCKHQDQ, V,x, H,x, W,x,  vex4 p_66 avx2_25=
6),
     [0x6e] =3D X86_OP_ENTRY3(MOVD_to,    V,x, None,None, E,y, vex5 mmx p_0=
0_66),  /* wrong dest Vy on SDM! */
     [0x6f] =3D X86_OP_GROUP0(0F6F),
+
+    /* Incorrectly missing from 2-17 */
+    [0xd8] =3D X86_OP_ENTRY3(PSUBUSB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xd9] =3D X86_OP_ENTRY3(PSUBUSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xda] =3D X86_OP_ENTRY3(PMINUB,   V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xdb] =3D X86_OP_ENTRY3(PAND,     V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xdc] =3D X86_OP_ENTRY3(PADDUSB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xdd] =3D X86_OP_ENTRY3(PADDUSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xde] =3D X86_OP_ENTRY3(PMAXUB,   V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+    [0xdf] =3D X86_OP_ENTRY3(PANDN,    V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
+
+    [0xe8] =3D X86_OP_ENTRY3(PSUBSB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xe9] =3D X86_OP_ENTRY3(PSUBSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xea] =3D X86_OP_ENTRY3(PMINSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xeb] =3D X86_OP_ENTRY3(POR,     V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xec] =3D X86_OP_ENTRY3(PADDSB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xed] =3D X86_OP_ENTRY3(PADDSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xee] =3D X86_OP_ENTRY3(PMAXSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+    [0xef] =3D X86_OP_ENTRY3(PXOR,    V,x, H,x, W,x,  vex4 mmx avx2_256 p_=
00_66),
+
+    [0xf8] =3D X86_OP_ENTRY3(PSUBB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    [0xf9] =3D X86_OP_ENTRY3(PSUBW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    [0xfa] =3D X86_OP_ENTRY3(PSUBD,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    [0xfb] =3D X86_OP_ENTRY3(PSUBQ,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    [0xfc] =3D X86_OP_ENTRY3(PADDB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    [0xfd] =3D X86_OP_ENTRY3(PADDW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    [0xfe] =3D X86_OP_ENTRY3(PADDD,  V,x, H,x, W,x,  vex4 mmx avx2_256 p_0=
0_66),
+    /* 0xff =3D UD0 */
 };
=20
 static void do_decode_0F(DisasContext *s, CPUX86State *env, X86OpEntry *en=
try, uint8_t *b)
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 8dbacc21ed..0d35a8627f 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -328,9 +328,31 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
          decode->op[2].offset, vec_len, vec_len);                         =
         \
 }
=20
+BINARY_INT_GVEC(PADDB,   tcg_gen_gvec_add, MO_8)
+BINARY_INT_GVEC(PADDW,   tcg_gen_gvec_add, MO_16)
+BINARY_INT_GVEC(PADDD,   tcg_gen_gvec_add, MO_32)
+BINARY_INT_GVEC(PADDSB,  tcg_gen_gvec_ssadd, MO_8)
+BINARY_INT_GVEC(PADDSW,  tcg_gen_gvec_ssadd, MO_16)
+BINARY_INT_GVEC(PADDUSB, tcg_gen_gvec_usadd, MO_8)
+BINARY_INT_GVEC(PADDUSW, tcg_gen_gvec_usadd, MO_16)
+BINARY_INT_GVEC(PAND,    tcg_gen_gvec_and, MO_64)
 BINARY_INT_GVEC(PCMPGTB, tcg_gen_gvec_cmp, TCG_COND_GT, MO_8)
 BINARY_INT_GVEC(PCMPGTW, tcg_gen_gvec_cmp, TCG_COND_GT, MO_16)
 BINARY_INT_GVEC(PCMPGTD, tcg_gen_gvec_cmp, TCG_COND_GT, MO_32)
+BINARY_INT_GVEC(PMAXSW,  tcg_gen_gvec_smax, MO_16)
+BINARY_INT_GVEC(PMAXUB,  tcg_gen_gvec_umax, MO_8)
+BINARY_INT_GVEC(PMINSW,  tcg_gen_gvec_smin, MO_16)
+BINARY_INT_GVEC(PMINUB,  tcg_gen_gvec_umin, MO_8)
+BINARY_INT_GVEC(POR,     tcg_gen_gvec_or, MO_64)
+BINARY_INT_GVEC(PSUBB,   tcg_gen_gvec_sub, MO_8)
+BINARY_INT_GVEC(PSUBW,   tcg_gen_gvec_sub, MO_16)
+BINARY_INT_GVEC(PSUBD,   tcg_gen_gvec_sub, MO_32)
+BINARY_INT_GVEC(PSUBQ,   tcg_gen_gvec_sub, MO_64)
+BINARY_INT_GVEC(PSUBSB,  tcg_gen_gvec_sssub, MO_8)
+BINARY_INT_GVEC(PSUBSW,  tcg_gen_gvec_sssub, MO_16)
+BINARY_INT_GVEC(PSUBUSB, tcg_gen_gvec_ussub, MO_8)
+BINARY_INT_GVEC(PSUBUSW, tcg_gen_gvec_ussub, MO_16)
+BINARY_INT_GVEC(PXOR,    tcg_gen_gvec_xor, MO_64)
=20
=20
 /*
@@ -608,6 +630,16 @@ static void gen_MULX(DisasContext *s, CPUX86State *env=
, X86DecodedInsn *decode)
=20
 }
=20
+static void gen_PANDN(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    /* Careful, operand order is reversed!  */
+    tcg_gen_gvec_andc(MO_64,
+                      decode->op[0].offset, decode->op[2].offset,
+                      decode->op[1].offset, vec_len, vec_len);
+}
+
 static void gen_PDEP(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     MemOp ot =3D decode->op[1].ot;
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 20cc059c31..b568393666 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4773,7 +4773,9 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #ifndef CONFIG_USER_ONLY
         use_new &=3D b <=3D limit;
 #endif
-        if (use_new && (b >=3D 0x160 && b <=3D 0x16f)) {
+        if (use_new &&
+            ((b >=3D 0x160 && b <=3D 0x16f) ||
+             (b >=3D 0x1d8 && b <=3D 0x1ff && (b & 8)))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
         }
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699221; cv=none;
	d=zohomail.com; s=zohoarc;
	b=U+JgO71d9NelBzlUChbQXmJG9L//QilHtDp17WIf8yB+jdVMpIxKONdvXVLnfMYLPaYxap0L5D1qD+rHV4y3m9jcKUNOaaooAPiz7xkrOH+izyv8RHCzcdl/2Z+vv8TJ557ZBrVuXp9DeLCgAobyqLBp8g72QcvnDbZM2zU9E5E=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699221;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=Hi3NDx1EFOysFghXBUyogK6Qe1qopntxKthjeXF+6SI=;
	b=ZKNQhf02abhfWJUkG8KwFj9c6st64eYIV6fYXNSotv2hbRp7C9aI01Rs5HHlrWNCHZwXy0sPc7rnbDcYPb6PozsNU1oinGl4d+ITIRBAYk06PNMcaJQvp30YYOEx7NIAGaE3wxkGTDJFIdUwgmMQ026kV8zxVJdsaf51le/Ms18=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699221282347.67951962964014;
 Thu, 13 Oct 2022 15:13:41 -0700 (PDT)
Received: from localhost ([::1]:43894 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6SS-0008Aj-6k
	for importer@patchew.org; Thu, 13 Oct 2022 18:13:40 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:53440)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63X-0002kF-KY
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:55 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:60211)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63V-0005I6-Ad
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:55 -0400
Received: from mail-ej1-f69.google.com (mail-ej1-f69.google.com
 [209.85.218.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-517-CL-2kgPCNAqV8j57S-cWtw-1; Thu, 13 Oct 2022 17:47:51 -0400
Received: by mail-ej1-f69.google.com with SMTP id
 ht14-20020a170907608e00b0078d437c268dso1501836ejc.20
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:51 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 r26-20020aa7d59a000000b00457618d3409sm501736edq.68.2022.10.13.14.47.49
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:49 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697672;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=Hi3NDx1EFOysFghXBUyogK6Qe1qopntxKthjeXF+6SI=;
 b=jKMk1D1GWvmzkqDNk2Ww4vMPdc1m6PvvHUpY52dG8RrswlxKpEqpy9GyfOR6V2cjYJt6SP
 ciHHGplxcREJiXHGJLdmxyPwecMhSsVLgvZTQioRkGxpjSaG49zQ/0M5LHr4jVAQwk6J03
 hAOl39p6g0k6psqlx3W+rJ0limwrLzA=
X-MC-Unique: CL-2kgPCNAqV8j57S-cWtw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=Hi3NDx1EFOysFghXBUyogK6Qe1qopntxKthjeXF+6SI=;
 b=gUjU9dvz72juL1qa520CD6tFdIrsGpIrnOu1VFan/CBNmMYwSnuutw9NpZQJAftAG2
 sm+FKc4dKfDDZ/M9+bhgTBWjzIlKFdyITRM6leSogIvWWWMgjV4MDSoPC+4kHV7mNhyp
 EH95BV4nL/fj87Ke/N9HrEfwC5s5kfaTjkoA718Xup/mvAF5NGnd06IBeAN2OnmpotrH
 HFziPD6CCK9+HHyvfm7MSje9lJ8W8QBQ0VWAhgUj4zLZdUJJDUscYY9N2km4cCxJTy+X
 x35yfbZ3HLyBeW+AeVKFwL5bhgfjOIG2qD1qLufn8g1QyDQxb9fDTHMP9belzSBVlZhL
 fJoA==
X-Gm-Message-State: ACrzQf2B+kKE1FXjInbGJU2R6fuzj/YtEIFFdaXUd7R1AcPcxGW19+I4
 Ny3Zsoq45KDocGmVpDlcxsXqQxinkmrqB84Ye/HAvIZzgXF6jE/TsFD4UQtTKOQZygDSLbmQMPk
 0xJg2UlezS+ygAuAFdxz4t2nGyXwKAAIEqKfuyrO7AGfkgVOWF44FHdIGZxHqMAKYYpM=
X-Received: by 2002:a17:907:2672:b0:781:dc01:6c5a with SMTP id
 ci18-20020a170907267200b00781dc016c5amr1343225ejc.191.1665697670159;
 Thu, 13 Oct 2022 14:47:50 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM5w/9t6vDjsw5h7XqioAcUetVOvBtTpaPq29iwvuIpu4v9Hw5xE0h+NMvnHKmkBChb4Oqc79g==
X-Received: by 2002:a17:907:2672:b0:781:dc01:6c5a with SMTP id
 ci18-20020a170907267200b00781dc016c5amr1343214ejc.191.1665697669822;
 Thu, 13 Oct 2022 14:47:49 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 19/35] target/i386: reimplement 0x0f 0x50-0x5f, add AVX
Date: Thu, 13 Oct 2022 23:46:35 +0200
Message-Id: <20221013214651.672114-20-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699222791100001
Content-Type: text/plain; charset="utf-8"

These are mostly floating-point SSE operations.  The odd ones out
are MOVMSK and CVTxx2yy, the others are straightforward.

Unary operations are a bit special in AVX because they have 2 operands
for PD/PS operands (VEX.vvvv must be 1111b), and 3 operands for SD/SS.
They are handled using X86_OP_GROUP3 for compactness.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  43 ++++++++
 target/i386/tcg/emit.c.inc       | 166 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |   2 +-
 3 files changed, 210 insertions(+), 1 deletion(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 35b24c6d68..abb99bfe51 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -252,7 +252,41 @@ static void decode_0F3A(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     *entry =3D opcodes_0F3A[*b];
 }
=20
+static void decode_sse_unary(DisasContext *s, CPUX86State *env, X86OpEntry=
 *entry, uint8_t *b)
+{
+    if (!(s->prefix & (PREFIX_REPZ | PREFIX_REPNZ))) {
+        entry->op1 =3D X86_TYPE_None;
+        entry->s1 =3D X86_SIZE_None;
+    }
+    switch (*b) {
+    case 0x51: entry->gen =3D gen_VSQRT; break;
+    case 0x52: entry->gen =3D gen_VRSQRT; break;
+    case 0x53: entry->gen =3D gen_VRCP; break;
+    case 0x5A: entry->gen =3D gen_VCVTfp2fp; break;
+    }
+}
+
+static void decode_0F5B(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F5B[4] =3D {
+        X86_OP_ENTRY2(VCVTDQ2PS,   V,x, W,x,      vex2),
+        X86_OP_ENTRY2(VCVTPS2DQ,   V,x, W,x,      vex2),
+        X86_OP_ENTRY2(VCVTTPS2DQ,  V,x, W,x,      vex2),
+        {},
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F5B);
+}
+
 static const X86OpEntry opcodes_0F[256] =3D {
+    [0x50] =3D X86_OP_ENTRY3(MOVMSK,     G,y, None,None, U,x, vex7 p_00_66=
),
+    [0x51] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+    [0x52] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex5 p_00_f3),
+    [0x53] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex5 p_00_f3),
+    [0x54] =3D X86_OP_ENTRY3(PAND,       V,x, H,x, W,x,  vex4 p_00_66), /*=
 vand */
+    [0x55] =3D X86_OP_ENTRY3(PANDN,      V,x, H,x, W,x,  vex4 p_00_66), /*=
 vandn */
+    [0x56] =3D X86_OP_ENTRY3(POR,        V,x, H,x, W,x,  vex4 p_00_66), /*=
 vor */
+    [0x57] =3D X86_OP_ENTRY3(PXOR,       V,x, H,x, W,x,  vex4 p_00_66), /*=
 vxor */
+
     [0x60] =3D X86_OP_ENTRY3(PUNPCKLBW,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
     [0x61] =3D X86_OP_ENTRY3(PUNPCKLWD,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
     [0x62] =3D X86_OP_ENTRY3(PUNPCKLDQ,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
@@ -265,6 +299,15 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x38] =3D X86_OP_GROUP0(0F38),
     [0x3a] =3D X86_OP_GROUP0(0F3A),
=20
+    [0x58] =3D X86_OP_ENTRY3(VADD,       V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+    [0x59] =3D X86_OP_ENTRY3(VMUL,       V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+    [0x5a] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex3 p_00_66_f3_f2=
),
+    [0x5b] =3D X86_OP_GROUP0(0F5B),
+    [0x5c] =3D X86_OP_ENTRY3(VSUB,       V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+    [0x5d] =3D X86_OP_ENTRY3(VMIN,       V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+    [0x5e] =3D X86_OP_ENTRY3(VDIV,       V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+    [0x5f] =3D X86_OP_ENTRY3(VMAX,       V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
+
     [0x68] =3D X86_OP_ENTRY3(PUNPCKHBW,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
     [0x69] =3D X86_OP_ENTRY3(PUNPCKHWD,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
     [0x6a] =3D X86_OP_ENTRY3(PUNPCKHDQ,  V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 0d35a8627f..e063d2fe04 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -318,6 +318,131 @@ static void gen_store_sse(DisasContext *s, X86Decoded=
Insn *decode, int src_ofs)
     }
 }
=20
+/*
+ * 00 =3D v*ps Vps, Hps, Wpd
+ * 66 =3D v*pd Vpd, Hpd, Wps
+ * f3 =3D v*ss Vss, Hss, Wps
+ * f2 =3D v*sd Vsd, Hsd, Wps
+ */
+static inline void gen_unary_fp_sse(DisasContext *s, CPUX86State *env, X86=
DecodedInsn *decode,
+                              SSEFunc_0_epp pd_xmm, SSEFunc_0_epp ps_xmm,
+                              SSEFunc_0_epp pd_ymm, SSEFunc_0_epp ps_ymm,
+                              SSEFunc_0_eppp sd, SSEFunc_0_eppp ss)
+{
+    if ((s->prefix & (PREFIX_REPZ | PREFIX_REPNZ)) !=3D 0) {
+        SSEFunc_0_eppp fn =3D s->prefix & PREFIX_REPZ ? ss : sd;
+        if (!fn) {
+            gen_illegal_opcode(s);
+            return;
+        }
+        fn(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+    } else {
+        SSEFunc_0_epp ps, pd, fn;
+        ps =3D s->vex_l ? ps_ymm : ps_xmm;
+        pd =3D s->vex_l ? pd_ymm : pd_xmm;
+        fn =3D s->prefix & PREFIX_DATA ? pd : ps;
+        if (!fn) {
+            gen_illegal_opcode(s);
+            return;
+        }
+        fn(cpu_env, OP_PTR0, OP_PTR2);
+    }
+}
+#define UNARY_FP_SSE(uname, lname)                                        =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_unary_fp_sse(s, env, decode,                                      =
         \
+                     gen_helper_##lname##pd_xmm,                          =
         \
+                     gen_helper_##lname##ps_xmm,                          =
         \
+                     gen_helper_##lname##pd_ymm,                          =
         \
+                     gen_helper_##lname##ps_ymm,                          =
         \
+                     gen_helper_##lname##sd,                              =
         \
+                     gen_helper_##lname##ss);                             =
         \
+}
+UNARY_FP_SSE(VSQRT, sqrt)
+
+/*
+ * 00 =3D v*ps Vps, Hps, Wpd
+ * 66 =3D v*pd Vpd, Hpd, Wps
+ * f3 =3D v*ss Vss, Hss, Wps
+ * f2 =3D v*sd Vsd, Hsd, Wps
+ */
+static inline void gen_fp_sse(DisasContext *s, CPUX86State *env, X86Decode=
dInsn *decode,
+                              SSEFunc_0_eppp pd_xmm, SSEFunc_0_eppp ps_xmm,
+                              SSEFunc_0_eppp pd_ymm, SSEFunc_0_eppp ps_ymm,
+                              SSEFunc_0_eppp sd, SSEFunc_0_eppp ss)
+{
+    SSEFunc_0_eppp ps, pd, fn;
+    if ((s->prefix & (PREFIX_REPZ | PREFIX_REPNZ)) !=3D 0) {
+        fn =3D s->prefix & PREFIX_REPZ ? ss : sd;
+    } else {
+        ps =3D s->vex_l ? ps_ymm : ps_xmm;
+        pd =3D s->vex_l ? pd_ymm : pd_xmm;
+        fn =3D s->prefix & PREFIX_DATA ? pd : ps;
+    }
+    if (fn) {
+        fn(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+    } else {
+        gen_illegal_opcode(s);
+    }
+}
+#define FP_SSE(uname, lname)                                              =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_fp_sse(s, env, decode,                                            =
         \
+               gen_helper_##lname##pd_xmm,                                =
         \
+               gen_helper_##lname##ps_xmm,                                =
         \
+               gen_helper_##lname##pd_ymm,                                =
         \
+               gen_helper_##lname##ps_ymm,                                =
         \
+               gen_helper_##lname##sd,                                    =
         \
+               gen_helper_##lname##ss);                                   =
         \
+}
+FP_SSE(VADD, add)
+FP_SSE(VMUL, mul)
+FP_SSE(VSUB, sub)
+FP_SSE(VMIN, min)
+FP_SSE(VDIV, div)
+FP_SSE(VMAX, max)
+
+/*
+ * 00 =3D v*ps Vps, Wpd
+ * f3 =3D v*ss Vss, Wps
+ */
+static inline void gen_unary_fp32_sse(DisasContext *s, CPUX86State *env, X=
86DecodedInsn *decode,
+                                      SSEFunc_0_epp ps_xmm,
+                                      SSEFunc_0_epp ps_ymm,
+                                      SSEFunc_0_eppp ss)
+{
+    if ((s->prefix & (PREFIX_DATA | PREFIX_REPNZ)) !=3D 0) {
+        goto illegal_op;
+    } else if (s->prefix & PREFIX_REPZ) {
+        if (!ss) {
+            goto illegal_op;
+        }
+        ss(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+    } else {
+        SSEFunc_0_epp fn =3D s->vex_l ? ps_ymm : ps_xmm;
+        if (!fn) {
+            goto illegal_op;
+        }
+        fn(cpu_env, OP_PTR0, OP_PTR2);
+    }
+    return;
+
+illegal_op:
+    gen_illegal_opcode(s);
+}
+#define UNARY_FP32_SSE(uname, lname)                                      =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_unary_fp32_sse(s, env, decode,                                    =
         \
+                       gen_helper_##lname##ps_xmm,                        =
         \
+                       gen_helper_##lname##ps_ymm,                        =
         \
+                       gen_helper_##lname##ss);                           =
         \
+}
+UNARY_FP32_SSE(VRSQRT, rsqrt)
+UNARY_FP32_SSE(VRCP, rcp)
+
 #define BINARY_INT_GVEC(uname, func, ...)                                 =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
 {                                                                         =
         \
@@ -413,6 +538,29 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
 BINARY_INT_SSE(PUNPCKLQDQ, punpcklqdq)
 BINARY_INT_SSE(PUNPCKHQDQ, punpckhqdq)
=20
+static inline void gen_unary_int_sse(DisasContext *s, CPUX86State *env, X8=
6DecodedInsn *decode,
+                                     SSEFunc_0_epp xmm, SSEFunc_0_epp ymm)
+{
+    if (!s->vex_l) {
+        xmm(cpu_env, OP_PTR0, OP_PTR2);
+    } else {
+        ymm(cpu_env, OP_PTR0, OP_PTR2);
+    }
+}
+
+#define UNARY_INT_SSE(uname, lname)                                       =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_unary_int_sse(s, env, decode,                                     =
         \
+                      gen_helper_##lname##_xmm,                           =
         \
+                      gen_helper_##lname##_ymm);                          =
         \
+}
+
+UNARY_INT_SSE(VCVTDQ2PS, cvtdq2ps)
+UNARY_INT_SSE(VCVTPS2DQ, cvtps2dq)
+UNARY_INT_SSE(VCVTTPS2DQ, cvttps2dq)
+
+
 static void gen_ADCOX(DisasContext *s, CPUX86State *env, MemOp ot, int cc_=
op)
 {
     TCGv carry_in =3D NULL;
@@ -607,6 +755,16 @@ static void gen_MOVDQ(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     gen_store_sse(s, decode, decode->op[2].offset);
 }
=20
+static void gen_MOVMSK(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    typeof(gen_helper_movmskps_ymm) *ps, *pd, *fn;
+    ps =3D s->vex_l ? gen_helper_movmskps_ymm : gen_helper_movmskps_xmm;
+    pd =3D s->vex_l ? gen_helper_movmskpd_ymm : gen_helper_movmskpd_xmm;
+    fn =3D s->prefix & PREFIX_DATA ? pd : ps;
+    fn(s->tmp2_i32, cpu_env, OP_PTR2);
+    tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
+}
+
 static void gen_MULX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     MemOp ot =3D decode->op[0].ot;
@@ -707,3 +865,11 @@ static void gen_SHRX(DisasContext *s, CPUX86State *env=
, X86DecodedInsn *decode)
     }
     tcg_gen_shr_tl(s->T0, s->T0, s->T1);
 }
+
+static void gen_VCVTfp2fp(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    gen_unary_fp_sse(s, env, decode,
+                     gen_helper_cvtpd2ps_xmm, gen_helper_cvtps2pd_xmm,
+                     gen_helper_cvtpd2ps_ymm, gen_helper_cvtps2pd_ymm,
+                     gen_helper_cvtsd2ss, gen_helper_cvtss2sd);
+}
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index b568393666..8e382ce0b4 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4774,7 +4774,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         use_new &=3D b <=3D limit;
 #endif
         if (use_new &&
-            ((b >=3D 0x160 && b <=3D 0x16f) ||
+            ((b >=3D 0x150 && b <=3D 0x16f) ||
              (b >=3D 0x1d8 && b <=3D 0x1ff && (b & 8)))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698391; cv=none;
	d=zohomail.com; s=zohoarc;
	b=JpUGLkQBF+ZdrHVgB3TLtHAy5y+zFXfNZE2sKd/+5ONNS9WB8rS4ADX+4L/6ynjRyP0PsTUh1SAFCT1LbhhDqN8U8G7gXmHnrcx2peD2wU3j/G+D41IGYqn5V6p6z6ZnM1d3AVc3GhX5fP+gqPqJcOYcO7Z9nYbej4f9NwBGa5Y=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698391;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=b8dsQrf3WUq4YDr5jN4X5smND/Tjp6AGn7jZDnvLNNM=;
	b=GnCOP4Y92IjMYxSIcHVd/E0rM1VFjeKPuhtVOqtC49SiwcC7fTrcXj9xuQ0bycE+wzB3+aT+Ho/1UEn64G0y+4Ce3ywRjPj4fa5ZWNpAd37cbWSOK2VfYmxj4vQvS4GAaR5cstpWAJQrpdRJDlBPaRnozDh+FaQBRXscTJ556yo=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 166569839140690.19899566393735;
 Thu, 13 Oct 2022 14:59:51 -0700 (PDT)
Received: from localhost ([::1]:49268 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6F4-0005XK-7t
	for importer@patchew.org; Thu, 13 Oct 2022 17:59:50 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:53442)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63a-0002mX-B2
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:59 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:34399)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63Y-0005IQ-D3
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:47:58 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-84--uWC4FmmOvii6Tyk0rH0ag-1; Thu, 13 Oct 2022 17:47:54 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 z20-20020a05640240d400b0045cec07c3dcso2124215edb.3
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:54 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 u9-20020a1709061da900b00731582babcasm455614ejh.71.2022.10.13.14.47.51
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:52 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697675;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=b8dsQrf3WUq4YDr5jN4X5smND/Tjp6AGn7jZDnvLNNM=;
 b=Q38eCcSAPg24Pn1YCvSnjqZqhvverUf9mrAtFr59AwCKwYMLRiNMPa15ZAD4+tqE6ZUfFH
 Xto3tjAl4l8z6iiObaHYDvZ4E6zY8u7n+sqvGbire5wYq6THStkyzJR3HTGMAez0TYWVi4
 hQIdbjgLQFXJNLh7xp972S1eGdpLxbw=
X-MC-Unique: -uWC4FmmOvii6Tyk0rH0ag-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=b8dsQrf3WUq4YDr5jN4X5smND/Tjp6AGn7jZDnvLNNM=;
 b=1/LFR+intutN15m50FBnlkwqcDGruUq8q6YCW4lBulIV51qpTUcane+yFVmvr863MH
 f7fZSQjlLCwnTShoRuMUS9UnmPctOcgGj69LF2rFPKpWy81PfRNI3WGAtjdKBcYpOI1a
 EslF92mLUsKRpSn+cslfHgcG6TrC25fGGgvv9a2fy/ERAzouI94NXTvjNZZ899Il1BwQ
 H9rT/8ScUoQSlH13DTVC01IjILX+rrlCCB6mGA9T+g6KX3SxqEPULdLDnLAjkWX7WFOm
 eop1Ax4t/qjUaz4mc9r96yErZmdRet1X15NHycMOA3tL/m0h5J7XwofXwnn1gp3CLKu7
 +zvg==
X-Gm-Message-State: ACrzQf0g4/w8NMuaYinjALZLh1azVAgzu8hXSVrB+kEs9u/ubPw+wiWy
 9VztymlVkOfey+gcewsuXXjU8ho3sfd4Nn1cTJEdU2I4pL1i1rknoZkqILcyKQg8DlkYNvaN4Z0
 BWRvTCtPvPALI87BGrLg7gYbX5FancGEvsBTpOh6wdpTZON3mCaKII+J8Iz4FVH33ocU=
X-Received: by 2002:a17:906:9756:b0:78b:8c9b:3b1d with SMTP id
 o22-20020a170906975600b0078b8c9b3b1dmr1299316ejy.256.1665697672970;
 Thu, 13 Oct 2022 14:47:52 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM5Vx/tPHobAqouAopMpInOVjFb5hjdVmnPL2laluI6a7FUtOY+hQGJoiymNk5lTw57rjMMOJg==
X-Received: by 2002:a17:906:9756:b0:78b:8c9b:3b1d with SMTP id
 o22-20020a170906975600b0078b8c9b3b1dmr1299302ejy.256.1665697672623;
 Thu, 13 Oct 2022 14:47:52 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 20/35] target/i386: reimplement 0x0f 0x78-0x7f, add AVX
Date: Thu, 13 Oct 2022 23:46:36 +0200
Message-Id: <20221013214651.672114-21-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698392666100001
Content-Type: text/plain; charset="utf-8"

These are a mixed batch, including the first two horizontal
(66 and F2 only) operations, more moves, and SSE4a extract/insert.

Because SSE4a is pretty rare, I chose to leave the helper as they are,
but it is possible to unify them by loading index and length from the
source XMM register and generating deposit or extract TCG ops.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 51 +++++++++++++++++++
 target/i386/tcg/emit.c.inc       | 86 ++++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |  1 +
 3 files changed, 138 insertions(+)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index abb99bfe51..df38c12a2d 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -168,6 +168,50 @@ static void decode_0F6F(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     *entry =3D *decode_by_prefix(s, opcodes_0F6F);
 }
=20
+static void decode_0F78(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F78[4] =3D {
+        {},
+        X86_OP_ENTRY3(EXTRQ_i,       V,x, None,None, I,w,  cpuid(SSE4A)),
+        {},
+        X86_OP_ENTRY3(INSERTQ_i,     V,x, U,x, I,w,        cpuid(SSE4A)),
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F78);
+}
+
+static void decode_0F79(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    if (s->prefix & PREFIX_REPNZ) {
+        entry->gen =3D gen_INSERTQ_r;
+    } else if (s->prefix & PREFIX_DATA) {
+        entry->gen =3D gen_EXTRQ_r;
+    } else {
+        entry->gen =3D NULL;
+    };
+}
+
+static void decode_0F7E(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F7E[4] =3D {
+        X86_OP_ENTRY3(MOVD_from,  E,y, None,None, P,y, vex5 mmx),
+        X86_OP_ENTRY3(MOVD_from,  E,y, None,None, V,y, vex5),
+        X86_OP_ENTRY3(MOVQ,       V,x, None,None, W,q, vex5),  /* wrong de=
st Vy on SDM! */
+        {},
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F7E);
+}
+
+static void decode_0F7F(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F7F[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,       W,x, None,None, V,x, vex1 mmx), /* movq=
 */
+        X86_OP_ENTRY3(MOVDQ,       W,x, None,None, V,x, vex1), /* movdqa */
+        X86_OP_ENTRY3(MOVDQ,       W,x, None,None, V,x, vex4_unal), /* mov=
dqu */
+        {},
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F7F);
+}
+
 static const X86OpEntry opcodes_0F38_00toEF[240] =3D {
 };
=20
@@ -317,6 +361,13 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x6e] =3D X86_OP_ENTRY3(MOVD_to,    V,x, None,None, E,y, vex5 mmx p_0=
0_66),  /* wrong dest Vy on SDM! */
     [0x6f] =3D X86_OP_GROUP0(0F6F),
=20
+    [0x78] =3D X86_OP_GROUP0(0F78),
+    [0x79] =3D X86_OP_GROUP2(0F79,       V,x, U,x,       cpuid(SSE4A)),
+    [0x7c] =3D X86_OP_ENTRY3(VHADD,      V,x, H,x, W,x,  vex2 cpuid(SSE3) =
p_66_f2),
+    [0x7d] =3D X86_OP_ENTRY3(VHSUB,      V,x, H,x, W,x,  vex2 cpuid(SSE3) =
p_66_f2),
+    [0x7e] =3D X86_OP_GROUP0(0F7E),
+    [0x7f] =3D X86_OP_GROUP0(0F7F),
+
     /* Incorrectly missing from 2-17 */
     [0xd8] =3D X86_OP_ENTRY3(PSUBUSB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
     [0xd9] =3D X86_OP_ENTRY3(PSUBUSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index e063d2fe04..7e13fb5869 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -443,6 +443,30 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
 UNARY_FP32_SSE(VRSQRT, rsqrt)
 UNARY_FP32_SSE(VRCP, rcp)
=20
+/*
+ * 66 =3D v*pd Vpd, Hpd, Wpd
+ * f2 =3D v*ps Vps, Hps, Wps
+ */
+static inline void gen_horizontal_fp_sse(DisasContext *s, CPUX86State *env=
, X86DecodedInsn *decode,
+                                         SSEFunc_0_eppp pd_xmm, SSEFunc_0_=
eppp ps_xmm,
+                                         SSEFunc_0_eppp pd_ymm, SSEFunc_0_=
eppp ps_ymm)
+{
+    SSEFunc_0_eppp ps, pd, fn;
+    ps =3D s->vex_l ? ps_ymm : ps_xmm;
+    pd =3D s->vex_l ? pd_ymm : pd_xmm;
+    fn =3D s->prefix & PREFIX_DATA ? pd : ps;
+    fn(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+}
+#define HORIZONTAL_FP_SSE(uname, lname)                                   =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_horizontal_fp_sse(s, env, decode,                                 =
         \
+                          gen_helper_##lname##pd_xmm, gen_helper_##lname##=
ps_xmm,  \
+                          gen_helper_##lname##pd_ymm, gen_helper_##lname##=
ps_ymm); \
+}
+HORIZONTAL_FP_SSE(VHADD, hadd)
+HORIZONTAL_FP_SSE(VHSUB, hsub)
+
 #define BINARY_INT_GVEC(uname, func, ...)                                 =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
 {                                                                         =
         \
@@ -716,6 +740,32 @@ static void gen_CRC32(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     gen_helper_crc32(s->T0, s->tmp2_i32, s->T1, tcg_constant_i32(8 << ot));
 }
=20
+static void gen_EXTRQ_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    TCGv_i32 length =3D tcg_constant_i32(decode->immediate & 63);
+    TCGv_i32 index =3D tcg_constant_i32((decode->immediate >> 8) & 63);
+
+    gen_helper_extrq_i(cpu_env, OP_PTR0, index, length);
+}
+
+static void gen_EXTRQ_r(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    gen_helper_extrq_r(cpu_env, OP_PTR0, OP_PTR2);
+}
+
+static void gen_INSERTQ_i(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    TCGv_i32 length =3D tcg_constant_i32(decode->immediate & 63);
+    TCGv_i32 index =3D tcg_constant_i32((decode->immediate >> 8) & 63);
+
+    gen_helper_insertq_i(cpu_env, OP_PTR0, OP_PTR1, index, length);
+}
+
+static void gen_INSERTQ_r(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    gen_helper_insertq_r(cpu_env, OP_PTR0, OP_PTR2);
+}
+
 static void gen_MOVBE(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
 {
     MemOp ot =3D decode->op[0].ot;
@@ -728,6 +778,24 @@ static void gen_MOVBE(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     }
 }
=20
+static void gen_MOVD_from(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    MemOp ot =3D decode->op[2].ot;
+
+    switch (ot) {
+    case MO_32:
+#ifdef TARGET_X86_64
+        tcg_gen_ld32u_tl(s->T0, cpu_env, decode->op[2].offset);
+        break;
+    case MO_64:
+#endif
+        tcg_gen_ld_tl(s->T0, cpu_env, decode->op[2].offset);
+        break;
+    default:
+        abort();
+    }
+}
+
 static void gen_MOVD_to(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
 {
     MemOp ot =3D decode->op[2].ot;
@@ -765,6 +833,24 @@ static void gen_MOVMSK(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decode
     tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
 }
=20
+static void gen_MOVQ(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    int vec_len =3D vector_len(s, decode);
+    int lo_ofs =3D vector_elem_offset(&decode->op[0], MO_64, 0);
+
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[2].offset);
+    /*
+     * tcg_gen_gvec_dup_i64(MO_64, op0.offset, 8, vec_len, s->tmp1_64) wou=
ld
+     * seem to work, but it does not on big-endian platforms; the cleared =
parts
+     * are always at higher addresses, but cross-endian emulation inverts =
the
+     * byte order so that the cleared parts need to be at *lower* addresse=
s.
+     * Because oprsz is 8, we see this here even for SSE; but more in gene=
ral,
+     * it disqualifies using oprsz < maxsz to emulate VEX128.
+     */
+    tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len, 0);
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, lo_ofs);
+}
+
 static void gen_MULX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     MemOp ot =3D decode->op[0].ot;
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 8e382ce0b4..d87c7b3bac 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4775,6 +4775,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #endif
         if (use_new &&
             ((b >=3D 0x150 && b <=3D 0x16f) ||
+             (b >=3D 0x178 && b <=3D 0x17f) ||
              (b >=3D 0x1d8 && b <=3D 0x1ff && (b & 8)))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698718; cv=none;
	d=zohomail.com; s=zohoarc;
	b=TrvFWktcyvAP41PkWEYK/E4lLlA0tliMVtn8OlWGfU3/i8psXHyfMevtMIpM0Cnr3AmqTcZefqL7OgX2OBXc+f8fYe2nZXri6MmmPODTAWsrVQjPPYlQLEuYBTKrnqCnjIGCdew2LnQInfBSj7bLOnswEBTGXydtvDvNTLjUeDw=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698718;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=FIIWwroXmAqH+9EGYvOEJ0bQT5fBy14wDFD0nbzHhVo=;
	b=lP65Ap7lmGV1CT1qX9dAN3QRj+RJ8rTan37IFyrg3AU00tK9U0fZDT6cavzqe3SYZnWyK3eJFykFVJqyKdabSxgojJ+qKca6ZhemhGWnFCvxtVcUFzTJSLmKZKlbpQzqYrincUIY+2DBJYmRuJFjprGl3QtGG3SSXiJmMfQonTQ=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698718409945.6095311954479;
 Thu, 13 Oct 2022 15:05:18 -0700 (PDT)
Received: from localhost ([::1]:46620 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6KK-0003Lb-4B
	for importer@patchew.org; Thu, 13 Oct 2022 18:05:16 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:53444)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63e-0002qF-1K
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:08 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:52883)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63b-0005Ik-Er
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:01 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-665-let2N5SNNfWfBDxZ_imMng-1; Thu, 13 Oct 2022 17:47:57 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 s8-20020a056402520800b0045cab560d5eso2344952edd.1
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:47:57 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 h2-20020a50ed82000000b00458dda85495sm582812edr.0.2022.10.13.14.47.54
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:54 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697678;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=FIIWwroXmAqH+9EGYvOEJ0bQT5fBy14wDFD0nbzHhVo=;
 b=NwKim2nuvkNlaoLLhcDByXry1RC0yYZyMOXJpL85cA3zwhw4mZdZElUorjRTQCLWEKKpgK
 4rae2VaE7MTSBviJ1o6H7Fjm4kFB612MXbdgAD/74l9MtnCzTTGNSuFPAle6ZJ8b2UTG+H
 n6e3b7qDsZ2rehiSuhkXctsYRjH5SVs=
X-MC-Unique: let2N5SNNfWfBDxZ_imMng-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=FIIWwroXmAqH+9EGYvOEJ0bQT5fBy14wDFD0nbzHhVo=;
 b=EWV9XJCVTqxt3Reoo6dn9qkQIMAf5VxXrsCpyH7b0Vv5l9gVg0hXlCOCVdbwL3Uzkn
 CrEtKOeQ4GmKgrVLxaGA5Qg+M6lxNHmTMKGjNphjGKCuU2OkZ+YDCIBxmv4FcRTwJHs+
 Rx8GhBd39xX6QTyYKG4priMBHkHNANLNfhm4D3ME3hlECvMuaVtIXjkLg8qEufzmVEnp
 U19gimGP+ybTxtr0Ph1P8Egw2ES4YoTHDy5cV6iKOIgqUdq547aD/uDu+5wAruvdlNrh
 7uK6KfYawN5GgCeAfOwV9C4q4IveYSMdr1l3/op/xy9bigHPsI5RL5K9UhZBG6I0oP8z
 sFDA==
X-Gm-Message-State: ACrzQf3sjDUBJG217EHRa+wwLgSfhKGmQurvRsQ17jCU4SW0PN6cHjk2
 wCpxmj1T9kkCKVUsV8qfhy04jVLQMSeYwn7fRaVQ0YT/978X7iGfyRMREJ2CJ4nzlf6aTm8NoYq
 ZXS/AUiZQ8LEsqNK6fnwxC1/LjRqO5Insj5y4t0wwScxjc5jsXg+od2aJd7yAAiJCRxs=
X-Received: by 2002:a17:906:db0c:b0:77b:7d7d:5805 with SMTP id
 xj12-20020a170906db0c00b0077b7d7d5805mr1345956ejb.726.1665697676008;
 Thu, 13 Oct 2022 14:47:56 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM54JRh3jZ4OiGvVuTeEz5L9+rhljJ9/qhHTfipViPCoBZ9Ea1P+qI/aqBbPlq6CQeU9t545mQ==
X-Received: by 2002:a17:906:db0c:b0:77b:7d7d:5805 with SMTP id
 xj12-20020a170906db0c00b0077b7d7d5805mr1345941ejb.726.1665697675611;
 Thu, 13 Oct 2022 14:47:55 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 21/35] target/i386: reimplement 0x0f 0x70-0x77, add AVX
Date: Thu, 13 Oct 2022 23:46:37 +0200
Message-Id: <20221013214651.672114-22-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698719414100001
Content-Type: text/plain; charset="utf-8"

This includes shifts by immediate, which use bits 3-5 of the ModRM byte
as an opcode extension.  With the exception of 128-bit shifts, they are
implemented using gvec.

This also covers VZEROALL and VZEROUPPER, which use the same opcode
as EMMS.  If we were wanting to optimize out gen_clear_ymmh then this
would be one of the starting points.  The implementation of the VZEROALL
and VZEROUPPER helpers is by Paul Brook.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  92 +++++++++++++-
 target/i386/tcg/emit.c.inc       | 204 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |   3 +-
 3 files changed, 293 insertions(+), 6 deletions(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index df38c12a2d..764d8d1d7c 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -157,6 +157,58 @@ static void decode_group17(DisasContext *s, CPUX86Stat=
e *env, X86OpEntry *entry,
     entry->gen =3D group17_gen[op];
 }
=20
+static void decode_group12(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_group12[8] =3D {
+        {},
+        {},
+        X86_OP_ENTRY3(PSRLW_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        {},
+        X86_OP_ENTRY3(PSRAW_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        {},
+        X86_OP_ENTRY3(PSLLW_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        {},
+    };
+
+    int op =3D (get_modrm(s, env) >> 3) & 7;
+    *entry =3D opcodes_group12[op];
+}
+
+static void decode_group13(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_group13[8] =3D {
+        {},
+        {},
+        X86_OP_ENTRY3(PSRLD_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        {},
+        X86_OP_ENTRY3(PSRAD_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        {},
+        X86_OP_ENTRY3(PSLLD_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        {},
+    };
+
+    int op =3D (get_modrm(s, env) >> 3) & 7;
+    *entry =3D opcodes_group13[op];
+}
+
+static void decode_group14(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_group14[8] =3D {
+        /* grp14 */
+        {},
+        {},
+        X86_OP_ENTRY3(PSRLQ_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        X86_OP_ENTRY3(PSRLDQ_i, H,x, U,x, I,b, vex7 avx2_256 p_66),
+        {},
+        {},
+        X86_OP_ENTRY3(PSLLQ_i,  H,x, U,x, I,b, vex7 mmx avx2_256 p_00_66),
+        X86_OP_ENTRY3(PSLLDQ_i, H,x, U,x, I,b, vex7 avx2_256 p_66),
+    };
+
+    int op =3D (get_modrm(s, env) >> 3) & 7;
+    *entry =3D opcodes_group14[op];
+}
+
 static void decode_0F6F(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
 {
     static const X86OpEntry opcodes_0F6F[4] =3D {
@@ -168,6 +220,31 @@ static void decode_0F6F(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     *entry =3D *decode_by_prefix(s, opcodes_0F6F);
 }
=20
+static void decode_0F70(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry pshufw[4] =3D {
+        X86_OP_ENTRY3(PSHUFW,  P,q, Q,q, I,b, vex4 mmx),
+        X86_OP_ENTRY3(PSHUFD,  V,x, W,x, I,b, vex4 avx2_256),
+        X86_OP_ENTRY3(PSHUFHW, V,x, W,x, I,b, vex4 avx2_256),
+        X86_OP_ENTRY3(PSHUFLW, V,x, W,x, I,b, vex4 avx2_256),
+    };
+
+    *entry =3D *decode_by_prefix(s, pshufw);
+}
+
+static void decode_0F77(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    if (!(s->prefix & PREFIX_VEX)) {
+        entry->gen =3D gen_EMMS;
+    } else if (!s->vex_l) {
+        entry->gen =3D gen_VZEROUPPER;
+        entry->vex_class =3D 8;
+    } else {
+        entry->gen =3D gen_VZEROALL;
+        entry->vex_class =3D 8;
+    }
+}
+
 static void decode_0F78(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
 {
     static const X86OpEntry opcodes_0F78[4] =3D {
@@ -340,6 +417,15 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x66] =3D X86_OP_ENTRY3(PCMPGTD,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
     [0x67] =3D X86_OP_ENTRY3(PACKUSWB,   V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
=20
+    [0x70] =3D X86_OP_GROUP0(0F70),
+    [0x71] =3D X86_OP_GROUP0(group12),
+    [0x72] =3D X86_OP_GROUP0(group13),
+    [0x73] =3D X86_OP_GROUP0(group14),
+    [0x74] =3D X86_OP_ENTRY3(PCMPEQB,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x75] =3D X86_OP_ENTRY3(PCMPEQW,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x76] =3D X86_OP_ENTRY3(PCMPEQD,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
+    [0x77] =3D X86_OP_GROUP0(0F77),
+
     [0x38] =3D X86_OP_GROUP0(0F38),
     [0x3a] =3D X86_OP_GROUP0(0F3A),
=20
@@ -941,10 +1027,8 @@ static bool validate_vex(DisasContext *s, X86DecodedI=
nsn *decode)
         }
         break;
     case 8:
-        if (!(s->prefix & PREFIX_VEX)) {
-            /* EMMS */
-            return true;
-        }
+        /* Non-VEX case handled in decode_0F77.  */
+        assert(s->prefix & PREFIX_VEX);
         if (!(s->flags & HF_AVX_EN_MASK)) {
             goto illegal;
         }
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 7e13fb5869..0d437686e6 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -19,6 +19,11 @@
  * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
  */
=20
+static inline TCGv_i32 tcg_constant8u_i32(uint8_t val)
+{
+    return tcg_constant_i32(val);
+}
+
 static void gen_NM_exception(DisasContext *s)
 {
     gen_exception(s, EXCP07_PREX);
@@ -485,6 +490,9 @@ BINARY_INT_GVEC(PADDSW,  tcg_gen_gvec_ssadd, MO_16)
 BINARY_INT_GVEC(PADDUSB, tcg_gen_gvec_usadd, MO_8)
 BINARY_INT_GVEC(PADDUSW, tcg_gen_gvec_usadd, MO_16)
 BINARY_INT_GVEC(PAND,    tcg_gen_gvec_and, MO_64)
+BINARY_INT_GVEC(PCMPEQB, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_8)
+BINARY_INT_GVEC(PCMPEQD, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_32)
+BINARY_INT_GVEC(PCMPEQW, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_16)
 BINARY_INT_GVEC(PCMPGTB, tcg_gen_gvec_cmp, TCG_COND_GT, MO_8)
 BINARY_INT_GVEC(PCMPGTW, tcg_gen_gvec_cmp, TCG_COND_GT, MO_16)
 BINARY_INT_GVEC(PCMPGTD, tcg_gen_gvec_cmp, TCG_COND_GT, MO_32)
@@ -585,6 +593,29 @@ UNARY_INT_SSE(VCVTPS2DQ, cvtps2dq)
 UNARY_INT_SSE(VCVTTPS2DQ, cvttps2dq)
=20
=20
+static inline void gen_unary_imm_sse(DisasContext *s, CPUX86State *env, X8=
6DecodedInsn *decode,
+                                     SSEFunc_0_ppi xmm, SSEFunc_0_ppi ymm)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    if (!s->vex_l) {
+        xmm(OP_PTR0, OP_PTR1, imm);
+    } else {
+        ymm(OP_PTR0, OP_PTR1, imm);
+    }
+}
+
+#define UNARY_IMM_SSE(uname, lname)                                       =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_unary_imm_sse(s, env, decode,                                     =
         \
+                      gen_helper_##lname##_xmm,                           =
         \
+                      gen_helper_##lname##_ymm);                          =
         \
+}
+
+UNARY_IMM_SSE(PSHUFD,     pshufd)
+UNARY_IMM_SSE(PSHUFHW,    pshufhw)
+UNARY_IMM_SSE(PSHUFLW,    pshuflw)
+
 static void gen_ADCOX(DisasContext *s, CPUX86State *env, MemOp ot, int cc_=
op)
 {
     TCGv carry_in =3D NULL;
@@ -740,6 +771,11 @@ static void gen_CRC32(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     gen_helper_crc32(s->T0, s->tmp2_i32, s->T1, tcg_constant_i32(8 << ot));
 }
=20
+static void gen_EMMS(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    gen_helper_emms(cpu_env);
+}
+
 static void gen_EXTRQ_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
 {
     TCGv_i32 length =3D tcg_constant_i32(decode->immediate & 63);
@@ -902,6 +938,154 @@ static void gen_PEXT(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     gen_helper_pext(s->T0, s->T0, s->T1);
 }
=20
+static void gen_PSHUFW(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    gen_helper_pshufw_mmx(OP_PTR0, OP_PTR1, imm);
+}
+
+static void gen_PSRLW_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 16) {
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else {
+        tcg_gen_gvec_shri(MO_16,
+                          decode->op[0].offset, decode->op[1].offset,
+                          decode->immediate, vec_len, vec_len);
+    }
+}
+
+static void gen_PSLLW_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 16) {
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else {
+        tcg_gen_gvec_shli(MO_16,
+                          decode->op[0].offset, decode->op[1].offset,
+                          decode->immediate, vec_len, vec_len);
+    }
+}
+
+static void gen_PSRAW_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 16) {
+        decode->immediate =3D 15;
+    }
+    tcg_gen_gvec_sari(MO_16,
+                      decode->op[0].offset, decode->op[1].offset,
+                      decode->immediate, vec_len, vec_len);
+}
+
+static void gen_PSRLD_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 32) {
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else {
+        tcg_gen_gvec_shri(MO_32,
+                          decode->op[0].offset, decode->op[1].offset,
+                          decode->immediate, vec_len, vec_len);
+    }
+}
+
+static void gen_PSLLD_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 32) {
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else {
+        tcg_gen_gvec_shli(MO_32,
+                          decode->op[0].offset, decode->op[1].offset,
+                          decode->immediate, vec_len, vec_len);
+    }
+}
+
+static void gen_PSRAD_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 32) {
+        decode->immediate =3D 31;
+    }
+    tcg_gen_gvec_sari(MO_32,
+                      decode->op[0].offset, decode->op[1].offset,
+                      decode->immediate, vec_len, vec_len);
+}
+
+static void gen_PSRLQ_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 64) {
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else {
+        tcg_gen_gvec_shri(MO_64,
+                          decode->op[0].offset, decode->op[1].offset,
+                          decode->immediate, vec_len, vec_len);
+    }
+}
+
+static void gen_PSLLQ_i(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    if (decode->immediate >=3D 64) {
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else {
+        tcg_gen_gvec_shli(MO_64,
+                          decode->op[0].offset, decode->op[1].offset,
+                          decode->immediate, vec_len, vec_len);
+    }
+}
+
+static TCGv_ptr make_imm8u_xmm_vec(uint8_t imm, int vec_len)
+{
+    MemOp ot =3D vec_len =3D=3D 16 ? MO_128 : MO_256;
+    TCGv_i32 imm_v =3D tcg_constant8u_i32(imm);
+    TCGv_ptr ptr =3D tcg_temp_new_ptr();
+
+    tcg_gen_gvec_dup_imm(MO_64, offsetof(CPUX86State, xmm_t0) + xmm_offset=
(ot),
+                         vec_len, vec_len, 0);
+
+    tcg_gen_addi_ptr(ptr, cpu_env, offsetof(CPUX86State, xmm_t0));
+    tcg_gen_st_i32(imm_v, cpu_env, offsetof(CPUX86State, xmm_t0.ZMM_L(0)));
+    return ptr;
+}
+
+static void gen_PSRLDQ_i(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    int vec_len =3D vector_len(s, decode);
+    TCGv_ptr imm_vec =3D make_imm8u_xmm_vec(decode->immediate, vec_len);
+
+    if (s->vex_l) {
+        gen_helper_psrldq_ymm(cpu_env, OP_PTR0, OP_PTR1, imm_vec);
+    } else {
+        gen_helper_psrldq_xmm(cpu_env, OP_PTR0, OP_PTR1, imm_vec);
+    }
+    tcg_temp_free_ptr(imm_vec);
+}
+
+static void gen_PSLLDQ_i(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    int vec_len =3D vector_len(s, decode);
+    TCGv_ptr imm_vec =3D make_imm8u_xmm_vec(decode->immediate, vec_len);
+
+    if (s->vex_l) {
+        gen_helper_pslldq_ymm(cpu_env, OP_PTR0, OP_PTR1, imm_vec);
+    } else {
+        gen_helper_pslldq_xmm(cpu_env, OP_PTR0, OP_PTR1, imm_vec);
+    }
+    tcg_temp_free_ptr(imm_vec);
+}
+
 static void gen_RORX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     MemOp ot =3D decode->op[0].ot;
@@ -959,3 +1143,23 @@ static void gen_VCVTfp2fp(DisasContext *s, CPUX86Stat=
e *env, X86DecodedInsn *dec
                      gen_helper_cvtpd2ps_ymm, gen_helper_cvtps2pd_ymm,
                      gen_helper_cvtsd2ss, gen_helper_cvtss2sd);
 }
+
+static void gen_VZEROALL(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    TCGv_ptr ptr =3D tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(ptr, cpu_env, offsetof(CPUX86State, xmm_t0));
+    gen_helper_memset(ptr, ptr, tcg_constant_i32(0),
+                      tcg_constant_ptr(CPU_NB_REGS * sizeof(ZMMReg)));
+    tcg_temp_free_ptr(ptr);
+}
+
+static void gen_VZEROUPPER(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    int i;
+
+    for (i =3D 0; i < CPU_NB_REGS; i++) {
+        int offset =3D offsetof(CPUX86State, xmm_regs[i].ZMM_X(1));
+        tcg_gen_gvec_dup_imm(MO_64, offset, 16, 16, 0);
+    }
+}
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index d87c7b3bac..ea6c37f47c 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4774,8 +4774,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         use_new &=3D b <=3D limit;
 #endif
         if (use_new &&
-            ((b >=3D 0x150 && b <=3D 0x16f) ||
-             (b >=3D 0x178 && b <=3D 0x17f) ||
+            ((b >=3D 0x150 && b <=3D 0x17f) ||
              (b >=3D 0x1d8 && b <=3D 0x1ff && (b & 8)))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699636; cv=none;
	d=zohomail.com; s=zohoarc;
	b=i7BCOTBJeS9qza4Z1OFE+WLiaHSsZOby+uBJJS++zYh0NAgDdpV11w4WouPLjmEUYHn0ZpH3HlmqbKte7toWvzV7CSEs2SGyvug24yKvRgGGdmFzyOsKb2jn72Tgx0mqXq6zsbxTgP21H+umnVfcBB8RzxdEnfkx9IRxoHHSfmY=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699636;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=7k8b24GypBXluQtInzX8fqWslu5uPL+KTdH1KJPHgBo=;
	b=SzszPidpO+oa/gid+u3KAxDPJI7YSdq69391ANYVS2tdsW/dET+4pAkXIwlgN56k3p8HvrU0F3f/TBVlOrCMMmwKorGkFEwMe8ZtPVAoWIDfCTykgTkwaGg9MxBaQ5jJu3aDZyk2cY+HOrWTAQkJvshSpiEIQSStiqxx2rv0XM4=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699636329652.2683642506246;
 Thu, 13 Oct 2022 15:20:36 -0700 (PDT)
Received: from localhost ([::1]:33442 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Z8-00011b-B1
	for importer@patchew.org; Thu, 13 Oct 2022 18:20:34 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:53446)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63g-0002qN-Ia
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:18 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:57819)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63e-0005Iu-Ag
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:04 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-36-pE2QNH5oP6Or6WgA5pcieg-1; Thu, 13 Oct 2022 17:49:15 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 h13-20020a056402280d00b0045cb282161cso2332827ede.8
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:00 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 b2-20020a1709063ca200b00773f3ccd989sm460077ejh.68.2022.10.13.14.47.57
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:47:57 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697681;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=7k8b24GypBXluQtInzX8fqWslu5uPL+KTdH1KJPHgBo=;
 b=euMsCjTI2SQAu931hEnBGAZ+DUiyQU8ADkUpmN1btdzBMU/K5GacHGtf8Cj8P0RsaGUUdC
 tEvd6IKKbjQnBpfCleoNU5RJRXMoCC/3qi7kOLqeqjAdP/P6WeCVgqw5+6wPRK6s3IsVyg
 XKsr4e6krdtPJGxBOGyOvxd8ybkkJvg=
X-MC-Unique: pE2QNH5oP6Or6WgA5pcieg-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=7k8b24GypBXluQtInzX8fqWslu5uPL+KTdH1KJPHgBo=;
 b=d8zjpkpiOegquKS6DKoTI2B3xj59RXj6GaVILR2jpB5LT8GBg275ABX9YcFQfl0vqY
 p9aUIEdpqRqCRqf5dZmaMNtLqgakC1Bo676bcvqhMFKBWF3xLYrSzsmlcD1S0oNUZV0/
 uAmJFav7XXy1Gal/N2kZjOoNni9nZIjE7z6rsRKAm7aNDOOMfC7Ve25/6zX/AQG+fV9F
 aAesQ6VdTqVsgqdC8k81lWyoersFsnbPRPG+Y/Nh+J6Yu0AjFUkfAHDfxhqr/0unGmNC
 ydPJfufAhw/EySLf3c1qTWqaRH8ZrctsUZJWKsdm/vBIVUc76yEkH0N3tdRMe3kZ1GOb
 PBeA==
X-Gm-Message-State: ACrzQf25VIO7FvW8v1fI96phfQ4bAYAoyUqwtpudEj0u6hNWboGITRP2
 OZRYMUERZzcP43BIXGJCr43yH37adUlaYs+q9MSzEE45vgCqfm0Ch0tkoaoCEqT0wopVeStdTA5
 XiluAiQDkn796kIEHr2gB/i0Z/WKETupxziza6g7VGrtSqHMYwX5z2ZanL/E65Uw2Bj4=
X-Received: by 2002:a17:907:a05:b0:77b:b538:6476 with SMTP id
 bb5-20020a1709070a0500b0077bb5386476mr1347686ejc.324.1665697678912;
 Thu, 13 Oct 2022 14:47:58 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6x978Qhqo824LHkxAq5iOybgtPsPnSb7B0RE9z/2J4o+2R3cJiIZanysamtXI3lmaW4WHm9Q==
X-Received: by 2002:a17:907:a05:b0:77b:b538:6476 with SMTP id
 bb5-20020a1709070a0500b0077bb5386476mr1347671ejc.324.1665697678416;
 Thu, 13 Oct 2022 14:47:58 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 22/35] target/i386: reimplement 0x0f 0xd0-0xd7, 0xe0-0xe7,
 0xf0-0xf7, add AVX
Date: Thu, 13 Oct 2022 23:46:38 +0200
Message-Id: <20221013214651.672114-23-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699637781100001
Content-Type: text/plain; charset="utf-8"

The more complicated ones here are d6-d7, e6-e7, f7.  The others
are trivial.

For LDDQU, using gen_load_sse directly might corrupt the register if
the second part of the load fails.  Therefore, add a custom X86_TYPE_WM
value; like X86_TYPE_W it does call gen_load(), but it also rejects a
value of 11 in the ModRM field like X86_TYPE_M.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 53 ++++++++++++++++++++++
 target/i386/tcg/decode-new.h     |  1 +
 target/i386/tcg/emit.c.inc       | 77 +++++++++++++++++++++++++++-----
 target/i386/tcg/translate.c      |  2 +-
 4 files changed, 122 insertions(+), 11 deletions(-)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 764d8d1d7c..f05234ad34 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -289,6 +289,18 @@ static void decode_0F7F(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     *entry =3D *decode_by_prefix(s, opcodes_0F7F);
 }
=20
+static void decode_0FD6(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry movq[4] =3D {
+        {},
+        X86_OP_ENTRY3(MOVQ,    W,x,  None, None, V,q, vex5),
+        X86_OP_ENTRY3(MOVq_dq, V,dq, None, None, N,q),
+        X86_OP_ENTRY3(MOVq_dq, P,q,  None, None, U,q),
+    };
+
+    *entry =3D *decode_by_prefix(s, movq);
+}
+
 static const X86OpEntry opcodes_0F38_00toEF[240] =3D {
 };
=20
@@ -398,6 +410,17 @@ static void decode_0F5B(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     *entry =3D *decode_by_prefix(s, opcodes_0F5B);
 }
=20
+static void decode_0FE6(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0FE6[4] =3D {
+        {},
+        X86_OP_ENTRY2(VCVTTPD2DQ,  V,x, W,x,      vex2),
+        X86_OP_ENTRY2(VCVTDQ2PD,   V,x, W,x,      vex2),
+        X86_OP_ENTRY2(VCVTPD2DQ,   V,x, W,x,      vex2),
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0FE6);
+}
+
 static const X86OpEntry opcodes_0F[256] =3D {
     [0x50] =3D X86_OP_ENTRY3(MOVMSK,     G,y, None,None, U,x, vex7 p_00_66=
),
     [0x51] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
@@ -454,6 +477,33 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x7e] =3D X86_OP_GROUP0(0F7E),
     [0x7f] =3D X86_OP_GROUP0(0F7F),
=20
+    [0xd0] =3D X86_OP_ENTRY3(VADDSUB,   V,x, H,x, W,x,        vex2 cpuid(S=
SE3) p_66_f2),
+    [0xd1] =3D X86_OP_ENTRY3(PSRLW_r,   V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xd2] =3D X86_OP_ENTRY3(PSRLD_r,   V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xd3] =3D X86_OP_ENTRY3(PSRLQ_r,   V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xd4] =3D X86_OP_ENTRY3(PADDQ,     V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xd5] =3D X86_OP_ENTRY3(PMULLW,    V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xd6] =3D X86_OP_GROUP0(0FD6),
+    [0xd7] =3D X86_OP_ENTRY3(PMOVMSKB,  G,d, None,None, U,x,  vex7 mmx avx=
2_256 p_00_66),
+
+    [0xe0] =3D X86_OP_ENTRY3(PAVGB,     V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xe1] =3D X86_OP_ENTRY3(PSRAW_r,   V,x, H,x, W,x,        vex7 mmx avx=
2_256 p_00_66),
+    [0xe2] =3D X86_OP_ENTRY3(PSRAD_r,   V,x, H,x, W,x,        vex7 mmx avx=
2_256 p_00_66),
+    [0xe3] =3D X86_OP_ENTRY3(PAVGW,     V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xe4] =3D X86_OP_ENTRY3(PMULHUW,   V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xe5] =3D X86_OP_ENTRY3(PMULHW,    V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
+    [0xe6] =3D X86_OP_GROUP0(0FE6),
+    [0xe7] =3D X86_OP_ENTRY3(MOVDQ,     W,x, None,None, V,x,  vex1 mmx p_0=
0_66), /* MOVNTQ/MOVNTDQ */
+
+    [0xf0] =3D X86_OP_ENTRY3(MOVDQ,    V,x, None,None, WM,x,  vex4_unal cp=
uid(SSE3) p_f2), /* LDDQU */
+    [0xf1] =3D X86_OP_ENTRY3(PSLLW_r,  V,x, H,x, W,x,         vex7 mmx avx=
2_256 p_00_66),
+    [0xf2] =3D X86_OP_ENTRY3(PSLLD_r,  V,x, H,x, W,x,         vex7 mmx avx=
2_256 p_00_66),
+    [0xf3] =3D X86_OP_ENTRY3(PSLLQ_r,  V,x, H,x, W,x,         vex7 mmx avx=
2_256 p_00_66),
+    [0xf4] =3D X86_OP_ENTRY3(PMULUDQ,  V,x, H,x, W,x,         vex4 mmx avx=
2_256 p_00_66),
+    [0xf5] =3D X86_OP_ENTRY3(PMADDWD,  V,x, H,x, W,x,         vex4 mmx avx=
2_256 p_00_66),
+    [0xf6] =3D X86_OP_ENTRY3(PSADBW,   V,x, H,x, W,x,         vex4 mmx avx=
2_256 p_00_66),
+    [0xf7] =3D X86_OP_ENTRY3(MASKMOV,  None,None, V,dq, U,dq, vex4_unal av=
x2_256 mmx p_00_66),
+
     /* Incorrectly missing from 2-17 */
     [0xd8] =3D X86_OP_ENTRY3(PSUBUSB,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
     [0xd9] =3D X86_OP_ENTRY3(PSUBUSW,  V,x, H,x, W,x,  vex4 mmx avx2_256 p=
_00_66),
@@ -710,6 +760,9 @@ static bool decode_op(DisasContext *s, CPUX86State *env=
, X86DecodedInsn *decode,
         }
         goto get_modrm;
=20
+    case X86_TYPE_WM:  /* modrm byte selects an XMM/YMM memory operand */
+        op->unit =3D X86_OP_SSE;
+        /* fall through */
     case X86_TYPE_M:  /* modrm byte selects a memory operand */
         modrm =3D get_modrm(s, env);
         if ((modrm >> 6) =3D=3D 3) {
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index 8456ae67ad..ef318a00ed 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -47,6 +47,7 @@ typedef enum X86OpType {
     X86_TYPE_Y, /* string destination */
=20
     /* Custom */
+    X86_TYPE_WM, /* modrm byte selects an XMM/YMM memory operand */
     X86_TYPE_2op, /* 2-operand RMW instruction */
     X86_TYPE_LoBits, /* encoded in bits 0-2 of the operand + REX.B */
     X86_TYPE_0, /* Hard-coded GPRs (RAX..RDI) */
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 0d437686e6..4227ddd9f3 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -471,6 +471,7 @@ static void gen_##uname(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decod
 }
 HORIZONTAL_FP_SSE(VHADD, hadd)
 HORIZONTAL_FP_SSE(VHSUB, hsub)
+HORIZONTAL_FP_SSE(VADDSUB, addsub)
=20
 #define BINARY_INT_GVEC(uname, func, ...)                                 =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
@@ -485,6 +486,7 @@ static void gen_##uname(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decod
 BINARY_INT_GVEC(PADDB,   tcg_gen_gvec_add, MO_8)
 BINARY_INT_GVEC(PADDW,   tcg_gen_gvec_add, MO_16)
 BINARY_INT_GVEC(PADDD,   tcg_gen_gvec_add, MO_32)
+BINARY_INT_GVEC(PADDQ,   tcg_gen_gvec_add, MO_64)
 BINARY_INT_GVEC(PADDSB,  tcg_gen_gvec_ssadd, MO_8)
 BINARY_INT_GVEC(PADDSW,  tcg_gen_gvec_ssadd, MO_16)
 BINARY_INT_GVEC(PADDUSB, tcg_gen_gvec_usadd, MO_8)
@@ -500,6 +502,7 @@ BINARY_INT_GVEC(PMAXSW,  tcg_gen_gvec_smax, MO_16)
 BINARY_INT_GVEC(PMAXUB,  tcg_gen_gvec_umax, MO_8)
 BINARY_INT_GVEC(PMINSW,  tcg_gen_gvec_smin, MO_16)
 BINARY_INT_GVEC(PMINUB,  tcg_gen_gvec_umin, MO_8)
+BINARY_INT_GVEC(PMULLW,  tcg_gen_gvec_mul, MO_16)
 BINARY_INT_GVEC(POR,     tcg_gen_gvec_or, MO_64)
 BINARY_INT_GVEC(PSUBB,   tcg_gen_gvec_sub, MO_8)
 BINARY_INT_GVEC(PSUBW,   tcg_gen_gvec_sub, MO_16)
@@ -557,6 +560,23 @@ BINARY_INT_MMX(PUNPCKHWD,  punpckhwd)
 BINARY_INT_MMX(PUNPCKHDQ,  punpckhdq)
 BINARY_INT_MMX(PACKSSDW,   packssdw)
=20
+BINARY_INT_MMX(PAVGB,   pavgb)
+BINARY_INT_MMX(PAVGW,   pavgw)
+BINARY_INT_MMX(PMADDWD, pmaddwd)
+BINARY_INT_MMX(PMULHUW, pmulhuw)
+BINARY_INT_MMX(PMULHW,  pmulhw)
+BINARY_INT_MMX(PMULUDQ, pmuludq)
+BINARY_INT_MMX(PSADBW,  psadbw)
+
+BINARY_INT_MMX(PSLLW_r, psllw)
+BINARY_INT_MMX(PSLLD_r, pslld)
+BINARY_INT_MMX(PSLLQ_r, psllq)
+BINARY_INT_MMX(PSRLW_r, psrlw)
+BINARY_INT_MMX(PSRLD_r, psrld)
+BINARY_INT_MMX(PSRLQ_r, psrlq)
+BINARY_INT_MMX(PSRAW_r, psraw)
+BINARY_INT_MMX(PSRAD_r, psrad)
+
 /* Instructions with no MMX equivalent.  */
 #define BINARY_INT_SSE(uname, lname)                                      =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
@@ -588,6 +608,9 @@ static void gen_##uname(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decod
                       gen_helper_##lname##_ymm);                          =
         \
 }
=20
+UNARY_INT_SSE(VCVTDQ2PD, cvtdq2pd)
+UNARY_INT_SSE(VCVTPD2DQ, cvtpd2dq)
+UNARY_INT_SSE(VCVTTPD2DQ, cvttpd2dq)
 UNARY_INT_SSE(VCVTDQ2PS, cvtdq2ps)
 UNARY_INT_SSE(VCVTPS2DQ, cvtps2dq)
 UNARY_INT_SSE(VCVTTPS2DQ, cvttps2dq)
@@ -802,6 +825,19 @@ static void gen_INSERTQ_r(DisasContext *s, CPUX86State=
 *env, X86DecodedInsn *dec
     gen_helper_insertq_r(cpu_env, OP_PTR0, OP_PTR2);
 }
=20
+static void gen_MASKMOV(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    tcg_gen_mov_tl(s->A0, cpu_regs[R_EDI]);
+    gen_extu(s->aflag, s->A0);
+    gen_add_A0_ds_seg(s);
+
+    if (s->prefix & PREFIX_DATA) {
+        gen_helper_maskmov_xmm(cpu_env, OP_PTR1, OP_PTR2, s->A0);
+    } else {
+        gen_helper_maskmov_mmx(cpu_env, OP_PTR1, OP_PTR2, s->A0);
+    }
+}
+
 static void gen_MOVBE(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
 {
     MemOp ot =3D decode->op[0].ot;
@@ -875,16 +911,27 @@ static void gen_MOVQ(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     int lo_ofs =3D vector_elem_offset(&decode->op[0], MO_64, 0);
=20
     tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[2].offset);
-    /*
-     * tcg_gen_gvec_dup_i64(MO_64, op0.offset, 8, vec_len, s->tmp1_64) wou=
ld
-     * seem to work, but it does not on big-endian platforms; the cleared =
parts
-     * are always at higher addresses, but cross-endian emulation inverts =
the
-     * byte order so that the cleared parts need to be at *lower* addresse=
s.
-     * Because oprsz is 8, we see this here even for SSE; but more in gene=
ral,
-     * it disqualifies using oprsz < maxsz to emulate VEX128.
-     */
-    tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len, 0);
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, lo_ofs);
+    if (decode->op[0].has_ea) {
+        tcg_gen_qemu_st_i64(s->tmp1_i64, s->A0, s->mem_index, MO_LEUQ);
+    } else {
+        /*
+         * tcg_gen_gvec_dup_i64(MO_64, op0.offset, 8, vec_len, s->tmp1_64)=
 would
+         * seem to work, but it does not on big-endian platforms; the clea=
red parts
+         * are always at higher addresses, but cross-endian emulation inve=
rts the
+         * byte order so that the cleared parts need to be at *lower* addr=
esses.
+         * Because oprsz is 8, we see this here even for SSE; but more in =
general,
+         * it disqualifies using oprsz < maxsz to emulate VEX128.
+         */
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+        tcg_gen_st_i64(s->tmp1_i64, cpu_env, lo_ofs);
+    }
+}
+
+static void gen_MOVq_dq(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    gen_helper_enter_mmx(cpu_env);
+    /* Otherwise the same as any other movq.  */
+    return gen_MOVQ(s, env, decode);
 }
=20
 static void gen_MULX(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
@@ -938,6 +985,16 @@ static void gen_PEXT(DisasContext *s, CPUX86State *env=
, X86DecodedInsn *decode)
     gen_helper_pext(s->T0, s->T0, s->T1);
 }
=20
+static void gen_PMOVMSKB(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    if (s->prefix & PREFIX_DATA) {
+        gen_helper_pmovmskb_xmm(s->tmp2_i32, cpu_env, OP_PTR2);
+    } else {
+        gen_helper_pmovmskb_mmx(s->tmp2_i32, cpu_env, OP_PTR2);
+    }
+    tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
+}
+
 static void gen_PSHUFW(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
 {
     TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index ea6c37f47c..ac5868352c 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4775,7 +4775,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #endif
         if (use_new &&
             ((b >=3D 0x150 && b <=3D 0x17f) ||
-             (b >=3D 0x1d8 && b <=3D 0x1ff && (b & 8)))) {
+             (b >=3D 0x1d0 && b <=3D 0x1ff))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
         }
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699179; cv=none;
	d=zohomail.com; s=zohoarc;
	b=mKIsYeYe16cWj4LZ1eeu8KK/NSdPqyJsZOVDuUDQHPHSPaSaj0iZmoFI3J8z/d1/pJJBSnlw6ITT4cAWPJ9uffVjNrQaQMp77HWek0tXWhvPLIJZ7ts+CG2FT86NPZKyWfhBdXX+qoledbFNE9v9sO8by8Ovhpk9/9ia+9uXRGk=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699179;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=+rs1/WmHEQ070rb0qOWPUYpr19R9HQxlkUYPKI4/gTE=;
	b=k8Vhzv4Bz+02gefuAa/RnczJ/sETj1FGllUbE0VeEC7kBO1KilUHlqsM7EQcrG94MJc3aL+oS+5Jy/gbAd7c8x5DW6o2rOHVdJXGgEyZtabl1FRuWh/cNwuRxFoYG/fh4nGZBBWFquXWFDL/kG8Xrmr9klraCoCYh9Xpha0aNtk=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699179247199.39549364376546;
 Thu, 13 Oct 2022 15:12:59 -0700 (PDT)
Received: from localhost ([::1]:33974 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Rm-0006jc-3I
	for importer@patchew.org; Thu, 13 Oct 2022 18:12:58 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:34376)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63i-0002qO-TT
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:11 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:59937)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63g-0005J8-TA
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:06 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-79-Fja72taqPjG582Fz3TIibA-1; Thu, 13 Oct 2022 17:48:03 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 s8-20020a056402520800b0045cab560d5eso2345066edd.1
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:03 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 h28-20020a1709070b1c00b00780f6071b5dsm408596ejl.188.2022.10.13.14.48.00
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:00 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697684;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=+rs1/WmHEQ070rb0qOWPUYpr19R9HQxlkUYPKI4/gTE=;
 b=aTZkwjgtsiFBV4eKLK6KZ4yy57uI8kiIDUQkr+fiMRr/++rPgruBlcl6qM4bHg3MWoLfrn
 fO8QH4y6LiY5tyRV2vLb6Pk7FeviyluIHv2Ko76mVx+43t17/Tmla9TQCHlSnY2UoYceY1
 a63GU0g07VGLirBOFRXEqiWyPMAac8o=
X-MC-Unique: Fja72taqPjG582Fz3TIibA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=+rs1/WmHEQ070rb0qOWPUYpr19R9HQxlkUYPKI4/gTE=;
 b=du85atn8t6U/KJIlm2zyIFvQIY/ESi+HNHH0uzVTnlDf/v7xfeCJ+SBX0GXoUaUCiD
 IPktw7gYdAT68gKDiX++HD1ehTXJMvmi3cguhuaj9zegITz+LK8d71s+KfNlbGqwRO9O
 sgDFvtMfGJ3eq4AbfrPugxjDj7SFdWsIEQ5I0GhhxsUzNAurEQgF6mXebr78G+9G5k5X
 H3jwSmTfClAJQ7WbOVQC3RT/TK9hRppEqjBk54FUc3PG/9vSE2m7J/7Uj21I0AdmMfmV
 tIs4BeSQApQQqryN3a/CX3eWxsBxQ5O11wCWH/ItYgu3TIPQ+L5Wvd0UMJ4T36ighvtU
 5ksw==
X-Gm-Message-State: ACrzQf29tPLRLTmHWes4Bx/qeFF/lL6n+AiVpgzZJ/wPnezcd0Y3mRUc
 3RS4n0j0C9ZCyqFOLOxOHkATLTpcNQTl6T/ZoynhApOEVApa13j0kvmc3DU8dnFyhqfsHXhpoCH
 uzWU9ilxpP/ZLiSFyiYrRTiZrqgVFPZFo7Ez0uZ8kJl1Ou7/giuOfKJ52XnLyFhTGjgc=
X-Received: by 2002:a17:907:3f1e:b0:78d:f198:fd00 with SMTP id
 hq30-20020a1709073f1e00b0078df198fd00mr1304027ejc.730.1665697681648;
 Thu, 13 Oct 2022 14:48:01 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7YTM3HppAs5YG6WEe1iRQvPTBZImVoC3o4FV3k0kmA8M0JcOlDo/tjPEv1zahma8X/4U0/Pg==
X-Received: by 2002:a17:907:3f1e:b0:78d:f198:fd00 with SMTP id
 hq30-20020a1709073f1e00b0078df198fd00mr1304015ejc.730.1665697681364;
 Thu, 13 Oct 2022 14:48:01 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 23/35] target/i386: clarify (un)signedness of immediates from
 0F3Ah opcodes
Date: Thu, 13 Oct 2022 23:46:39 +0200
Message-Id: <20221013214651.672114-24-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699180507100001
Content-Type: text/plain; charset="utf-8"

Three-byte opcodes from the 0F3Ah area all have an immediate byte which
is usually unsigned.  Clarify in the helper code that it is unsigned;
the new decoder treats immediates as signed by default, and seeing
an intN_t in the prototype might give the wrong impression that one
can use decode->immediate directly.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h        | 8 ++++----
 target/i386/ops_sse_header.h | 2 +-
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 090ba013b3..e7830ff277 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -1605,17 +1605,17 @@ SSE_HELPER_W(helper_psignw, FSIGNW)
 SSE_HELPER_L(helper_psignd, FSIGNL)
=20
 void glue(helper_palignr, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s,
-                                  int32_t shift)
+                                  uint32_t imm)
 {
     int i;
=20
     /* XXX could be checked during translation */
-    if (shift >=3D (SHIFT ? 32 : 16)) {
+    if (imm >=3D (SHIFT ? 32 : 16)) {
         for (i =3D 0; i < (1 << SHIFT); i++) {
             d->Q(i) =3D 0;
         }
     } else {
-        shift <<=3D 3;
+        int shift =3D imm * 8;
 #define SHR(v, i) (i < 64 && i > -64 ? i > 0 ? v >> (i) : (v << -(i)) : 0)
 #if SHIFT =3D=3D 0
         d->Q(0) =3D SHR(s->Q(0), shift - 0) |
@@ -2093,7 +2093,7 @@ static inline int pcmp_val(Reg *r, uint8_t ctrl, int =
i)
 }
=20
 static inline unsigned pcmpxstrx(CPUX86State *env, Reg *d, Reg *s,
-                                 int8_t ctrl, int valids, int validd)
+                                 uint8_t ctrl, int valids, int validd)
 {
     unsigned int res =3D 0;
     int v;
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 440f1c0e78..98178be148 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -335,7 +335,7 @@ DEF_HELPER_4(glue(pshufb, SUFFIX), void, env, Reg, Reg,=
 Reg)
 DEF_HELPER_4(glue(psignb, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(psignw, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(psignd, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_5(glue(palignr, SUFFIX), void, env, Reg, Reg, Reg, s32)
+DEF_HELPER_5(glue(palignr, SUFFIX), void, env, Reg, Reg, Reg, i32)
=20
 /* SSE4.1 op helpers */
 #if SHIFT >=3D 1
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698976; cv=none;
	d=zohomail.com; s=zohoarc;
	b=U29sug3pFX4e6dvzVnNizuke9thhjZOfuVsoR6+S4yCbdKVmBWirYgLNZ+mD4ctP7LzgP/bBPI7ii1lW5TFswsnk2xTfQFEvutk8/5ne4k6+vp3EMnIzcN/Lnl0qvX2aAl9On7qKi/xgMLPxDULgK4HRQs7K579wMwEJnB3PI1I=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698976;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=kC+nS07PS5HTuA1hHdBuDYI3bQT1j//8EeHJGdZeDAg=;
	b=LQ4TeOVn/n8a8NHtKIN6okXhJudIU5wpuTjNhX/yt6Ua/1D72K/k9mF1QooJV5sErRecwx7MwfM6g0iz4groz7FrParT2Mzz+MwYTOIo+blNvS42sroV5oAhiVGXx7905xfC6Xs6fxviBUh20eVl1vq1w7VAYcw0oig8oG1tPhg=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698976398612.2138199283745;
 Thu, 13 Oct 2022 15:09:36 -0700 (PDT)
Received: from localhost ([::1]:58088 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6OV-0000vy-7r
	for importer@patchew.org; Thu, 13 Oct 2022 18:09:35 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:34378)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63n-0002qu-Td
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:19 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:58389)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63k-0005JS-Fj
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:11 -0400
Received: from mail-ej1-f69.google.com (mail-ej1-f69.google.com
 [209.85.218.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-439-4UoHoPxmObS8o1NU8VoCrA-1; Thu, 13 Oct 2022 17:48:06 -0400
Received: by mail-ej1-f69.google.com with SMTP id
 nb9-20020a1709071c8900b0078d858f15c1so1476772ejc.1
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:06 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 qw10-20020a170906fcaa00b0076f99055520sm431123ejb.137.2022.10.13.14.48.03
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:03 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697687;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=kC+nS07PS5HTuA1hHdBuDYI3bQT1j//8EeHJGdZeDAg=;
 b=fUQjveDi5G+pmc7J4R9b5dzwNXN0E5946MSLzonn6LkIMEc9RuTnNl9joPzN8EzIE84jFb
 4ixF6TLbAPFIFlEhvF/pju7ol0OkWIDOFFmbg/OF3pgGZSnwdev4SFBQwPimTvX5aUdQJj
 9HFpOfL72ynb5e4MtEOG3JqsaJS7RUs=
X-MC-Unique: 4UoHoPxmObS8o1NU8VoCrA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=kC+nS07PS5HTuA1hHdBuDYI3bQT1j//8EeHJGdZeDAg=;
 b=GeiknWAc/qv2Dnvt3dAt7MDbZJmFTDezR4Sm1J3PgXf2X+sh5j5Kp3YJ2l9+643SCJ
 LKazH1wJgkgonxeVcR52Igdjb17BZWMQiJ2VdZY3TjeyAPI+/jU/k/CxSjanlUruBrSa
 ms4M6wc6PMcktuWTNKVG8DlokwOETw/wJ2zDVJc1FoStl3mOAjIO73hNrn4kkXzbRh6m
 1bWuual07vinu5p+aYDtsdMDXJVljkYqqmrV3SF+Pn53nzNJcz6fuESuS073RNYxv5X3
 D/p0gGk79D4mWLEDDD95G9gBuN8OwpBGhlVzWprqGmQfh9vYZ5rofLykIIq+7PmkTRBR
 ztuw==
X-Gm-Message-State: ACrzQf1AQSj5mk6ZveR6euiBpIJqk+qYRp0mrcE5JgeYxWZfS8nQiR6G
 YzJhxMJN66W+qdBD39lm4EN0MS2n6QDfSDCaqHK0AjAOYeSS7+kOv0O2u/UrHeminzeYGjkXH4D
 hA8FhYEowz9Nxdp9/E5pKhVGUbvhgHhcf49lLvv88t/Noe0wS7VHRqEsNKGEJCE2nWng=
X-Received: by 2002:a17:907:728e:b0:78d:f5c2:70d3 with SMTP id
 dt14-20020a170907728e00b0078df5c270d3mr1308352ejc.506.1665697684914;
 Thu, 13 Oct 2022 14:48:04 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM771ZR0iP8xB3U/Zeh3gnDuKhVjG2IjXcmZAjShaJcS03mfQWFvVAZi8DhEYqzr9jJ5DE/zMg==
X-Received: by 2002:a17:907:728e:b0:78d:f5c2:70d3 with SMTP id
 dt14-20020a170907728e00b0078df5c270d3mr1308325ejc.506.1665697684283;
 Thu, 13 Oct 2022 14:48:04 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 24/35] target/i386: reimplement 0x0f 0x3a, add AVX
Date: Thu, 13 Oct 2022 23:46:40 +0200
Message-Id: <20221013214651.672114-25-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698976982100001
Content-Type: text/plain; charset="utf-8"

The more complicated operations here are insertions and extractions.
Otherwise, there are just more entries than usual because the PS/PD/SS/SD
variations are encoded in the opcode rater than in the prefixes.

These three-byte opcodes also include AVX new instructions, whose
implementation in the helpers was originally done by Paul Brook
<paul@nowt.org>.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h            |  95 ++++++++++
 target/i386/ops_sse_header.h     |  10 +
 target/i386/tcg/decode-new.c.inc |  75 ++++++++
 target/i386/tcg/emit.c.inc       | 309 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |   3 +-
 5 files changed, 491 insertions(+), 1 deletion(-)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index e7830ff277..cb8909adcf 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -2381,6 +2381,101 @@ void glue(helper_aeskeygenassist, SUFFIX)(CPUX86Sta=
te *env, Reg *d, Reg *s,
 #endif
 #endif
=20
+#if SHIFT >=3D 1
+void glue(helper_vpermilpd_imm, SUFFIX)(Reg *d, Reg *s, uint32_t order)
+{
+    uint64_t r0, r1;
+    int i;
+
+    for (i =3D 0; i < 1 << SHIFT; i +=3D 2) {
+        r0 =3D s->Q(i + ((order >> 0) & 1));
+        r1 =3D s->Q(i + ((order >> 1) & 1));
+        d->Q(i) =3D r0;
+        d->Q(i+1) =3D r1;
+
+        order >>=3D 2;
+    }
+}
+
+void glue(helper_vpermilps_imm, SUFFIX)(Reg *d, Reg *s, uint32_t order)
+{
+    uint32_t r0, r1, r2, r3;
+    int i;
+
+    for (i =3D 0; i < 2 << SHIFT; i +=3D 4) {
+        r0 =3D s->L(i + ((order >> 0) & 3));
+        r1 =3D s->L(i + ((order >> 2) & 3));
+        r2 =3D s->L(i + ((order >> 4) & 3));
+        r3 =3D s->L(i + ((order >> 6) & 3));
+        d->L(i) =3D r0;
+        d->L(i+1) =3D r1;
+        d->L(i+2) =3D r2;
+        d->L(i+3) =3D r3;
+    }
+}
+
+#if SHIFT >=3D 2
+void helper_vpermdq_ymm(Reg *d, Reg *v, Reg *s, uint32_t order)
+{
+    uint64_t r0, r1, r2, r3;
+
+    switch (order & 3) {
+    case 0:
+        r0 =3D v->Q(0);
+        r1 =3D v->Q(1);
+        break;
+    case 1:
+        r0 =3D v->Q(2);
+        r1 =3D v->Q(3);
+        break;
+    case 2:
+        r0 =3D s->Q(0);
+        r1 =3D s->Q(1);
+        break;
+    case 3:
+        r0 =3D s->Q(2);
+        r1 =3D s->Q(3);
+        break;
+    }
+    switch ((order >> 4) & 3) {
+    case 0:
+        r2 =3D v->Q(0);
+        r3 =3D v->Q(1);
+        break;
+    case 1:
+        r2 =3D v->Q(2);
+        r3 =3D v->Q(3);
+        break;
+    case 2:
+        r2 =3D s->Q(0);
+        r3 =3D s->Q(1);
+        break;
+    case 3:
+        r2 =3D s->Q(2);
+        r3 =3D s->Q(3);
+        break;
+    }
+    d->Q(0) =3D r0;
+    d->Q(1) =3D r1;
+    d->Q(2) =3D r2;
+    d->Q(3) =3D r3;
+}
+
+void helper_vpermq_ymm(Reg *d, Reg *s, uint32_t order)
+{
+    uint64_t r0, r1, r2, r3;
+    r0 =3D s->Q(order & 3);
+    r1 =3D s->Q((order >> 2) & 3);
+    r2 =3D s->Q((order >> 4) & 3);
+    r3 =3D s->Q((order >> 6) & 3);
+    d->Q(0) =3D r0;
+    d->Q(1) =3D r1;
+    d->Q(2) =3D r2;
+    d->Q(3) =3D r3;
+}
+#endif
+#endif
+
 #undef SSE_HELPER_S
=20
 #undef LANE_WIDTH
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 98178be148..1afc4ff6a1 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -411,6 +411,16 @@ DEF_HELPER_4(glue(aeskeygenassist, SUFFIX), void, env,=
 Reg, Reg, i32)
 DEF_HELPER_5(glue(pclmulqdq, SUFFIX), void, env, Reg, Reg, Reg, i32)
 #endif
=20
+/* AVX helpers */
+#if SHIFT >=3D 1
+DEF_HELPER_3(glue(vpermilpd_imm, SUFFIX), void, Reg, Reg, i32)
+DEF_HELPER_3(glue(vpermilps_imm, SUFFIX), void, Reg, Reg, i32)
+#if SHIFT =3D=3D 2
+DEF_HELPER_4(vpermdq_ymm, void, Reg, Reg, Reg, i32)
+DEF_HELPER_3(vpermq_ymm, void, Reg, Reg, i32)
+#endif
+#endif
+
 #undef SHIFT
 #undef Reg
 #undef SUFFIX
diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index f05234ad34..1c2e8f559d 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -375,7 +375,78 @@ static void decode_0F38(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     }
 }
=20
+static void decode_VINSERTPS(DisasContext *s, CPUX86State *env, X86OpEntry=
 *entry, uint8_t *b)
+{
+    static const X86OpEntry
+        vinsertps_reg =3D X86_OP_ENTRY4(VINSERTPS_r, V,dq, H,dq, U,dq, vex=
5 cpuid(SSE41) p_66),
+        vinsertps_mem =3D X86_OP_ENTRY4(VINSERTPS_m, V,dq, H,dq, M,d,  vex=
5 cpuid(SSE41) p_66);
+
+    int modrm =3D get_modrm(s, env);
+    *entry =3D (modrm >> 6) =3D=3D 3 ? vinsertps_reg : vinsertps_mem;
+}
+
 static const X86OpEntry opcodes_0F3A[256] =3D {
+    /*
+     * These are VEX-only, but incorrectly listed in the manual as excepti=
on type 4.
+     * Also the "qq" instructions are sometimes omitted by Table 2-17, but=
 are VEX256
+     * only.
+     */
+    [0x00] =3D X86_OP_ENTRY3(VPERMQ,      V,qq, W,qq, I,b,  vex6 cpuid(AVX=
2) p_66),
+    [0x01] =3D X86_OP_ENTRY3(VPERMQ,      V,qq, W,qq, I,b,  vex6 cpuid(AVX=
2) p_66), /* VPERMPD */
+    [0x02] =3D X86_OP_ENTRY4(VBLENDPS,    V,x,  H,x,  W,x,  vex6 cpuid(AVX=
2) p_66), /* VPBLENDD */
+    [0x04] =3D X86_OP_ENTRY3(VPERMILPS_i, V,x,  W,x,  I,b,  vex6 cpuid(AVX=
) p_66),
+    [0x05] =3D X86_OP_ENTRY3(VPERMILPD_i, V,x,  W,x,  I,b,  vex6 cpuid(AVX=
) p_66),
+    [0x06] =3D X86_OP_ENTRY4(VPERM2x128,  V,qq, H,qq, W,qq, vex6 cpuid(AVX=
) p_66),
+
+    [0x14] =3D X86_OP_ENTRY3(PEXTRB,     E,b,  V,dq, I,b,  vex5 cpuid(SSE4=
1) zext0 p_66),
+    [0x15] =3D X86_OP_ENTRY3(PEXTRW,     E,w,  V,dq, I,b,  vex5 cpuid(SSE4=
1) zext0 p_66),
+    [0x16] =3D X86_OP_ENTRY3(PEXTR,      E,y,  V,dq, I,b,  vex5 cpuid(SSE4=
1) p_66),
+    [0x17] =3D X86_OP_ENTRY3(VEXTRACTPS, E,d,  V,dq, I,b,  vex5 cpuid(SSE4=
1) p_66),
+
+    [0x20] =3D X86_OP_ENTRY4(PINSRB,     V,dq, H,dq, E,b,  vex5 cpuid(SSE4=
1) zext2 p_66),
+    [0x21] =3D X86_OP_GROUP0(VINSERTPS),
+    [0x22] =3D X86_OP_ENTRY4(PINSR,      V,dq, H,dq, E,y,  vex5 cpuid(SSE4=
1) p_66),
+
+    [0x40] =3D X86_OP_ENTRY4(VDDPS,      V,x,  H,x,  W,x,  vex2 cpuid(SSE4=
1) p_66),
+    [0x41] =3D X86_OP_ENTRY4(VDDPD,      V,dq, H,dq, W,dq, vex2 cpuid(SSE4=
1) p_66),
+    [0x42] =3D X86_OP_ENTRY4(VMPSADBW,   V,x,  H,x,  W,x,  vex2 cpuid(SSE4=
1) avx2_256 p_66),
+    [0x44] =3D X86_OP_ENTRY4(PCLMULQDQ,  V,dq, H,dq, W,dq, vex4 cpuid(PCLM=
ULQDQ) p_66),
+    [0x46] =3D X86_OP_ENTRY4(VPERM2x128, V,qq, H,qq, W,qq, vex6 cpuid(AVX2=
) p_66),
+
+    [0x60] =3D X86_OP_ENTRY4(PCMPESTRM,  None,None, V,dq, W,dq, vex4_unal =
cpuid(SSE42) p_66),
+    [0x61] =3D X86_OP_ENTRY4(PCMPESTRI,  None,None, V,dq, W,dq, vex4_unal =
cpuid(SSE42) p_66),
+    [0x62] =3D X86_OP_ENTRY4(PCMPISTRM,  None,None, V,dq, W,dq, vex4_unal =
cpuid(SSE42) p_66),
+    [0x63] =3D X86_OP_ENTRY4(PCMPISTRI,  None,None, V,dq, W,dq, vex4_unal =
cpuid(SSE42) p_66),
+
+    [0x08] =3D X86_OP_ENTRY3(VROUNDPS,   V,x,  W,x,  I,b,  vex2 cpuid(SSE4=
1) p_66),
+    [0x09] =3D X86_OP_ENTRY3(VROUNDPD,   V,x,  W,x,  I,b,  vex2 cpuid(SSE4=
1) p_66),
+    /*
+     * Not listed as four operand in the manual.  Also writes and reads 12=
8-bits
+     * from the first two operands due to the V operand picking higher ent=
ries of
+     * the H operand; the "Vss,Hss,Wss" description from the manual is inc=
orrect.
+     * For other unary operations such as VSQRTSx this is hidden by the "R=
EPScalar"
+     * value of vex_special, because the table lists the operand types of =
VSQRTPx.
+     */
+    [0x0a] =3D X86_OP_ENTRY4(VROUNDSS,   V,x,  H,x, W,ss, vex3 cpuid(SSE41=
) p_66),
+    [0x0b] =3D X86_OP_ENTRY4(VROUNDSD,   V,x,  H,x, W,sd, vex3 cpuid(SSE41=
) p_66),
+    [0x0c] =3D X86_OP_ENTRY4(VBLENDPS,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) p_66),
+    [0x0d] =3D X86_OP_ENTRY4(VBLENDPD,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) p_66),
+    [0x0e] =3D X86_OP_ENTRY4(VPBLENDW,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) p_66),
+    [0x0f] =3D X86_OP_ENTRY4(PALIGNR,    V,x,  H,x,  W,x,  vex4 cpuid(SSSE=
3) mmx p_00_66),
+
+    [0x18] =3D X86_OP_ENTRY4(VINSERTx128,  V,qq, H,qq, W,qq, vex6 cpuid(AV=
X) p_66),
+    [0x19] =3D X86_OP_ENTRY3(VEXTRACTx128, W,dq, V,qq, I,b,  vex6 cpuid(AV=
X) p_66),
+
+    [0x38] =3D X86_OP_ENTRY4(VINSERTx128,  V,qq, H,qq, W,qq, vex6 cpuid(AV=
X2) p_66),
+    [0x39] =3D X86_OP_ENTRY3(VEXTRACTx128, W,dq, V,qq, I,b,  vex6 cpuid(AV=
X2) p_66),
+
+    /* Listed incorrectly as type 4 */
+    [0x4a] =3D X86_OP_ENTRY4(VBLENDVPS, V,x,  H,x,  W,x,   vex6 cpuid(AVX)=
 p_66),
+    [0x4b] =3D X86_OP_ENTRY4(VBLENDVPD, V,x,  H,x,  W,x,   vex6 cpuid(AVX)=
 p_66),
+    [0x4c] =3D X86_OP_ENTRY4(VPBLENDVB, V,x,  H,x,  W,x,   vex6 cpuid(AVX)=
 p_66 avx2_256),
+
+    [0xdf] =3D X86_OP_ENTRY3(VAESKEYGEN, V,dq, W,dq, I,b,  vex4 cpuid(AES)=
 p_66),
+
     [0xF0] =3D X86_OP_ENTRY3(RORX, G,y, E,y, I,b, vex13 cpuid(BMI2) p_f2),
 };
=20
@@ -916,6 +987,10 @@ static bool decode_insn(DisasContext *s, CPUX86State *=
env, X86DecodeFunc decode_
         }
     }
     if (e->op3 !=3D X86_TYPE_None) {
+        /*
+         * A couple instructions actually use the extra immediate byte for=
 an Lx
+         * register operand; those are handled in the gen_* functions as o=
ne off.
+         */
         assert(e->op3 =3D=3D X86_TYPE_I && e->s3 =3D=3D X86_SIZE_b);
         s->rip_offset +=3D 1;
     }
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 4227ddd9f3..062c92e45a 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -473,6 +473,55 @@ HORIZONTAL_FP_SSE(VHADD, hadd)
 HORIZONTAL_FP_SSE(VHSUB, hsub)
 HORIZONTAL_FP_SSE(VADDSUB, addsub)
=20
+static inline void gen_ternary_sse(DisasContext *s, CPUX86State *env, X86D=
ecodedInsn *decode,
+                                   int op3, SSEFunc_0_epppp xmm, SSEFunc_0=
_epppp ymm)
+{
+    SSEFunc_0_epppp fn =3D s->vex_l ? ymm : xmm;
+    TCGv_ptr ptr3 =3D tcg_temp_new_ptr();
+
+    /* The format of the fourth input is Lx */
+    tcg_gen_addi_ptr(ptr3, cpu_env, ZMM_OFFSET(op3));
+    fn(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, ptr3);
+    tcg_temp_free_ptr(ptr3);
+}
+#define TERNARY_SSE(uvname, lname)                                        =
         \
+static void gen_##uvname(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode) \
+{                                                                         =
         \
+    gen_ternary_sse(s, env, decode, (uint8_t)decode->immediate >> 4,      =
         \
+                    gen_helper_##lname##_xmm, gen_helper_##lname##_ymm);  =
         \
+}
+TERNARY_SSE(VBLENDVPS, blendvps)
+TERNARY_SSE(VBLENDVPD, blendvpd)
+TERNARY_SSE(VPBLENDVB, pblendvb)
+
+static inline void gen_binary_imm_sse(DisasContext *s, CPUX86State *env, X=
86DecodedInsn *decode,
+                                      SSEFunc_0_epppi xmm, SSEFunc_0_epppi=
 ymm)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    if (!s->vex_l) {
+        xmm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+    } else {
+        ymm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+    }
+}
+
+#define BINARY_IMM_SSE(uname, lname)                                      =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_binary_imm_sse(s, env, decode,                                    =
         \
+                       gen_helper_##lname##_xmm,                          =
         \
+                       gen_helper_##lname##_ymm);                         =
         \
+}
+
+BINARY_IMM_SSE(VBLENDPD,   blendpd)
+BINARY_IMM_SSE(VBLENDPS,   blendps)
+BINARY_IMM_SSE(VPBLENDW,   pblendw)
+BINARY_IMM_SSE(VDDPS,      dpps)
+#define gen_helper_dppd_ymm NULL
+BINARY_IMM_SSE(VDDPD,      dppd)
+BINARY_IMM_SSE(VMPSADBW,   mpsadbw)
+BINARY_IMM_SSE(PCLMULQDQ,  pclmulqdq)
+
 #define BINARY_INT_GVEC(uname, func, ...)                                 =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
 {                                                                         =
         \
@@ -638,6 +687,32 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
 UNARY_IMM_SSE(PSHUFD,     pshufd)
 UNARY_IMM_SSE(PSHUFHW,    pshufhw)
 UNARY_IMM_SSE(PSHUFLW,    pshuflw)
+#define gen_helper_vpermq_xmm NULL
+UNARY_IMM_SSE(VPERMQ,      vpermq)
+UNARY_IMM_SSE(VPERMILPS_i, vpermilps_imm)
+UNARY_IMM_SSE(VPERMILPD_i, vpermilpd_imm)
+
+static inline void gen_unary_imm_fp_sse(DisasContext *s, CPUX86State *env,=
 X86DecodedInsn *decode,
+                                        SSEFunc_0_eppi xmm, SSEFunc_0_eppi=
 ymm)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    if (!s->vex_l) {
+        xmm(cpu_env, OP_PTR0, OP_PTR1, imm);
+    } else {
+        ymm(cpu_env, OP_PTR0, OP_PTR1, imm);
+    }
+}
+
+#define UNARY_IMM_FP_SSE(uname, lname)                                    =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_unary_imm_fp_sse(s, env, decode,                                  =
         \
+                      gen_helper_##lname##_xmm,                           =
         \
+                      gen_helper_##lname##_ymm);                          =
         \
+}
+
+UNARY_IMM_FP_SSE(VROUNDPS,    roundps)
+UNARY_IMM_FP_SSE(VROUNDPD,    roundpd)
=20
 static void gen_ADCOX(DisasContext *s, CPUX86State *env, MemOp ot, int cc_=
op)
 {
@@ -957,6 +1032,18 @@ static void gen_MULX(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
=20
 }
=20
+static void gen_PALIGNR(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    if (!(s->prefix & PREFIX_DATA)) {
+        gen_helper_palignr_mmx(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+    } else if (!s->vex_l) {
+        gen_helper_palignr_xmm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+    } else {
+        gen_helper_palignr_ymm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+    }
+}
+
 static void gen_PANDN(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
 {
     int vec_len =3D vector_len(s, decode);
@@ -967,6 +1054,42 @@ static void gen_PANDN(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decode)
                       decode->op[1].offset, vec_len, vec_len);
 }
=20
+static void gen_PCMPESTRI(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    gen_helper_pcmpestri_xmm(cpu_env, OP_PTR1, OP_PTR2, imm);
+    set_cc_op(s, CC_OP_EFLAGS);
+}
+
+static void gen_PCMPESTRM(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    gen_helper_pcmpestrm_xmm(cpu_env, OP_PTR1, OP_PTR2, imm);
+    set_cc_op(s, CC_OP_EFLAGS);
+    if ((s->prefix & PREFIX_VEX) && !s->vex_l) {
+        tcg_gen_gvec_dup_imm(MO_64, offsetof(CPUX86State, xmm_regs[0].ZMM_=
X(1)),
+                             16, 16, 0);
+    }
+}
+
+static void gen_PCMPISTRI(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    gen_helper_pcmpistri_xmm(cpu_env, OP_PTR1, OP_PTR2, imm);
+    set_cc_op(s, CC_OP_EFLAGS);
+}
+
+static void gen_PCMPISTRM(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    gen_helper_pcmpistrm_xmm(cpu_env, OP_PTR1, OP_PTR2, imm);
+    set_cc_op(s, CC_OP_EFLAGS);
+    if ((s->prefix & PREFIX_VEX) && !s->vex_l) {
+        tcg_gen_gvec_dup_imm(MO_64, offsetof(CPUX86State, xmm_regs[0].ZMM_=
X(1)),
+                             16, 16, 0);
+    }
+}
+
 static void gen_PDEP(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     MemOp ot =3D decode->op[1].ot;
@@ -985,6 +1108,89 @@ static void gen_PEXT(DisasContext *s, CPUX86State *en=
v, X86DecodedInsn *decode)
     gen_helper_pext(s->T0, s->T0, s->T1);
 }
=20
+static inline void gen_pextr(DisasContext *s, CPUX86State *env, X86Decoded=
Insn *decode, MemOp ot)
+{
+    int vec_len =3D vector_len(s, decode);
+    int mask =3D (vec_len >> ot) - 1;
+    int val =3D decode->immediate & mask;
+
+    switch (ot) {
+    case MO_8:
+        tcg_gen_ld8u_tl(s->T0, cpu_env, vector_elem_offset(&decode->op[1],=
 ot, val));
+        break;
+    case MO_16:
+        tcg_gen_ld16u_tl(s->T0, cpu_env, vector_elem_offset(&decode->op[1]=
, ot, val));
+        break;
+    case MO_32:
+#ifdef TARGET_X86_64
+        tcg_gen_ld32u_tl(s->T0, cpu_env, vector_elem_offset(&decode->op[1]=
, ot, val));
+        break;
+    case MO_64:
+#endif
+        tcg_gen_ld_tl(s->T0, cpu_env, vector_elem_offset(&decode->op[1], o=
t, val));
+        break;
+    default:
+        abort();
+    }
+}
+
+static void gen_PEXTRB(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    gen_pextr(s, env, decode, MO_8);
+}
+
+static void gen_PEXTRW(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    gen_pextr(s, env, decode, MO_16);
+}
+
+static void gen_PEXTR(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    MemOp ot =3D decode->op[0].ot;
+    gen_pextr(s, env, decode, ot);
+}
+
+static inline void gen_pinsr(DisasContext *s, CPUX86State *env, X86Decoded=
Insn *decode, MemOp ot)
+{
+    int vec_len =3D vector_len(s, decode);
+    int mask =3D (vec_len >> ot) - 1;
+    int val =3D decode->immediate & mask;
+
+    if (decode->op[1].offset !=3D decode->op[0].offset) {
+        assert(vec_len =3D=3D 16);
+        gen_store_sse(s, decode, decode->op[1].offset);
+    }
+
+    switch (ot) {
+    case MO_8:
+        tcg_gen_st8_tl(s->T1, cpu_env, vector_elem_offset(&decode->op[0], =
ot, val));
+        break;
+    case MO_16:
+        tcg_gen_st16_tl(s->T1, cpu_env, vector_elem_offset(&decode->op[0],=
 ot, val));
+        break;
+    case MO_32:
+#ifdef TARGET_X86_64
+        tcg_gen_st32_tl(s->T1, cpu_env, vector_elem_offset(&decode->op[0],=
 ot, val));
+        break;
+    case MO_64:
+#endif
+        tcg_gen_st_tl(s->T1, cpu_env, vector_elem_offset(&decode->op[0], o=
t, val));
+        break;
+    default:
+        abort();
+    }
+}
+
+static void gen_PINSRB(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    gen_pinsr(s, env, decode, MO_8);
+}
+
+static void gen_PINSR(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    gen_pinsr(s, env, decode, decode->op[2].ot);
+}
+
 static void gen_PMOVMSKB(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
 {
     if (s->prefix & PREFIX_DATA) {
@@ -1193,6 +1399,13 @@ static void gen_SHRX(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decode)
     tcg_gen_shr_tl(s->T0, s->T0, s->T1);
 }
=20
+static void gen_VAESKEYGEN(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    assert(!s->vex_l);
+    gen_helper_aeskeygenassist_xmm(cpu_env, OP_PTR0, OP_PTR1, imm);
+}
+
 static void gen_VCVTfp2fp(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
 {
     gen_unary_fp_sse(s, env, decode,
@@ -1201,6 +1414,102 @@ static void gen_VCVTfp2fp(DisasContext *s, CPUX86St=
ate *env, X86DecodedInsn *dec
                      gen_helper_cvtsd2ss, gen_helper_cvtss2sd);
 }
=20
+static void gen_VEXTRACTx128(DisasContext *s, CPUX86State *env, X86Decoded=
Insn *decode)
+{
+    int mask =3D decode->immediate & 1;
+    int src_ofs =3D vector_elem_offset(&decode->op[1], MO_128, mask);
+    if (decode->op[0].has_ea) {
+        /* VEX-only instruction, no alignment requirements.  */
+        gen_sto_env_A0(s, src_ofs, false);
+    } else {
+        tcg_gen_gvec_mov(MO_64, decode->op[0].offset, src_ofs, 16, 16);
+    }
+}
+
+static void gen_VEXTRACTPS(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    gen_pextr(s, env, decode, MO_32);
+}
+
+static void gen_vinsertps(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    int val =3D decode->immediate;
+    int dest_word =3D (val >> 4) & 3;
+    int new_mask =3D (val & 15) | (1 << dest_word);
+    int vec_len =3D 16;
+
+    assert(!s->vex_l);
+
+    if (new_mask =3D=3D 15) {
+        /* All zeroes except possibly for the inserted element */
+        tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len=
, 0);
+    } else if (decode->op[1].offset !=3D decode->op[0].offset) {
+        gen_store_sse(s, decode, decode->op[1].offset);
+    }
+
+    if (new_mask !=3D (val & 15)) {
+        tcg_gen_st_i32(s->tmp2_i32, cpu_env,
+                       vector_elem_offset(&decode->op[0], MO_32, dest_word=
));
+    }
+
+    if (new_mask !=3D 15) {
+        TCGv_i32 zero =3D tcg_constant_i32(0); /* float32_zero */
+        int i;
+        for (i =3D 0; i < 4; i++) {
+            if ((val >> i) & 1) {
+                tcg_gen_st_i32(zero, cpu_env,
+                               vector_elem_offset(&decode->op[0], MO_32, i=
));
+            }
+        }
+    }
+}
+
+static void gen_VINSERTPS_r(DisasContext *s, CPUX86State *env, X86DecodedI=
nsn *decode)
+{
+    int val =3D decode->immediate;
+    tcg_gen_ld_i32(s->tmp2_i32, cpu_env,
+                   vector_elem_offset(&decode->op[2], MO_32, (val >> 6) & =
3));
+    gen_vinsertps(s, env, decode);
+}
+
+static void gen_VINSERTPS_m(DisasContext *s, CPUX86State *env, X86DecodedI=
nsn *decode)
+{
+    tcg_gen_qemu_ld_i32(s->tmp2_i32, s->A0, s->mem_index, MO_LEUL);
+    gen_vinsertps(s, env, decode);
+}
+
+static void gen_VINSERTx128(DisasContext *s, CPUX86State *env, X86DecodedI=
nsn *decode)
+{
+    int mask =3D decode->immediate & 1;
+    tcg_gen_gvec_mov(MO_64,
+                     decode->op[0].offset + offsetof(YMMReg, YMM_X(mask)),
+                     decode->op[2].offset + offsetof(YMMReg, YMM_X(0)), 16=
, 16);
+    tcg_gen_gvec_mov(MO_64,
+                     decode->op[0].offset + offsetof(YMMReg, YMM_X(!mask)),
+                     decode->op[1].offset + offsetof(YMMReg, YMM_X(!mask))=
, 16, 16);
+}
+
+static void gen_VPERM2x128(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    assert(s->vex_l);
+    gen_helper_vpermdq_ymm(OP_PTR0, OP_PTR1, OP_PTR2, imm);
+}
+
+static void gen_VROUNDSD(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    assert(!s->vex_l);
+    gen_helper_roundsd_xmm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+}
+
+static void gen_VROUNDSS(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
+    assert(!s->vex_l);
+    gen_helper_roundss_xmm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
+}
+
 static void gen_VZEROALL(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
 {
     TCGv_ptr ptr =3D tcg_temp_new_ptr();
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index ac5868352c..bffe778a69 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4774,7 +4774,8 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         use_new &=3D b <=3D limit;
 #endif
         if (use_new &&
-            ((b >=3D 0x150 && b <=3D 0x17f) ||
+            (b =3D=3D 0x13a ||
+             (b >=3D 0x150 && b <=3D 0x17f) ||
              (b >=3D 0x1d0 && b <=3D 0x1ff))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699188; cv=none;
	d=zohomail.com; s=zohoarc;
	b=kBgRmiJcc7R5vslYmM0ZK2gzJQaqUg1BjYQD1wEiO9AQjfCx+lO2mYv/383YozZcbLf0ZCxZsT4y7awtOQKFLEnvyaul4ujSCmutW4jQPN3JCC793rXR+jBizbUtY+haYpmYovST8jC6yOSKMu3QMeHZY4tkuSoGOUekXUgxBgk=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699188;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=k229EqfcdmSEeYRUd9pze+gwJ+qeSPgXw5lbUelqaYo=;
	b=HghFXuiynQWD0Ov4leXCHPRy/k/8fbvvnWPBpxyVn0VuwHc2Dj4M3ptU+4A0VHdqrlfHFgx+7VqltA8mFSzOW74jP+nX6O04jRI4sV/NBb96VpFqU3LDTGTW949o1X2TW/jhPYTVZlarWXZPAHHxZaT7bBvWvsT+doUrXMGVdXg=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699188085247.70415329427556;
 Thu, 13 Oct 2022 15:13:08 -0700 (PDT)
Received: from localhost ([::1]:58000 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Ru-0006qf-Tp
	for importer@patchew.org; Thu, 13 Oct 2022 18:13:06 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:35900)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63s-0002qz-Q4
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:19 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:41896)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63n-0005JY-SS
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:13 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-93-6znWEnTbNZCvASxsKwL9Uw-1; Thu, 13 Oct 2022 17:48:09 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 f18-20020a056402355200b0045c13ee57d9so2365506edd.20
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:08 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 g16-20020a170906539000b0073d5948855asm496457ejo.1.2022.10.13.14.48.06
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:06 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697690;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=k229EqfcdmSEeYRUd9pze+gwJ+qeSPgXw5lbUelqaYo=;
 b=V7ZT7qlPw4aUcVlW3obltqCjgJgqPiCobjkquxwAulkrHunLuQDji9qiMA0N3/2Z2BzF8B
 KjGL2vsUcpLxqbD/vtRkuRz8CbOvrLsbr4+YcAnrkRsYKmkNdxJGJqGOCkeXt7p8dTWEsI
 8XUwYkbb9N0ksiEwsfoFKIO3C1m0hsg=
X-MC-Unique: 6znWEnTbNZCvASxsKwL9Uw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=k229EqfcdmSEeYRUd9pze+gwJ+qeSPgXw5lbUelqaYo=;
 b=uxEsDnalezqj7npArnu7287/TZHBivyk6qX0jSnvnCqc1CzcOGpNKXgnTcEmnBHnTx
 XXrzKeTHtvsLJan4u/sEiNBBxB0E2CLjX8wyAi+APL/vMw5le5gfk8W00D6YQZ4kbC/r
 9KRHMnWYEeyDSdccISVW+sFOUnZFGnhAPFBY4w28NJp/IywgQaXGzId+JoTLhGce2ZLj
 6gQgCUZlCQwIzpOt00pJgu2mrXvixEJgNWvUVLGi6yhEWzBrHgCA6EDgXpokem6L7f7z
 ObYYoAgT7NnJo8V5mfiVT6teGM+D+qJI9fTeZ6Y3cYiLPkRUs/QLhPQfnq5v3iUnPSnL
 V9Dg==
X-Gm-Message-State: ACrzQf1krzXuTsBW3SGSFTRKcD2qUXBmZekh2IWANs0OCfFCPpUNtpBm
 3Vc2f07gSoBLEyxDfbXaXnQoHsNpTVaFpRhuMr1omisx+CWvQl7/vkYAhj5VsYVKJAOeaoHNUfC
 /bTbwW6SbqxeAsK3ajbtMzsKCunDh2raFLbfXpWfP+ToIZCOJBJG3W21XvT54COczEGU=
X-Received: by 2002:a17:907:70a:b0:741:78ab:dce5 with SMTP id
 xb10-20020a170907070a00b0074178abdce5mr1309233ejb.527.1665697687305;
 Thu, 13 Oct 2022 14:48:07 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM5WzwGh/5gfp+0n9EdbmqFGAksRMLK7PIw5DEsuoOaQaarvi68SEL7EUodEi0gp/WuBdz/m4Q==
X-Received: by 2002:a17:907:70a:b0:741:78ab:dce5 with SMTP id
 xb10-20020a170907070a00b0074178abdce5mr1309222ejb.527.1665697687015;
 Thu, 13 Oct 2022 14:48:07 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 25/35] target/i386: Use tcg gvec ops for pmovmskb
Date: Thu, 13 Oct 2022 23:46:41 +0200
Message-Id: <20221013214651.672114-26-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699188577100001
Content-Type: text/plain; charset="utf-8"

From: Richard Henderson <richard.henderson@linaro.org>

As pmovmskb is used by strlen et al, this is the third
highest overhead sse operation at %0.8.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
[Reorganize to generate code for any vector size. - Paolo]
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/emit.c.inc | 88 +++++++++++++++++++++++++++++++++++---
 1 file changed, 83 insertions(+), 5 deletions(-)

diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 062c92e45a..ad93094ca8 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -1191,14 +1191,92 @@ static void gen_PINSR(DisasContext *s, CPUX86State =
*env, X86DecodedInsn *decode)
     gen_pinsr(s, env, decode, decode->op[2].ot);
 }
=20
+static void gen_pmovmskb_i64(TCGv_i64 d, TCGv_i64 s)
+{
+    TCGv_i64 t =3D tcg_temp_new_i64();
+
+    tcg_gen_andi_i64(d, s, 0x8080808080808080ull);
+
+    /*
+     * After each shift+or pair:
+     * 0:  a.......b.......c.......d.......e.......f.......g.......h.......
+     * 7:  ab......bc......cd......de......ef......fg......gh......h.......
+     * 14: abcd....bcde....cdef....defg....efgh....fgh.....gh......h.......
+     * 28: abcdefghbcdefgh.cdefgh..defgh...efgh....fgh.....gh......h.......
+     * The result is left in the high bits of the word.
+     */
+    tcg_gen_shli_i64(t, d, 7);
+    tcg_gen_or_i64(d, d, t);
+    tcg_gen_shli_i64(t, d, 14);
+    tcg_gen_or_i64(d, d, t);
+    tcg_gen_shli_i64(t, d, 28);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_pmovmskb_vec(unsigned vece, TCGv_vec d, TCGv_vec s)
+{
+    TCGv_vec t =3D tcg_temp_new_vec_matching(d);
+    TCGv_vec m =3D tcg_constant_vec_matching(d, MO_8, 0x80);
+
+    /* See above */
+    tcg_gen_and_vec(vece, d, s, m);
+    tcg_gen_shli_vec(vece, t, d, 7);
+    tcg_gen_or_vec(vece, d, d, t);
+    tcg_gen_shli_vec(vece, t, d, 14);
+    tcg_gen_or_vec(vece, d, d, t);
+    tcg_gen_shli_vec(vece, t, d, 28);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+#ifdef TARGET_X86_64
+#define TCG_TARGET_HAS_extract2_tl TCG_TARGET_HAS_extract2_i64
+#else
+#define TCG_TARGET_HAS_extract2_tl TCG_TARGET_HAS_extract2_i32
+#endif
+
 static void gen_PMOVMSKB(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
 {
-    if (s->prefix & PREFIX_DATA) {
-        gen_helper_pmovmskb_xmm(s->tmp2_i32, cpu_env, OP_PTR2);
-    } else {
-        gen_helper_pmovmskb_mmx(s->tmp2_i32, cpu_env, OP_PTR2);
+    static const TCGOpcode vecop_list[] =3D { INDEX_op_shli_vec, 0 };
+    static const GVecGen2 g =3D {
+        .fni8 =3D gen_pmovmskb_i64,
+        .fniv =3D gen_pmovmskb_vec,
+        .opt_opc =3D vecop_list,
+        .vece =3D MO_64,
+        .prefer_i64 =3D TCG_TARGET_REG_BITS =3D=3D 64
+    };
+    MemOp ot =3D decode->op[2].ot;
+    int vec_len =3D vector_len(s, decode);
+    TCGv t =3D tcg_temp_new();
+
+    tcg_gen_gvec_2(offsetof(CPUX86State, xmm_t0) + xmm_offset(ot), decode-=
>op[2].offset,
+                   vec_len, vec_len, &g);
+    tcg_gen_ld8u_tl(s->T0, cpu_env, offsetof(CPUX86State, xmm_t0.ZMM_B(vec=
_len - 1)));
+    while (vec_len > 8) {
+        vec_len -=3D 8;
+        if (TCG_TARGET_HAS_extract2_tl) {
+            /*
+             * Load the next byte of the result into the high byte of T.
+             * TCG does a similar expansion of deposit to shl+extract2; by
+             * loading the whole word, the shift left is avoided.
+             */
+#ifdef TARGET_X86_64
+            tcg_gen_ld_tl(t, cpu_env, offsetof(CPUX86State, xmm_t0.ZMM_Q((=
vec_len - 1) / 8)));
+#else
+            tcg_gen_ld_tl(t, cpu_env, offsetof(CPUX86State, xmm_t0.ZMM_L((=
vec_len - 1) / 4)));
+#endif
+
+            tcg_gen_extract2_tl(s->T0, t, s->T0, TARGET_LONG_BITS - 8);
+        } else {
+            /*
+             * The _previous_ value is deposited into bits 8 and higher of=
 t.  Because
+             * those bits are known to be zero after ld8u, this becomes a =
shift+or
+             * if deposit is not available.
+             */
+            tcg_gen_ld8u_tl(t, cpu_env, offsetof(CPUX86State, xmm_t0.ZMM_B=
(vec_len - 1)));
+            tcg_gen_deposit_tl(s->T0, t, s->T0, 8, TARGET_LONG_BITS - 8);
+        }
     }
-    tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
+    tcg_temp_free(t);
 }
=20
 static void gen_PSHUFW(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699370; cv=none;
	d=zohomail.com; s=zohoarc;
	b=m778jBjIkK55l660IhDTZfbhZwOfUx3KK+zE0UoID87NfT/Cw2VqlvsyM2AKW1ChyNXtpZrM3qhPj89mumO88POalJZU+AV86a/+5LDwvpaKSKB/mQaGBP1wNhSjGM0obpitxgF70+5BMkLMfbnIG790ajbRWncQnrhCEtbPPa4=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699370;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=LDe/5KRneq7ZuTQPljreTWaGuzYLxvydtBy+AA57TAQ=;
	b=TBBSl0R3yu3HggjrIl3Ypy2Db1mvA5xGYYSUU/xSSia/UgBe99mNVem7xwsRNWD+IfITAS9rCOqCZemnITDQo+7ZMNEUpaCso6xdNVpF7gSYwDTT1k11gzmXcK4V3YZlxjwJlX3npJKEJ0zEOkqSPemv/jlclwPS2Qd2EJjqq+c=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699370047583.5288417716897;
 Thu, 13 Oct 2022 15:16:10 -0700 (PDT)
Received: from localhost ([::1]:52262 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Uq-0003Ca-GF
	for importer@patchew.org; Thu, 13 Oct 2022 18:16:08 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:35904)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63w-0002rk-22
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:25 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:46028)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63s-0005Jo-Bp
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:19 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-252-8yWz1f6zOz2KY5tPMGq_uQ-1; Thu, 13 Oct 2022 17:48:12 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 r16-20020a05640251d000b004599cfb8b95so2315702edd.5
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:12 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 c22-20020a170906155600b007081282cbd8sm458450ejd.76.2022.10.13.14.48.08
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:09 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697694;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=LDe/5KRneq7ZuTQPljreTWaGuzYLxvydtBy+AA57TAQ=;
 b=WYZPQJ1eZAnA8VyH3XJ6wB2qxiszD+4vqbYBuBO7h/Y7K/fDJZzHohNp8ZEvmlir8gKZdz
 D6pcb/LB9S6jHNvzwNWyMQpUgPYFeRYVPA/SX2y0FtWt/qxo103sCZDdEGMJ/TRgzEqWyw
 NeXxUgwAJ3cbXJmzGKkCBwR7wRvuWiY=
X-MC-Unique: 8yWz1f6zOz2KY5tPMGq_uQ-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=LDe/5KRneq7ZuTQPljreTWaGuzYLxvydtBy+AA57TAQ=;
 b=TjrMlsx4fj8ySNDU/mRk5tUTfDbDvZIjL3DeWpcWNpf1VCoHy3SzKPWfD/l6vK/clA
 7ZpsN4iAsoJZ+vSxCv5LgYO2z7/Kv1xf5buiv6SfpjqorPPXBTAA0ScOElAV+aVs+5Yz
 ygaXoXsUCF4nvHOvwxUFmizzCqowBIddlUjZrxLpmIrWq6def4GgZg/DHkuu0PASffvP
 1wmNp1gY+UNJPGImJPdKOkPhEqM5WcSSmx/DkWCN9f+EkBcLjMUMdcLXZi+dR2N/3Imf
 enhzZMmphknTyi0YDrvLBU3Rus6ICwRVbUnsiOAICrrWR83IewvaSq8H2GFg0Ueu9hul
 zfGw==
X-Gm-Message-State: ACrzQf1EvU0OhE2Q+eLP7Kps6dZL96PN4dwR9V2xVygFts62VTzOpa4L
 NZKcTOGuLuEbdIr9oriIGS/fOtySxtnTWv62ajeUkXDBuIE73DARbJ66R2ZFQPu5roWtgLtzXuZ
 Vta8/CAB3rPakGJtQhwkNY13UgPLWmyE/1+xVCZKTDSO0zGk19ASKVUVPRQlDK1IGoZM=
X-Received: by 2002:a50:fe85:0:b0:458:5562:bf1e with SMTP id
 d5-20020a50fe85000000b004585562bf1emr1504577edt.167.1665697690501;
 Thu, 13 Oct 2022 14:48:10 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM5vhkpOMl2lTcQUamq8liBV1OKfk8S5MIPpD00vbYqIqVUD1/wBgXv4Dt1aj3f6Eo6yE6Sn7g==
X-Received: by 2002:a50:fe85:0:b0:458:5562:bf1e with SMTP id
 d5-20020a50fe85000000b004585562bf1emr1504540edt.167.1665697689821;
 Thu, 13 Oct 2022 14:48:09 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 26/35] target/i386: reimplement 0x0f 0x38, add AVX
Date: Thu, 13 Oct 2022 23:46:42 +0200
Message-Id: <20221013214651.672114-27-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699371866100001
Content-Type: text/plain; charset="utf-8"

There are several special cases here:

1) extending moves have different widths for the helpers vs. for the
memory loads, and the width for memory loads depends on VEX.L too.
This is represented by X86_SPECIAL_AVXExtMov.

2) some instructions, such as variable-width shifts, select the vector elem=
ent
size via REX.W.

3) VSIB instructions (VGATHERxPy, VPGATHERxy) are also part of this group,
and they have (among other things) two output operands.

3) the macros for 4-operand blends (which are under 0x0f 0x3a) have to be
extended to support 2-operand blends.  The 2-operand variant actually
came a few years earlier, but it is clearer to implement them in the
opposite order.

X86_TYPE_WM, introduced earlier for unaligned loads, is reused for helpers
that accept a Reg* but have a M argument.

These three-byte opcodes also include AVX new instructions, for which
the helpers were originally implemented by Paul Brook <paul@nowt.org>.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h            | 188 ++++++++++++++++++++++++++-
 target/i386/ops_sse_header.h     |  19 +++
 target/i386/tcg/decode-new.c.inc | 119 +++++++++++++++++-
 target/i386/tcg/decode-new.h     |   6 +
 target/i386/tcg/emit.c.inc       | 210 ++++++++++++++++++++++++++++++-
 target/i386/tcg/translate.c      |   2 +-
 6 files changed, 536 insertions(+), 8 deletions(-)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index cb8909adcf..104a53fda0 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -2382,6 +2382,36 @@ void glue(helper_aeskeygenassist, SUFFIX)(CPUX86Stat=
e *env, Reg *d, Reg *s,
 #endif
=20
 #if SHIFT >=3D 1
+void glue(helper_vpermilpd, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg =
*s)
+{
+    uint64_t r0, r1;
+    int i;
+
+    for (i =3D 0; i < 1 << SHIFT; i +=3D 2) {
+        r0 =3D v->Q(i + ((s->Q(i) >> 1) & 1));
+        r1 =3D v->Q(i + ((s->Q(i+1) >> 1) & 1));
+        d->Q(i) =3D r0;
+        d->Q(i+1) =3D r1;
+    }
+}
+
+void glue(helper_vpermilps, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg =
*s)
+{
+    uint32_t r0, r1, r2, r3;
+    int i;
+
+    for (i =3D 0; i < 2 << SHIFT; i +=3D 4) {
+        r0 =3D v->L(i + (s->L(i) & 3));
+        r1 =3D v->L(i + (s->L(i+1) & 3));
+        r2 =3D v->L(i + (s->L(i+2) & 3));
+        r3 =3D v->L(i + (s->L(i+3) & 3));
+        d->L(i) =3D r0;
+        d->L(i+1) =3D r1;
+        d->L(i+2) =3D r2;
+        d->L(i+3) =3D r3;
+    }
+}
+
 void glue(helper_vpermilpd_imm, SUFFIX)(Reg *d, Reg *s, uint32_t order)
 {
     uint64_t r0, r1;
@@ -2414,6 +2444,150 @@ void glue(helper_vpermilps_imm, SUFFIX)(Reg *d, Reg=
 *s, uint32_t order)
     }
 }
=20
+#if SHIFT =3D=3D 1
+#define FPSRLVD(x, c) (c < 32 ? ((x) >> c) : 0)
+#define FPSRLVQ(x, c) (c < 64 ? ((x) >> c) : 0)
+#define FPSRAVD(x, c) ((int32_t)(x) >> (c < 64 ? c : 31))
+#define FPSRAVQ(x, c) ((int64_t)(x) >> (c < 64 ? c : 63))
+#define FPSLLVD(x, c) (c < 32 ? ((x) << c) : 0)
+#define FPSLLVQ(x, c) (c < 64 ? ((x) << c) : 0)
+#endif
+
+SSE_HELPER_L(helper_vpsrlvd, FPSRLVD)
+SSE_HELPER_L(helper_vpsravd, FPSRAVD)
+SSE_HELPER_L(helper_vpsllvd, FPSLLVD)
+
+SSE_HELPER_Q(helper_vpsrlvq, FPSRLVQ)
+SSE_HELPER_Q(helper_vpsravq, FPSRAVQ)
+SSE_HELPER_Q(helper_vpsllvq, FPSLLVQ)
+
+void glue(helper_vtestps, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+{
+    uint32_t zf =3D 0, cf =3D 0;
+    int i;
+
+    for (i =3D 0; i < 2 << SHIFT; i++) {
+        zf |=3D (s->L(i) &  d->L(i));
+        cf |=3D (s->L(i) & ~d->L(i));
+    }
+    CC_SRC =3D ((zf >> 31) ? 0 : CC_Z) | ((cf >> 31) ? 0 : CC_C);
+}
+
+void glue(helper_vtestpd, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
+{
+    uint64_t zf =3D 0, cf =3D 0;
+    int i;
+
+    for (i =3D 0; i < 1 << SHIFT; i++) {
+        zf |=3D (s->Q(i) &  d->Q(i));
+        cf |=3D (s->Q(i) & ~d->Q(i));
+    }
+    CC_SRC =3D ((zf >> 63) ? 0 : CC_Z) | ((cf >> 63) ? 0 : CC_C);
+}
+
+void glue(helper_vpmaskmovd_st, SUFFIX)(CPUX86State *env,
+                                        Reg *v, Reg *s, target_ulong a0)
+{
+    int i;
+
+    for (i =3D 0; i < (2 << SHIFT); i++) {
+        if (v->L(i) >> 31) {
+            cpu_stl_data_ra(env, a0 + i * 4, s->L(i), GETPC());
+        }
+    }
+}
+
+void glue(helper_vpmaskmovq_st, SUFFIX)(CPUX86State *env,
+                                        Reg *v, Reg *s, target_ulong a0)
+{
+    int i;
+
+    for (i =3D 0; i < (1 << SHIFT); i++) {
+        if (v->Q(i) >> 63) {
+            cpu_stq_data_ra(env, a0 + i * 8, s->Q(i), GETPC());
+        }
+    }
+}
+
+void glue(helper_vpmaskmovd, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg=
 *s)
+{
+    int i;
+
+    for (i =3D 0; i < (2 << SHIFT); i++) {
+        d->L(i) =3D (v->L(i) >> 31) ? s->L(i) : 0;
+    }
+}
+
+void glue(helper_vpmaskmovq, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg=
 *s)
+{
+    int i;
+
+    for (i =3D 0; i < (1 << SHIFT); i++) {
+        d->Q(i) =3D (v->Q(i) >> 63) ? s->Q(i) : 0;
+    }
+}
+
+void glue(helper_vpgatherdd, SUFFIX)(CPUX86State *env,
+        Reg *d, Reg *v, Reg *s, target_ulong a0, unsigned scale)
+{
+    int i;
+    for (i =3D 0; i < (2 << SHIFT); i++) {
+        if (v->L(i) >> 31) {
+            target_ulong addr =3D a0
+                + ((target_ulong)(int32_t)s->L(i) << scale);
+            d->L(i) =3D cpu_ldl_data_ra(env, addr, GETPC());
+        }
+        v->L(i) =3D 0;
+    }
+}
+
+void glue(helper_vpgatherdq, SUFFIX)(CPUX86State *env,
+        Reg *d, Reg *v, Reg *s, target_ulong a0, unsigned scale)
+{
+    int i;
+    for (i =3D 0; i < (1 << SHIFT); i++) {
+        if (v->Q(i) >> 63) {
+            target_ulong addr =3D a0
+                + ((target_ulong)(int32_t)s->L(i) << scale);
+            d->Q(i) =3D cpu_ldq_data_ra(env, addr, GETPC());
+        }
+        v->Q(i) =3D 0;
+    }
+}
+
+void glue(helper_vpgatherqd, SUFFIX)(CPUX86State *env,
+        Reg *d, Reg *v, Reg *s, target_ulong a0, unsigned scale)
+{
+    int i;
+    for (i =3D 0; i < (1 << SHIFT); i++) {
+        if (v->L(i) >> 31) {
+            target_ulong addr =3D a0
+                + ((target_ulong)(int64_t)s->Q(i) << scale);
+            d->L(i) =3D cpu_ldl_data_ra(env, addr, GETPC());
+        }
+        v->L(i) =3D 0;
+    }
+    for (i /=3D 2; i < 1 << SHIFT; i++) {
+        d->Q(i) =3D 0;
+        v->Q(i) =3D 0;
+    }
+}
+
+void glue(helper_vpgatherqq, SUFFIX)(CPUX86State *env,
+        Reg *d, Reg *v, Reg *s, target_ulong a0, unsigned scale)
+{
+    int i;
+    for (i =3D 0; i < (1 << SHIFT); i++) {
+        if (v->Q(i) >> 63) {
+            target_ulong addr =3D a0
+                + ((target_ulong)(int64_t)s->Q(i) << scale);
+            d->Q(i) =3D cpu_ldq_data_ra(env, addr, GETPC());
+        }
+        v->Q(i) =3D 0;
+    }
+}
+#endif
+
 #if SHIFT >=3D 2
 void helper_vpermdq_ymm(Reg *d, Reg *v, Reg *s, uint32_t order)
 {
@@ -2473,7 +2647,19 @@ void helper_vpermq_ymm(Reg *d, Reg *s, uint32_t orde=
r)
     d->Q(2) =3D r2;
     d->Q(3) =3D r3;
 }
-#endif
+
+void helper_vpermd_ymm(Reg *d, Reg *v, Reg *s)
+{
+    uint32_t r[8];
+    int i;
+
+    for (i =3D 0; i < 8; i++) {
+        r[i] =3D s->L(v->L(i) & 7);
+    }
+    for (i =3D 0; i < 8; i++) {
+        d->L(i) =3D r[i];
+    }
+}
 #endif
=20
 #undef SSE_HELPER_S
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 1afc4ff6a1..dd8dcebc23 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -413,9 +413,28 @@ DEF_HELPER_5(glue(pclmulqdq, SUFFIX), void, env, Reg, =
Reg, Reg, i32)
=20
 /* AVX helpers */
 #if SHIFT >=3D 1
+DEF_HELPER_4(glue(vpermilpd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpermilps, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_3(glue(vpermilpd_imm, SUFFIX), void, Reg, Reg, i32)
 DEF_HELPER_3(glue(vpermilps_imm, SUFFIX), void, Reg, Reg, i32)
+DEF_HELPER_4(glue(vpsrlvd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpsravd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpsllvd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpsrlvq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpsravq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpsllvq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_3(glue(vtestps, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_3(glue(vtestpd, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_4(glue(vpmaskmovd_st, SUFFIX), void, env, Reg, Reg, tl)
+DEF_HELPER_4(glue(vpmaskmovq_st, SUFFIX), void, env, Reg, Reg, tl)
+DEF_HELPER_4(glue(vpmaskmovd, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_4(glue(vpmaskmovq, SUFFIX), void, env, Reg, Reg, Reg)
+DEF_HELPER_6(glue(vpgatherdd, SUFFIX), void, env, Reg, Reg, Reg, tl, i32)
+DEF_HELPER_6(glue(vpgatherdq, SUFFIX), void, env, Reg, Reg, Reg, tl, i32)
+DEF_HELPER_6(glue(vpgatherqd, SUFFIX), void, env, Reg, Reg, Reg, tl, i32)
+DEF_HELPER_6(glue(vpgatherqq, SUFFIX), void, env, Reg, Reg, Reg, tl, i32)
 #if SHIFT =3D=3D 2
+DEF_HELPER_3(vpermd_ymm, void, Reg, Reg, Reg)
 DEF_HELPER_4(vpermdq_ymm, void, Reg, Reg, Reg, i32)
 DEF_HELPER_3(vpermq_ymm, void, Reg, Reg, i32)
 #endif
diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 1c2e8f559d..6732720302 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -92,6 +92,7 @@
 #define mmx .special =3D X86_SPECIAL_MMX,
 #define zext0 .special =3D X86_SPECIAL_ZExtOp0,
 #define zext2 .special =3D X86_SPECIAL_ZExtOp2,
+#define avx_movx .special =3D X86_SPECIAL_AVXExtMov,
=20
 #define vex1 .vex_class =3D 1,
 #define vex1_rep3 .vex_class =3D 1, .vex_special =3D X86_VEX_REPScalar,
@@ -302,6 +303,105 @@ static void decode_0FD6(DisasContext *s, CPUX86State =
*env, X86OpEntry *entry, ui
 }
=20
 static const X86OpEntry opcodes_0F38_00toEF[240] =3D {
+    [0x00] =3D X86_OP_ENTRY3(PSHUFB,    V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x01] =3D X86_OP_ENTRY3(PHADDW,    V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x02] =3D X86_OP_ENTRY3(PHADDD,    V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x03] =3D X86_OP_ENTRY3(PHADDSW,   V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x04] =3D X86_OP_ENTRY3(PMADDUBSW, V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x05] =3D X86_OP_ENTRY3(PHSUBW,    V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x06] =3D X86_OP_ENTRY3(PHSUBD,    V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+    [0x07] =3D X86_OP_ENTRY3(PHSUBSW,   V,x,  H,x,   W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
+
+    [0x10] =3D X86_OP_ENTRY2(PBLENDVB,  V,x,         W,x,  vex4 cpuid(SSE4=
1) avx2_256 p_66),
+    [0x14] =3D X86_OP_ENTRY2(BLENDVPS,  V,x,         W,x,  vex4 cpuid(SSE4=
1) p_66),
+    [0x15] =3D X86_OP_ENTRY2(BLENDVPD,  V,x,         W,x,  vex4 cpuid(SSE4=
1) p_66),
+    /* Listed incorrectly as type 4 */
+    [0x16] =3D X86_OP_ENTRY3(VPERMD,    V,qq, H,qq,      W,qq,  vex6 cpuid=
(AVX2) p_66),
+    [0x17] =3D X86_OP_ENTRY3(VPTEST,    None,None, V,x,  W,x,   vex4 cpuid=
(SSE41) p_66),
+
+    /*
+     * Source operand listed as Mq/Ux and similar in the manual; incorrect=
ly listed
+     * as 128-bit only in 2-17.
+     */
+    [0x20] =3D X86_OP_ENTRY3(VPMOVSXBW, V,x,  None,None, W,q,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x21] =3D X86_OP_ENTRY3(VPMOVSXBD, V,x,  None,None, W,d,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x22] =3D X86_OP_ENTRY3(VPMOVSXBQ, V,x,  None,None, W,w,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x23] =3D X86_OP_ENTRY3(VPMOVSXWD, V,x,  None,None, W,q,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x24] =3D X86_OP_ENTRY3(VPMOVSXWQ, V,x,  None,None, W,d,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x25] =3D X86_OP_ENTRY3(VPMOVSXDQ, V,x,  None,None, W,q,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+
+    /* Same as PMOVSX.  */
+    [0x30] =3D X86_OP_ENTRY3(VPMOVZXBW, V,x,  None,None, W,q,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x31] =3D X86_OP_ENTRY3(VPMOVZXBD, V,x,  None,None, W,d,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x32] =3D X86_OP_ENTRY3(VPMOVZXBQ, V,x,  None,None, W,w,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x33] =3D X86_OP_ENTRY3(VPMOVZXWD, V,x,  None,None, W,q,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x34] =3D X86_OP_ENTRY3(VPMOVZXWQ, V,x,  None,None, W,d,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x35] =3D X86_OP_ENTRY3(VPMOVZXDQ, V,x,  None,None, W,q,   vex5 cpuid=
(SSE41) avx_movx avx2_256 p_66),
+    [0x36] =3D X86_OP_ENTRY3(VPERMD,    V,qq, H,qq,      W,qq,  vex6 cpuid=
(AVX2) p_66),
+    [0x37] =3D X86_OP_ENTRY3(PCMPGTQ,   V,x,  H,x,       W,x,   vex4 cpuid=
(SSE42) avx2_256 p_66),
+
+    [0x40] =3D X86_OP_ENTRY3(PMULLD,      V,x,  H,x,       W,x,  vex4 cpui=
d(SSE41) avx2_256 p_66),
+    [0x41] =3D X86_OP_ENTRY3(VPHMINPOSUW, V,dq, None,None, W,dq, vex4 cpui=
d(SSE41) p_66),
+    /* Listed incorrectly as type 4 */
+    [0x45] =3D X86_OP_ENTRY3(VPSRLV,      V,x,  H,x,       W,x,  vex6 cpui=
d(AVX2) p_66),
+    [0x46] =3D X86_OP_ENTRY3(VPSRAV,      V,x,  H,x,       W,x,  vex6 cpui=
d(AVX2) p_66),
+    [0x47] =3D X86_OP_ENTRY3(VPSLLV,      V,x,  H,x,       W,x,  vex6 cpui=
d(AVX2) p_66),
+
+    [0x90] =3D X86_OP_ENTRY3(VPGATHERD, V,x,  H,x,  M,d,  vex12 cpuid(AVX2=
) p_66), /* vpgatherdd/q */
+    [0x91] =3D X86_OP_ENTRY3(VPGATHERQ, V,x,  H,x,  M,q,  vex12 cpuid(AVX2=
) p_66), /* vpgatherqd/q */
+    [0x92] =3D X86_OP_ENTRY3(VPGATHERD, V,x,  H,x,  M,d,  vex12 cpuid(AVX2=
) p_66), /* vgatherdps/d */
+    [0x93] =3D X86_OP_ENTRY3(VPGATHERQ, V,x,  H,x,  M,q,  vex12 cpuid(AVX2=
) p_66), /* vgatherqps/d */
+
+    [0x08] =3D X86_OP_ENTRY3(PSIGNB,    V,x,        H,x,  W,x,  vex4 cpuid=
(SSSE3) mmx avx2_256 p_00_66),
+    [0x09] =3D X86_OP_ENTRY3(PSIGNW,    V,x,        H,x,  W,x,  vex4 cpuid=
(SSSE3) mmx avx2_256 p_00_66),
+    [0x0a] =3D X86_OP_ENTRY3(PSIGND,    V,x,        H,x,  W,x,  vex4 cpuid=
(SSSE3) mmx avx2_256 p_00_66),
+    [0x0b] =3D X86_OP_ENTRY3(PMULHRSW,  V,x,        H,x,  W,x,  vex4 cpuid=
(SSSE3) mmx avx2_256 p_00_66),
+    [0x0c] =3D X86_OP_ENTRY3(VPERMILPS, V,x,        H,x,  W,x,  vex4 cpuid=
(AVX) p_00_66),
+    [0x0d] =3D X86_OP_ENTRY3(VPERMILPD, V,x,        H,x,  W,x,  vex4 cpuid=
(AVX) p_66),
+    [0x0e] =3D X86_OP_ENTRY3(VTESTPS,   None,None,  V,x,  W,x,  vex4 cpuid=
(AVX) p_66),
+    [0x0f] =3D X86_OP_ENTRY3(VTESTPD,   None,None,  V,x,  W,x,  vex4 cpuid=
(AVX) p_66),
+
+    [0x18] =3D X86_OP_ENTRY3(VPBROADCASTD,   V,x,  None,None, W,d,  vex6 c=
puid(AVX) p_66), /* vbroadcastss */
+    [0x19] =3D X86_OP_ENTRY3(VPBROADCASTQ,   V,qq, None,None, W,q,  vex6 c=
puid(AVX) p_66), /* vbroadcastsd */
+    [0x1a] =3D X86_OP_ENTRY3(VBROADCASTx128, V,qq, None,None, WM,dq,vex6 c=
puid(AVX) p_66),
+    [0x1c] =3D X86_OP_ENTRY3(PABSB,          V,x,  None,None, W,x,  vex4 c=
puid(SSSE3) mmx avx2_256 p_00_66),
+    [0x1d] =3D X86_OP_ENTRY3(PABSW,          V,x,  None,None, W,x,  vex4 c=
puid(SSSE3) mmx avx2_256 p_00_66),
+    [0x1e] =3D X86_OP_ENTRY3(PABSD,          V,x,  None,None, W,x,  vex4 c=
puid(SSSE3) mmx avx2_256 p_00_66),
+
+    [0x28] =3D X86_OP_ENTRY3(PMULDQ,        V,x, H,x,       W,x,  vex4 cpu=
id(SSE41) avx2_256 p_66),
+    [0x29] =3D X86_OP_ENTRY3(PCMPEQQ,       V,x, H,x,       W,x,  vex4 cpu=
id(SSE41) avx2_256 p_66),
+    [0x2a] =3D X86_OP_ENTRY3(MOVDQ,         V,x, None,None, WM,x, vex1 cpu=
id(SSE41) avx2_256 p_66), /* movntdqa */
+    [0x2b] =3D X86_OP_ENTRY3(VPACKUSDW,     V,x, H,x,       W,x,  vex4 cpu=
id(SSE41) avx2_256 p_66),
+    [0x2c] =3D X86_OP_ENTRY3(VMASKMOVPS,    V,x, H,x,       WM,x, vex6 cpu=
id(AVX) p_66),
+    [0x2d] =3D X86_OP_ENTRY3(VMASKMOVPD,    V,x, H,x,       WM,x, vex6 cpu=
id(AVX) p_66),
+    /* Incorrectly listed as Mx,Hx,Vx in the manual */
+    [0x2e] =3D X86_OP_ENTRY3(VMASKMOVPS_st, M,x, V,x,       H,x,  vex6 cpu=
id(AVX) p_66),
+    [0x2f] =3D X86_OP_ENTRY3(VMASKMOVPD_st, M,x, V,x,       H,x,  vex6 cpu=
id(AVX) p_66),
+
+    [0x38] =3D X86_OP_ENTRY3(PMINSB,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x39] =3D X86_OP_ENTRY3(PMINSD,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x3a] =3D X86_OP_ENTRY3(PMINUW,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x3b] =3D X86_OP_ENTRY3(PMINUD,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x3c] =3D X86_OP_ENTRY3(PMAXSB,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x3d] =3D X86_OP_ENTRY3(PMAXSD,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x3e] =3D X86_OP_ENTRY3(PMAXUW,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+    [0x3f] =3D X86_OP_ENTRY3(PMAXUD,        V,x,  H,x, W,x,  vex4 cpuid(SS=
E41) avx2_256 p_66),
+
+    [0x58] =3D X86_OP_ENTRY3(VPBROADCASTD,   V,x,  None,None, W,d,  vex6 c=
puid(AVX2) p_66),
+    [0x59] =3D X86_OP_ENTRY3(VPBROADCASTQ,   V,x,  None,None, W,q,  vex6 c=
puid(AVX2) p_66),
+    [0x5a] =3D X86_OP_ENTRY3(VBROADCASTx128, V,qq, None,None, WM,dq,vex6 c=
puid(AVX2) p_66),
+
+    [0x78] =3D X86_OP_ENTRY3(VPBROADCASTB,   V,x,  None,None, W,b,  vex6 c=
puid(AVX2) p_66),
+    [0x79] =3D X86_OP_ENTRY3(VPBROADCASTW,   V,x,  None,None, W,w,  vex6 c=
puid(AVX2) p_66),
+
+    [0x8c] =3D X86_OP_ENTRY3(VPMASKMOV,    V,x,  H,x, WM,x, vex6 cpuid(AVX=
2) p_66),
+    [0x8e] =3D X86_OP_ENTRY3(VPMASKMOV_st, M,x,  V,x, H,x,  vex6 cpuid(AVX=
2) p_66),
+
+    [0xdb] =3D X86_OP_ENTRY3(VAESIMC,     V,dq, None,None, W,dq, vex4 cpui=
d(AES) p_66),
+    [0xdc] =3D X86_OP_ENTRY3(VAESENC,     V,x,  H,x,       W,x,  vex4 cpui=
d(AES) p_66),
+    [0xdd] =3D X86_OP_ENTRY3(VAESENCLAST, V,x,  H,x,       W,x,  vex4 cpui=
d(AES) p_66),
+    [0xde] =3D X86_OP_ENTRY3(VAESDEC,     V,x,  H,x,       W,x,  vex4 cpui=
d(AES) p_66),
+    [0xdf] =3D X86_OP_ENTRY3(VAESDECLAST, V,x,  H,x,       W,x,  vex4 cpui=
d(AES) p_66),
 };
=20
 /* five rows for no prefix, 66, F3, F2, 66+F2  */
@@ -431,8 +538,8 @@ static const X86OpEntry opcodes_0F3A[256] =3D {
     [0x0b] =3D X86_OP_ENTRY4(VROUNDSD,   V,x,  H,x, W,sd, vex3 cpuid(SSE41=
) p_66),
     [0x0c] =3D X86_OP_ENTRY4(VBLENDPS,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) p_66),
     [0x0d] =3D X86_OP_ENTRY4(VBLENDPD,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) p_66),
-    [0x0e] =3D X86_OP_ENTRY4(VPBLENDW,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) p_66),
-    [0x0f] =3D X86_OP_ENTRY4(PALIGNR,    V,x,  H,x,  W,x,  vex4 cpuid(SSSE=
3) mmx p_00_66),
+    [0x0e] =3D X86_OP_ENTRY4(VPBLENDW,   V,x,  H,x,  W,x,  vex4 cpuid(SSE4=
1) avx2_256 p_66),
+    [0x0f] =3D X86_OP_ENTRY4(PALIGNR,    V,x,  H,x,  W,x,  vex4 cpuid(SSSE=
3) mmx avx2_256 p_00_66),
=20
     [0x18] =3D X86_OP_ENTRY4(VINSERTx128,  V,qq, H,qq, W,qq, vex6 cpuid(AV=
X) p_66),
     [0x19] =3D X86_OP_ENTRY3(VEXTRACTx128, W,dq, V,qq, I,b,  vex6 cpuid(AV=
X) p_66),
@@ -1428,6 +1535,14 @@ static void disas_insn_new(DisasContext *s, CPUState=
 *cpu, int b)
         }
         break;
=20
+    case X86_SPECIAL_AVXExtMov:
+        if (!decode.op[2].has_ea) {
+            decode.op[2].ot =3D s->vex_l ? MO_256 : MO_128;
+        } else if (s->vex_l) {
+            decode.op[2].ot++;
+        }
+        break;
+
     case X86_SPECIAL_MMX:
         if (!(s->prefix & (PREFIX_REPZ | PREFIX_REPNZ | PREFIX_DATA))) {
             gen_helper_enter_mmx(cpu_env);
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index ef318a00ed..2f0b0e4cfd 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -142,6 +142,12 @@ typedef enum X86InsnSpecial {
     X86_SPECIAL_ZExtOp0,
     X86_SPECIAL_ZExtOp2,
=20
+    /*
+     * Register operand 2 is extended to full width, while a memory operand
+     * is doubled in size if VEX.L=3D1.
+     */
+    X86_SPECIAL_AVXExtMov,
+
     /*
      * MMX instruction exists with no prefix; if there is no prefix, V/H/W=
/U operands
      * become P/P/Q/N, and size "x" becomes "q".
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index ad93094ca8..0c5e9d956a 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -19,6 +19,9 @@
  * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
  */
=20
+typedef void (*SSEFunc_0_epppti)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr re=
g_b,
+                                 TCGv_ptr reg_c, TCGv a0, TCGv_i32 scale);
+
 static inline TCGv_i32 tcg_constant8u_i32(uint8_t val)
 {
     return tcg_constant_i32(val);
@@ -484,15 +487,20 @@ static inline void gen_ternary_sse(DisasContext *s, C=
PUX86State *env, X86Decoded
     fn(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, ptr3);
     tcg_temp_free_ptr(ptr3);
 }
-#define TERNARY_SSE(uvname, lname)                                        =
         \
+#define TERNARY_SSE(uname, uvname, lname)                                 =
         \
 static void gen_##uvname(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode) \
 {                                                                         =
         \
     gen_ternary_sse(s, env, decode, (uint8_t)decode->immediate >> 4,      =
         \
                     gen_helper_##lname##_xmm, gen_helper_##lname##_ymm);  =
         \
+}                                                                         =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_ternary_sse(s, env, decode, 0,                                    =
         \
+                  gen_helper_##lname##_xmm, gen_helper_##lname##_ymm);    =
         \
 }
-TERNARY_SSE(VBLENDVPS, blendvps)
-TERNARY_SSE(VBLENDVPD, blendvpd)
-TERNARY_SSE(VPBLENDVB, pblendvb)
+TERNARY_SSE(BLENDVPS, VBLENDVPS, blendvps)
+TERNARY_SSE(BLENDVPD, VBLENDVPD, blendvpd)
+TERNARY_SSE(PBLENDVB, VPBLENDVB, pblendvb)
=20
 static inline void gen_binary_imm_sse(DisasContext *s, CPUX86State *env, X=
86DecodedInsn *decode,
                                       SSEFunc_0_epppi xmm, SSEFunc_0_epppi=
 ymm)
@@ -522,6 +530,25 @@ BINARY_IMM_SSE(VDDPD,      dppd)
 BINARY_IMM_SSE(VMPSADBW,   mpsadbw)
 BINARY_IMM_SSE(PCLMULQDQ,  pclmulqdq)
=20
+
+#define UNARY_INT_GVEC(uname, func, ...)                                  =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    int vec_len =3D vector_len(s, decode);                                =
          \
+                                                                          =
         \
+    func(__VA_ARGS__, decode->op[0].offset,                               =
         \
+         decode->op[2].offset, vec_len, vec_len);                         =
         \
+}
+UNARY_INT_GVEC(PABSB,          tcg_gen_gvec_abs, MO_8)
+UNARY_INT_GVEC(PABSW,          tcg_gen_gvec_abs, MO_16)
+UNARY_INT_GVEC(PABSD,          tcg_gen_gvec_abs, MO_32)
+UNARY_INT_GVEC(VBROADCASTx128, tcg_gen_gvec_dup_mem, MO_128)
+UNARY_INT_GVEC(VPBROADCASTB,   tcg_gen_gvec_dup_mem, MO_8)
+UNARY_INT_GVEC(VPBROADCASTW,   tcg_gen_gvec_dup_mem, MO_16)
+UNARY_INT_GVEC(VPBROADCASTD,   tcg_gen_gvec_dup_mem, MO_32)
+UNARY_INT_GVEC(VPBROADCASTQ,   tcg_gen_gvec_dup_mem, MO_64)
+
+
 #define BINARY_INT_GVEC(uname, func, ...)                                 =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
 {                                                                         =
         \
@@ -544,14 +571,25 @@ BINARY_INT_GVEC(PAND,    tcg_gen_gvec_and, MO_64)
 BINARY_INT_GVEC(PCMPEQB, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_8)
 BINARY_INT_GVEC(PCMPEQD, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_32)
 BINARY_INT_GVEC(PCMPEQW, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_16)
+BINARY_INT_GVEC(PCMPEQQ, tcg_gen_gvec_cmp, TCG_COND_EQ, MO_64)
 BINARY_INT_GVEC(PCMPGTB, tcg_gen_gvec_cmp, TCG_COND_GT, MO_8)
 BINARY_INT_GVEC(PCMPGTW, tcg_gen_gvec_cmp, TCG_COND_GT, MO_16)
 BINARY_INT_GVEC(PCMPGTD, tcg_gen_gvec_cmp, TCG_COND_GT, MO_32)
+BINARY_INT_GVEC(PCMPGTQ, tcg_gen_gvec_cmp, TCG_COND_GT, MO_64)
+BINARY_INT_GVEC(PMAXSB,  tcg_gen_gvec_smax, MO_8)
 BINARY_INT_GVEC(PMAXSW,  tcg_gen_gvec_smax, MO_16)
+BINARY_INT_GVEC(PMAXSD,  tcg_gen_gvec_smax, MO_32)
 BINARY_INT_GVEC(PMAXUB,  tcg_gen_gvec_umax, MO_8)
+BINARY_INT_GVEC(PMAXUW,  tcg_gen_gvec_umax, MO_16)
+BINARY_INT_GVEC(PMAXUD,  tcg_gen_gvec_umax, MO_32)
+BINARY_INT_GVEC(PMINSB,  tcg_gen_gvec_smin, MO_8)
 BINARY_INT_GVEC(PMINSW,  tcg_gen_gvec_smin, MO_16)
+BINARY_INT_GVEC(PMINSD,  tcg_gen_gvec_smin, MO_32)
 BINARY_INT_GVEC(PMINUB,  tcg_gen_gvec_umin, MO_8)
+BINARY_INT_GVEC(PMINUW,  tcg_gen_gvec_umin, MO_16)
+BINARY_INT_GVEC(PMINUD,  tcg_gen_gvec_umin, MO_32)
 BINARY_INT_GVEC(PMULLW,  tcg_gen_gvec_mul, MO_16)
+BINARY_INT_GVEC(PMULLD,  tcg_gen_gvec_mul, MO_32)
 BINARY_INT_GVEC(POR,     tcg_gen_gvec_or, MO_64)
 BINARY_INT_GVEC(PSUBB,   tcg_gen_gvec_sub, MO_8)
 BINARY_INT_GVEC(PSUBW,   tcg_gen_gvec_sub, MO_16)
@@ -626,6 +664,19 @@ BINARY_INT_MMX(PSRLQ_r, psrlq)
 BINARY_INT_MMX(PSRAW_r, psraw)
 BINARY_INT_MMX(PSRAD_r, psrad)
=20
+BINARY_INT_MMX(PHADDW,    phaddw)
+BINARY_INT_MMX(PHADDSW,   phaddsw)
+BINARY_INT_MMX(PHADDD,    phaddd)
+BINARY_INT_MMX(PHSUBW,    phsubw)
+BINARY_INT_MMX(PHSUBSW,   phsubsw)
+BINARY_INT_MMX(PHSUBD,    phsubd)
+BINARY_INT_MMX(PMADDUBSW, pmaddubsw)
+BINARY_INT_MMX(PSHUFB,    pshufb)
+BINARY_INT_MMX(PSIGNB,    psignb)
+BINARY_INT_MMX(PSIGNW,    psignw)
+BINARY_INT_MMX(PSIGND,    psignd)
+BINARY_INT_MMX(PMULHRSW,  pmulhrsw)
+
 /* Instructions with no MMX equivalent.  */
 #define BINARY_INT_SSE(uname, lname)                                      =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
@@ -636,8 +687,35 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
                           gen_helper_##lname##_ymm);                      =
         \
 }
=20
+/* Instructions with no MMX equivalent.  */
 BINARY_INT_SSE(PUNPCKLQDQ, punpcklqdq)
 BINARY_INT_SSE(PUNPCKHQDQ, punpckhqdq)
+BINARY_INT_SSE(VPACKUSDW,  packusdw)
+BINARY_INT_SSE(VPERMILPS,  vpermilps)
+BINARY_INT_SSE(VPERMILPD,  vpermilpd)
+BINARY_INT_SSE(VMASKMOVPS, vpmaskmovd)
+BINARY_INT_SSE(VMASKMOVPD, vpmaskmovq)
+
+BINARY_INT_SSE(PMULDQ,    pmuldq)
+
+BINARY_INT_SSE(VAESDEC, aesdec)
+BINARY_INT_SSE(VAESDECLAST, aesdeclast)
+BINARY_INT_SSE(VAESENC, aesenc)
+BINARY_INT_SSE(VAESENCLAST, aesenclast)
+
+#define UNARY_CMP_SSE(uname, lname)                                       =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    if (!s->vex_l) {                                                      =
         \
+        gen_helper_##lname##_xmm(cpu_env, OP_PTR1, OP_PTR2);              =
         \
+    } else {                                                              =
         \
+        gen_helper_##lname##_ymm(cpu_env, OP_PTR1, OP_PTR2);              =
         \
+    }                                                                     =
         \
+    set_cc_op(s, CC_OP_EFLAGS);                                           =
         \
+}
+UNARY_CMP_SSE(VPTEST,     ptest)
+UNARY_CMP_SSE(VTESTPS,    vtestps)
+UNARY_CMP_SSE(VTESTPD,    vtestpd)
=20
 static inline void gen_unary_int_sse(DisasContext *s, CPUX86State *env, X8=
6DecodedInsn *decode,
                                      SSEFunc_0_epp xmm, SSEFunc_0_epp ymm)
@@ -657,6 +735,20 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
                       gen_helper_##lname##_ymm);                          =
         \
 }
=20
+UNARY_INT_SSE(VPMOVSXBW,    pmovsxbw)
+UNARY_INT_SSE(VPMOVSXBD,    pmovsxbd)
+UNARY_INT_SSE(VPMOVSXBQ,    pmovsxbq)
+UNARY_INT_SSE(VPMOVSXWD,    pmovsxwd)
+UNARY_INT_SSE(VPMOVSXWQ,    pmovsxwq)
+UNARY_INT_SSE(VPMOVSXDQ,    pmovsxdq)
+
+UNARY_INT_SSE(VPMOVZXBW,    pmovzxbw)
+UNARY_INT_SSE(VPMOVZXBD,    pmovzxbd)
+UNARY_INT_SSE(VPMOVZXBQ,    pmovzxbq)
+UNARY_INT_SSE(VPMOVZXWD,    pmovzxwd)
+UNARY_INT_SSE(VPMOVZXWQ,    pmovzxwq)
+UNARY_INT_SSE(VPMOVZXDQ,    pmovzxdq)
+
 UNARY_INT_SSE(VCVTDQ2PD, cvtdq2pd)
 UNARY_INT_SSE(VCVTPD2DQ, cvtpd2dq)
 UNARY_INT_SSE(VCVTTPD2DQ, cvttpd2dq)
@@ -714,6 +806,64 @@ static void gen_##uname(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decod
 UNARY_IMM_FP_SSE(VROUNDPS,    roundps)
 UNARY_IMM_FP_SSE(VROUNDPD,    roundpd)
=20
+static inline void gen_rexw_avx(DisasContext *s, CPUX86State *env, X86Deco=
dedInsn *decode,
+                                SSEFunc_0_eppp d_xmm, SSEFunc_0_eppp q_xmm,
+                                SSEFunc_0_eppp d_ymm, SSEFunc_0_eppp q_ymm)
+{
+    SSEFunc_0_eppp d =3D s->vex_l ? d_ymm : d_xmm;
+    SSEFunc_0_eppp q =3D s->vex_l ? q_ymm : q_xmm;
+    SSEFunc_0_eppp fn =3D REX_W(s) ? q : d;
+    fn(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+}
+
+/* REX.W affects whether to operate on 32- or 64-bit elements.  */
+#define REXW_AVX(uname, lname)                                            =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_rexw_avx(s, env, decode,                                          =
         \
+                 gen_helper_##lname##d_xmm, gen_helper_##lname##q_xmm,    =
         \
+                 gen_helper_##lname##d_ymm, gen_helper_##lname##q_ymm);   =
         \
+}
+REXW_AVX(VPSLLV,    vpsllv)
+REXW_AVX(VPSRLV,    vpsrlv)
+REXW_AVX(VPSRAV,    vpsrav)
+REXW_AVX(VPMASKMOV, vpmaskmov)
+
+/* Same as above, but with extra arguments to the helper.  */
+static inline void gen_vsib_avx(DisasContext *s, CPUX86State *env, X86Deco=
dedInsn *decode,
+                                SSEFunc_0_epppti d_xmm, SSEFunc_0_epppti q=
_xmm,
+                                SSEFunc_0_epppti d_ymm, SSEFunc_0_epppti q=
_ymm)
+{
+    SSEFunc_0_epppti d =3D s->vex_l ? d_ymm : d_xmm;
+    SSEFunc_0_epppti q =3D s->vex_l ? q_ymm : q_xmm;
+    SSEFunc_0_epppti fn =3D REX_W(s) ? q : d;
+    TCGv_i32 scale =3D tcg_constant_i32(decode->mem.scale);
+    TCGv_ptr index =3D tcg_temp_new_ptr();
+
+    /* Pass third input as (index, base, scale) */
+    tcg_gen_addi_ptr(index, cpu_env, ZMM_OFFSET(decode->mem.index));
+    fn(cpu_env, OP_PTR0, OP_PTR1, index, s->A0, scale);
+
+    /*
+     * There are two output operands, so zero OP1's high 128 bits
+     * in the VEX.128 case.
+     */
+    if (!s->vex_l) {
+        int ymmh_ofs =3D vector_elem_offset(&decode->op[1], MO_128, 1);
+        tcg_gen_gvec_dup_imm(MO_64, ymmh_ofs, 16, 16, 0);
+    }
+    tcg_temp_free_ptr(index);
+}
+#define VSIB_AVX(uname, lname)                                            =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    gen_vsib_avx(s, env, decode,                                          =
         \
+                 gen_helper_##lname##d_xmm, gen_helper_##lname##q_xmm,    =
         \
+                 gen_helper_##lname##d_ymm, gen_helper_##lname##q_ymm);   =
         \
+}
+VSIB_AVX(VPGATHERD, vpgatherd)
+VSIB_AVX(VPGATHERQ, vpgatherq)
+
 static void gen_ADCOX(DisasContext *s, CPUX86State *env, MemOp ot, int cc_=
op)
 {
     TCGv carry_in =3D NULL;
@@ -1484,6 +1639,12 @@ static void gen_VAESKEYGEN(DisasContext *s, CPUX86St=
ate *env, X86DecodedInsn *de
     gen_helper_aeskeygenassist_xmm(cpu_env, OP_PTR0, OP_PTR1, imm);
 }
=20
+static void gen_VAESIMC(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    assert(!s->vex_l);
+    gen_helper_aesimc_xmm(cpu_env, OP_PTR0, OP_PTR2);
+}
+
 static void gen_VCVTfp2fp(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
 {
     gen_unary_fp_sse(s, env, decode,
@@ -1567,6 +1728,41 @@ static void gen_VINSERTx128(DisasContext *s, CPUX86S=
tate *env, X86DecodedInsn *d
                      decode->op[1].offset + offsetof(YMMReg, YMM_X(!mask))=
, 16, 16);
 }
=20
+static inline void gen_maskmov(DisasContext *s, CPUX86State *env, X86Decod=
edInsn *decode,
+                               SSEFunc_0_eppt xmm, SSEFunc_0_eppt ymm)
+{
+    if (!s->vex_l) {
+        xmm(cpu_env, OP_PTR2, OP_PTR1, s->A0);
+    } else {
+        ymm(cpu_env, OP_PTR2, OP_PTR1, s->A0);
+    }
+}
+
+static void gen_VMASKMOVPD_st(DisasContext *s, CPUX86State *env, X86Decode=
dInsn *decode)
+{
+    gen_maskmov(s, env, decode, gen_helper_vpmaskmovq_st_xmm, gen_helper_v=
pmaskmovq_st_ymm);
+}
+
+static void gen_VMASKMOVPS_st(DisasContext *s, CPUX86State *env, X86Decode=
dInsn *decode)
+{
+    gen_maskmov(s, env, decode, gen_helper_vpmaskmovd_st_xmm, gen_helper_v=
pmaskmovd_st_ymm);
+}
+
+static void gen_VPMASKMOV_st(DisasContext *s, CPUX86State *env, X86Decoded=
Insn *decode)
+{
+    if (REX_W(s)) {
+        gen_VMASKMOVPD_st(s, env, decode);
+    } else {
+        gen_VMASKMOVPS_st(s, env, decode);
+    }
+}
+
+static void gen_VPERMD(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    assert(s->vex_l);
+    gen_helper_vpermd_ymm(OP_PTR0, OP_PTR1, OP_PTR2);
+}
+
 static void gen_VPERM2x128(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
 {
     TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
@@ -1574,6 +1770,12 @@ static void gen_VPERM2x128(DisasContext *s, CPUX86St=
ate *env, X86DecodedInsn *de
     gen_helper_vpermdq_ymm(OP_PTR0, OP_PTR1, OP_PTR2, imm);
 }
=20
+static void gen_VPHMINPOSUW(DisasContext *s, CPUX86State *env, X86DecodedI=
nsn *decode)
+{
+    assert(!s->vex_l);
+    gen_helper_phminposuw_xmm(cpu_env, OP_PTR0, OP_PTR2);
+}
+
 static void gen_VROUNDSD(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
 {
     TCGv_i32 imm =3D tcg_constant8u_i32(decode->immediate);
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index bffe778a69..9cb567f02f 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4774,7 +4774,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         use_new &=3D b <=3D limit;
 #endif
         if (use_new &&
-            (b =3D=3D 0x13a ||
+            (b =3D=3D 0x138 || b =3D=3D 0x13a ||
              (b >=3D 0x150 && b <=3D 0x17f) ||
              (b >=3D 0x1d0 && b <=3D 0x1ff))) {
             disas_insn_new(s, cpu, b + 0x100);
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699362; cv=none;
	d=zohomail.com; s=zohoarc;
	b=meltimnNWD7pGMIGDHTR/lr2qom6uCibIA9H8xuiOiiGSygA0OrSKxw6Q9jgB587CtZt6jwIlipzBcikPpkgI9BXtMNfWKK1T5uYB96fj0I2RbRTqvELY1xq+C0xFbz2Wb3G8OLYokj7xyus3rvxIDpQg8v4SyD49S+BedkBKzk=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699362;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=Y7e8mOsNVJ5BkgF/YVp6rw3C+un8EiYn6/oa+HILGEo=;
	b=bRZjqc/QuVZTd89Mji87vTUrbpwQRpRva3V6Jxlr1BDQCiND3NzHLRZK+fIrbq5YXhBPF14nknvTDAtcs19uLeSGY4N3K+gFNenw+hqvpefXybp/tnMi26nBqb5aBlxM6no/4nsOtp9Iynl3SKj6EQL+QY2GeKQtnThcMwTwcPU=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699362537440.3202795277083;
 Thu, 13 Oct 2022 15:16:02 -0700 (PDT)
Received: from localhost ([::1]:56590 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6Uj-0002tl-2f
	for importer@patchew.org; Thu, 13 Oct 2022 18:16:01 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:35902)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63u-0002r0-Fs
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:20 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:31991)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63s-0005Jw-Mb
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:18 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-135-9N7Lp0SgOaeFwdDa0sgNkQ-1; Thu, 13 Oct 2022 17:48:14 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 r16-20020a05640251d000b004599cfb8b95so2315738edd.5
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:14 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 du1-20020a17090772c100b0078e05db7002sm388427ejc.217.2022.10.13.14.48.11
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:11 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697696;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=Y7e8mOsNVJ5BkgF/YVp6rw3C+un8EiYn6/oa+HILGEo=;
 b=Bo08pYi8f7ZC3JTF3i+JrhFlH3kRk3p43TBrwGXHqmEQ9uMcbG0broGTvVnKk444LERSnT
 zuMc2L55rp/T0mDlJrEpdWUr2FzXW+zav5Polno95PkQ90UVmqZdF/Fd2o6e+c0qutcI57
 mB+D/A7Izi1uNc/NaVu9d2p7Q4I6Yyg=
X-MC-Unique: 9N7Lp0SgOaeFwdDa0sgNkQ-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=Y7e8mOsNVJ5BkgF/YVp6rw3C+un8EiYn6/oa+HILGEo=;
 b=2uyjJ6XFYtMhUleJtUMjjp4+ZQV72t4SYtG0Zkd9iNUL/4xdfuaGPMc9R/NaqWwoZM
 1mQsEuayrMRa76R0ukRpY3DGvBVtzpiKCpUGKnz60W3k2ptZlqT8gsqdcFsDDGk6ZsmW
 XEgS99AsggNkbWW9w500r59HxfrOdonr9M1auO5HVSPwgzDqml7orvueUgl0eo7t3bA2
 +DPIW4RGthdL6bJ+n2U32TsJvNGkgk+oOGIBcwEVqCdSrmn3CB49uh3Ai1FQg8iriNxK
 beYhy+Lr2lYlRGXy6WrzWQyWGEUi8DRF52tG6yrU7owFXVZruOaQbLiQjBcS+bCqJATv
 SZ1g==
X-Gm-Message-State: ACrzQf1ufSUX2k/+u47H9Nk9yFPHYzi6N3wFBpTHfXHNBiQip5HhxZYo
 F78Pv+E2XgPg8PzHKE3PilDU6CSGeous8tjp5JFfMqRjmh9df/qlwFEgeZ7fXZE7rjFjkbNHUc5
 p0Nq/WCEPV2EQ1ixARf5uCrcJ4xHkolh+yoUbVCcQ9eyJhk3AajHASeWFmHOo8Nruoow=
X-Received: by 2002:a17:907:3ea2:b0:78d:b416:4663 with SMTP id
 hs34-20020a1709073ea200b0078db4164663mr1308544ejc.766.1665697692815;
 Thu, 13 Oct 2022 14:48:12 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM6Wa3oMfbVgX1J3szHekk4wXCH2YPvLlzONxfdbZjeSujFcfT4sjpUE2Lx4eB1/THoERGOw2Q==
X-Received: by 2002:a17:907:3ea2:b0:78d:b416:4663 with SMTP id
 hs34-20020a1709073ea200b0078db4164663mr1308530ejc.766.1665697692542;
 Thu, 13 Oct 2022 14:48:12 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 27/35] target/i386: reimplement 0x0f 0xc2, 0xc4-0xc6, add AVX
Date: Thu, 13 Oct 2022 23:46:43 +0200
Message-Id: <20221013214651.672114-28-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699363996100001
Content-Type: text/plain; charset="utf-8"

Nothing special going on here, for once.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  5 +++
 target/i386/tcg/emit.c.inc       | 75 ++++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |  1 +
 3 files changed, 81 insertions(+)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 6732720302..a5b4a98ba0 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -655,6 +655,11 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x7e] =3D X86_OP_GROUP0(0F7E),
     [0x7f] =3D X86_OP_GROUP0(0F7F),
=20
+    [0xc2] =3D X86_OP_ENTRY4(VCMP,       V,x, H,x, W,x,       vex2_rep3 p_=
00_66_f3_f2),
+    [0xc4] =3D X86_OP_ENTRY4(PINSRW,     V,dq,H,dq,E,w,       vex5 mmx p_0=
0_66),
+    [0xc5] =3D X86_OP_ENTRY3(PEXTRW,     G,d, U,dq,I,b,       vex5 mmx p_0=
0_66),
+    [0xc6] =3D X86_OP_ENTRY4(VSHUF,      V,x, H,x, W,x,       vex4 p_00_66=
),
+
     [0xd0] =3D X86_OP_ENTRY3(VADDSUB,   V,x, H,x, W,x,        vex2 cpuid(S=
SE3) p_66_f2),
     [0xd1] =3D X86_OP_ENTRY3(PSRLW_r,   V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
     [0xd2] =3D X86_OP_ENTRY3(PSRLD_r,   V,x, H,x, W,x,        vex4 mmx avx=
2_256 p_00_66),
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 0c5e9d956a..d4534c3f39 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -1341,6 +1341,11 @@ static void gen_PINSRB(DisasContext *s, CPUX86State =
*env, X86DecodedInsn *decode
     gen_pinsr(s, env, decode, MO_8);
 }
=20
+static void gen_PINSRW(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    gen_pinsr(s, env, decode, MO_16);
+}
+
 static void gen_PINSR(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
 {
     gen_pinsr(s, env, decode, decode->op[2].ot);
@@ -1645,6 +1650,66 @@ static void gen_VAESIMC(DisasContext *s, CPUX86State=
 *env, X86DecodedInsn *decod
     gen_helper_aesimc_xmm(cpu_env, OP_PTR0, OP_PTR2);
 }
=20
+/*
+ * 00 =3D v*ps Vps, Hps, Wpd
+ * 66 =3D v*pd Vpd, Hpd, Wps
+ * f3 =3D v*ss Vss, Hss, Wps
+ * f2 =3D v*sd Vsd, Hsd, Wps
+ */
+#define SSE_CMP(x) { \
+    gen_helper_ ## x ## ps ## _xmm, gen_helper_ ## x ## pd ## _xmm, \
+    gen_helper_ ## x ## ss, gen_helper_ ## x ## sd, \
+    gen_helper_ ## x ## ps ## _ymm, gen_helper_ ## x ## pd ## _ymm}
+static const SSEFunc_0_eppp gen_helper_cmp_funcs[32][6] =3D {
+    SSE_CMP(cmpeq),
+    SSE_CMP(cmplt),
+    SSE_CMP(cmple),
+    SSE_CMP(cmpunord),
+    SSE_CMP(cmpneq),
+    SSE_CMP(cmpnlt),
+    SSE_CMP(cmpnle),
+    SSE_CMP(cmpord),
+
+    SSE_CMP(cmpequ),
+    SSE_CMP(cmpnge),
+    SSE_CMP(cmpngt),
+    SSE_CMP(cmpfalse),
+    SSE_CMP(cmpnequ),
+    SSE_CMP(cmpge),
+    SSE_CMP(cmpgt),
+    SSE_CMP(cmptrue),
+
+    SSE_CMP(cmpeqs),
+    SSE_CMP(cmpltq),
+    SSE_CMP(cmpleq),
+    SSE_CMP(cmpunords),
+    SSE_CMP(cmpneqq),
+    SSE_CMP(cmpnltq),
+    SSE_CMP(cmpnleq),
+    SSE_CMP(cmpords),
+
+    SSE_CMP(cmpequs),
+    SSE_CMP(cmpngeq),
+    SSE_CMP(cmpngtq),
+    SSE_CMP(cmpfalses),
+    SSE_CMP(cmpnequs),
+    SSE_CMP(cmpgeq),
+    SSE_CMP(cmpgtq),
+    SSE_CMP(cmptrues),
+};
+#undef SSE_CMP
+
+static void gen_VCMP(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
+{
+    int index =3D decode->immediate & (s->prefix & PREFIX_VEX ? 31 : 7);
+    int b =3D
+        s->prefix & PREFIX_REPZ  ? 2 /* ss */ :
+        s->prefix & PREFIX_REPNZ ? 3 /* sd */ :
+        !!(s->prefix & PREFIX_DATA) /* pd */ + (s->vex_l << 2);
+
+    gen_helper_cmp_funcs[index][b](cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
+}
+
 static void gen_VCVTfp2fp(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
 {
     gen_unary_fp_sse(s, env, decode,
@@ -1790,6 +1855,16 @@ static void gen_VROUNDSS(DisasContext *s, CPUX86Stat=
e *env, X86DecodedInsn *deco
     gen_helper_roundss_xmm(cpu_env, OP_PTR0, OP_PTR1, OP_PTR2, imm);
 }
=20
+static void gen_VSHUF(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    TCGv_i32 imm =3D tcg_constant_i32(decode->immediate);
+    SSEFunc_0_pppi ps, pd, fn;
+    ps =3D s->vex_l ? gen_helper_shufps_ymm : gen_helper_shufps_xmm;
+    pd =3D s->vex_l ? gen_helper_shufpd_ymm : gen_helper_shufpd_xmm;
+    fn =3D s->prefix & PREFIX_DATA ? pd : ps;
+    fn(OP_PTR0, OP_PTR1, OP_PTR2, imm);
+}
+
 static void gen_VZEROALL(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
 {
     TCGv_ptr ptr =3D tcg_temp_new_ptr();
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 9cb567f02f..04b51d7477 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4776,6 +4776,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         if (use_new &&
             (b =3D=3D 0x138 || b =3D=3D 0x13a ||
              (b >=3D 0x150 && b <=3D 0x17f) ||
+             b =3D=3D 0x1c2 || (b >=3D 0x1c4 && b <=3D 0x1c6) ||
              (b >=3D 0x1d0 && b <=3D 0x1ff))) {
             disas_insn_new(s, cpu, b + 0x100);
             return s->pc;
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698704; cv=none;
	d=zohomail.com; s=zohoarc;
	b=LAr9F7rigqM1aqyATp6WDUbEuW/jnNk567R/XYq37UEsMDA86U7tROSUf4R8EFhz42IXr7XmxsnIBnx5R4EKopjBm8Rv5ak7CoF7y8HMlid/blPSicVQWxFVeeLg6F4yOfcp3Wg8EcB/CuxgsyKjspnUb59V27DaBbyCbyS6K/Y=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698704;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=Wn63iYdBRq9pBwv9POO1bDlRoFDRvcGO2A2Toa6E3zM=;
	b=W+9sNoXthAPkJlcBpOg+ygTWeNF/tIEy+Gl5WRe3OjLog+bxrsVn+yBvK/mL9XzU+QY4rzbPWCTMHMxF+Ns38Qo2lEv6lOwuOQCN3ZgKLJMGn3k03od4jlhMvUSA1DSWHZ6IQa1bA15zF4e/e0P6hLcaoy0fz2H7m1ykt6TlIc4=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698704759614.1807547953485;
 Thu, 13 Oct 2022 15:05:04 -0700 (PDT)
Received: from localhost ([::1]:34126 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6K6-0002u9-VE
	for importer@patchew.org; Thu, 13 Oct 2022 18:05:03 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:35906)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63x-0002ru-Qw
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:29 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:55842)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63v-0005KK-Dh
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:21 -0400
Received: from mail-ed1-f70.google.com (mail-ed1-f70.google.com
 [209.85.208.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-124-TIaobXwKNtCjkGu0Xw2l6Q-1; Thu, 13 Oct 2022 17:48:17 -0400
Received: by mail-ed1-f70.google.com with SMTP id
 w1-20020a056402268100b0045d06ea5575so1038081edd.6
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:17 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 v2-20020a1709067d8200b007815c3e95f6sm438856ejo.146.2022.10.13.14.48.14
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:14 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697698;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=Wn63iYdBRq9pBwv9POO1bDlRoFDRvcGO2A2Toa6E3zM=;
 b=CEVQtTJh+awYB+Ni5Io9XDORUQEyXLDsOwABZdh8nuQxxAWtH2JPn4PMVI/YPQa9Rods1N
 6Uu9rTpSRcqcLw3vvle/Wx/qxfNwnP+VEzh3/5Ax9ZqS68Zk9bX6qYg8wiMCQdYLaQsay2
 KqziIfkZsZXrNo82FucsarTfd6XqKB8=
X-MC-Unique: TIaobXwKNtCjkGu0Xw2l6Q-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=Wn63iYdBRq9pBwv9POO1bDlRoFDRvcGO2A2Toa6E3zM=;
 b=an22HaOclVDF0NGcou0YQ9YvGC/b9sgT3nG69dKExdV6khReFcZ510fn1EwyHUaGk7
 4iyEvoVEE1NB5+MmaUsKmB4iFKhJMvwxB+czZTvUBp6t0lBvbZj/3TpbPCKQ+68JK9+E
 c6wXrtAdkt2CGJb0b00NfU0+sTCqm6lDZkxeGwVYOFVV1nmIHGzn2i17esdgRbAtj0oF
 KTF9g/5VMeNVSuepQSsJUNbijKVA3UQ3xO4ftz0j7IKgd1dWikTJZXSrKL1sqOjX8+bz
 xGpu5Xh8a3Eacj3Q4OZYSRdaCKGra/sdsMeNGMdcjhw9V+wW92vifAo8/gG4BnTuHm3s
 fXNg==
X-Gm-Message-State: ACrzQf1zEIXP8HkZf50XlPbFp6NKvN47JMcit96aM63rYaVD083Xjw/b
 Cah2U7yUe0PhX+1XTR+lrFIikrActHZDcg9H2lB/Uz1d9ZBUr4udJvwrqF7+O7Ll5BIQgJ+ZeKx
 jn5r7T49sDJ89kraWPdo369Am6VHnG2toFbvIi3wkayCAPZHdbvOcNEHmCMsmeE0tbyo=
X-Received: by 2002:a17:907:7b95:b0:731:113a:d7a2 with SMTP id
 ne21-20020a1709077b9500b00731113ad7a2mr1259846ejc.377.1665697695694;
 Thu, 13 Oct 2022 14:48:15 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7suw2qCxrjm7RZsAhWjt9Bjj0k3Qxy/yh5Y7Oj/b1vt16FXaw7VveHSw/ugjy/fZ3Kwxpd+Q==
X-Received: by 2002:a17:907:7b95:b0:731:113a:d7a2 with SMTP id
 ne21-20020a1709077b9500b00731113ad7a2mr1259818ejc.377.1665697695112;
 Thu, 13 Oct 2022 14:48:15 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 28/35] target/i386: reimplement 0x0f 0x10-0x17, add AVX
Date: Thu, 13 Oct 2022 23:46:44 +0200
Message-Id: <20221013214651.672114-29-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698705619100001
Content-Type: text/plain; charset="utf-8"

These are mostly moves, and yet are a total pain.  The main issue
is that:

1) some instructions are selected by mod=3D=3D11 (register operand)
vs. mod=3D00/01/10 (memory operand)

2) stores to memory are two-operand operations, while the 3-register
and load-from-memory versions operate on the entire contents of the
destination; this makes it easier to separate the gen_* function for
the store case

3) it's inefficient to load into xmm_T0 only to move the value out
again, so the gen_* function for the load case is separated too

The manual also has various mistakes in the operands here, for example
the store case of MOVHPS operates on a 128-bit source (albeit discarding
the bottom 64 bits) and therefore should be Mq,Vdq rather than Mq,Vq.
Likewise for the destination and source of MOVHLPS.

VUNPCK?PS and VUNPCK?PD are the same as VUNPCK?DQ and VUNPCK?QDQ,
but encoded as prefixes rather than separate operands.  The helpers
can be reused however.

For MOVSLDUP, MOVSHDUP and MOVDDUP I chose to reimplement them as
helpers.  I named the helper for MOVDDUP "movdldup" in preparation
for possible future introduction of MOVDHDUP and to clarify the
similarity with MOVSLDUP.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h            |   7 ++
 target/i386/ops_sse_header.h     |   3 +
 target/i386/tcg/decode-new.c.inc | 126 ++++++++++++++++++++++++++++++
 target/i386/tcg/emit.c.inc       | 127 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |   1 +
 5 files changed, 264 insertions(+)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 104a53fda0..43b32edbfc 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -1683,6 +1683,10 @@ void glue(helper_ptest, SUFFIX)(CPUX86State *env, Re=
g *d, Reg *s)
     CC_SRC =3D (zf ? 0 : CC_Z) | (cf ? 0 : CC_C);
 }
=20
+#define FMOVSLDUP(i) s->L((i) & ~1)
+#define FMOVSHDUP(i) s->L((i) | 1)
+#define FMOVDLDUP(i) s->Q((i) & ~1)
+
 #define SSE_HELPER_F(name, elem, num, F)                        \
     void glue(name, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)   \
     {                                                           \
@@ -1705,6 +1709,9 @@ SSE_HELPER_F(helper_pmovzxbq, Q, 1 << SHIFT, s->B)
 SSE_HELPER_F(helper_pmovzxwd, L, 2 << SHIFT, s->W)
 SSE_HELPER_F(helper_pmovzxwq, Q, 1 << SHIFT, s->W)
 SSE_HELPER_F(helper_pmovzxdq, Q, 1 << SHIFT, s->L)
+SSE_HELPER_F(helper_pmovsldup, L, 2 << SHIFT, FMOVSLDUP)
+SSE_HELPER_F(helper_pmovshdup, L, 2 << SHIFT, FMOVSHDUP)
+SSE_HELPER_F(helper_pmovdldup, Q, 1 << SHIFT, FMOVDLDUP)
 #endif
=20
 void glue(helper_pmuldq, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *s)
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index dd8dcebc23..00de6d69f1 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -355,6 +355,9 @@ DEF_HELPER_3(glue(pmovzxbq, SUFFIX), void, env, Reg, Re=
g)
 DEF_HELPER_3(glue(pmovzxwd, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovzxwq, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovzxdq, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_3(glue(pmovsldup, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_3(glue(pmovshdup, SUFFIX), void, env, Reg, Reg)
+DEF_HELPER_3(glue(pmovdldup, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_4(glue(pmuldq, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(pcmpeqq, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(packusdw, SUFFIX), void, env, Reg, Reg, Reg)
diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index a5b4a98ba0..fae1fd89d2 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -563,6 +563,122 @@ static void decode_0F3A(DisasContext *s, CPUX86State =
*env, X86OpEntry *entry, ui
     *entry =3D opcodes_0F3A[*b];
 }
=20
+/*
+ * There are some mistakes in the operands in the manual, and the load/sto=
re/register
+ * cases are easiest to keep separate, so the entries for 10-17 follow sim=
plicity and
+ * efficiency of implementation rather than copying what the manual says.
+ *
+ * In particular:
+ *
+ * 1) "VMOVSS m32, xmm1" and "VMOVSD m64, xmm1" do not support VEX.vvvv !=
=3D 1111b,
+ * but this is not mentioned in the tables.
+ *
+ * 2) MOVHLPS, MOVHPS, MOVHPD, MOVLPD, MOVLPS read the high quadword of on=
e of their
+ * operands, which must therefore be dq; MOVLPD and MOVLPS also write the =
high
+ * quadword of the V operand.
+ */
+static void decode_0F10(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F10_reg[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,   V,x,  None,None, W,x, vex4_unal), /* MOVUPS=
 */
+        X86_OP_ENTRY3(MOVDQ,   V,x,  None,None, W,x, vex4_unal), /* MOVUPD=
 */
+        X86_OP_ENTRY3(VMOVSS,  V,x,  H,x,       W,x, vex4),
+        X86_OP_ENTRY3(VMOVLPx, V,x,  H,x,       W,x, vex4), /* MOVSD */
+    };
+
+    static const X86OpEntry opcodes_0F10_mem[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,      V,x,  None,None, W,x,  vex4_unal), /* MO=
VUPS */
+        X86_OP_ENTRY3(MOVDQ,      V,x,  None,None, W,x,  vex4_unal), /* MO=
VUPD */
+        X86_OP_ENTRY3(VMOVSS_ld,  V,x,  H,x,       M,ss, vex4),
+        X86_OP_ENTRY3(VMOVSD_ld,  V,x,  H,x,       M,sd, vex4),
+    };
+
+    if ((get_modrm(s, env) >> 6) =3D=3D 3) {
+        *entry =3D *decode_by_prefix(s, opcodes_0F10_reg);
+    } else {
+        *entry =3D *decode_by_prefix(s, opcodes_0F10_mem);
+    }
+}
+
+static void decode_0F11(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F11_reg[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,   W,x,  None,None, V,x, vex4), /* MOVPS */
+        X86_OP_ENTRY3(MOVDQ,   W,x,  None,None, V,x, vex4), /* MOVPD */
+        X86_OP_ENTRY3(VMOVSS,  W,x,  H,x,       V,x, vex4),
+        X86_OP_ENTRY3(VMOVLPx, W,x,  H,x,       V,q, vex4), /* MOVSD */
+    };
+
+    static const X86OpEntry opcodes_0F11_mem[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,      W,x,  None,None, V,x, vex4), /* MOVPS */
+        X86_OP_ENTRY3(MOVDQ,      W,x,  None,None, V,x, vex4), /* MOVPD */
+        X86_OP_ENTRY3(VMOVSS_st,  M,ss, None,None, V,x, vex4),
+        X86_OP_ENTRY3(VMOVLPx_st, M,sd, None,None, V,x, vex4), /* MOVSD */
+    };
+
+    if ((get_modrm(s, env) >> 6) =3D=3D 3) {
+        *entry =3D *decode_by_prefix(s, opcodes_0F11_reg);
+    } else {
+        *entry =3D *decode_by_prefix(s, opcodes_0F11_mem);
+    }
+}
+
+static void decode_0F12(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F12_mem[4] =3D {
+        /*
+         * Use dq for operand for compatibility with gen_MOVSD and
+         * to allow VEX128 only.
+         */
+        X86_OP_ENTRY3(VMOVLPx_ld, V,dq, H,dq,      M,q, vex4), /* MOVLPS */
+        X86_OP_ENTRY3(VMOVLPx_ld, V,dq, H,dq,      M,q, vex4), /* MOVLPD */
+        X86_OP_ENTRY3(VMOVSLDUP,  V,x,  None,None, W,x, vex4 cpuid(SSE3)),
+        X86_OP_ENTRY3(VMOVDDUP,   V,x,  None,None, WM,q, vex4 cpuid(SSE3))=
, /* qq if VEX.256 */
+    };
+    static const X86OpEntry opcodes_0F12_reg[4] =3D {
+        X86_OP_ENTRY3(VMOVHLPS,  V,dq, H,dq,       U,dq, vex4),
+        X86_OP_ENTRY3(VMOVLPx,   W,x,  H,x,        U,q,  vex4), /* MOVLPD =
*/
+        X86_OP_ENTRY3(VMOVSLDUP, V,x,  None,None,  U,x,  vex4 cpuid(SSE3)),
+        X86_OP_ENTRY3(VMOVDDUP,  V,x,  None,None,  U,x,  vex4 cpuid(SSE3)),
+    };
+
+    if ((get_modrm(s, env) >> 6) =3D=3D 3) {
+        *entry =3D *decode_by_prefix(s, opcodes_0F12_reg);
+    } else {
+        *entry =3D *decode_by_prefix(s, opcodes_0F12_mem);
+        if ((s->prefix & PREFIX_REPNZ) && s->vex_l) {
+            entry->s2 =3D X86_SIZE_qq;
+        }
+    }
+}
+
+static void decode_0F16(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F16_mem[4] =3D {
+        /*
+         * Operand 1 technically only reads the low 64 bits, but uses dq s=
o that
+         * it is easier to check for op0 =3D=3D op1 in an endianness-neutr=
al manner.
+         */
+        X86_OP_ENTRY3(VMOVHPx_ld, V,dq, H,dq,      M,q, vex4), /* MOVHPS */
+        X86_OP_ENTRY3(VMOVHPx_ld, V,dq, H,dq,      M,q, vex4), /* MOVHPD */
+        X86_OP_ENTRY3(VMOVSHDUP,  V,x,  None,None, W,x, vex4 cpuid(SSE3)),
+        {},
+    };
+    static const X86OpEntry opcodes_0F16_reg[4] =3D {
+        /* Same as above, operand 1 could be Hq if it wasn't for big-endia=
n.  */
+        X86_OP_ENTRY3(VMOVLHPS,  V,dq, H,dq,      U,q, vex4),
+        X86_OP_ENTRY3(VMOVHPx,   V,x,  H,x,       U,x, vex4), /* MOVHPD */
+        X86_OP_ENTRY3(VMOVSHDUP, V,x,  None,None, U,x, vex4 cpuid(SSE3)),
+        {},
+    };
+
+    if ((get_modrm(s, env) >> 6) =3D=3D 3) {
+        *entry =3D *decode_by_prefix(s, opcodes_0F16_reg);
+    } else {
+        *entry =3D *decode_by_prefix(s, opcodes_0F16_mem);
+    }
+}
+
 static void decode_sse_unary(DisasContext *s, CPUX86State *env, X86OpEntry=
 *entry, uint8_t *b)
 {
     if (!(s->prefix & (PREFIX_REPZ | PREFIX_REPNZ))) {
@@ -600,6 +716,16 @@ static void decode_0FE6(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
 }
=20
 static const X86OpEntry opcodes_0F[256] =3D {
+    [0x10] =3D X86_OP_GROUP0(0F10),
+    [0x11] =3D X86_OP_GROUP0(0F11),
+    [0x12] =3D X86_OP_GROUP0(0F12),
+    [0x13] =3D X86_OP_ENTRY3(VMOVLPx_st,  M,q, None,None, V,q,  vex4 p_00_=
66),
+    [0x14] =3D X86_OP_ENTRY3(VUNPCKLPx,   V,x, H,x, W,x,        vex4 p_00_=
66),
+    [0x15] =3D X86_OP_ENTRY3(VUNPCKHPx,   V,x, H,x, W,x,        vex4 p_00_=
66),
+    [0x16] =3D X86_OP_GROUP0(0F16),
+    /* Incorrectly listed as Mq,Vq in the manual */
+    [0x17] =3D X86_OP_ENTRY3(VMOVHPx_st,  M,q, None,None, V,dq, vex4 p_00_=
66),
+
     [0x50] =3D X86_OP_ENTRY3(MOVMSK,     G,y, None,None, U,x, vex7 p_00_66=
),
     [0x51] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex2_rep3 p_00_66_=
f3_f2),
     [0x52] =3D X86_OP_GROUP3(sse_unary,  V,x, H,x, W,x, vex5 p_00_f3),
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index d4534c3f39..50c5c9268e 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -394,6 +394,7 @@ static inline void gen_fp_sse(DisasContext *s, CPUX86St=
ate *env, X86DecodedInsn
         gen_illegal_opcode(s);
     }
 }
+
 #define FP_SSE(uname, lname)                                              =
         \
 static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
 {                                                                         =
         \
@@ -412,6 +413,20 @@ FP_SSE(VMIN, min)
 FP_SSE(VDIV, div)
 FP_SSE(VMAX, max)
=20
+#define FP_UNPACK_SSE(uname, lname)                                       =
         \
+static void gen_##uname(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode) \
+{                                                                         =
         \
+    /* PS maps to the DQ integer instruction, PD maps to QDQ.  */         =
         \
+    gen_fp_sse(s, env, decode,                                            =
         \
+               gen_helper_##lname##qdq_xmm,                               =
         \
+               gen_helper_##lname##dq_xmm,                                =
         \
+               gen_helper_##lname##qdq_ymm,                               =
         \
+               gen_helper_##lname##dq_ymm,                                =
         \
+               NULL, NULL);                                               =
         \
+}
+FP_UNPACK_SSE(VUNPCKLPx, punpckl)
+FP_UNPACK_SSE(VUNPCKHPx, punpckh)
+
 /*
  * 00 =3D v*ps Vps, Wpd
  * f3 =3D v*ss Vss, Wps
@@ -749,6 +764,10 @@ UNARY_INT_SSE(VPMOVZXWD,    pmovzxwd)
 UNARY_INT_SSE(VPMOVZXWQ,    pmovzxwq)
 UNARY_INT_SSE(VPMOVZXDQ,    pmovzxdq)
=20
+UNARY_INT_SSE(VMOVSLDUP,    pmovsldup)
+UNARY_INT_SSE(VMOVSHDUP,    pmovshdup)
+UNARY_INT_SSE(VMOVDDUP,     pmovdldup)
+
 UNARY_INT_SSE(VCVTDQ2PD, cvtdq2pd)
 UNARY_INT_SSE(VCVTPD2DQ, cvtpd2dq)
 UNARY_INT_SSE(VCVTTPD2DQ, cvttpd2dq)
@@ -1813,6 +1832,114 @@ static void gen_VMASKMOVPS_st(DisasContext *s, CPUX=
86State *env, X86DecodedInsn
     gen_maskmov(s, env, decode, gen_helper_vpmaskmovd_st_xmm, gen_helper_v=
pmaskmovd_st_ymm);
 }
=20
+static void gen_VMOVHPx_ld(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    gen_ldq_env_A0(s, decode->op[0].offset + offsetof(XMMReg, XMM_Q(1)));
+    if (decode->op[0].offset !=3D decode->op[1].offset) {
+        tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[1].offset + offset=
of(XMMReg, XMM_Q(0)));
+        tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offset=
of(XMMReg, XMM_Q(0)));
+    }
+}
+
+static void gen_VMOVHPx_st(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    gen_stq_env_A0(s, decode->op[2].offset + offsetof(XMMReg, XMM_Q(1)));
+}
+
+static void gen_VMOVHPx(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    if (decode->op[0].offset !=3D decode->op[2].offset) {
+        tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[2].offset + offset=
of(XMMReg, XMM_Q(1)));
+        tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offset=
of(XMMReg, XMM_Q(1)));
+    }
+    if (decode->op[0].offset !=3D decode->op[1].offset) {
+        tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[1].offset + offset=
of(XMMReg, XMM_Q(0)));
+        tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offset=
of(XMMReg, XMM_Q(0)));
+    }
+}
+
+static void gen_VMOVHLPS(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[2].offset + offsetof(X=
MMReg, XMM_Q(1)));
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offsetof(X=
MMReg, XMM_Q(0)));
+    if (decode->op[0].offset !=3D decode->op[1].offset) {
+        tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[1].offset + offset=
of(XMMReg, XMM_Q(1)));
+        tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offset=
of(XMMReg, XMM_Q(1)));
+    }
+}
+
+static void gen_VMOVLHPS(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[2].offset);
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offsetof(X=
MMReg, XMM_Q(1)));
+    if (decode->op[0].offset !=3D decode->op[1].offset) {
+        tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[1].offset + offset=
of(XMMReg, XMM_Q(0)));
+        tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offset=
of(XMMReg, XMM_Q(0)));
+    }
+}
+
+/*
+ * Note that MOVLPx supports 256-bit operation unlike MOVHLPx, MOVLHPx, MO=
XHPx.
+ * Use a gvec move to move everything above the bottom 64 bits.
+ */
+
+static void gen_VMOVLPx(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[2].offset + offsetof(X=
MMReg, XMM_Q(0)));
+    tcg_gen_gvec_mov(MO_64, decode->op[0].offset, decode->op[1].offset, ve=
c_len, vec_len);
+    tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset + offsetof(X=
MMReg, XMM_Q(0)));
+}
+
+static void gen_VMOVLPx_ld(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    tcg_gen_qemu_ld_i64(s->tmp1_i64, s->A0, s->mem_index, MO_LEUQ);
+    tcg_gen_gvec_mov(MO_64, decode->op[0].offset, decode->op[1].offset, ve=
c_len, vec_len);
+    tcg_gen_st_i64(s->tmp1_i64, OP_PTR0, offsetof(ZMMReg, ZMM_Q(0)));
+}
+
+static void gen_VMOVLPx_st(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    tcg_gen_ld_i64(s->tmp1_i64, OP_PTR2, offsetof(ZMMReg, ZMM_Q(0)));
+    tcg_gen_qemu_st_i64(s->tmp1_i64, s->A0, s->mem_index, MO_LEUQ);
+}
+
+static void gen_VMOVSD_ld(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    TCGv_i64 zero =3D tcg_constant_i64(0);
+
+    tcg_gen_qemu_ld_i64(s->tmp1_i64, s->A0, s->mem_index, MO_LEUQ);
+    tcg_gen_st_i64(zero, OP_PTR0, offsetof(ZMMReg, ZMM_Q(1)));
+    tcg_gen_st_i64(s->tmp1_i64, OP_PTR0, offsetof(ZMMReg, ZMM_Q(0)));
+}
+
+static void gen_VMOVSS(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    tcg_gen_ld_i32(s->tmp2_i32, OP_PTR2, offsetof(ZMMReg, ZMM_L(0)));
+    tcg_gen_gvec_mov(MO_64, decode->op[0].offset, decode->op[1].offset, ve=
c_len, vec_len);
+    tcg_gen_st_i32(s->tmp2_i32, OP_PTR0, offsetof(ZMMReg, ZMM_L(0)));
+}
+
+static void gen_VMOVSS_ld(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    int vec_len =3D vector_len(s, decode);
+
+    tcg_gen_qemu_ld_i32(s->tmp2_i32, s->A0, s->mem_index, MO_LEUL);
+    tcg_gen_gvec_dup_imm(MO_64, decode->op[0].offset, vec_len, vec_len, 0);
+    tcg_gen_st_i32(s->tmp2_i32, OP_PTR0, offsetof(ZMMReg, ZMM_L(0)));
+}
+
+static void gen_VMOVSS_st(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    tcg_gen_ld_i32(s->tmp2_i32, OP_PTR2, offsetof(ZMMReg, ZMM_L(0)));
+    tcg_gen_qemu_st_i32(s->tmp2_i32, s->A0, s->mem_index, MO_LEUL);
+}
+
 static void gen_VPMASKMOV_st(DisasContext *s, CPUX86State *env, X86Decoded=
Insn *decode)
 {
     if (REX_W(s)) {
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 04b51d7477..1e4732da1e 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4775,6 +4775,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #endif
         if (use_new &&
             (b =3D=3D 0x138 || b =3D=3D 0x13a ||
+             (b >=3D 0x110 && b <=3D 0x117) ||
              (b >=3D 0x150 && b <=3D 0x17f) ||
              b =3D=3D 0x1c2 || (b >=3D 0x1c4 && b <=3D 0x1c6) ||
              (b >=3D 0x1d0 && b <=3D 0x1ff))) {
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699803; cv=none;
	d=zohomail.com; s=zohoarc;
	b=Bo50ZFTkqFME8U9yo2ozeLh8caAGHxSuvq7+Nr+DC/0SY+wFRMazdYp0TeMsc5DBcRBmtuezwMVl15Mn6/EVRX2oRmwI9nTDVHBh48QQ2ASbB5AXAxIapF2CNdieyX1EOzffS1zHYetSQc7TAaNog2Xqzq2UPjlIpR7eu5CfDqg=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699803;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=70RXMgFGOWL2Ethpw64uma2hqWvxsXTQPpiJoWHOYj4=;
	b=avohUXHGAXChfeq+4h+q/i+NoMe650drXTF0h3dTe92audvmy0IUrUHL4cZni1LGy2IwJBHoSEUtO+Hw7aVNjcwUZp5iG2rO5oEOGZyaj+Y72fojm3J7bjKKhY3xHK2SoAKB6VKz9+HKOViEhfZ7VReVoOiUYQvDuBrBbJNpOGc=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699803929647.8026213117917;
 Thu, 13 Oct 2022 15:23:23 -0700 (PDT)
Received: from localhost ([::1]:47160 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6bp-0006zj-J3
	for importer@patchew.org; Thu, 13 Oct 2022 18:23:21 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:35908)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63z-0002sB-J1
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:29 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:25419)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj63x-0005L9-LF
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:23 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-519-JbU-Bx4cPQWw1tw5FqKKKA-1; Thu, 13 Oct 2022 17:48:20 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 w20-20020a05640234d400b0045d0d1afe8eso674209edc.15
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:19 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 nb36-20020a1709071ca400b00780f24b797dsm445658ejc.108.2022.10.13.14.48.17
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:17 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697701;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=70RXMgFGOWL2Ethpw64uma2hqWvxsXTQPpiJoWHOYj4=;
 b=fFsRPs3HZ3/a/nA6h+ikz9PzBeOCp5YkKp5HV8B2C466DEehxEYHRAW8QJh+UWF3Q9cT4W
 4pqAP9bZHGU4SLtgMzuujyEf8Twhv5HoDLScDtYnws6PR97+bcnXHlmF6VhGXdFLj8xNPl
 CgQDPXQ6s7Yw42zzuU6fEOAZ8kN7grg=
X-MC-Unique: JbU-Bx4cPQWw1tw5FqKKKA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=70RXMgFGOWL2Ethpw64uma2hqWvxsXTQPpiJoWHOYj4=;
 b=VYtt9AQJtrKzk2/i4pSz+F+llGfSMzj0QfdcQwZnNJxIu6bwn8NiwcPwe702hKuOCR
 ZnGmYgkrOssZCLLTF4aCc/2GU+lxsC+7WFzQCTYxId0CZu7mJUwAhPZN2B45QKN9LTU8
 fCxZDukF76mGNc+x/bemwhvXfdvpNH7evgRwdnMLvoD6x6kwunpxAAZZZr+pXB2He+Wi
 GBQmF/glWBdargvQULVa2GtEKUIm9IqeiHmzN+ZMhJPi1lSYByD2mWtyq3yWCwChUxRg
 pKU1W/9+1cQjX9WoLItBvHhohJV7tCWT9Z5oAhriFk+oqWPAILH9BSP5eZ5tdlEUZQ4b
 7Cnw==
X-Gm-Message-State: ACrzQf2ptgjGX8Ef1qA8SwRhNt8/i7g3GmJiKudM91P7rf/8gthO707L
 MGE0TaLsSrXDWr16E4JeaHyf6B5xXWUlwRk27s8CSYU0LovqVK9sD0bKbGp0Scjs9kM5jsds+cY
 WQnGS1uxYbaN+zXwT9B0+ifmN/s4SUetWDWgLK4Pic5tMahYuc9mdx4IcNUnLOkEO5Z8=
X-Received: by 2002:a50:fc85:0:b0:458:e7c6:1cfa with SMTP id
 f5-20020a50fc85000000b00458e7c61cfamr1582870edq.256.1665697698343;
 Thu, 13 Oct 2022 14:48:18 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7wQwOuXGTs8Ds0ADQOt2p7IddjoRLBRGxjwygXMd9eVBUu4TDfD5TJ35NfgJGISTb+HgTm6Q==
X-Received: by 2002:a50:fc85:0:b0:458:e7c6:1cfa with SMTP id
 f5-20020a50fc85000000b00458e7c61cfamr1582854edq.256.1665697698008;
 Thu, 13 Oct 2022 14:48:18 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 29/35] target/i386: reimplement 0x0f 0x28-0x2f, add AVX
Date: Thu, 13 Oct 2022 23:46:45 +0200
Message-Id: <20221013214651.672114-30-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699804474100001
Content-Type: text/plain; charset="utf-8"

Here the code is a bit uglier due to the truncation and extension
of registers to and from 32-bit.  There is also a mistake in the
manual with respect to the size of the memory operand of CVTPS2PI
and CVTTPS2PI, reported by Ricky Zhou.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc |  56 ++++++++++++++
 target/i386/tcg/emit.c.inc       | 128 +++++++++++++++++++++++++++++++
 target/i386/tcg/translate.c      |   1 +
 3 files changed, 185 insertions(+)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index fae1fd89d2..2105d080b4 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -679,6 +679,53 @@ static void decode_0F16(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
     }
 }
=20
+static void decode_0F2A(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F2A[4] =3D {
+        X86_OP_ENTRY3(CVTPI2Px,  V,x,  None,None, Q,q),
+        X86_OP_ENTRY3(CVTPI2Px,  V,x,  None,None, Q,q),
+        X86_OP_ENTRY3(VCVTSI2Sx, V,x,  H,x, E,y,        vex3),
+        X86_OP_ENTRY3(VCVTSI2Sx, V,x,  H,x, E,y,        vex3),
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F2A);
+}
+
+static void decode_0F2B(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F2B[4] =3D {
+        X86_OP_ENTRY3(MOVDQ,      M,x,  None,None, V,x, vex4), /* MOVNTPS =
*/
+        X86_OP_ENTRY3(MOVDQ,      M,x,  None,None, V,x, vex4), /* MOVNTPD =
*/
+        X86_OP_ENTRY3(VMOVSS_st,  M,ss, None,None, V,x, vex4 cpuid(SSE4A))=
, /* MOVNTSS */
+        X86_OP_ENTRY3(VMOVLPx_st, M,sd, None,None, V,x, vex4 cpuid(SSE4A))=
, /* MOVNTSD */
+    };
+
+    *entry =3D *decode_by_prefix(s, opcodes_0F2B);
+}
+
+static void decode_0F2C(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F2C[4] =3D {
+        /* Listed as ps/pd in the manual, but CVTTPS2PI only reads 64-bit.=
  */
+        X86_OP_ENTRY3(CVTTPx2PI,  P,q,  None,None, W,q),
+        X86_OP_ENTRY3(CVTTPx2PI,  P,q,  None,None, W,dq),
+        X86_OP_ENTRY3(VCVTTSx2SI, G,y,  None,None, W,ss, vex3),
+        X86_OP_ENTRY3(VCVTTSx2SI, G,y,  None,None, W,sd, vex3),
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F2C);
+}
+
+static void decode_0F2D(DisasContext *s, CPUX86State *env, X86OpEntry *ent=
ry, uint8_t *b)
+{
+    static const X86OpEntry opcodes_0F2D[4] =3D {
+        /* Listed as ps/pd in the manual, but CVTPS2PI only reads 64-bit. =
 */
+        X86_OP_ENTRY3(CVTPx2PI,  P,q,  None,None, W,q),
+        X86_OP_ENTRY3(CVTPx2PI,  P,q,  None,None, W,dq),
+        X86_OP_ENTRY3(VCVTSx2SI, G,y,  None,None, W,ss, vex3),
+        X86_OP_ENTRY3(VCVTSx2SI, G,y,  None,None, W,sd, vex3),
+    };
+    *entry =3D *decode_by_prefix(s, opcodes_0F2D);
+}
+
 static void decode_sse_unary(DisasContext *s, CPUX86State *env, X86OpEntry=
 *entry, uint8_t *b)
 {
     if (!(s->prefix & (PREFIX_REPZ | PREFIX_REPNZ))) {
@@ -753,6 +800,15 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x76] =3D X86_OP_ENTRY3(PCMPEQD,    V,x, H,x, W,x,  vex4 mmx avx2_256=
 p_00_66),
     [0x77] =3D X86_OP_GROUP0(0F77),
=20
+    [0x28] =3D X86_OP_ENTRY3(MOVDQ,      V,x,  None,None, W,x, vex1 p_00_6=
6), /* MOVAPS */
+    [0x29] =3D X86_OP_ENTRY3(MOVDQ,      W,x,  None,None, V,x, vex1 p_00_6=
6), /* MOVAPS */
+    [0x2A] =3D X86_OP_GROUP0(0F2A),
+    [0x2B] =3D X86_OP_GROUP0(0F2B),
+    [0x2C] =3D X86_OP_GROUP0(0F2C),
+    [0x2D] =3D X86_OP_GROUP0(0F2D),
+    [0x2E] =3D X86_OP_ENTRY3(VUCOMI,     None,None, V,x, W,x,  vex4 p_00_6=
6),
+    [0x2F] =3D X86_OP_ENTRY3(VCOMI,      None,None, V,x, W,x,  vex4 p_00_6=
6),
+
     [0x38] =3D X86_OP_GROUP0(0F38),
     [0x3a] =3D X86_OP_GROUP0(0F3A),
=20
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 50c5c9268e..c4bf47eac2 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -1038,6 +1038,36 @@ static void gen_CRC32(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decode)
     gen_helper_crc32(s->T0, s->tmp2_i32, s->T1, tcg_constant_i32(8 << ot));
 }
=20
+static void gen_CVTPI2Px(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    gen_helper_enter_mmx(cpu_env);
+    if (s->prefix & PREFIX_DATA) {
+        gen_helper_cvtpi2pd(cpu_env, OP_PTR0, OP_PTR2);
+    } else {
+        gen_helper_cvtpi2ps(cpu_env, OP_PTR0, OP_PTR2);
+    }
+}
+
+static void gen_CVTPx2PI(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
+{
+    gen_helper_enter_mmx(cpu_env);
+    if (s->prefix & PREFIX_DATA) {
+        gen_helper_cvtpd2pi(cpu_env, OP_PTR0, OP_PTR2);
+    } else {
+        gen_helper_cvtps2pi(cpu_env, OP_PTR0, OP_PTR2);
+    }
+}
+
+static void gen_CVTTPx2PI(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    gen_helper_enter_mmx(cpu_env);
+    if (s->prefix & PREFIX_DATA) {
+        gen_helper_cvttpd2pi(cpu_env, OP_PTR0, OP_PTR2);
+    } else {
+        gen_helper_cvttps2pi(cpu_env, OP_PTR0, OP_PTR2);
+    }
+}
+
 static void gen_EMMS(DisasContext *s, CPUX86State *env, X86DecodedInsn *de=
code)
 {
     gen_helper_emms(cpu_env);
@@ -1729,6 +1759,14 @@ static void gen_VCMP(DisasContext *s, CPUX86State *e=
nv, X86DecodedInsn *decode)
     gen_helper_cmp_funcs[index][b](cpu_env, OP_PTR0, OP_PTR1, OP_PTR2);
 }
=20
+static void gen_VCOMI(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    SSEFunc_0_epp fn;
+    fn =3D s->prefix & PREFIX_DATA ? gen_helper_comisd : gen_helper_comiss;
+    fn(cpu_env, OP_PTR1, OP_PTR2);
+    set_cc_op(s, CC_OP_EFLAGS);
+}
+
 static void gen_VCVTfp2fp(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
 {
     gen_unary_fp_sse(s, env, decode,
@@ -1737,6 +1775,88 @@ static void gen_VCVTfp2fp(DisasContext *s, CPUX86Sta=
te *env, X86DecodedInsn *dec
                      gen_helper_cvtsd2ss, gen_helper_cvtss2sd);
 }
=20
+static void gen_VCVTSI2Sx(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    int vec_len =3D vector_len(s, decode);
+    TCGv_i32 in;
+
+    tcg_gen_gvec_mov(MO_64, decode->op[0].offset, decode->op[1].offset, ve=
c_len, vec_len);
+
+#ifdef TARGET_X86_64
+    MemOp ot =3D decode->op[2].ot;
+    if (ot =3D=3D MO_64) {
+        if (s->prefix & PREFIX_REPNZ) {
+            gen_helper_cvtsq2sd(cpu_env, OP_PTR0, s->T1);
+        } else {
+            gen_helper_cvtsq2ss(cpu_env, OP_PTR0, s->T1);
+        }
+        return;
+    }
+    in =3D s->tmp2_i32;
+    tcg_gen_trunc_tl_i32(in, s->T1);
+#else
+    in =3D s->T1;
+#endif
+
+    if (s->prefix & PREFIX_REPNZ) {
+        gen_helper_cvtsi2sd(cpu_env, OP_PTR0, in);
+    } else {
+        gen_helper_cvtsi2ss(cpu_env, OP_PTR0, in);
+    }
+}
+
+static inline void gen_VCVTtSx2SI(DisasContext *s, CPUX86State *env, X86De=
codedInsn *decode,
+                                  SSEFunc_i_ep ss2si, SSEFunc_l_ep ss2sq,
+                                  SSEFunc_i_ep sd2si, SSEFunc_l_ep sd2sq)
+{
+    TCGv_i32 out;
+
+#ifdef TARGET_X86_64
+    MemOp ot =3D decode->op[0].ot;
+    if (ot =3D=3D MO_64) {
+        if (s->prefix & PREFIX_REPNZ) {
+            sd2sq(s->T0, cpu_env, OP_PTR2);
+        } else {
+            ss2sq(s->T0, cpu_env, OP_PTR2);
+        }
+        return;
+    }
+
+    out =3D s->tmp2_i32;
+#else
+    out =3D s->T0;
+#endif
+    if (s->prefix & PREFIX_REPNZ) {
+        sd2si(out, cpu_env, OP_PTR2);
+    } else {
+        ss2si(out, cpu_env, OP_PTR2);
+    }
+#ifdef TARGET_X86_64
+    tcg_gen_extu_i32_tl(s->T0, out);
+#endif
+}
+
+#ifndef TARGET_X86_64
+#define gen_helper_cvtss2sq NULL
+#define gen_helper_cvtsd2sq NULL
+#define gen_helper_cvttss2sq NULL
+#define gen_helper_cvttsd2sq NULL
+#endif
+
+static void gen_VCVTSx2SI(DisasContext *s, CPUX86State *env, X86DecodedIns=
n *decode)
+{
+    gen_VCVTtSx2SI(s, env, decode,
+                   gen_helper_cvtss2si, gen_helper_cvtss2sq,
+                   gen_helper_cvtsd2si, gen_helper_cvtsd2sq);
+}
+
+static void gen_VCVTTSx2SI(DisasContext *s, CPUX86State *env, X86DecodedIn=
sn *decode)
+{
+    gen_VCVTtSx2SI(s, env, decode,
+                   gen_helper_cvttss2si, gen_helper_cvttss2sq,
+                   gen_helper_cvttsd2si, gen_helper_cvttsd2sq);
+}
+
 static void gen_VEXTRACTx128(DisasContext *s, CPUX86State *env, X86Decoded=
Insn *decode)
 {
     int mask =3D decode->immediate & 1;
@@ -1992,6 +2112,14 @@ static void gen_VSHUF(DisasContext *s, CPUX86State *=
env, X86DecodedInsn *decode)
     fn(OP_PTR0, OP_PTR1, OP_PTR2, imm);
 }
=20
+static void gen_VUCOMI(DisasContext *s, CPUX86State *env, X86DecodedInsn *=
decode)
+{
+    SSEFunc_0_epp fn;
+    fn =3D s->prefix & PREFIX_DATA ? gen_helper_ucomisd : gen_helper_ucomi=
ss;
+    fn(cpu_env, OP_PTR1, OP_PTR2);
+    set_cc_op(s, CC_OP_EFLAGS);
+}
+
 static void gen_VZEROALL(DisasContext *s, CPUX86State *env, X86DecodedInsn=
 *decode)
 {
     TCGv_ptr ptr =3D tcg_temp_new_ptr();
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 1e4732da1e..1d20dc30bb 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -4776,6 +4776,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
         if (use_new &&
             (b =3D=3D 0x138 || b =3D=3D 0x13a ||
              (b >=3D 0x110 && b <=3D 0x117) ||
+             (b >=3D 0x128 && b <=3D 0x12f) ||
              (b >=3D 0x150 && b <=3D 0x17f) ||
              b =3D=3D 0x1c2 || (b >=3D 0x1c4 && b <=3D 0x1c6) ||
              (b >=3D 0x1d0 && b <=3D 0x1ff))) {
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699996; cv=none;
	d=zohomail.com; s=zohoarc;
	b=UMP+dztq1dTj8CSoQetSEpBS8HRCqe4Q58gsTaPOO0plytkF6Cg+V4Bxy0JokocYjah4XF3hz9VyxNJyx2lK4UQzoRbgnbQcy3e7rV1SaJGey+1J0uTXzs7BHtAL4TXi5J6d+6+eWhVABlclLmrY+rjOJZxkKCAFvFuBlcH5TvQ=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699996;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=Y/RkhR7opaZ4IzoG7vXtx6p3CuSbT28royjK2MZw64A=;
	b=CXrxxbOI1A24LzlEOCCNiYG9yu/vM14RrgReTwO+Ml512Jg1G1huBWTf9UKLcQSiTxrhQYIoGrhkJg20KZoUCoVOj9F9Utp06JXyD2dXGKsqGWIgHbhD6rrIILEb/sEDgURHH326mUGXL4D9RHe3S5DdUhNIhgWfkLqFdBFnvFU=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699996136638.0446039318659;
 Thu, 13 Oct 2022 15:26:36 -0700 (PDT)
Received: from localhost ([::1]:38714 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6ex-0001eR-35
	for importer@patchew.org; Thu, 13 Oct 2022 18:26:35 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:45214)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj641-0002sP-RC
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:31 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:47935)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj640-0005Li-87
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:25 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-394-JYaMg5VkNZaJjMg9vxU5cA-1; Thu, 13 Oct 2022 17:48:22 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 h9-20020a05640250c900b0045cfb639f56so1603282edb.13
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:22 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 g7-20020a170906538700b00782539a02absm420692ejo.194.2022.10.13.14.48.19
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:20 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697703;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=Y/RkhR7opaZ4IzoG7vXtx6p3CuSbT28royjK2MZw64A=;
 b=L0hVklkPt66Oz0h6eG55FE6fHLS1sOi79Etr/c7bL741Bg7rk8jGqCLq6lpl81aO3Im5Ca
 1uJWIaWJpcEo/zHM8Y1mPIpye6Df+bG9AcAf0ZVapyBPV6/+gNuOkSqs00FpTJ2ELW7vVa
 GAVtYO2bn7xMiU+Q5y5vCJeiLsw1HtU=
X-MC-Unique: JYaMg5VkNZaJjMg9vxU5cA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=Y/RkhR7opaZ4IzoG7vXtx6p3CuSbT28royjK2MZw64A=;
 b=IFYre4d0AuxtcSCq5tvlRDvmiyYKu+NG3NqTQzVVsTY83or9Pixt7BJ8bKIbu9rY5d
 awQYTQya2xi1lqVTRjkvjQOeFg57VtJm8YGRIsb1AM6t7AHIJI5C1pT1mmqFFNkpPSmk
 zsLRjC/yO+GwJWdtbN/FuIrvw6fvQqJFoRelW5xgAuOLZ0FUi6GfTimmMrwDFnfyH+sU
 NbNF7hYypNT1ZVlQ/YOm+SmSj5RtPGSSABcXKssv+slZT6HH5rgvKZqKzeGGyFxY/aDn
 u+1e8ybesaTwqV8oARwfCeCPi9Xf5Yq/xUSAshHBJcgrXVnnQEGB3vTkQxhnVaA5yRla
 BZCg==
X-Gm-Message-State: ACrzQf0ABeLGIIMcpJaN4AtKfOUXzCED+h2Bfl4o5rSr28pOdVF0kd6A
 t7GZyxmYS31pcmNQQdSRIDiWYgCXqIB1hBCf7v06DhMrTib4apizhPJaKGBGnmQyse3AB+ak1hR
 KY5eSilq71kCFB1Zq3pwc1wLgz9NxVzpnlSFsCsR0DfW/9btFDQSrYyjRN6kDUXWjwJA=
X-Received: by 2002:a17:907:2d91:b0:78d:8747:71b4 with SMTP id
 gt17-20020a1709072d9100b0078d874771b4mr1290340ejc.545.1665697700918;
 Thu, 13 Oct 2022 14:48:20 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM46e2ATR3OD/NECYptzjTeN/j+dQfmBg0j+Wo7vRJvm/zdSUiEyh20A4eEd3y47V/soiN+zJA==
X-Received: by 2002:a17:907:2d91:b0:78d:8747:71b4 with SMTP id
 gt17-20020a1709072d9100b0078d874771b4mr1290327ejc.545.1665697700612;
 Thu, 13 Oct 2022 14:48:20 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 30/35] target/i386: implement XSAVE and XRSTOR of AVX
 registers
Date: Thu, 13 Oct 2022 23:46:46 +0200
Message-Id: <20221013214651.672114-31-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699998120100001
Content-Type: text/plain; charset="utf-8"

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/fpu_helper.c | 78 ++++++++++++++++++++++++++++++++++--
 1 file changed, 75 insertions(+), 3 deletions(-)

diff --git a/target/i386/tcg/fpu_helper.c b/target/i386/tcg/fpu_helper.c
index 5f3f7a1085..7670739abe 100644
--- a/target/i386/tcg/fpu_helper.c
+++ b/target/i386/tcg/fpu_helper.c
@@ -2559,6 +2559,22 @@ static void do_xsave_sse(CPUX86State *env, target_ul=
ong ptr, uintptr_t ra)
     }
 }
=20
+static void do_xsave_ymmh(CPUX86State *env, target_ulong ptr, uintptr_t ra)
+{
+    int i, nb_xmm_regs;
+
+    if (env->hflags & HF_CS64_MASK) {
+        nb_xmm_regs =3D 16;
+    } else {
+        nb_xmm_regs =3D 8;
+    }
+
+    for (i =3D 0; i < nb_xmm_regs; i++, ptr +=3D 16) {
+        cpu_stq_data_ra(env, ptr, env->xmm_regs[i].ZMM_Q(2), ra);
+        cpu_stq_data_ra(env, ptr + 8, env->xmm_regs[i].ZMM_Q(3), ra);
+    }
+}
+
 static void do_xsave_bndregs(CPUX86State *env, target_ulong ptr, uintptr_t=
 ra)
 {
     target_ulong addr =3D ptr + offsetof(XSaveBNDREG, bnd_regs);
@@ -2651,6 +2667,9 @@ static void do_xsave(CPUX86State *env, target_ulong p=
tr, uint64_t rfbm,
     if (opt & XSTATE_SSE_MASK) {
         do_xsave_sse(env, ptr, ra);
     }
+    if (opt & XSTATE_YMM_MASK) {
+        do_xsave_ymmh(env, ptr + XO(avx_state), ra);
+    }
     if (opt & XSTATE_BNDREGS_MASK) {
         do_xsave_bndregs(env, ptr + XO(bndreg_state), ra);
     }
@@ -2725,6 +2744,54 @@ static void do_xrstor_sse(CPUX86State *env, target_u=
long ptr, uintptr_t ra)
     }
 }
=20
+static void do_clear_sse(CPUX86State *env)
+{
+    int i, nb_xmm_regs;
+
+    if (env->hflags & HF_CS64_MASK) {
+        nb_xmm_regs =3D 16;
+    } else {
+        nb_xmm_regs =3D 8;
+    }
+
+    for (i =3D 0; i < nb_xmm_regs; i++) {
+        env->xmm_regs[i].ZMM_Q(0) =3D 0;
+        env->xmm_regs[i].ZMM_Q(1) =3D 0;
+    }
+}
+
+static void do_xrstor_ymmh(CPUX86State *env, target_ulong ptr, uintptr_t r=
a)
+{
+    int i, nb_xmm_regs;
+
+    if (env->hflags & HF_CS64_MASK) {
+        nb_xmm_regs =3D 16;
+    } else {
+        nb_xmm_regs =3D 8;
+    }
+
+    for (i =3D 0; i < nb_xmm_regs; i++, ptr +=3D 16) {
+        env->xmm_regs[i].ZMM_Q(2) =3D cpu_ldq_data_ra(env, ptr, ra);
+        env->xmm_regs[i].ZMM_Q(3) =3D cpu_ldq_data_ra(env, ptr + 8, ra);
+    }
+}
+
+static void do_clear_ymmh(CPUX86State *env)
+{
+    int i, nb_xmm_regs;
+
+    if (env->hflags & HF_CS64_MASK) {
+        nb_xmm_regs =3D 16;
+    } else {
+        nb_xmm_regs =3D 8;
+    }
+
+    for (i =3D 0; i < nb_xmm_regs; i++) {
+        env->xmm_regs[i].ZMM_Q(2) =3D 0;
+        env->xmm_regs[i].ZMM_Q(3) =3D 0;
+    }
+}
+
 static void do_xrstor_bndregs(CPUX86State *env, target_ulong ptr, uintptr_=
t ra)
 {
     target_ulong addr =3D ptr + offsetof(XSaveBNDREG, bnd_regs);
@@ -2831,9 +2898,14 @@ static void do_xrstor(CPUX86State *env, target_ulong=
 ptr, uint64_t rfbm, uintptr
         if (xstate_bv & XSTATE_SSE_MASK) {
             do_xrstor_sse(env, ptr, ra);
         } else {
-            /* ??? When AVX is implemented, we may have to be more
-               selective in the clearing.  */
-            memset(env->xmm_regs, 0, sizeof(env->xmm_regs));
+            do_clear_sse(env);
+        }
+    }
+    if (rfbm & XSTATE_YMM_MASK) {
+        if (xstate_bv & XSTATE_YMM_MASK) {
+            do_xrstor_ymmh(env, ptr + XO(avx_state), ra);
+        } else {
+            do_clear_ymmh(env);
         }
     }
     if (rfbm & XSTATE_BNDREGS_MASK) {
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665698962; cv=none;
	d=zohomail.com; s=zohoarc;
	b=fZhbr0qF+CyJ1HzxucO8DI6M94rM/weyNQRSqYfk1RA7tfig085BPQ6tMaV0NJM5vDllUE9LeYNw/dgIqHPoRIH+NGNd0vInIRmne6RnWfjVwBBHQLrL4km5sgl7XqRLIMth2EuAMf4eMvah/1zW8DPNtHn10HgSpvINby50evg=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665698962;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=YQtOx2llSZVuu9ce9q0XarL83jV3E780EhdVaB39olw=;
	b=XO7Td/5X6qM+Iz/dkVDsF3SATSlUxVmmGHkgpfwLwU87QG87l90nu4MjwFUAhnogHC9VgEHNlUkOKbwdAaxQOxiNGyp38MYH4qh+Y9HpwNtWYb8iBYdJKKXbuhbqYyvMi8g7cXfkezVSfXeiBUuvfbHQvGMHTc6Zt09OjsEe4X8=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665698962239667.2674800382161;
 Thu, 13 Oct 2022 15:09:22 -0700 (PDT)
Received: from localhost ([::1]:35274 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6OH-0000eA-6V
	for importer@patchew.org; Thu, 13 Oct 2022 18:09:21 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:45216)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj644-0002tj-IG
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:31 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:20468)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj642-0005Lv-Q6
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:28 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-663-NEBplf_JP_ObDED4fksLJQ-1; Thu, 13 Oct 2022 17:48:25 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 x4-20020a05640226c400b0045c09fc1bd4so2317706edd.7
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:24 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 i18-20020a0564020f1200b00458a03203b1sm541063eda.31.2022.10.13.14.48.22
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:22 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697706;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=YQtOx2llSZVuu9ce9q0XarL83jV3E780EhdVaB39olw=;
 b=ZABlV929ZYf10StbJ0rJBPnMQpZ/08ynXMD6OnaL9u5qxjVz1kWofL9igIkH+IxjG9sck3
 d9uIp0/IynPqdUa9WWH9JIIAfrezjnxPoV1xV7V4f3Bfu7StbV4SyQ8oIds29nOr1Uk9Qo
 zNH3MdPJvmPPNM9OgVCjbep5v11H5SM=
X-MC-Unique: NEBplf_JP_ObDED4fksLJQ-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=YQtOx2llSZVuu9ce9q0XarL83jV3E780EhdVaB39olw=;
 b=Zd8wOsVx2I+6cwm+po+8dzukf8AIkFClSWE+9TyuttC8wZs8RNJ9YMURPyajgpWBUl
 /VYgOJ4PkXOsmRD1q+xb5R7ESMuUDfrwsXP11H1Qy/hYLriT5Pq3TOuH1XbWlf/0RyDm
 AZEyC9kRCD94H2yBjPGI3GOXutfTt8Unlkw7RrZyVRX5YzNSrQS5OMpK7rr8wLTAziHQ
 ktOD8VPaG3dFgd+FhdvipxTfka5tLSn2SHUMldDQDZ+4AlSz9VXkOsyt1USGT8YRCKU0
 fe+kzoDaVEVPX+MQ/CCHbLjpGkpUdvKbV1klMFJMdd9//+VuBKuXgaAgGm5e34G7fUat
 WooQ==
X-Gm-Message-State: ACrzQf0nx8Sc61cWPozAyHZrzzwHKIIAStbgOCZVtplh6k/hkGAj3a9j
 JBdWx4ziDq/jWNd4N3k4zZm3KxsVogW6yl5cEBninXsA5nKJfpU6a2uP2WdPDKQ6OMAZ5ngj/0k
 l+/u9hY+k1p7WcGz8cCH50U7t00O9VzlHMblLmfPtsbACr6c8UQHrD47EsE1cqZ84/GQ=
X-Received: by 2002:a17:906:1e08:b0:73d:c724:4876 with SMTP id
 g8-20020a1709061e0800b0073dc7244876mr1313940ejj.62.1665697703475;
 Thu, 13 Oct 2022 14:48:23 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM7/ZS7juMyOv0DeaYQuDkShlfP663j1+aUDy7sUtOmVAdNthBWJJLc/CepfsIR3ySvGHFJMdw==
X-Received: by 2002:a17:906:1e08:b0:73d:c724:4876 with SMTP id
 g8-20020a1709061e0800b0073dc7244876mr1313928ejj.62.1665697703124;
 Thu, 13 Oct 2022 14:48:23 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 31/35] target/i386: implement VLDMXCSR/VSTMXCSR
Date: Thu, 13 Oct 2022 23:46:47 +0200
Message-Id: <20221013214651.672114-32-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665698962924100001
Content-Type: text/plain; charset="utf-8"

These are exactly the same as the non-VEX version, but one has to be careful
that only VEX.L=3D0 is allowed.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/tcg/decode-new.c.inc | 25 +++++++++++++++++++++++++
 target/i386/tcg/emit.c.inc       | 20 ++++++++++++++++++++
 2 files changed, 45 insertions(+)

diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 2105d080b4..20ab702c0f 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -82,6 +82,10 @@
=20
 #define X86_OP_ENTRY2(op, op0, s0, op1, s1, ...)                  \
     X86_OP_ENTRY3(op, op0, s0, 2op, s0, op1, s1, ## __VA_ARGS__)
+#define X86_OP_ENTRYw(op, op0, s0, ...)                           \
+    X86_OP_ENTRY3(op, op0, s0, None, None, None, None, ## __VA_ARGS__)
+#define X86_OP_ENTRYr(op, op0, s0, ...)                           \
+    X86_OP_ENTRY3(op, None, None, None, None, op0, s0, ## __VA_ARGS__)
 #define X86_OP_ENTRY0(op, ...)                                    \
     X86_OP_ENTRY3(op, None, None, None, None, None, None, ## __VA_ARGS__)
=20
@@ -149,6 +153,25 @@ static inline const X86OpEntry *decode_by_prefix(Disas=
Context *s, const X86OpEnt
     }
 }
=20
+static void decode_group15(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
+{
+    /* only includes ldmxcsr and stmxcsr, because they have AVX variants. =
 */
+    static const X86OpEntry group15_reg[8] =3D {
+    };
+
+    static const X86OpEntry group15_mem[8] =3D {
+        [2] =3D X86_OP_ENTRYr(LDMXCSR,    E,d, vex5),
+        [3] =3D X86_OP_ENTRYw(STMXCSR,    E,d, vex5),
+    };
+
+    uint8_t modrm =3D get_modrm(s, env);
+    if ((modrm >> 6) =3D=3D 3) {
+        *entry =3D group15_reg[(modrm >> 3) & 7];
+    } else {
+        *entry =3D group15_mem[(modrm >> 3) & 7];
+    }
+}
+
 static void decode_group17(DisasContext *s, CPUX86State *env, X86OpEntry *=
entry, uint8_t *b)
 {
     static const X86GenFunc group17_gen[8] =3D {
@@ -837,6 +860,8 @@ static const X86OpEntry opcodes_0F[256] =3D {
     [0x7e] =3D X86_OP_GROUP0(0F7E),
     [0x7f] =3D X86_OP_GROUP0(0F7F),
=20
+    [0xae] =3D X86_OP_GROUP0(group15),
+
     [0xc2] =3D X86_OP_ENTRY4(VCMP,       V,x, H,x, W,x,       vex2_rep3 p_=
00_66_f3_f2),
     [0xc4] =3D X86_OP_ENTRY4(PINSRW,     V,dq,H,dq,E,w,       vex5 mmx p_0=
0_66),
     [0xc5] =3D X86_OP_ENTRY3(PEXTRW,     G,d, U,dq,I,b,       vex5 mmx p_0=
0_66),
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index c4bf47eac2..aa5cd6730f 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -1099,6 +1099,16 @@ static void gen_INSERTQ_r(DisasContext *s, CPUX86Sta=
te *env, X86DecodedInsn *dec
     gen_helper_insertq_r(cpu_env, OP_PTR0, OP_PTR2);
 }
=20
+static void gen_LDMXCSR(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    if (s->vex_l) {
+        gen_illegal_opcode(s);
+        return;
+    }
+    tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T1);
+    gen_helper_ldmxcsr(cpu_env, s->tmp2_i32);
+}
+
 static void gen_MASKMOV(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
 {
     tcg_gen_mov_tl(s->A0, cpu_regs[R_EDI]);
@@ -1693,6 +1703,16 @@ static void gen_VAESKEYGEN(DisasContext *s, CPUX86St=
ate *env, X86DecodedInsn *de
     gen_helper_aeskeygenassist_xmm(cpu_env, OP_PTR0, OP_PTR1, imm);
 }
=20
+static void gen_STMXCSR(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
+{
+    if (s->vex_l) {
+        gen_illegal_opcode(s);
+        return;
+    }
+    gen_helper_update_mxcsr(cpu_env);
+    tcg_gen_ld32u_tl(s->T0, cpu_env, offsetof(CPUX86State, mxcsr));
+}
+
 static void gen_VAESIMC(DisasContext *s, CPUX86State *env, X86DecodedInsn =
*decode)
 {
     assert(!s->vex_l);
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665700224; cv=none;
	d=zohomail.com; s=zohoarc;
	b=eW9bIUm1tetBG3mWwaSjdHieeTJ5GRiEE8/5E1FkwJxUZ1tNzzdpvXo0UMdLsBDYsTUAmtd8cGI3W/Eas1hweC4JnlDq0ipwRMotlPFYRdihyj/iMDXxihJJMn4DYI6Qh7er5cAi6QeIeHk6LUWOn/cKskyb6XODal2I8NhgEDY=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665700224;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=qp97G7ViPp9QEykDICkKhhGxX1E1AgyNcp7WMN3ofbg=;
	b=MzFnlwogfgv/mJZAmUCwJmhy3eLt/0H1k2+g4G/hSilE3NpJ0nUHCXNNE67Nt752ZiNIX2Mah/UjXR+woQ7xX/tbh//CdFeIF9wmwlRNVkvxdMEpCWIEiCgO5MszXR6Ggbdxf0YtkVd1LgclaFchpe7CnLVH9xl3payQhdF5oIQ=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665700224665172.93819145275256;
 Thu, 13 Oct 2022 15:30:24 -0700 (PDT)
Received: from localhost ([::1]:48602 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6ib-0006ZL-6z
	for importer@patchew.org; Thu, 13 Oct 2022 18:30:21 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:45218)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj647-0002uE-UG
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:46 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:46329)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj646-0005NC-CF
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:31 -0400
Received: from mail-ej1-f70.google.com (mail-ej1-f70.google.com
 [209.85.218.70]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-216-zm5v0yzUPZGKVrYBw_8llA-1; Thu, 13 Oct 2022 17:48:27 -0400
Received: by mail-ej1-f70.google.com with SMTP id
 dm10-20020a170907948a00b00781fa5e140fso1496793ejc.21
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:27 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 kv20-20020a17090778d400b0078d261f9f44sm400280ejc.224.2022.10.13.14.48.25
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:25 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697709;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=qp97G7ViPp9QEykDICkKhhGxX1E1AgyNcp7WMN3ofbg=;
 b=ESV+MTc6b5WDtdwtQoy6m86Hjv2ZjWCzchtQGjfwEIQRV5I7uOqbjy0trgorEGSrywgq+B
 AaUbAT7K9kum+6dHaLYQNFQ7pQ8Hy4vVxHKJn+xCmTw/vTvFEMzNeR5g+8wXDhLwXo28b1
 nbg0/WI84jvG6BRov5soa8wkFf1j+0Q=
X-MC-Unique: zm5v0yzUPZGKVrYBw_8llA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=qp97G7ViPp9QEykDICkKhhGxX1E1AgyNcp7WMN3ofbg=;
 b=bm4QvZTOiuMQL+OcImx4xn3+HkXxAWZ5d59xAfF7Xte/lGNEU/gLKW198ge+C9B2gK
 T4TFwDMiLWtg3SwWOh0rVo/Ig/H8MGhIOHSJoeSRF+7pUnlSTGmdRzqW1ZQZSwl1+TQ+
 i/kcXsN+VgUQIgF96B6JcuLOECVNAeooHZc0MnD11dL8rLTiH6MGZO40VztjFcwjoQlm
 E+o/eWcSb8i2TIav3up1cDev8HligbBeTyahtjRf0gwDCPRcCWfLVBey84ThgY5OgAfa
 56NnoJw7hQgSIAnTfpDoNnl5AgBo7URzNWft7P8QxEg3vMEHoRuxQGxDlYdBQaPiJA+O
 XApQ==
X-Gm-Message-State: ACrzQf1OM3pVtFRU/OPAHobl4lpAqDOSZqPwlRT/6E7nBe4PmcxSL0+1
 FVn3c5UpKfTxj27MMfvzdrgXOe2nx15M30iPShUgm/JbEykqgUjiNPgY/JFNbwELqIwtpOaxnmj
 pfdxeQZn4BVnMIatxI/gt+B9WlZXs83TGPFueRkHl6mhDLF60xEezjyg9Bd8Y9uPe9Ss=
X-Received: by 2002:a17:907:3e85:b0:73d:60cc:5d06 with SMTP id
 hs5-20020a1709073e8500b0073d60cc5d06mr1340012ejc.722.1665697706128;
 Thu, 13 Oct 2022 14:48:26 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4AINDYZ6js52T5Tq4o3OvWMQzqE21KLSETycOJ8P3uTo76ejhjlD9+/n1SsEGiD/pb2gZDwg==
X-Received: by 2002:a17:907:3e85:b0:73d:60cc:5d06 with SMTP id
 hs5-20020a1709073e8500b0073d60cc5d06mr1339999ejc.722.1665697705871;
 Thu, 13 Oct 2022 14:48:25 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 32/35] target/i386: Enable AVX cpuid bits when using TCG
Date: Thu, 13 Oct 2022 23:46:48 +0200
Message-Id: <20221013214651.672114-33-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001, SPF_PASS=-0.001,
 UPPERCASE_50_75=0.008 autolearn=no autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665700227141100001
Content-Type: text/plain; charset="utf-8"

From: Paul Brook <paul@nowt.org>

Include AVX, AVX2 and VAES in the guest cpuid features supported by TCG.

Signed-off-by: Paul Brook <paul@nowt.org>
Message-Id: <20220424220204.2493824-40-paul@nowt.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/cpu.c | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/target/i386/cpu.c b/target/i386/cpu.c
index 8a11470507..15c28c632b 100644
--- a/target/i386/cpu.c
+++ b/target/i386/cpu.c
@@ -625,12 +625,12 @@ void x86_cpu_vendor_words2str(char *dst, uint32_t ven=
dor1,
           CPUID_EXT_SSE41 | CPUID_EXT_SSE42 | CPUID_EXT_POPCNT | \
           CPUID_EXT_XSAVE | /* CPUID_EXT_OSXSAVE is dynamic */   \
           CPUID_EXT_MOVBE | CPUID_EXT_AES | CPUID_EXT_HYPERVISOR | \
-          CPUID_EXT_RDRAND)
+          CPUID_EXT_RDRAND | CPUID_EXT_AVX)
           /* missing:
           CPUID_EXT_DTES64, CPUID_EXT_DSCPL, CPUID_EXT_VMX, CPUID_EXT_SMX,
           CPUID_EXT_EST, CPUID_EXT_TM2, CPUID_EXT_CID, CPUID_EXT_FMA,
           CPUID_EXT_XTPR, CPUID_EXT_PDCM, CPUID_EXT_PCID, CPUID_EXT_DCA,
-          CPUID_EXT_X2APIC, CPUID_EXT_TSC_DEADLINE_TIMER, CPUID_EXT_AVX,
+          CPUID_EXT_X2APIC, CPUID_EXT_TSC_DEADLINE_TIMER,
           CPUID_EXT_F16C */
=20
 #ifdef TARGET_X86_64
@@ -653,14 +653,14 @@ void x86_cpu_vendor_words2str(char *dst, uint32_t ven=
dor1,
           CPUID_7_0_EBX_BMI1 | CPUID_7_0_EBX_BMI2 | CPUID_7_0_EBX_ADX | \
           CPUID_7_0_EBX_PCOMMIT | CPUID_7_0_EBX_CLFLUSHOPT |            \
           CPUID_7_0_EBX_CLWB | CPUID_7_0_EBX_MPX | CPUID_7_0_EBX_FSGSBASE =
| \
-          CPUID_7_0_EBX_ERMS)
+          CPUID_7_0_EBX_ERMS | CPUID_7_0_EBX_AVX2)
           /* missing:
-          CPUID_7_0_EBX_HLE, CPUID_7_0_EBX_AVX2,
+          CPUID_7_0_EBX_HLE
           CPUID_7_0_EBX_INVPCID, CPUID_7_0_EBX_RTM,
           CPUID_7_0_EBX_RDSEED */
 #define TCG_7_0_ECX_FEATURES (CPUID_7_0_ECX_UMIP | CPUID_7_0_ECX_PKU | \
           /* CPUID_7_0_ECX_OSPKE is dynamic */ \
-          CPUID_7_0_ECX_LA57 | CPUID_7_0_ECX_PKS)
+          CPUID_7_0_ECX_LA57 | CPUID_7_0_ECX_PKS | CPUID_7_0_ECX_VAES)
 #define TCG_7_0_EDX_FEATURES 0
 #define TCG_7_1_EAX_FEATURES 0
 #define TCG_APM_FEATURES 0
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665700338; cv=none;
	d=zohomail.com; s=zohoarc;
	b=hkcw858Hj5Q3A45405RfL9+fd3i2Ga71IOoIjK7R0DKc8NKn+iuR15UCPbOO0N2Bn7moqNDC5kPFYqJ4vq05P4fWnrHSj7TEsfXGexUN3qHBxlh1DBmnr2Cm1I9YFkuP8tigj/vawLsZIsw0J68Bx+9m7OZgxuqsG9llkzUbH10=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665700338;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=U+ejBRt0mE7OFKY0qV7RwIYNK6gjjdwQfuVTwdsT9r8=;
	b=UulhZos6+G954F7bW0wb9AykQe/Qx+aYAMMNJPp1GZ7qvlOxXPNuCrIVV6RWfjs1Zq29yS/+6BLLMQs3wLpbdho8fTBhyI9ZA99K3hh62cWMtZLKjhKzGjui7E4aI7BaAKm8Xo/eOucpPj674xMKMEtw+Bwc+5lNB/7bDxK7/Ns=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665700338609621.4231555754056;
 Thu, 13 Oct 2022 15:32:18 -0700 (PDT)
Received: from localhost ([::1]:41644 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6kT-000105-Ed
	for importer@patchew.org; Thu, 13 Oct 2022 18:32:17 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55270)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj64F-0002ui-RI
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:46 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:42785)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj648-0005NO-U7
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:35 -0400
Received: from mail-ed1-f71.google.com (mail-ed1-f71.google.com
 [209.85.208.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-248-TU7pAF42OuufitnMAYalxw-1; Thu, 13 Oct 2022 17:48:31 -0400
Received: by mail-ed1-f71.google.com with SMTP id
 m10-20020a056402430a00b0045968bb0874so2330008edc.10
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:30 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 p5-20020a170906498500b0078b83968ad4sm482942eju.24.2022.10.13.14.48.27
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:28 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697712;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=U+ejBRt0mE7OFKY0qV7RwIYNK6gjjdwQfuVTwdsT9r8=;
 b=TlFsRWw4NCr40eStvlzPxjbpSZMe4H22aa9f1CrvdjTf0gC7GQvtz6J1u6TNclJGHKy6rF
 ZeBusBHpS9Lsy8xY86AKuNYJWHGAbzFLqFn0N7FWNlJS1CDz8NRAsMlyQTUVx0SS2ws8z3
 ib4mFVANqrJBJwo5SBNUqUdubpVt+/o=
X-MC-Unique: TU7pAF42OuufitnMAYalxw-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=U+ejBRt0mE7OFKY0qV7RwIYNK6gjjdwQfuVTwdsT9r8=;
 b=LW8/dkHerP3p5Weji/brdpNED8ldAUlG9loSEvqdE0Ltdx3zPDWeu8IFA6GRigzHJ/
 ZNUEURSquCpGRiUKOBT81zsMp/zIqiPtAgZzg5h9UvBCak1rjgDYZ9yN1Hxfg5DT1wEE
 XHT6OQ70bssh6yC0g0nqcSewySQprs41YQUhOqWGqXrLWesZDn4CpfvbFg+x4Q+k0jk+
 0/vwKsEgzqQBJEGyFUXMfARwYIyy0vFVpuaSyNv2h07vMWbWx9UJM4CvYta+3lP98UvK
 QDwKwmQaDjYXSyfobA3k1OkpBDDaLrT/nexPqkfTiw9cX9axBez+iM1ii+I39iKGaGRL
 FBpg==
X-Gm-Message-State: ACrzQf1zFCdFtoHF1kFldVjBzHS+97OLKoOCOB5ylu7PNqbfKa4StsuH
 ilppmWbZW1wg7s583iK9+CINnfAxg+VDV/m/6ZqRq8tttmuQKu3bbJSKvJQC1hYq5NkY/3rA/dk
 /Xr+kBjpsZPf1AoTIOwMNIpL7crRIMBAcflQ0RIVwVdivekYbnxBEcxMgs6JF4P+ZLWQ=
X-Received: by 2002:a17:907:724d:b0:78d:acf4:4c57 with SMTP id
 ds13-20020a170907724d00b0078dacf44c57mr1303744ejc.516.1665697709243;
 Thu, 13 Oct 2022 14:48:29 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM4fdIVuDs9lpAxb9cXFKIEFE+ShzPOn/7bAbxWVi1aPYizJFsCBYGfcAIiIfOc6qXtiDpXfSg==
X-Received: by 2002:a17:907:724d:b0:78d:acf4:4c57 with SMTP id
 ds13-20020a170907724d00b0078dacf44c57mr1303721ejc.516.1665697708811;
 Thu, 13 Oct 2022 14:48:28 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 33/35] tests/tcg: extend SSE tests to AVX
Date: Thu, 13 Oct 2022 23:46:49 +0200
Message-Id: <20221013214651.672114-34-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665700340253100001
Content-Type: text/plain; charset="utf-8"

Extracted from a patch by Paul Brook <paul@nowt.org>.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 tests/tcg/i386/Makefile.target |   2 +-
 tests/tcg/i386/test-avx.c      | 201 ++++++++++++++++++---------------
 tests/tcg/i386/test-avx.py     |   5 +-
 3 files changed, 113 insertions(+), 95 deletions(-)

diff --git a/tests/tcg/i386/Makefile.target b/tests/tcg/i386/Makefile.target
index 3273aa8061..81831cafbc 100644
--- a/tests/tcg/i386/Makefile.target
+++ b/tests/tcg/i386/Makefile.target
@@ -107,7 +107,7 @@ run-test-mmx: QEMU_OPTS +=3D -cpu max
 run-plugin-test-mmx: QEMU_OPTS +=3D -cpu max
 test-mmx: test-mmx.h
=20
-test-avx: CFLAGS +=3D -masm=3Dintel -O -I.
+test-avx: CFLAGS +=3D -mavx -masm=3Dintel -O -I.
 run-test-avx: QEMU_OPTS +=3D -cpu max
 run-plugin-test-avx: QEMU_OPTS +=3D -cpu max
 test-avx: test-avx.h
diff --git a/tests/tcg/i386/test-avx.c b/tests/tcg/i386/test-avx.c
index 23c170dd79..953e2906fe 100644
--- a/tests/tcg/i386/test-avx.c
+++ b/tests/tcg/i386/test-avx.c
@@ -6,18 +6,18 @@
 typedef void (*testfn)(void);
=20
 typedef struct {
-    uint64_t q0, q1;
-} __attribute__((aligned(16))) v2di;
+    uint64_t q0, q1, q2, q3;
+} __attribute__((aligned(32))) v4di;
=20
 typedef struct {
     uint64_t mm[8];
-    v2di xmm[16];
+    v4di ymm[16];
     uint64_t r[16];
     uint64_t flags;
     uint32_t ff;
     uint64_t pad;
-    v2di mem[4];
-    v2di mem0[4];
+    v4di mem[4];
+    v4di mem0[4];
 } reg_state;
=20
 typedef struct {
@@ -31,20 +31,20 @@ reg_state initI;
 reg_state initF32;
 reg_state initF64;
=20
-static void dump_xmm(const char *name, int n, const v2di *r, int ff)
+static void dump_ymm(const char *name, int n, const v4di *r, int ff)
 {
-    printf("%s%d =3D %016lx %016lx\n",
-           name, n, r->q1, r->q0);
+    printf("%s%d =3D %016lx %016lx %016lx %016lx\n",
+           name, n, r->q3, r->q2, r->q1, r->q0);
     if (ff =3D=3D 64) {
-        double v[2];
+        double v[4];
         memcpy(v, r, sizeof(v));
-        printf("        %16g %16g\n",
-                v[1], v[0]);
-    } else if (ff =3D=3D 32) {
-        float v[4];
-        memcpy(v, r, sizeof(v));
-        printf(" %8g %8g %8g %8g\n",
+        printf("        %16g %16g %16g %16g\n",
                 v[3], v[2], v[1], v[0]);
+    } else if (ff =3D=3D 32) {
+        float v[8];
+        memcpy(v, r, sizeof(v));
+        printf(" %8g %8g %8g %8g %8g %8g %8g %8g\n",
+                v[7], v[6], v[5], v[4], v[3], v[2], v[1], v[0]);
     }
 }
=20
@@ -53,10 +53,10 @@ static void dump_regs(reg_state *s)
     int i;
=20
     for (i =3D 0; i < 16; i++) {
-        dump_xmm("xmm", i, &s->xmm[i], 0);
+        dump_ymm("ymm", i, &s->ymm[i], 0);
     }
     for (i =3D 0; i < 4; i++) {
-        dump_xmm("mem", i, &s->mem0[i], 0);
+        dump_ymm("mem", i, &s->mem0[i], 0);
     }
 }
=20
@@ -74,13 +74,13 @@ static void compare_state(const reg_state *a, const reg=
_state *b)
         }
     }
     for (i =3D 0; i < 16; i++) {
-        if (memcmp(&a->xmm[i], &b->xmm[i], 16)) {
-            dump_xmm("xmm", i, &b->xmm[i], a->ff);
+        if (memcmp(&a->ymm[i], &b->ymm[i], 32)) {
+            dump_ymm("ymm", i, &b->ymm[i], a->ff);
         }
     }
     for (i =3D 0; i < 4; i++) {
-        if (memcmp(&a->mem0[i], &a->mem[i], 16)) {
-            dump_xmm("mem", i, &a->mem[i], a->ff);
+        if (memcmp(&a->mem0[i], &a->mem[i], 32)) {
+            dump_ymm("mem", i, &a->mem[i], a->ff);
         }
     }
     if (a->flags !=3D b->flags) {
@@ -89,9 +89,9 @@ static void compare_state(const reg_state *a, const reg_s=
tate *b)
 }
=20
 #define LOADMM(r, o) "movq " #r ", " #o "[%0]\n\t"
-#define LOADXMM(r, o) "movdqa " #r ", " #o "[%0]\n\t"
+#define LOADYMM(r, o) "vmovdqa " #r ", " #o "[%0]\n\t"
 #define STOREMM(r, o) "movq " #o "[%1], " #r "\n\t"
-#define STOREXMM(r, o) "movdqa " #o "[%1], " #r "\n\t"
+#define STOREYMM(r, o) "vmovdqa " #o "[%1], " #r "\n\t"
 #define MMREG(F) \
     F(mm0, 0x00) \
     F(mm1, 0x08) \
@@ -101,39 +101,39 @@ static void compare_state(const reg_state *a, const r=
eg_state *b)
     F(mm5, 0x28) \
     F(mm6, 0x30) \
     F(mm7, 0x38)
-#define XMMREG(F) \
-    F(xmm0, 0x040) \
-    F(xmm1, 0x050) \
-    F(xmm2, 0x060) \
-    F(xmm3, 0x070) \
-    F(xmm4, 0x080) \
-    F(xmm5, 0x090) \
-    F(xmm6, 0x0a0) \
-    F(xmm7, 0x0b0) \
-    F(xmm8, 0x0c0) \
-    F(xmm9, 0x0d0) \
-    F(xmm10, 0x0e0) \
-    F(xmm11, 0x0f0) \
-    F(xmm12, 0x100) \
-    F(xmm13, 0x110) \
-    F(xmm14, 0x120) \
-    F(xmm15, 0x130)
+#define YMMREG(F) \
+    F(ymm0, 0x040) \
+    F(ymm1, 0x060) \
+    F(ymm2, 0x080) \
+    F(ymm3, 0x0a0) \
+    F(ymm4, 0x0c0) \
+    F(ymm5, 0x0e0) \
+    F(ymm6, 0x100) \
+    F(ymm7, 0x120) \
+    F(ymm8, 0x140) \
+    F(ymm9, 0x160) \
+    F(ymm10, 0x180) \
+    F(ymm11, 0x1a0) \
+    F(ymm12, 0x1c0) \
+    F(ymm13, 0x1e0) \
+    F(ymm14, 0x200) \
+    F(ymm15, 0x220)
 #define LOADREG(r, o) "mov " #r ", " #o "[rax]\n\t"
 #define STOREREG(r, o) "mov " #o "[rax], " #r "\n\t"
 #define REG(F) \
-    F(rbx, 0x148) \
-    F(rcx, 0x150) \
-    F(rdx, 0x158) \
-    F(rsi, 0x160) \
-    F(rdi, 0x168) \
-    F(r8, 0x180) \
-    F(r9, 0x188) \
-    F(r10, 0x190) \
-    F(r11, 0x198) \
-    F(r12, 0x1a0) \
-    F(r13, 0x1a8) \
-    F(r14, 0x1b0) \
-    F(r15, 0x1b8) \
+    F(rbx, 0x248) \
+    F(rcx, 0x250) \
+    F(rdx, 0x258) \
+    F(rsi, 0x260) \
+    F(rdi, 0x268) \
+    F(r8, 0x280) \
+    F(r9, 0x288) \
+    F(r10, 0x290) \
+    F(r11, 0x298) \
+    F(r12, 0x2a0) \
+    F(r13, 0x2a8) \
+    F(r14, 0x2b0) \
+    F(r15, 0x2b8) \
=20
 static void run_test(const TestDef *t)
 {
@@ -143,7 +143,7 @@ static void run_test(const TestDef *t)
     printf("%5d %s\n", t->n, t->s);
     asm volatile(
             MMREG(LOADMM)
-            XMMREG(LOADXMM)
+            YMMREG(LOADYMM)
             "sub rsp, 128\n\t"
             "push rax\n\t"
             "push rbx\n\t"
@@ -156,26 +156,26 @@ static void run_test(const TestDef *t)
             "pop rbx\n\t"
             "shr rbx, 8\n\t"
             "shl rbx, 8\n\t"
-            "mov rcx, 0x1c0[rax]\n\t"
+            "mov rcx, 0x2c0[rax]\n\t"
             "and rcx, 0xff\n\t"
             "or rbx, rcx\n\t"
             "push rbx\n\t"
             "popf\n\t"
             REG(LOADREG)
-            "mov rax, 0x140[rax]\n\t"
+            "mov rax, 0x240[rax]\n\t"
             "call [rsp]\n\t"
             "mov [rsp], rax\n\t"
             "mov rax, 8[rsp]\n\t"
             REG(STOREREG)
             "mov rbx, [rsp]\n\t"
-            "mov 0x140[rax], rbx\n\t"
+            "mov 0x240[rax], rbx\n\t"
             "mov rbx, 0\n\t"
-            "mov 0x170[rax], rbx\n\t"
-            "mov 0x178[rax], rbx\n\t"
+            "mov 0x270[rax], rbx\n\t"
+            "mov 0x278[rax], rbx\n\t"
             "pushf\n\t"
             "pop rbx\n\t"
             "and rbx, 0xff\n\t"
-            "mov 0x1c0[rax], rbx\n\t"
+            "mov 0x2c0[rax], rbx\n\t"
             "add rsp, 16\n\t"
             "pop rdx\n\t"
             "pop rcx\n\t"
@@ -183,15 +183,15 @@ static void run_test(const TestDef *t)
             "pop rax\n\t"
             "add rsp, 128\n\t"
             MMREG(STOREMM)
-            XMMREG(STOREXMM)
+            YMMREG(STOREYMM)
             : : "r"(init), "r"(&result), "r"(t->fn)
             : "memory", "cc",
             "rsi", "rdi",
             "r8", "r9", "r10", "r11", "r12", "r13", "r14", "r15",
             "mm0", "mm1", "mm2", "mm3", "mm4", "mm5", "mm6", "mm7",
-            "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5",
-            "xmm6", "xmm7", "xmm8", "xmm9", "xmm10", "xmm11",
-            "xmm12", "xmm13", "xmm14", "xmm15"
+            "ymm0", "ymm1", "ymm2", "ymm3", "ymm4", "ymm5",
+            "ymm6", "ymm7", "ymm8", "ymm9", "ymm10", "ymm11",
+            "ymm12", "ymm13", "ymm14", "ymm15"
             );
     compare_state(init, &result);
 }
@@ -223,22 +223,30 @@ static void run_all(void)
=20
 float val_f32[] =3D {2.0, -1.0, 4.8, 0.8, 3, -42.0, 5e6, 7.5, 8.3};
 double val_f64[] =3D {2.0, -1.0, 4.8, 0.8, 3, -42.0, 5e6, 7.5};
-v2di val_i64[] =3D {
-    {0x3d6b3b6a9e4118f2lu, 0x355ae76d2774d78clu},
-    {0xd851c54a56bf1f29lu, 0x4a84d1d50bf4c4fflu},
-    {0x5826475e2c5fd799lu, 0xfd32edc01243f5e9lu},
+v4di val_i64[] =3D {
+    {0x3d6b3b6a9e4118f2lu, 0x355ae76d2774d78clu,
+     0xac3ff76c4daa4b28lu, 0xe7fabd204cb54083lu},
+    {0xd851c54a56bf1f29lu, 0x4a84d1d50bf4c4fflu,
+     0x56621e553d52b56clu, 0xd0069553da8f584alu},
+    {0x5826475e2c5fd799lu, 0xfd32edc01243f5e9lu,
+     0x738ba2c66d3fe126lu, 0x5707219c6e6c26b4lu},
 };
=20
-v2di deadbeef =3D {0xa5a5a5a5deadbeefull, 0xa5a5a5a5deadbeefull};
-v2di indexq =3D {0x000000000000001full, 0x000000000000008full};
-v2di indexd =3D {0x00000002000000efull, 0xfffffff500000010ull};
+v4di deadbeef =3D {0xa5a5a5a5deadbeefull, 0xa5a5a5a5deadbeefull,
+                 0xa5a5a5a5deadbeefull, 0xa5a5a5a5deadbeefull};
+v4di indexq =3D {0x000000000000001full, 0x000000000000008full,
+               0xffffffffffffffffull, 0xffffffffffffff5full};
+v4di indexd =3D {0x00000002000000efull, 0xfffffff500000010ull,
+               0x0000000afffffff0ull, 0x000000000000000eull};
=20
-void init_f32reg(v2di *r)
+v4di gather_mem[0x20];
+
+void init_f32reg(v4di *r)
 {
     static int n;
-    float v[4];
+    float v[8];
     int i;
-    for (i =3D 0; i < 4; i++) {
+    for (i =3D 0; i < 8; i++) {
         v[i] =3D val_f32[n++];
         if (n =3D=3D ARRAY_LEN(val_f32)) {
             n =3D 0;
@@ -247,12 +255,12 @@ void init_f32reg(v2di *r)
     memcpy(r, v, sizeof(*r));
 }
=20
-void init_f64reg(v2di *r)
+void init_f64reg(v4di *r)
 {
     static int n;
-    double v[2];
+    double v[4];
     int i;
-    for (i =3D 0; i < 2; i++) {
+    for (i =3D 0; i < 4; i++) {
         v[i] =3D val_f64[n++];
         if (n =3D=3D ARRAY_LEN(val_f64)) {
             n =3D 0;
@@ -261,13 +269,15 @@ void init_f64reg(v2di *r)
     memcpy(r, v, sizeof(*r));
 }
=20
-void init_intreg(v2di *r)
+void init_intreg(v4di *r)
 {
     static uint64_t mask;
     static int n;
=20
     r->q0 =3D val_i64[n].q0 ^ mask;
     r->q1 =3D val_i64[n].q1 ^ mask;
+    r->q2 =3D val_i64[n].q2 ^ mask;
+    r->q3 =3D val_i64[n].q3 ^ mask;
     n++;
     if (n =3D=3D ARRAY_LEN(val_i64)) {
         n =3D 0;
@@ -280,46 +290,53 @@ static void init_all(reg_state *s)
     int i;
=20
     s->r[3] =3D (uint64_t)&s->mem[0]; /* rdx */
+    s->r[4] =3D (uint64_t)&gather_mem[ARRAY_LEN(gather_mem) / 2]; /* rsi */
     s->r[5] =3D (uint64_t)&s->mem[2]; /* rdi */
     s->flags =3D 2;
-    for (i =3D 0; i < 8; i++) {
-        s->xmm[i] =3D deadbeef;
+    for (i =3D 0; i < 16; i++) {
+        s->ymm[i] =3D deadbeef;
     }
-    s->xmm[13] =3D indexd;
-    s->xmm[14] =3D indexq;
-    for (i =3D 0; i < 2; i++) {
+    s->ymm[13] =3D indexd;
+    s->ymm[14] =3D indexq;
+    for (i =3D 0; i < 4; i++) {
         s->mem0[i] =3D deadbeef;
     }
 }
=20
 int main(int argc, char *argv[])
 {
+    int i;
+
     init_all(&initI);
-    init_intreg(&initI.xmm[10]);
-    init_intreg(&initI.xmm[11]);
-    init_intreg(&initI.xmm[12]);
+    init_intreg(&initI.ymm[10]);
+    init_intreg(&initI.ymm[11]);
+    init_intreg(&initI.ymm[12]);
     init_intreg(&initI.mem0[1]);
     printf("Int:\n");
     dump_regs(&initI);
=20
     init_all(&initF32);
-    init_f32reg(&initF32.xmm[10]);
-    init_f32reg(&initF32.xmm[11]);
-    init_f32reg(&initF32.xmm[12]);
+    init_f32reg(&initF32.ymm[10]);
+    init_f32reg(&initF32.ymm[11]);
+    init_f32reg(&initF32.ymm[12]);
     init_f32reg(&initF32.mem0[1]);
     initF32.ff =3D 32;
     printf("F32:\n");
     dump_regs(&initF32);
=20
     init_all(&initF64);
-    init_f64reg(&initF64.xmm[10]);
-    init_f64reg(&initF64.xmm[11]);
-    init_f64reg(&initF64.xmm[12]);
+    init_f64reg(&initF64.ymm[10]);
+    init_f64reg(&initF64.ymm[11]);
+    init_f64reg(&initF64.ymm[12]);
     init_f64reg(&initF64.mem0[1]);
     initF64.ff =3D 64;
     printf("F64:\n");
     dump_regs(&initF64);
=20
+    for (i =3D 0; i < ARRAY_LEN(gather_mem); i++) {
+        init_intreg(&gather_mem[i]);
+    }
+
     if (argc > 1) {
         int n =3D atoi(argv[1]);
         run_test(&test_table[n]);
diff --git a/tests/tcg/i386/test-avx.py b/tests/tcg/i386/test-avx.py
index e16a3d8bee..02982329f1 100755
--- a/tests/tcg/i386/test-avx.py
+++ b/tests/tcg/i386/test-avx.py
@@ -8,6 +8,7 @@
=20
 archs =3D [
     "SSE", "SSE2", "SSE3", "SSSE3", "SSE4_1", "SSE4_2",
+    "AES", "AVX", "AVX2", "AES+AVX", "VAES+AVX",
 ]
=20
 ignore =3D set(["FISTTP",
@@ -42,7 +43,7 @@
     'vROUND[PS][SD]': 0x7,
     'vSHUFPD': 0x0f,
     'vSHUFPS': 0xff,
-    'vAESKEYGENASSIST': 0,
+    'vAESKEYGENASSIST': 0xff,
     'VEXTRACT[FI]128': 0x01,
     'VINSERT[FI]128': 0x01,
     'VPBLENDD': 0xff,
@@ -85,7 +86,7 @@ def mem_w(w):
     else:
         raise Exception()
=20
-    return t + " PTR 16[rdx]"
+    return t + " PTR 32[rdx]"
=20
 class XMMArg():
     isxmm =3D True
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665699599; cv=none;
	d=zohomail.com; s=zohoarc;
	b=g0i3RF8oA2Nq2dxTb77PEyMvNf2k7BYmTQ7Pyd6l0CGayYk6jbioNdvXPvo1GagXCzLBEXVp/i2sfx1MLGsISHB+aNVVhxjLc08dGuj126U+14UxxjVFufrISZChb9EdBpeeQz2oQG0TyCuRjN+GgvHf6p8Tp+PKz2536roia9I=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665699599;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=J0sceTZqqFnWbCTVvDvjpXvGtiFc0mYd+pliRbsQ9Vc=;
	b=GuJEz83wmhXjwSp3IDUMloTi3sN/OlkcnArDz6RR4FPOIRIeLRMf+WFB9nqKt1k5OsCAlVrUZNywEHowSvR3aFZ3t5eEus80/NP3LiOreHBcarUtc2PtpDR70lX03JB84kCAuifc9yFM95bdEXFu4SPBZXRpQS0H8MmN7+gDy4s=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665699599626825.1342513538189;
 Thu, 13 Oct 2022 15:19:59 -0700 (PDT)
Received: from localhost ([::1]:54530 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6YY-00082l-I4
	for importer@patchew.org; Thu, 13 Oct 2022 18:19:58 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55272)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj64J-0002uo-CK
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:46 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.133.124]:48472)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj64F-0005NX-EN
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:41 -0400
Received: from mail-ej1-f71.google.com (mail-ej1-f71.google.com
 [209.85.218.71]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-592-IqTZpWQ_MyihrOa5NDDTvA-1; Thu, 13 Oct 2022 17:48:33 -0400
Received: by mail-ej1-f71.google.com with SMTP id
 hp41-20020a1709073e2900b0078e07dbf280so1462695ejc.7
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:33 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 b29-20020a170906729d00b00782ee6b34f2sm419333ejl.183.2022.10.13.14.48.30
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:30 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697715;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=J0sceTZqqFnWbCTVvDvjpXvGtiFc0mYd+pliRbsQ9Vc=;
 b=PdJVk8N0ikKSfAAn+6tciOlsTsDrYyGxG6Ow1bUvumZy4L81aOgPe7uQw/4pRHnO7Yp3gR
 Rz3cjG3aWVixYesUoHZAnhzb24+XLx5C4EqZl1w2NL55ILkE7XFSUaMlj3OHDU80MTKyyi
 5fVrMF3n7oKOeJsklAf5En656iP+h4c=
X-MC-Unique: IqTZpWQ_MyihrOa5NDDTvA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=J0sceTZqqFnWbCTVvDvjpXvGtiFc0mYd+pliRbsQ9Vc=;
 b=X5dzZrCjJF61yEom47DVgserKu2l/8wRZSgGPSFbnnF0IOC6lR64ydWkPIFQH+TaT3
 m9Nyze8r+Sro+3wo8PTzQ5VRsgerE4CcGkhHWoU2ydnUgLPYbzyvxhv8bQ4rGnhRN902
 syvotqYuYw8JJ0rIWLUyAtFCS5BiMYaQ1tlpjy2vJK2JrCMEXW3MZ/mSTBA0zO5/dDCh
 KWcpKdP2KOnzLV9fBxweBEPenoQy3vmhfcHVkctcb16n2aqQaDCmxrizMLL9jG0rq/+1
 sFqbR/8ToDZGmvHfIiC/1EuUUFqD6hcC/dxwvB4j0D8LGf4S5TmS6EC02JweAzhM4ouV
 /U8w==
X-Gm-Message-State: ACrzQf2WUFJsCe4UpuHEfYMQZcWm/qbYASdpSQ0PbTIs9wkMIjooSM/y
 TkQRt2TOgZQRDK3MY2/AxzXGCUMw4V1CTs08nYyYTx28w+wKx6pkjyA+lsCNeOecc4z4CSqhE5X
 tvo+rOzlrwy9iGplW642IFOgJE+5gLQqE2YBhuFAmcmxFDXPYWTKa1g+fCzc7XYWrqas=
X-Received: by 2002:a50:ec84:0:b0:459:ae8:8025 with SMTP id
 e4-20020a50ec84000000b004590ae88025mr1489909edr.321.1665697711917;
 Thu, 13 Oct 2022 14:48:31 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM68yYEkUMqAk8uuTY13eynijx+jPyTqeD711x8vL+4vINC6QRfVwCcxuPp+N5SKIHOaUcbRBA==
X-Received: by 2002:a50:ec84:0:b0:459:ae8:8025 with SMTP id
 e4-20020a50ec84000000b004590ae88025mr1489888edr.321.1665697711500;
 Thu, 13 Oct 2022 14:48:31 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 34/35] target/i386: move 3DNow to the new decoder
Date: Thu, 13 Oct 2022 23:46:50 +0200
Message-Id: <20221013214651.672114-35-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.133.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665699601649100001
Content-Type: text/plain; charset="utf-8"

This adds another kind of weirdness when you thought you had seen it all:
an opcode byte that comes _after_ the address, not before.  It's not
worth adding a new X86_SPECIAL_* constant for it, but it's actually
not unlike VCMP; so, forgive me for exploiting the similarity and just
deciding to dispatch to the right gen_helper_* call in a single code
generation function.

In fact, the old decoder had a bug where s->rip_offset should have
been set to 1 for 3DNow! instructions, and it's fixed now.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/helper.h             |  1 -
 target/i386/tcg/decode-new.c.inc | 10 +++++
 target/i386/tcg/decode-new.h     |  1 +
 target/i386/tcg/emit.c.inc       | 61 +++++++++++++++++++++++++++
 target/i386/tcg/fpu_helper.c     |  6 ---
 target/i386/tcg/translate.c      | 71 +-------------------------------
 6 files changed, 74 insertions(+), 76 deletions(-)

diff --git a/target/i386/helper.h b/target/i386/helper.h
index a2c2c085a3..88143b2a24 100644
--- a/target/i386/helper.h
+++ b/target/i386/helper.h
@@ -212,7 +212,6 @@ DEF_HELPER_2(ldmxcsr, void, env, i32)
 DEF_HELPER_1(update_mxcsr, void, env)
 DEF_HELPER_1(enter_mmx, void, env)
 DEF_HELPER_1(emms, void, env)
-DEF_HELPER_3(movq, void, env, ptr, ptr)
=20
 #define SHIFT 0
 #include "ops_sse_header.h"
diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index 20ab702c0f..a680b01140 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -786,6 +786,14 @@ static void decode_0FE6(DisasContext *s, CPUX86State *=
env, X86OpEntry *entry, ui
 }
=20
 static const X86OpEntry opcodes_0F[256] =3D {
+    [0x0E] =3D X86_OP_ENTRY0(EMMS,                              cpuid(3DNO=
W)), /* femms */
+    /*
+     * 3DNow!'s opcode byte comes *after* modrm and displacements, making =
it
+     * more like an Ib operand.  Dispatch to the right helper in a single =
gen_*
+     * function.
+     */
+    [0x0F] =3D X86_OP_ENTRY3(3dnow,       P,q, Q,q, I,b,        cpuid(3DNO=
W)),
+
     [0x10] =3D X86_OP_GROUP0(0F10),
     [0x11] =3D X86_OP_GROUP0(0F11),
     [0x12] =3D X86_OP_GROUP0(0F12),
@@ -1371,6 +1379,8 @@ static bool has_cpuid_feature(DisasContext *s, X86CPU=
IDFeature cpuid)
     case X86_FEAT_AVX:
         return (s->cpuid_ext_features & CPUID_EXT_AVX);
=20
+    case X86_FEAT_3DNOW:
+        return (s->cpuid_ext2_features & CPUID_EXT2_3DNOW);
     case X86_FEAT_SSE4A:
         return (s->cpuid_ext3_features & CPUID_EXT3_SSE4A);
=20
diff --git a/target/i386/tcg/decode-new.h b/target/i386/tcg/decode-new.h
index 2f0b0e4cfd..f159c26850 100644
--- a/target/i386/tcg/decode-new.h
+++ b/target/i386/tcg/decode-new.h
@@ -96,6 +96,7 @@ typedef enum X86OpSize {
=20
 typedef enum X86CPUIDFeature {
     X86_FEAT_None,
+    X86_FEAT_3DNOW,
     X86_FEAT_ADX,
     X86_FEAT_AES,
     X86_FEAT_AVX,
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index aa5cd6730f..35acca04ef 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -19,6 +19,7 @@
  * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
  */
=20
+typedef void (*SSEFunc_0_epp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_b=
);
 typedef void (*SSEFunc_0_epppti)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr re=
g_b,
                                  TCGv_ptr reg_c, TCGv a0, TCGv_i32 scale);
=20
@@ -326,6 +327,66 @@ static void gen_store_sse(DisasContext *s, X86DecodedI=
nsn *decode, int src_ofs)
     }
 }
=20
+static void gen_helper_pavgusb(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b)
+{
+    gen_helper_pavgb_mmx(env, reg_a, reg_a, reg_b);
+}
+
+#define FN_3DNOW_MOVE ((SSEFunc_0_epp) (uintptr_t) 1)
+static const SSEFunc_0_epp fns_3dnow[] =3D {
+    [0x0c] =3D gen_helper_pi2fw,
+    [0x0d] =3D gen_helper_pi2fd,
+    [0x1c] =3D gen_helper_pf2iw,
+    [0x1d] =3D gen_helper_pf2id,
+    [0x8a] =3D gen_helper_pfnacc,
+    [0x8e] =3D gen_helper_pfpnacc,
+    [0x90] =3D gen_helper_pfcmpge,
+    [0x94] =3D gen_helper_pfmin,
+    [0x96] =3D gen_helper_pfrcp,
+    [0x97] =3D gen_helper_pfrsqrt,
+    [0x9a] =3D gen_helper_pfsub,
+    [0x9e] =3D gen_helper_pfadd,
+    [0xa0] =3D gen_helper_pfcmpgt,
+    [0xa4] =3D gen_helper_pfmax,
+    [0xa6] =3D FN_3DNOW_MOVE, /* PFRCPIT1; no need to actually increase pr=
ecision */
+    [0xa7] =3D FN_3DNOW_MOVE, /* PFRSQIT1 */
+    [0xb6] =3D FN_3DNOW_MOVE, /* PFRCPIT2 */
+    [0xaa] =3D gen_helper_pfsubr,
+    [0xae] =3D gen_helper_pfacc,
+    [0xb0] =3D gen_helper_pfcmpeq,
+    [0xb4] =3D gen_helper_pfmul,
+    [0xb7] =3D gen_helper_pmulhrw_mmx,
+    [0xbb] =3D gen_helper_pswapd,
+    [0xbf] =3D gen_helper_pavgusb,
+};
+
+static void gen_3dnow(DisasContext *s, CPUX86State *env, X86DecodedInsn *d=
ecode)
+{
+    uint8_t b =3D decode->immediate;
+    SSEFunc_0_epp fn =3D b < ARRAY_SIZE(fns_3dnow) ? fns_3dnow[b] : NULL;
+
+    if (!fn) {
+        gen_illegal_opcode(s);
+        return;
+    }
+    if (s->flags & HF_TS_MASK) {
+        gen_NM_exception(s);
+        return;
+    }
+    if (s->flags & HF_EM_MASK) {
+        gen_illegal_opcode(s);
+        return;
+    }
+
+    gen_helper_enter_mmx(cpu_env);
+    if (fn =3D=3D FN_3DNOW_MOVE) {
+       tcg_gen_ld_i64(s->tmp1_i64, cpu_env, decode->op[1].offset);
+       tcg_gen_st_i64(s->tmp1_i64, cpu_env, decode->op[0].offset);
+    } else {
+       fn(cpu_env, OP_PTR0, OP_PTR1);
+    }
+}
+
 /*
  * 00 =3D v*ps Vps, Hps, Wpd
  * 66 =3D v*pd Vpd, Hpd, Wps
diff --git a/target/i386/tcg/fpu_helper.c b/target/i386/tcg/fpu_helper.c
index 7670739abe..a6a90a1817 100644
--- a/target/i386/tcg/fpu_helper.c
+++ b/target/i386/tcg/fpu_helper.c
@@ -3126,12 +3126,6 @@ void helper_emms(CPUX86State *env)
     *(uint32_t *)(env->fptags + 4) =3D 0x01010101;
 }
=20
-/* XXX: suppress */
-void helper_movq(CPUX86State *env, void *d, void *s)
-{
-    *(uint64_t *)d =3D *(uint64_t *)s;
-}
-
 #define SHIFT 0
 #include "ops_sse.h"
=20
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 1d20dc30bb..77f764ba1a 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -3011,7 +3011,6 @@ static bool first =3D true; static unsigned long limi=
t;
 #define SSE_OPF_CMP       (1 << 1) /* does not write for first operand */
 #define SSE_OPF_BLENDV    (1 << 2) /* blendv* instruction */
 #define SSE_OPF_SPECIAL   (1 << 3) /* magic */
-#define SSE_OPF_3DNOW     (1 << 4) /* 3DNow! instruction */
 #define SSE_OPF_MMX       (1 << 5) /* MMX/integer/AVX2 instruction */
 #define SSE_OPF_SCALAR    (1 << 6) /* Has SSE scalar variants */
 #define SSE_OPF_SHUF      (1 << 9) /* pshufx/shufpx */
@@ -3045,13 +3044,9 @@ struct SSEOpHelper_table1 {
     SSEFuncs fn[4];
 };
=20
-#define SSE_3DNOW { SSE_OPF_3DNOW }
 #define SSE_SPECIAL { SSE_OPF_SPECIAL }
=20
 static const struct SSEOpHelper_table1 sse_op_table1[256] =3D {
-    /* 3DNow! extensions */
-    [0x0e] =3D SSE_SPECIAL, /* femms */
-    [0x0f] =3D SSE_3DNOW, /* pf... (sse_op_table5) */
     /* pure SSE operations */
     [0x10] =3D SSE_SPECIAL, /* movups, movupd, movss, movsd */
     [0x11] =3D SSE_SPECIAL, /* movups, movupd, movss, movsd */
@@ -3260,38 +3255,6 @@ static const SSEFunc_0_eppp sse_op_table4[8][4] =3D {
 };
 #undef SSE_CMP
=20
-static void gen_helper_pavgusb(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b)
-{
-    gen_helper_pavgb_mmx(env, reg_a, reg_a, reg_b);
-}
-
-static const SSEFunc_0_epp sse_op_table5[256] =3D {
-    [0x0c] =3D gen_helper_pi2fw,
-    [0x0d] =3D gen_helper_pi2fd,
-    [0x1c] =3D gen_helper_pf2iw,
-    [0x1d] =3D gen_helper_pf2id,
-    [0x8a] =3D gen_helper_pfnacc,
-    [0x8e] =3D gen_helper_pfpnacc,
-    [0x90] =3D gen_helper_pfcmpge,
-    [0x94] =3D gen_helper_pfmin,
-    [0x96] =3D gen_helper_pfrcp,
-    [0x97] =3D gen_helper_pfrsqrt,
-    [0x9a] =3D gen_helper_pfsub,
-    [0x9e] =3D gen_helper_pfadd,
-    [0xa0] =3D gen_helper_pfcmpgt,
-    [0xa4] =3D gen_helper_pfmax,
-    [0xa6] =3D gen_helper_movq, /* pfrcpit1; no need to actually increase =
precision */
-    [0xa7] =3D gen_helper_movq, /* pfrsqit1 */
-    [0xaa] =3D gen_helper_pfsubr,
-    [0xae] =3D gen_helper_pfacc,
-    [0xb0] =3D gen_helper_pfcmpeq,
-    [0xb4] =3D gen_helper_pfmul,
-    [0xb6] =3D gen_helper_movq, /* pfrcpit2 */
-    [0xb7] =3D gen_helper_pmulhrw_mmx,
-    [0xbb] =3D gen_helper_pswapd,
-    [0xbf] =3D gen_helper_pavgusb,
-};
-
 struct SSEOpHelper_table6 {
     SSEFuncs fn[2];
     uint32_t ext_mask;
@@ -3443,7 +3406,7 @@ static void gen_sse(CPUX86State *env, DisasContext *s=
, int b)
         b1 =3D 0;
     sse_op_flags =3D sse_op_table1[b].flags;
     sse_op_fn =3D sse_op_table1[b].fn[b1];
-    if ((sse_op_flags & (SSE_OPF_SPECIAL | SSE_OPF_3DNOW)) =3D=3D 0
+    if ((sse_op_flags & SSE_OPF_SPECIAL) =3D=3D 0
             && !sse_op_fn.op1) {
         goto unknown_op;
     }
@@ -3457,11 +3420,6 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
             is_xmm =3D 1;
         }
     }
-    if (sse_op_flags & SSE_OPF_3DNOW) {
-        if (!(s->cpuid_ext2_features & CPUID_EXT2_3DNOW)) {
-            goto illegal_op;
-        }
-    }
     /* simple MMX/SSE operation */
     if (s->flags & HF_TS_MASK) {
         gen_exception(s, EXCP07_PREX);
@@ -3477,15 +3435,6 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
         && (b !=3D 0x38 && b !=3D 0x3a)) {
         goto unknown_op;
     }
-    if (b =3D=3D 0x0e) {
-        if (!(s->cpuid_ext2_features & CPUID_EXT2_3DNOW)) {
-            /* If we were fully decoding this we might use illegal_op.  */
-            goto unknown_op;
-        }
-        /* femms */
-        gen_helper_emms(cpu_env);
-        return;
-    }
     if (b =3D=3D 0x77) {
         /* emms */
         gen_helper_emms(cpu_env);
@@ -4643,18 +4592,6 @@ static void gen_sse(CPUX86State *env, DisasContext *=
s, int b)
                 rm =3D (modrm & 7);
                 op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
             }
-            if (sse_op_flags & SSE_OPF_3DNOW) {
-                /* 3DNow! data insns */
-                val =3D x86_ldub_code(env, s);
-                SSEFunc_0_epp op_3dnow =3D sse_op_table5[val];
-                if (!op_3dnow) {
-                    goto unknown_op;
-                }
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-                tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                op_3dnow(cpu_env, s->ptr0, s->ptr1);
-                return;
-            }
         }
=20
=20
@@ -4775,7 +4712,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
 #endif
         if (use_new &&
             (b =3D=3D 0x138 || b =3D=3D 0x13a ||
-             (b >=3D 0x110 && b <=3D 0x117) ||
+             (b >=3D 0x10e && b <=3D 0x117) ||
              (b >=3D 0x128 && b <=3D 0x12f) ||
              (b >=3D 0x150 && b <=3D 0x17f) ||
              b =3D=3D 0x1c2 || (b >=3D 0x1c4 && b <=3D 0x1c6) ||
@@ -8504,10 +8441,6 @@ static bool disas_insn(DisasContext *s, CPUState *cp=
u)
=20
         set_cc_op(s, CC_OP_POPCNT);
         break;
-    case 0x10e ... 0x10f:
-        /* 3DNow! instructions, ignore prefixes */
-        s->prefix &=3D ~(PREFIX_REPZ | PREFIX_REPNZ | PREFIX_DATA);
-        /* fall through */
     case 0x110 ... 0x117:
     case 0x128 ... 0x12f:
     case 0x138 ... 0x13a:
--=20
2.37.3
From nobody Tue Apr 21 11:29:33 2026
Delivered-To: importer@patchew.org
Authentication-Results: mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass(p=none dis=none)  header.from=redhat.com
ARC-Seal: i=1; a=rsa-sha256; t=1665700121; cv=none;
	d=zohomail.com; s=zohoarc;
	b=ntUi6FOq8GUIdtCNzsdlrdxaSfjLRK4O0xDiIpVn1OC76bYPN1MUxcAnWnXNm2xjNRXLGb3Cxq43YlJhSeyRp9hvYk1v+Il8ppoEy8J+4UnEGZhJki4nBZUADP2nQ7d5+w3y8NF9H0/0YY20EXape9OM3KLebnxSKWEGE3sSNYU=
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=zohomail.com;
 s=zohoarc;
	t=1665700121;
 h=Content-Type:Content-Transfer-Encoding:Cc:Date:From:In-Reply-To:List-Subscribe:List-Post:List-Id:List-Archive:List-Help:List-Unsubscribe:MIME-Version:Message-ID:References:Sender:Subject:To;
	bh=ce+N7eScVQxyOQXOQp9MtvsbO04CjEv0RxkvCX4wMJ0=;
	b=f9cqTVs8lnk1Y2VjUmNpYKY06O3Va4w6jHrPOC+9fHZ7dvlr35bFKAE4ny4YUYV17B4gIP16ERLabtjmjYaGUORtFvGm4c4yM0CAtwdwanVsNyvWA9vin0rfiM4xZn4zkqY7EZAFFcqwJcyxpjpi1fQio6/WeMMo7rugaT8El9E=
ARC-Authentication-Results: i=1; mx.zohomail.com;
	dkim=pass;
	spf=pass (zohomail.com: domain of gnu.org designates 209.51.188.17 as
 permitted sender)
  smtp.mailfrom=qemu-devel-bounces+importer=patchew.org@nongnu.org;
	dmarc=pass header.from=<pbonzini@redhat.com> (p=none dis=none)
Return-Path: <qemu-devel-bounces+importer=patchew.org@nongnu.org>
Received: from lists.gnu.org (lists.gnu.org [209.51.188.17]) by
 mx.zohomail.com
	with SMTPS id 1665700121216581.1503281915961;
 Thu, 13 Oct 2022 15:28:41 -0700 (PDT)
Received: from localhost ([::1]:60158 helo=lists1p.gnu.org)
	by lists.gnu.org with esmtp (Exim 4.90_1)
	(envelope-from <qemu-devel-bounces+importer=patchew.org@nongnu.org>)
	id 1oj6gx-0004no-4v
	for importer@patchew.org; Thu, 13 Oct 2022 18:28:39 -0400
Received: from eggs.gnu.org ([2001:470:142:3::10]:55274)
 by lists.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj64L-0002up-2F
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:46 -0400
Received: from us-smtp-delivery-124.mimecast.com ([170.10.129.124]:25863)
 by eggs.gnu.org with esmtps (TLS1.2:ECDHE_RSA_AES_256_GCM_SHA384:256)
 (Exim 4.90_1) (envelope-from <pbonzini@redhat.com>)
 id 1oj64G-0005Nk-8Q
 for qemu-devel@nongnu.org; Thu, 13 Oct 2022 17:48:44 -0400
Received: from mail-ed1-f69.google.com (mail-ed1-f69.google.com
 [209.85.208.69]) by relay.mimecast.com with ESMTP with STARTTLS
 (version=TLSv1.3, cipher=TLS_AES_128_GCM_SHA256) id
 us-mta-363-d0VzbdaYOfmaRBIRgBAlyA-1; Thu, 13 Oct 2022 17:48:38 -0400
Received: by mail-ed1-f69.google.com with SMTP id
 h13-20020a056402280d00b0045cb282161cso2333685ede.8
 for <qemu-devel@nongnu.org>; Thu, 13 Oct 2022 14:48:38 -0700 (PDT)
Received: from avogadro.local ([2001:b07:6468:f312:1c09:f536:3de6:228c])
 by smtp.gmail.com with ESMTPSA id
 a8-20020a170906190800b0073cd7cc2c81sm417660eje.181.2022.10.13.14.48.33
 (version=TLS1_3 cipher=TLS_AES_256_GCM_SHA384 bits=256/256);
 Thu, 13 Oct 2022 14:48:33 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=redhat.com;
 s=mimecast20190719; t=1665697719;
 h=from:from:reply-to:subject:subject:date:date:message-id:message-id:
 to:to:cc:cc:mime-version:mime-version:content-type:content-type:
 content-transfer-encoding:content-transfer-encoding:
 in-reply-to:in-reply-to:references:references;
 bh=ce+N7eScVQxyOQXOQp9MtvsbO04CjEv0RxkvCX4wMJ0=;
 b=HvxcW6SJTW2mKe2sP5LImKkKqaRd0qxfBvgfHV00m/i8SdKcegLKYSUWE/XSbGT7/U5ei8
 6NgDmxdZyAynY9TlAhN88WcwWC0FGGOlEmBMvHKa/8Ww692jRxq1iNioY972db2wgdhX/n
 4Sy3AZmCep9UIdSdf2D2SMkfbWrU4Ug=
X-MC-Unique: d0VzbdaYOfmaRBIRgBAlyA-1
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20210112;
 h=content-transfer-encoding:mime-version:references:in-reply-to
 :message-id:date:subject:cc:to:from:x-gm-message-state:from:to:cc
 :subject:date:message-id:reply-to;
 bh=ce+N7eScVQxyOQXOQp9MtvsbO04CjEv0RxkvCX4wMJ0=;
 b=O7xfU88dKOviehYIs1/wwM7QY9+brweIPrLV51T2VTxLeQoRWemcqF+PGP7hPeqN47
 PG0R18c2ceyngJxbZa3HTqNBXNqNI/DsvUeXefHgK0hg2N3UfccO3LouG6cQoc1eANnO
 xvVcWRSJfL7nyIl8ieI2+TdOSjsOXQOpcLPnwsywOkvJc1/YnIRi9dCqxVDu8kTFVvP0
 XLp57RTfDmG5b06rR8mbPythOSQfIm6qf/o8YdA/amogWn5awHL7w4C7p+j4uUNSMCM2
 8GS3oJ1INvdt5kZt8PsL5YgSVBina2qQmmlKRZ/OaZ81qRgY11qwKrri3W/4qd0p6HHl
 wkcQ==
X-Gm-Message-State: ACrzQf3vNYQ9V+zBMjU9tvchptdfarmhH1RHgvOhYwCN51G9KsuHdSKM
 sOk/U2rNeVajuUmvYAspazZnC26vFSMC3JdrevPvIGwcYDINkxKs/JqH0fA9zkWm2joFXo7jsPe
 QKKIZatBPsPwyZ2LGGLgRBakHlwbGvFBv82C6wtrU9D5PxlYvz8VxPXbG7cWT7R1n9h4=
X-Received: by 2002:a17:907:a40f:b0:78d:10fc:6ef5 with SMTP id
 sg15-20020a170907a40f00b0078d10fc6ef5mr1286078ejc.212.1665697715810;
 Thu, 13 Oct 2022 14:48:35 -0700 (PDT)
X-Google-Smtp-Source: 
 AMsMyM78VTnyR34XmzF3Mopc1yVsxY15qL7WVkK/pZtU7d+tzPJ42y+dSXwypn88ySe4qqjrJ0FUcg==
X-Received: by 2002:a17:907:a40f:b0:78d:10fc:6ef5 with SMTP id
 sg15-20020a170907a40f00b0078d10fc6ef5mr1286030ejc.212.1665697714275;
 Thu, 13 Oct 2022 14:48:34 -0700 (PDT)
From: Paolo Bonzini <pbonzini@redhat.com>
To: qemu-devel@nongnu.org
Cc: paul@nowt.org,
	richard.henderson@linaro.org
Subject: [PATCH 35/35] target/i386: remove old SSE decoder
Date: Thu, 13 Oct 2022 23:46:51 +0200
Message-Id: <20221013214651.672114-36-pbonzini@redhat.com>
X-Mailer: git-send-email 2.37.3
In-Reply-To: <20221013214651.672114-1-pbonzini@redhat.com>
References: <20221013214651.672114-1-pbonzini@redhat.com>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Received-SPF: pass (zohomail.com: domain of gnu.org designates 209.51.188.17
 as permitted sender) client-ip=209.51.188.17;
 envelope-from=qemu-devel-bounces+importer=patchew.org@nongnu.org;
 helo=lists.gnu.org;
Received-SPF: pass client-ip=170.10.129.124;
 envelope-from=pbonzini@redhat.com;
 helo=us-smtp-delivery-124.mimecast.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIMWL_WL_HIGH=-0.001,
 DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+importer=patchew.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+importer=patchew.org@nongnu.org>
X-ZohoMail-DKIM: pass (identity @redhat.com)
X-ZM-MESSAGEID: 1665700122665100001
Content-Type: text/plain; charset="utf-8"

With all SSE (and AVX!) instructions now implemented in disas_insn_new,
it's possible to remove gen_sse, as well as the helpers for instructions
that now use gvec.

Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Paolo Bonzini <pbonzini@redhat.com>
---
 target/i386/ops_sse.h            |  124 ---
 target/i386/ops_sse_header.h     |   61 --
 target/i386/tcg/decode-new.c.inc |    3 -
 target/i386/tcg/emit.c.inc       |   17 +
 target/i386/tcg/translate.c      | 1721 +-----------------------------
 5 files changed, 19 insertions(+), 1907 deletions(-)

diff --git a/target/i386/ops_sse.h b/target/i386/ops_sse.h
index 43b32edbfc..76bf20b878 100644
--- a/target/i386/ops_sse.h
+++ b/target/i386/ops_sse.h
@@ -297,17 +297,6 @@ static inline int satsw(int x)
 #define FMAXUB(a, b) ((a) > (b)) ? (a) : (b)
 #define FMAXSW(a, b) ((int16_t)(a) > (int16_t)(b)) ? (a) : (b)
=20
-#define FAND(a, b) ((a) & (b))
-#define FANDN(a, b) ((~(a)) & (b))
-#define FOR(a, b) ((a) | (b))
-#define FXOR(a, b) ((a) ^ (b))
-
-#define FCMPGTB(a, b) ((int8_t)(a) > (int8_t)(b) ? -1 : 0)
-#define FCMPGTW(a, b) ((int16_t)(a) > (int16_t)(b) ? -1 : 0)
-#define FCMPGTL(a, b) ((int32_t)(a) > (int32_t)(b) ? -1 : 0)
-#define FCMPEQ(a, b) ((a) =3D=3D (b) ? -1 : 0)
-
-#define FMULLW(a, b) ((a) * (b))
 #define FMULHRW(a, b) (((int16_t)(a) * (int16_t)(b) + 0x8000) >> 16)
 #define FMULHUW(a, b) ((a) * (b) >> 16)
 #define FMULHW(a, b) ((int16_t)(a) * (int16_t)(b) >> 16)
@@ -315,46 +304,6 @@ static inline int satsw(int x)
 #define FAVG(a, b) (((a) + (b) + 1) >> 1)
 #endif
=20
-SSE_HELPER_B(helper_paddb, FADD)
-SSE_HELPER_W(helper_paddw, FADD)
-SSE_HELPER_L(helper_paddl, FADD)
-SSE_HELPER_Q(helper_paddq, FADD)
-
-SSE_HELPER_B(helper_psubb, FSUB)
-SSE_HELPER_W(helper_psubw, FSUB)
-SSE_HELPER_L(helper_psubl, FSUB)
-SSE_HELPER_Q(helper_psubq, FSUB)
-
-SSE_HELPER_B(helper_paddusb, FADDUB)
-SSE_HELPER_B(helper_paddsb, FADDSB)
-SSE_HELPER_B(helper_psubusb, FSUBUB)
-SSE_HELPER_B(helper_psubsb, FSUBSB)
-
-SSE_HELPER_W(helper_paddusw, FADDUW)
-SSE_HELPER_W(helper_paddsw, FADDSW)
-SSE_HELPER_W(helper_psubusw, FSUBUW)
-SSE_HELPER_W(helper_psubsw, FSUBSW)
-
-SSE_HELPER_B(helper_pminub, FMINUB)
-SSE_HELPER_B(helper_pmaxub, FMAXUB)
-
-SSE_HELPER_W(helper_pminsw, FMINSW)
-SSE_HELPER_W(helper_pmaxsw, FMAXSW)
-
-SSE_HELPER_Q(helper_pand, FAND)
-SSE_HELPER_Q(helper_pandn, FANDN)
-SSE_HELPER_Q(helper_por, FOR)
-SSE_HELPER_Q(helper_pxor, FXOR)
-
-SSE_HELPER_B(helper_pcmpgtb, FCMPGTB)
-SSE_HELPER_W(helper_pcmpgtw, FCMPGTW)
-SSE_HELPER_L(helper_pcmpgtl, FCMPGTL)
-
-SSE_HELPER_B(helper_pcmpeqb, FCMPEQ)
-SSE_HELPER_W(helper_pcmpeqw, FCMPEQ)
-SSE_HELPER_L(helper_pcmpeql, FCMPEQ)
-
-SSE_HELPER_W(helper_pmullw, FMULLW)
 SSE_HELPER_W(helper_pmulhuw, FMULHUW)
 SSE_HELPER_W(helper_pmulhw, FMULHW)
=20
@@ -432,29 +381,6 @@ void glue(helper_maskmov, SUFFIX)(CPUX86State *env, Re=
g *d, Reg *s,
 }
 #endif
=20
-void glue(helper_movl_mm_T0, SUFFIX)(Reg *d, uint32_t val)
-{
-    int i;
-
-    d->L(0) =3D val;
-    d->L(1) =3D 0;
-    for (i =3D 1; i < (1 << SHIFT); i++) {
-        d->Q(i) =3D 0;
-    }
-}
-
-#ifdef TARGET_X86_64
-void glue(helper_movq_mm_T0, SUFFIX)(Reg *d, uint64_t val)
-{
-    int i;
-
-    d->Q(0) =3D val;
-    for (i =3D 1; i < (1 << SHIFT); i++) {
-        d->Q(i) =3D 0;
-    }
-}
-#endif
-
 #define SHUFFLE4(F, a, b, offset) do {      \
     r0 =3D a->F((order & 3) + offset);        \
     r1 =3D a->F(((order >> 2) & 3) + offset); \
@@ -1216,27 +1142,6 @@ uint32_t glue(helper_movmskpd, SUFFIX)(CPUX86State *=
env, Reg *s)
=20
 #endif
=20
-uint32_t glue(helper_pmovmskb, SUFFIX)(CPUX86State *env, Reg *s)
-{
-    uint32_t val;
-    int i;
-
-    val =3D 0;
-    for (i =3D 0; i < (1 << SHIFT); i++) {
-        uint8_t byte =3D 0;
-        byte |=3D (s->B(8 * i + 0) >> 7);
-        byte |=3D (s->B(8 * i + 1) >> 6) & 0x02;
-        byte |=3D (s->B(8 * i + 2) >> 5) & 0x04;
-        byte |=3D (s->B(8 * i + 3) >> 4) & 0x08;
-        byte |=3D (s->B(8 * i + 4) >> 3) & 0x10;
-        byte |=3D (s->B(8 * i + 5) >> 2) & 0x20;
-        byte |=3D (s->B(8 * i + 6) >> 1) & 0x40;
-        byte |=3D (s->B(8 * i + 7)) & 0x80;
-        val |=3D byte << (8 * i);
-    }
-    return val;
-}
-
 #define PACK_HELPER_B(name, F) \
 void glue(helper_pack ## name, SUFFIX)(CPUX86State *env,      \
         Reg *d, Reg *v, Reg *s)                               \
@@ -1587,13 +1492,6 @@ void glue(helper_pmaddubsw, SUFFIX)(CPUX86State *env=
, Reg *d, Reg *v, Reg *s)
     }
 }
=20
-#define FABSB(x) (x > INT8_MAX  ? -(int8_t)x : x)
-#define FABSW(x) (x > INT16_MAX ? -(int16_t)x : x)
-#define FABSL(x) (x > INT32_MAX ? -(int32_t)x : x)
-SSE_HELPER_1(helper_pabsb, B, 8 << SHIFT, FABSB)
-SSE_HELPER_1(helper_pabsw, W, 4 << SHIFT, FABSW)
-SSE_HELPER_1(helper_pabsd, L, 2 << SHIFT, FABSL)
-
 #define FMULHRSW(d, s) (((int16_t) d * (int16_t)s + 0x4000) >> 15)
 SSE_HELPER_W(helper_pmulhrsw, FMULHRSW)
=20
@@ -1723,9 +1621,6 @@ void glue(helper_pmuldq, SUFFIX)(CPUX86State *env, Re=
g *d, Reg *v, Reg *s)
     }
 }
=20
-#define FCMPEQQ(d, s) (d =3D=3D s ? -1 : 0)
-SSE_HELPER_Q(helper_pcmpeqq, FCMPEQQ)
-
 void glue(helper_packusdw, SUFFIX)(CPUX86State *env, Reg *d, Reg *v, Reg *=
s)
 {
     uint16_t r[8];
@@ -1746,22 +1641,6 @@ void glue(helper_packusdw, SUFFIX)(CPUX86State *env,=
 Reg *d, Reg *v, Reg *s)
     }
 }
=20
-#define FMINSB(d, s) MIN((int8_t)d, (int8_t)s)
-#define FMINSD(d, s) MIN((int32_t)d, (int32_t)s)
-#define FMAXSB(d, s) MAX((int8_t)d, (int8_t)s)
-#define FMAXSD(d, s) MAX((int32_t)d, (int32_t)s)
-SSE_HELPER_B(helper_pminsb, FMINSB)
-SSE_HELPER_L(helper_pminsd, FMINSD)
-SSE_HELPER_W(helper_pminuw, MIN)
-SSE_HELPER_L(helper_pminud, MIN)
-SSE_HELPER_B(helper_pmaxsb, FMAXSB)
-SSE_HELPER_L(helper_pmaxsd, FMAXSD)
-SSE_HELPER_W(helper_pmaxuw, MAX)
-SSE_HELPER_L(helper_pmaxud, MAX)
-
-#define FMULLD(d, s) ((int32_t)d * (int32_t)s)
-SSE_HELPER_L(helper_pmulld, FMULLD)
-
 #if SHIFT =3D=3D 1
 void glue(helper_phminposuw, SUFFIX)(CPUX86State *env, Reg *d, Reg *s)
 {
@@ -2042,9 +1921,6 @@ void glue(helper_mpsadbw, SUFFIX)(CPUX86State *env, R=
eg *d, Reg *v, Reg *s,
 }
=20
 /* SSE4.2 op helpers */
-#define FCMPGTQ(d, s) ((int64_t)d > (int64_t)s ? -1 : 0)
-SSE_HELPER_Q(helper_pcmpgtq, FCMPGTQ)
-
 #if SHIFT =3D=3D 1
 static inline int pcmp_elen(CPUX86State *env, int reg, uint32_t ctrl)
 {
diff --git a/target/i386/ops_sse_header.h b/target/i386/ops_sse_header.h
index 00de6d69f1..2f1f811f9f 100644
--- a/target/i386/ops_sse_header.h
+++ b/target/i386/ops_sse_header.h
@@ -64,46 +64,6 @@ DEF_HELPER_4(glue(pslldq, SUFFIX), void, env, Reg, Reg, =
Reg)
 #define SSE_HELPER_Q(name, F)\
     DEF_HELPER_4(glue(name, SUFFIX), void, env, Reg, Reg, Reg)
=20
-SSE_HELPER_B(paddb, FADD)
-SSE_HELPER_W(paddw, FADD)
-SSE_HELPER_L(paddl, FADD)
-SSE_HELPER_Q(paddq, FADD)
-
-SSE_HELPER_B(psubb, FSUB)
-SSE_HELPER_W(psubw, FSUB)
-SSE_HELPER_L(psubl, FSUB)
-SSE_HELPER_Q(psubq, FSUB)
-
-SSE_HELPER_B(paddusb, FADDUB)
-SSE_HELPER_B(paddsb, FADDSB)
-SSE_HELPER_B(psubusb, FSUBUB)
-SSE_HELPER_B(psubsb, FSUBSB)
-
-SSE_HELPER_W(paddusw, FADDUW)
-SSE_HELPER_W(paddsw, FADDSW)
-SSE_HELPER_W(psubusw, FSUBUW)
-SSE_HELPER_W(psubsw, FSUBSW)
-
-SSE_HELPER_B(pminub, FMINUB)
-SSE_HELPER_B(pmaxub, FMAXUB)
-
-SSE_HELPER_W(pminsw, FMINSW)
-SSE_HELPER_W(pmaxsw, FMAXSW)
-
-SSE_HELPER_Q(pand, FAND)
-SSE_HELPER_Q(pandn, FANDN)
-SSE_HELPER_Q(por, FOR)
-SSE_HELPER_Q(pxor, FXOR)
-
-SSE_HELPER_B(pcmpgtb, FCMPGTB)
-SSE_HELPER_W(pcmpgtw, FCMPGTW)
-SSE_HELPER_L(pcmpgtl, FCMPGTL)
-
-SSE_HELPER_B(pcmpeqb, FCMPEQ)
-SSE_HELPER_W(pcmpeqw, FCMPEQ)
-SSE_HELPER_L(pcmpeql, FCMPEQ)
-
-SSE_HELPER_W(pmullw, FMULLW)
 #if SHIFT =3D=3D 0
 DEF_HELPER_3(glue(pmulhrw, SUFFIX), void, env, Reg, Reg)
 #endif
@@ -120,10 +80,6 @@ DEF_HELPER_4(glue(psadbw, SUFFIX), void, env, Reg, Reg,=
 Reg)
 #if SHIFT < 2
 DEF_HELPER_4(glue(maskmov, SUFFIX), void, env, Reg, Reg, tl)
 #endif
-DEF_HELPER_2(glue(movl_mm_T0, SUFFIX), void, Reg, i32)
-#ifdef TARGET_X86_64
-DEF_HELPER_2(glue(movq_mm_T0, SUFFIX), void, Reg, i64)
-#endif
=20
 #if SHIFT =3D=3D 0
 DEF_HELPER_3(glue(pshufw, SUFFIX), void, Reg, Reg, int)
@@ -279,7 +235,6 @@ DEF_HELPER_2(glue(movmskps, SUFFIX), i32, env, Reg)
 DEF_HELPER_2(glue(movmskpd, SUFFIX), i32, env, Reg)
 #endif
=20
-DEF_HELPER_2(glue(pmovmskb, SUFFIX), i32, env, Reg)
 DEF_HELPER_4(glue(packsswb, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(packuswb, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(packssdw, SUFFIX), void, env, Reg, Reg, Reg)
@@ -326,9 +281,6 @@ DEF_HELPER_4(glue(phaddsw, SUFFIX), void, env, Reg, Reg=
, Reg)
 DEF_HELPER_4(glue(phsubw, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(phsubd, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(phsubsw, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_3(glue(pabsb, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pabsw, SUFFIX), void, env, Reg, Reg)
-DEF_HELPER_3(glue(pabsd, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_4(glue(pmaddubsw, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(pmulhrsw, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(pshufb, SUFFIX), void, env, Reg, Reg, Reg)
@@ -359,17 +311,7 @@ DEF_HELPER_3(glue(pmovsldup, SUFFIX), void, env, Reg, =
Reg)
 DEF_HELPER_3(glue(pmovshdup, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_3(glue(pmovdldup, SUFFIX), void, env, Reg, Reg)
 DEF_HELPER_4(glue(pmuldq, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pcmpeqq, SUFFIX), void, env, Reg, Reg, Reg)
 DEF_HELPER_4(glue(packusdw, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pminsb, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pminsd, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pminuw, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pminud, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pmaxsb, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pmaxsd, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pmaxuw, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pmaxud, SUFFIX), void, env, Reg, Reg, Reg)
-DEF_HELPER_4(glue(pmulld, SUFFIX), void, env, Reg, Reg, Reg)
 #if SHIFT =3D=3D 1
 DEF_HELPER_3(glue(phminposuw, SUFFIX), void, env, Reg, Reg)
 #endif
@@ -390,9 +332,6 @@ DEF_HELPER_5(glue(mpsadbw, SUFFIX), void, env, Reg, Reg=
, Reg, i32)
 #endif
=20
 /* SSE4.2 op helpers */
-#if SHIFT >=3D 1
-DEF_HELPER_4(glue(pcmpgtq, SUFFIX), void, env, Reg, Reg, Reg)
-#endif
 #if SHIFT =3D=3D 1
 DEF_HELPER_4(glue(pcmpestri, SUFFIX), void, env, Reg, Reg, i32)
 DEF_HELPER_4(glue(pcmpestrm, SUFFIX), void, env, Reg, Reg, i32)
diff --git a/target/i386/tcg/decode-new.c.inc b/target/i386/tcg/decode-new.=
c.inc
index a680b01140..7cc94d818f 100644
--- a/target/i386/tcg/decode-new.c.inc
+++ b/target/i386/tcg/decode-new.c.inc
@@ -1549,9 +1549,6 @@ static void disas_insn_new(DisasContext *s, CPUState =
*cpu, int b)
     X86DecodedInsn decode;
     X86DecodeFunc decode_func =3D decode_root;
=20
-#ifdef CONFIG_USER_ONLY
-    if (limit) { --limit; }
-#endif
     s->has_modrm =3D false;
=20
  next_byte:
diff --git a/target/i386/tcg/emit.c.inc b/target/i386/tcg/emit.c.inc
index 35acca04ef..c1dcedf131 100644
--- a/target/i386/tcg/emit.c.inc
+++ b/target/i386/tcg/emit.c.inc
@@ -19,7 +19,24 @@
  * License along with this library; if not, see <http://www.gnu.org/licens=
es/>.
  */
=20
+#define ZMM_OFFSET(reg) offsetof(CPUX86State, xmm_regs[reg])
+
+typedef void (*SSEFunc_i_ep)(TCGv_i32 val, TCGv_ptr env, TCGv_ptr reg);
+typedef void (*SSEFunc_l_ep)(TCGv_i64 val, TCGv_ptr env, TCGv_ptr reg);
 typedef void (*SSEFunc_0_epp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_b=
);
+typedef void (*SSEFunc_0_eppp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
+                               TCGv_ptr reg_c);
+typedef void (*SSEFunc_0_epppp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
+                                TCGv_ptr reg_c, TCGv_ptr reg_d);
+typedef void (*SSEFunc_0_eppi)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
+                               TCGv_i32 val);
+typedef void (*SSEFunc_0_epppi)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
+                                TCGv_ptr reg_c, TCGv_i32 val);
+typedef void (*SSEFunc_0_ppi)(TCGv_ptr reg_a, TCGv_ptr reg_b, TCGv_i32 val=
);
+typedef void (*SSEFunc_0_pppi)(TCGv_ptr reg_a, TCGv_ptr reg_b, TCGv_ptr re=
g_c,
+                               TCGv_i32 val);
+typedef void (*SSEFunc_0_eppt)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
+                               TCGv val);
 typedef void (*SSEFunc_0_epppti)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr re=
g_b,
                                  TCGv_ptr reg_c, TCGv a0, TCGv_i32 scale);
=20
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index 77f764ba1a..1e0fd976d6 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -129,9 +129,6 @@ typedef struct DisasContext {
     /* TCG local register indexes (only used inside old micro ops) */
     TCGv tmp0;
     TCGv tmp4;
-    TCGv_ptr ptr0;
-    TCGv_ptr ptr1;
-    TCGv_ptr ptr2;
     TCGv_i32 tmp2_i32;
     TCGv_i32 tmp3_i32;
     TCGv_i64 tmp1_i64;
@@ -2952,1696 +2949,10 @@ static void gen_sty_env_A0(DisasContext *s, int o=
ffset, bool align)
     tcg_gen_qemu_st_i64(s->tmp1_i64, s->tmp0, mem_index, MO_LEUQ);
 }
=20
-static inline void gen_op_movo(DisasContext *s, int d_offset, int s_offset)
-{
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(XMMReg, XMM_Q=
(0)));
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset + offsetof(XMMReg, XMM_Q=
(0)));
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset + offsetof(XMMReg, XMM_Q=
(1)));
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset + offsetof(XMMReg, XMM_Q=
(1)));
-}
-
-static inline void gen_op_movq(DisasContext *s, int d_offset, int s_offset)
-{
-    tcg_gen_ld_i64(s->tmp1_i64, cpu_env, s_offset);
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset);
-}
-
-static inline void gen_op_movl(DisasContext *s, int d_offset, int s_offset)
-{
-    tcg_gen_ld_i32(s->tmp2_i32, cpu_env, s_offset);
-    tcg_gen_st_i32(s->tmp2_i32, cpu_env, d_offset);
-}
-
-static inline void gen_op_movq_env_0(DisasContext *s, int d_offset)
-{
-    tcg_gen_movi_i64(s->tmp1_i64, 0);
-    tcg_gen_st_i64(s->tmp1_i64, cpu_env, d_offset);
-}
-
-#define ZMM_OFFSET(reg) offsetof(CPUX86State, xmm_regs[reg])
-#define XMM_OFFSET(reg) offsetof(CPUX86State, xmm_regs[reg].ZMM_X(0))
-
-typedef void (*SSEFunc_i_ep)(TCGv_i32 val, TCGv_ptr env, TCGv_ptr reg);
-typedef void (*SSEFunc_l_ep)(TCGv_i64 val, TCGv_ptr env, TCGv_ptr reg);
-typedef void (*SSEFunc_0_epi)(TCGv_ptr env, TCGv_ptr reg, TCGv_i32 val);
-typedef void (*SSEFunc_0_epl)(TCGv_ptr env, TCGv_ptr reg, TCGv_i64 val);
-typedef void (*SSEFunc_0_epp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_b=
);
-typedef void (*SSEFunc_0_eppp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
-                               TCGv_ptr reg_c);
-typedef void (*SSEFunc_0_epppp)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
-                                TCGv_ptr reg_c, TCGv_ptr reg_d);
-typedef void (*SSEFunc_0_eppi)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
-                               TCGv_i32 val);
-typedef void (*SSEFunc_0_epppi)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
-                                TCGv_ptr reg_c, TCGv_i32 val);
-typedef void (*SSEFunc_0_ppi)(TCGv_ptr reg_a, TCGv_ptr reg_b, TCGv_i32 val=
);
-typedef void (*SSEFunc_0_pppi)(TCGv_ptr reg_a, TCGv_ptr reg_b, TCGv_ptr re=
g_c,
-                               TCGv_i32 val);
-typedef void (*SSEFunc_0_eppt)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg_=
b,
-                               TCGv val);
-typedef void (*SSEFunc_0_epppt)(TCGv_ptr env, TCGv_ptr reg_a, TCGv_ptr reg=
_b,
-                                TCGv_ptr reg_c, TCGv val);
-
-static bool first =3D true; static unsigned long limit;
 #include "decode-new.h"
 #include "emit.c.inc"
 #include "decode-new.c.inc"
=20
-#define SSE_OPF_V0        (1 << 0) /* vex.v must be 1111b (only 2 operands=
) */
-#define SSE_OPF_CMP       (1 << 1) /* does not write for first operand */
-#define SSE_OPF_BLENDV    (1 << 2) /* blendv* instruction */
-#define SSE_OPF_SPECIAL   (1 << 3) /* magic */
-#define SSE_OPF_MMX       (1 << 5) /* MMX/integer/AVX2 instruction */
-#define SSE_OPF_SCALAR    (1 << 6) /* Has SSE scalar variants */
-#define SSE_OPF_SHUF      (1 << 9) /* pshufx/shufpx */
-
-#define OP(op, flags, a, b, c, d)       \
-    {flags, {{.op =3D a}, {.op =3D b}, {.op =3D c}, {.op =3D d} } }
-
-#define MMX_OP(x) OP(op2, SSE_OPF_MMX, \
-        gen_helper_ ## x ## _mmx, gen_helper_ ## x ## _xmm, NULL, NULL)
-
-#define SSE_FOP(name) OP(op2, SSE_OPF_SCALAR, \
-        gen_helper_##name##ps##_xmm, gen_helper_##name##pd##_xmm, \
-        gen_helper_##name##ss, gen_helper_##name##sd)
-#define SSE_OP(sname, dname, op, flags) OP(op, flags, \
-        gen_helper_##sname##_xmm, gen_helper_##dname##_xmm, NULL, NULL)
-
-#define SSE_OP_UNARY(a, b, c, d)       \
-    {SSE_OPF_SCALAR | SSE_OPF_V0, {{.op1 =3D a}, {.op1 =3D b}, {.op2 =3D c=
}, {.op2 =3D d} } }
-
-typedef union SSEFuncs {
-    SSEFunc_0_epp op1;
-    SSEFunc_0_ppi op1i;
-    SSEFunc_0_eppt op1t;
-    SSEFunc_0_eppp op2;
-    SSEFunc_0_pppi op2i;
-    SSEFunc_0_epppp op3;
-} SSEFuncs;
-
-struct SSEOpHelper_table1 {
-    int flags;
-    SSEFuncs fn[4];
-};
-
-#define SSE_SPECIAL { SSE_OPF_SPECIAL }
-
-static const struct SSEOpHelper_table1 sse_op_table1[256] =3D {
-    /* pure SSE operations */
-    [0x10] =3D SSE_SPECIAL, /* movups, movupd, movss, movsd */
-    [0x11] =3D SSE_SPECIAL, /* movups, movupd, movss, movsd */
-    [0x12] =3D SSE_SPECIAL, /* movlps, movlpd, movsldup, movddup */
-    [0x13] =3D SSE_SPECIAL, /* movlps, movlpd */
-    [0x14] =3D SSE_OP(punpckldq, punpcklqdq, op2, 0), /* unpcklps, unpcklp=
d */
-    [0x15] =3D SSE_OP(punpckhdq, punpckhqdq, op2, 0), /* unpckhps, unpckhp=
d */
-    [0x16] =3D SSE_SPECIAL, /* movhps, movhpd, movshdup */
-    [0x17] =3D SSE_SPECIAL, /* movhps, movhpd */
-
-    [0x28] =3D SSE_SPECIAL, /* movaps, movapd */
-    [0x29] =3D SSE_SPECIAL, /* movaps, movapd */
-    [0x2a] =3D SSE_SPECIAL, /* cvtpi2ps, cvtpi2pd, cvtsi2ss, cvtsi2sd */
-    [0x2b] =3D SSE_SPECIAL, /* movntps, movntpd, movntss, movntsd */
-    [0x2c] =3D SSE_SPECIAL, /* cvttps2pi, cvttpd2pi, cvttsd2si, cvttss2si =
*/
-    [0x2d] =3D SSE_SPECIAL, /* cvtps2pi, cvtpd2pi, cvtsd2si, cvtss2si */
-    [0x2e] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR | SSE_OPF_V0,
-            gen_helper_ucomiss, gen_helper_ucomisd, NULL, NULL),
-    [0x2f] =3D OP(op1, SSE_OPF_CMP | SSE_OPF_SCALAR | SSE_OPF_V0,
-            gen_helper_comiss, gen_helper_comisd, NULL, NULL),
-    [0x50] =3D SSE_SPECIAL, /* movmskps, movmskpd */
-    [0x51] =3D SSE_OP_UNARY(
-                gen_helper_sqrtps_xmm, gen_helper_sqrtpd_xmm,
-                gen_helper_sqrtss, gen_helper_sqrtsd),
-    [0x52] =3D SSE_OP_UNARY(
-                gen_helper_rsqrtps_xmm, NULL, gen_helper_rsqrtss, NULL),
-    [0x53] =3D SSE_OP_UNARY(
-                gen_helper_rcpps_xmm, NULL, gen_helper_rcpss, NULL),
-    [0x54] =3D SSE_OP(pand, pand, op2, 0), /* andps, andpd */
-    [0x55] =3D SSE_OP(pandn, pandn, op2, 0), /* andnps, andnpd */
-    [0x56] =3D SSE_OP(por, por, op2, 0), /* orps, orpd */
-    [0x57] =3D SSE_OP(pxor, pxor, op2, 0), /* xorps, xorpd */
-    [0x58] =3D SSE_FOP(add),
-    [0x59] =3D SSE_FOP(mul),
-    [0x5a] =3D SSE_OP_UNARY(
-                 gen_helper_cvtps2pd_xmm, gen_helper_cvtpd2ps_xmm,
-                 gen_helper_cvtss2sd, gen_helper_cvtsd2ss),
-    [0x5b] =3D OP(op1, SSE_OPF_V0,
-                gen_helper_cvtdq2ps_xmm, gen_helper_cvtps2dq_xmm,
-                gen_helper_cvttps2dq_xmm, NULL),
-    [0x5c] =3D SSE_FOP(sub),
-    [0x5d] =3D SSE_FOP(min),
-    [0x5e] =3D SSE_FOP(div),
-    [0x5f] =3D SSE_FOP(max),
-
-    [0xc2] =3D SSE_FOP(cmpeq), /* sse_op_table4 */
-    [0xc6] =3D SSE_OP(shufps, shufpd, op2i, SSE_OPF_SHUF),
-
-    /* SSSE3, SSE4, MOVBE, CRC32, BMI1, BMI2, ADX.  */
-    [0x38] =3D SSE_SPECIAL,
-    [0x3a] =3D SSE_SPECIAL,
-
-    /* MMX ops and their SSE extensions */
-    [0x60] =3D MMX_OP(punpcklbw),
-    [0x61] =3D MMX_OP(punpcklwd),
-    [0x62] =3D MMX_OP(punpckldq),
-    [0x63] =3D MMX_OP(packsswb),
-    [0x64] =3D MMX_OP(pcmpgtb),
-    [0x65] =3D MMX_OP(pcmpgtw),
-    [0x66] =3D MMX_OP(pcmpgtl),
-    [0x67] =3D MMX_OP(packuswb),
-    [0x68] =3D MMX_OP(punpckhbw),
-    [0x69] =3D MMX_OP(punpckhwd),
-    [0x6a] =3D MMX_OP(punpckhdq),
-    [0x6b] =3D MMX_OP(packssdw),
-    [0x6c] =3D OP(op2, SSE_OPF_MMX,
-                NULL, gen_helper_punpcklqdq_xmm, NULL, NULL),
-    [0x6d] =3D OP(op2, SSE_OPF_MMX,
-                NULL, gen_helper_punpckhqdq_xmm, NULL, NULL),
-    [0x6e] =3D SSE_SPECIAL, /* movd mm, ea */
-    [0x6f] =3D SSE_SPECIAL, /* movq, movdqa, , movqdu */
-    [0x70] =3D OP(op1i, SSE_OPF_SHUF | SSE_OPF_MMX | SSE_OPF_V0,
-            gen_helper_pshufw_mmx, gen_helper_pshufd_xmm,
-            gen_helper_pshufhw_xmm, gen_helper_pshuflw_xmm),
-    [0x71] =3D SSE_SPECIAL, /* shiftw */
-    [0x72] =3D SSE_SPECIAL, /* shiftd */
-    [0x73] =3D SSE_SPECIAL, /* shiftq */
-    [0x74] =3D MMX_OP(pcmpeqb),
-    [0x75] =3D MMX_OP(pcmpeqw),
-    [0x76] =3D MMX_OP(pcmpeql),
-    [0x77] =3D SSE_SPECIAL, /* emms */
-    [0x78] =3D SSE_SPECIAL, /* extrq_i, insertq_i (sse4a) */
-    [0x79] =3D OP(op1, SSE_OPF_V0,
-            NULL, gen_helper_extrq_r, NULL, gen_helper_insertq_r),
-    [0x7c] =3D OP(op2, 0,
-                NULL, gen_helper_haddpd_xmm, NULL, gen_helper_haddps_xmm),
-    [0x7d] =3D OP(op2, 0,
-                NULL, gen_helper_hsubpd_xmm, NULL, gen_helper_hsubps_xmm),
-    [0x7e] =3D SSE_SPECIAL, /* movd, movd, , movq */
-    [0x7f] =3D SSE_SPECIAL, /* movq, movdqa, movdqu */
-    [0xc4] =3D SSE_SPECIAL, /* pinsrw */
-    [0xc5] =3D SSE_SPECIAL, /* pextrw */
-    [0xd0] =3D OP(op2, 0,
-                NULL, gen_helper_addsubpd_xmm, NULL, gen_helper_addsubps_x=
mm),
-    [0xd1] =3D MMX_OP(psrlw),
-    [0xd2] =3D MMX_OP(psrld),
-    [0xd3] =3D MMX_OP(psrlq),
-    [0xd4] =3D MMX_OP(paddq),
-    [0xd5] =3D MMX_OP(pmullw),
-    [0xd6] =3D SSE_SPECIAL,
-    [0xd7] =3D SSE_SPECIAL, /* pmovmskb */
-    [0xd8] =3D MMX_OP(psubusb),
-    [0xd9] =3D MMX_OP(psubusw),
-    [0xda] =3D MMX_OP(pminub),
-    [0xdb] =3D MMX_OP(pand),
-    [0xdc] =3D MMX_OP(paddusb),
-    [0xdd] =3D MMX_OP(paddusw),
-    [0xde] =3D MMX_OP(pmaxub),
-    [0xdf] =3D MMX_OP(pandn),
-    [0xe0] =3D MMX_OP(pavgb),
-    [0xe1] =3D MMX_OP(psraw),
-    [0xe2] =3D MMX_OP(psrad),
-    [0xe3] =3D MMX_OP(pavgw),
-    [0xe4] =3D MMX_OP(pmulhuw),
-    [0xe5] =3D MMX_OP(pmulhw),
-    [0xe6] =3D OP(op1, SSE_OPF_V0,
-            NULL, gen_helper_cvttpd2dq_xmm,
-            gen_helper_cvtdq2pd_xmm, gen_helper_cvtpd2dq_xmm),
-    [0xe7] =3D SSE_SPECIAL,  /* movntq, movntq */
-    [0xe8] =3D MMX_OP(psubsb),
-    [0xe9] =3D MMX_OP(psubsw),
-    [0xea] =3D MMX_OP(pminsw),
-    [0xeb] =3D MMX_OP(por),
-    [0xec] =3D MMX_OP(paddsb),
-    [0xed] =3D MMX_OP(paddsw),
-    [0xee] =3D MMX_OP(pmaxsw),
-    [0xef] =3D MMX_OP(pxor),
-    [0xf0] =3D SSE_SPECIAL, /* lddqu */
-    [0xf1] =3D MMX_OP(psllw),
-    [0xf2] =3D MMX_OP(pslld),
-    [0xf3] =3D MMX_OP(psllq),
-    [0xf4] =3D MMX_OP(pmuludq),
-    [0xf5] =3D MMX_OP(pmaddwd),
-    [0xf6] =3D MMX_OP(psadbw),
-    [0xf7] =3D OP(op1t, SSE_OPF_MMX | SSE_OPF_V0,
-                gen_helper_maskmov_mmx, gen_helper_maskmov_xmm, NULL, NULL=
),
-    [0xf8] =3D MMX_OP(psubb),
-    [0xf9] =3D MMX_OP(psubw),
-    [0xfa] =3D MMX_OP(psubl),
-    [0xfb] =3D MMX_OP(psubq),
-    [0xfc] =3D MMX_OP(paddb),
-    [0xfd] =3D MMX_OP(paddw),
-    [0xfe] =3D MMX_OP(paddl),
-};
-#undef MMX_OP
-#undef OP
-#undef SSE_FOP
-#undef SSE_OP
-#undef SSE_SPECIAL
-
-#define MMX_OP2(x) { gen_helper_ ## x ## _mmx, gen_helper_ ## x ## _xmm }
-
-static const SSEFunc_0_eppp sse_op_table2[3 * 8][2] =3D {
-    [0 + 2] =3D MMX_OP2(psrlw),
-    [0 + 4] =3D MMX_OP2(psraw),
-    [0 + 6] =3D MMX_OP2(psllw),
-    [8 + 2] =3D MMX_OP2(psrld),
-    [8 + 4] =3D MMX_OP2(psrad),
-    [8 + 6] =3D MMX_OP2(pslld),
-    [16 + 2] =3D MMX_OP2(psrlq),
-    [16 + 3] =3D { NULL, gen_helper_psrldq_xmm },
-    [16 + 6] =3D MMX_OP2(psllq),
-    [16 + 7] =3D { NULL, gen_helper_pslldq_xmm },
-};
-
-static const SSEFunc_0_epi sse_op_table3ai[] =3D {
-    gen_helper_cvtsi2ss,
-    gen_helper_cvtsi2sd
-};
-
-#ifdef TARGET_X86_64
-static const SSEFunc_0_epl sse_op_table3aq[] =3D {
-    gen_helper_cvtsq2ss,
-    gen_helper_cvtsq2sd
-};
-#endif
-
-static const SSEFunc_i_ep sse_op_table3bi[] =3D {
-    gen_helper_cvttss2si,
-    gen_helper_cvtss2si,
-    gen_helper_cvttsd2si,
-    gen_helper_cvtsd2si
-};
-
-#ifdef TARGET_X86_64
-static const SSEFunc_l_ep sse_op_table3bq[] =3D {
-    gen_helper_cvttss2sq,
-    gen_helper_cvtss2sq,
-    gen_helper_cvttsd2sq,
-    gen_helper_cvtsd2sq
-};
-#endif
-
-#define SSE_CMP(x) { \
-    gen_helper_ ## x ## ps ## _xmm, gen_helper_ ## x ## pd ## _xmm, \
-    gen_helper_ ## x ## ss, gen_helper_ ## x ## sd}
-static const SSEFunc_0_eppp sse_op_table4[8][4] =3D {
-    SSE_CMP(cmpeq),
-    SSE_CMP(cmplt),
-    SSE_CMP(cmple),
-    SSE_CMP(cmpunord),
-    SSE_CMP(cmpneq),
-    SSE_CMP(cmpnlt),
-    SSE_CMP(cmpnle),
-    SSE_CMP(cmpord),
-};
-#undef SSE_CMP
-
-struct SSEOpHelper_table6 {
-    SSEFuncs fn[2];
-    uint32_t ext_mask;
-    int flags;
-};
-
-struct SSEOpHelper_table7 {
-    union {
-        SSEFunc_0_eppi op1;
-        SSEFunc_0_epppi op2;
-        SSEFunc_0_epppp op3;
-    } fn[2];
-    uint32_t ext_mask;
-    int flags;
-};
-
-#define gen_helper_special_xmm NULL
-
-#define OP(name, op, flags, ext, mmx_name) \
-    {{{.op =3D mmx_name}, {.op =3D gen_helper_ ## name ## _xmm} }, \
-        CPUID_EXT_ ## ext, flags}
-#define BINARY_OP_MMX(name, ext) \
-    OP(name, op2, SSE_OPF_MMX, ext, gen_helper_ ## name ## _mmx)
-#define BINARY_OP(name, ext, flags) \
-    OP(name, op2, flags, ext, NULL)
-#define UNARY_OP_MMX(name, ext) \
-    OP(name, op1, SSE_OPF_V0 | SSE_OPF_MMX, ext, gen_helper_ ## name ## _m=
mx)
-#define UNARY_OP(name, ext, flags) \
-    OP(name, op1, SSE_OPF_V0 | flags, ext, NULL)
-#define BLENDV_OP(name, ext, flags) OP(name, op3, SSE_OPF_BLENDV, ext, NUL=
L)
-#define CMP_OP(name, ext) OP(name, op1, SSE_OPF_CMP | SSE_OPF_V0, ext, NUL=
L)
-#define SPECIAL_OP(ext) OP(special, op1, SSE_OPF_SPECIAL, ext, NULL)
-
-/* prefix [66] 0f 38 */
-static const struct SSEOpHelper_table6 sse_op_table6[256] =3D {
-    [0x00] =3D BINARY_OP_MMX(pshufb, SSSE3),
-    [0x01] =3D BINARY_OP_MMX(phaddw, SSSE3),
-    [0x02] =3D BINARY_OP_MMX(phaddd, SSSE3),
-    [0x03] =3D BINARY_OP_MMX(phaddsw, SSSE3),
-    [0x04] =3D BINARY_OP_MMX(pmaddubsw, SSSE3),
-    [0x05] =3D BINARY_OP_MMX(phsubw, SSSE3),
-    [0x06] =3D BINARY_OP_MMX(phsubd, SSSE3),
-    [0x07] =3D BINARY_OP_MMX(phsubsw, SSSE3),
-    [0x08] =3D BINARY_OP_MMX(psignb, SSSE3),
-    [0x09] =3D BINARY_OP_MMX(psignw, SSSE3),
-    [0x0a] =3D BINARY_OP_MMX(psignd, SSSE3),
-    [0x0b] =3D BINARY_OP_MMX(pmulhrsw, SSSE3),
-    [0x10] =3D BLENDV_OP(pblendvb, SSE41, SSE_OPF_MMX),
-    [0x14] =3D BLENDV_OP(blendvps, SSE41, 0),
-    [0x15] =3D BLENDV_OP(blendvpd, SSE41, 0),
-    [0x17] =3D CMP_OP(ptest, SSE41),
-    [0x1c] =3D UNARY_OP_MMX(pabsb, SSSE3),
-    [0x1d] =3D UNARY_OP_MMX(pabsw, SSSE3),
-    [0x1e] =3D UNARY_OP_MMX(pabsd, SSSE3),
-    [0x20] =3D UNARY_OP(pmovsxbw, SSE41, SSE_OPF_MMX),
-    [0x21] =3D UNARY_OP(pmovsxbd, SSE41, SSE_OPF_MMX),
-    [0x22] =3D UNARY_OP(pmovsxbq, SSE41, SSE_OPF_MMX),
-    [0x23] =3D UNARY_OP(pmovsxwd, SSE41, SSE_OPF_MMX),
-    [0x24] =3D UNARY_OP(pmovsxwq, SSE41, SSE_OPF_MMX),
-    [0x25] =3D UNARY_OP(pmovsxdq, SSE41, SSE_OPF_MMX),
-    [0x28] =3D BINARY_OP(pmuldq, SSE41, SSE_OPF_MMX),
-    [0x29] =3D BINARY_OP(pcmpeqq, SSE41, SSE_OPF_MMX),
-    [0x2a] =3D SPECIAL_OP(SSE41), /* movntdqa */
-    [0x2b] =3D BINARY_OP(packusdw, SSE41, SSE_OPF_MMX),
-    [0x30] =3D UNARY_OP(pmovzxbw, SSE41, SSE_OPF_MMX),
-    [0x31] =3D UNARY_OP(pmovzxbd, SSE41, SSE_OPF_MMX),
-    [0x32] =3D UNARY_OP(pmovzxbq, SSE41, SSE_OPF_MMX),
-    [0x33] =3D UNARY_OP(pmovzxwd, SSE41, SSE_OPF_MMX),
-    [0x34] =3D UNARY_OP(pmovzxwq, SSE41, SSE_OPF_MMX),
-    [0x35] =3D UNARY_OP(pmovzxdq, SSE41, SSE_OPF_MMX),
-    [0x37] =3D BINARY_OP(pcmpgtq, SSE41, SSE_OPF_MMX),
-    [0x38] =3D BINARY_OP(pminsb, SSE41, SSE_OPF_MMX),
-    [0x39] =3D BINARY_OP(pminsd, SSE41, SSE_OPF_MMX),
-    [0x3a] =3D BINARY_OP(pminuw, SSE41, SSE_OPF_MMX),
-    [0x3b] =3D BINARY_OP(pminud, SSE41, SSE_OPF_MMX),
-    [0x3c] =3D BINARY_OP(pmaxsb, SSE41, SSE_OPF_MMX),
-    [0x3d] =3D BINARY_OP(pmaxsd, SSE41, SSE_OPF_MMX),
-    [0x3e] =3D BINARY_OP(pmaxuw, SSE41, SSE_OPF_MMX),
-    [0x3f] =3D BINARY_OP(pmaxud, SSE41, SSE_OPF_MMX),
-    [0x40] =3D BINARY_OP(pmulld, SSE41, SSE_OPF_MMX),
-    [0x41] =3D UNARY_OP(phminposuw, SSE41, 0),
-    [0xdb] =3D UNARY_OP(aesimc, AES, 0),
-    [0xdc] =3D BINARY_OP(aesenc, AES, 0),
-    [0xdd] =3D BINARY_OP(aesenclast, AES, 0),
-    [0xde] =3D BINARY_OP(aesdec, AES, 0),
-    [0xdf] =3D BINARY_OP(aesdeclast, AES, 0),
-};
-
-/* prefix [66] 0f 3a */
-static const struct SSEOpHelper_table7 sse_op_table7[256] =3D {
-    [0x08] =3D UNARY_OP(roundps, SSE41, 0),
-    [0x09] =3D UNARY_OP(roundpd, SSE41, 0),
-    [0x0a] =3D BINARY_OP(roundss, SSE41, SSE_OPF_SCALAR),
-    [0x0b] =3D BINARY_OP(roundsd, SSE41, SSE_OPF_SCALAR),
-    [0x0c] =3D BINARY_OP(blendps, SSE41, 0),
-    [0x0d] =3D BINARY_OP(blendpd, SSE41, 0),
-    [0x0e] =3D BINARY_OP(pblendw, SSE41, SSE_OPF_MMX),
-    [0x0f] =3D BINARY_OP_MMX(palignr, SSSE3),
-    [0x14] =3D SPECIAL_OP(SSE41), /* pextrb */
-    [0x15] =3D SPECIAL_OP(SSE41), /* pextrw */
-    [0x16] =3D SPECIAL_OP(SSE41), /* pextrd/pextrq */
-    [0x17] =3D SPECIAL_OP(SSE41), /* extractps */
-    [0x20] =3D SPECIAL_OP(SSE41), /* pinsrb */
-    [0x21] =3D SPECIAL_OP(SSE41), /* insertps */
-    [0x22] =3D SPECIAL_OP(SSE41), /* pinsrd/pinsrq */
-    [0x40] =3D BINARY_OP(dpps, SSE41, 0),
-    [0x41] =3D BINARY_OP(dppd, SSE41, 0),
-    [0x42] =3D BINARY_OP(mpsadbw, SSE41, SSE_OPF_MMX),
-    [0x44] =3D BINARY_OP(pclmulqdq, PCLMULQDQ, 0),
-    [0x60] =3D CMP_OP(pcmpestrm, SSE42),
-    [0x61] =3D CMP_OP(pcmpestri, SSE42),
-    [0x62] =3D CMP_OP(pcmpistrm, SSE42),
-    [0x63] =3D CMP_OP(pcmpistri, SSE42),
-    [0xdf] =3D UNARY_OP(aeskeygenassist, AES, 0),
-};
-
-#undef OP
-#undef BINARY_OP_MMX
-#undef BINARY_OP
-#undef UNARY_OP_MMX
-#undef UNARY_OP
-#undef BLENDV_OP
-#undef SPECIAL_OP
-
-/* VEX prefix not allowed */
-#define CHECK_NO_VEX(s) do { \
-    if (s->prefix & PREFIX_VEX) \
-        goto illegal_op; \
-    } while (0)
-
-static void gen_sse(CPUX86State *env, DisasContext *s, int b)
-{
-    int b1, op1_offset, op2_offset, is_xmm, val;
-    int modrm, mod, rm, reg;
-    int sse_op_flags;
-    SSEFuncs sse_op_fn;
-    const struct SSEOpHelper_table6 *op6;
-    const struct SSEOpHelper_table7 *op7;
-    MemOp ot;
-
-    b &=3D 0xff;
-    if (s->prefix & PREFIX_DATA)
-        b1 =3D 1;
-    else if (s->prefix & PREFIX_REPZ)
-        b1 =3D 2;
-    else if (s->prefix & PREFIX_REPNZ)
-        b1 =3D 3;
-    else
-        b1 =3D 0;
-    sse_op_flags =3D sse_op_table1[b].flags;
-    sse_op_fn =3D sse_op_table1[b].fn[b1];
-    if ((sse_op_flags & SSE_OPF_SPECIAL) =3D=3D 0
-            && !sse_op_fn.op1) {
-        goto unknown_op;
-    }
-    if ((b <=3D 0x5f && b >=3D 0x10) || b =3D=3D 0xc6 || b =3D=3D 0xc2) {
-        is_xmm =3D 1;
-    } else {
-        if (b1 =3D=3D 0) {
-            /* MMX case */
-            is_xmm =3D 0;
-        } else {
-            is_xmm =3D 1;
-        }
-    }
-    /* simple MMX/SSE operation */
-    if (s->flags & HF_TS_MASK) {
-        gen_exception(s, EXCP07_PREX);
-        return;
-    }
-    if (s->flags & HF_EM_MASK) {
-    illegal_op:
-        gen_illegal_opcode(s);
-        return;
-    }
-    if (is_xmm
-        && !(s->flags & HF_OSFXSR_MASK)
-        && (b !=3D 0x38 && b !=3D 0x3a)) {
-        goto unknown_op;
-    }
-    if (b =3D=3D 0x77) {
-        /* emms */
-        gen_helper_emms(cpu_env);
-        return;
-    }
-    /* prepare MMX state (XXX: optimize by storing fptt and fptags in
-       the static cpu state) */
-    if (!is_xmm) {
-        gen_helper_enter_mmx(cpu_env);
-    }
-
-    modrm =3D x86_ldub_code(env, s);
-    reg =3D ((modrm >> 3) & 7);
-    if (is_xmm) {
-        reg |=3D REX_R(s);
-    }
-    mod =3D (modrm >> 6) & 3;
-    if (sse_op_flags & SSE_OPF_SPECIAL) {
-        b |=3D (b1 << 8);
-        switch(b) {
-        case 0x0e7: /* movntq */
-            CHECK_NO_VEX(s);
-            if (mod =3D=3D 3) {
-                goto illegal_op;
-            }
-            gen_lea_modrm(env, s, modrm);
-            gen_stq_env_A0(s, offsetof(CPUX86State, fpregs[reg].mmx));
-            break;
-        case 0x1e7: /* movntdq */
-        case 0x02b: /* movntps */
-        case 0x12b: /* movntpd */
-            if (mod =3D=3D 3)
-                goto illegal_op;
-            gen_lea_modrm(env, s, modrm);
-            gen_sto_env_A0(s, XMM_OFFSET(reg), true);
-            break;
-        case 0x3f0: /* lddqu */
-            if (mod =3D=3D 3)
-                goto illegal_op;
-            gen_lea_modrm(env, s, modrm);
-            gen_ldo_env_A0(s, XMM_OFFSET(reg), true);
-            break;
-        case 0x22b: /* movntss */
-        case 0x32b: /* movntsd */
-            if (mod =3D=3D 3)
-                goto illegal_op;
-            gen_lea_modrm(env, s, modrm);
-            if (b1 & 1) {
-                gen_stq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                tcg_gen_ld32u_tl(s->T0, cpu_env, offsetof(CPUX86State,
-                    xmm_regs[reg].ZMM_L(0)));
-                gen_op_st_v(s, MO_32, s->T0, s->A0);
-            }
-            break;
-        case 0x6e: /* movd mm, ea */
-            CHECK_NO_VEX(s);
-#ifdef TARGET_X86_64
-            if (s->dflag =3D=3D MO_64) {
-                gen_ldst_modrm(env, s, modrm, MO_64, OR_TMP0, 0);
-                tcg_gen_st_tl(s->T0, cpu_env,
-                              offsetof(CPUX86State, fpregs[reg].mmx));
-            } else
-#endif
-            {
-                gen_ldst_modrm(env, s, modrm, MO_32, OR_TMP0, 0);
-                tcg_gen_addi_ptr(s->ptr0, cpu_env,
-                                 offsetof(CPUX86State,fpregs[reg].mmx));
-                tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
-                gen_helper_movl_mm_T0_mmx(s->ptr0, s->tmp2_i32);
-            }
-            break;
-        case 0x16e: /* movd xmm, ea */
-#ifdef TARGET_X86_64
-            if (s->dflag =3D=3D MO_64) {
-                gen_ldst_modrm(env, s, modrm, MO_64, OR_TMP0, 0);
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, ZMM_OFFSET(reg));
-                gen_helper_movq_mm_T0_xmm(s->ptr0, s->T0);
-            } else
-#endif
-            {
-                gen_ldst_modrm(env, s, modrm, MO_32, OR_TMP0, 0);
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, ZMM_OFFSET(reg));
-                tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
-                gen_helper_movl_mm_T0_xmm(s->ptr0, s->tmp2_i32);
-            }
-            break;
-        case 0x6f: /* movq mm, ea */
-            CHECK_NO_VEX(s);
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldq_env_A0(s, offsetof(CPUX86State, fpregs[reg].mmx));
-            } else {
-                rm =3D (modrm & 7);
-                tcg_gen_ld_i64(s->tmp1_i64, cpu_env,
-                               offsetof(CPUX86State,fpregs[rm].mmx));
-                tcg_gen_st_i64(s->tmp1_i64, cpu_env,
-                               offsetof(CPUX86State,fpregs[reg].mmx));
-            }
-            break;
-        case 0x010: /* movups */
-        case 0x110: /* movupd */
-        case 0x028: /* movaps */
-        case 0x128: /* movapd */
-        case 0x16f: /* movdqa xmm, ea */
-        case 0x26f: /* movdqu xmm, ea */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, XMM_OFFSET(reg),
-                               /* movaps, movapd, movdqa */
-                               b =3D=3D 0x028 || b =3D=3D 0x128 || b =3D=
=3D 0x16f);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movo(s, XMM_OFFSET(reg), XMM_OFFSET(rm));
-            }
-            break;
-        case 0x210: /* movss xmm, ea */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_op_ld_v(s, MO_32, s->T0, s->A0);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_regs[reg].ZMM_L(=
0)));
-                tcg_gen_movi_tl(s->T0, 0);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_regs[reg].ZMM_L(=
1)));
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_regs[reg].ZMM_L(=
2)));
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_regs[reg].ZMM_L(=
3)));
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                tcg_gen_ld_i32(s->tmp2_i32, cpu_env,
-                               offsetof(CPUX86State, xmm_regs[rm].ZMM_L(0)=
));
-                tcg_gen_st_i32(s->tmp2_i32, cpu_env,
-                               offsetof(CPUX86State, xmm_regs[reg].ZMM_L(0=
)));
-            }
-            break;
-        case 0x310: /* movsd xmm, ea */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-                tcg_gen_movi_tl(s->T0, 0);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_regs[reg].ZMM_L(=
2)));
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_regs[reg].ZMM_L(=
3)));
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(0=
)),
-                            offsetof(CPUX86State, xmm_regs[rm].ZMM_Q(0)));
-            }
-            break;
-        case 0x012: /* movlps */
-        case 0x112: /* movlpd */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                /* movhlps */
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(0=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_Q(1)));
-            }
-            break;
-        case 0x212: /* movsldup */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, XMM_OFFSET(reg), true);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(0=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_L(0)));
-                gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(2=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_L(2)));
-            }
-            gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(1)),
-                        offsetof(CPUX86State,xmm_regs[reg].ZMM_L(0)));
-            gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(3)),
-                        offsetof(CPUX86State,xmm_regs[reg].ZMM_L(2)));
-            break;
-        case 0x312: /* movddup */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(0=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_Q(0)));
-            }
-            gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(1)),
-                        offsetof(CPUX86State,xmm_regs[reg].ZMM_Q(0)));
-            break;
-        case 0x016: /* movhps */
-        case 0x116: /* movhpd */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(1)));
-            } else {
-                /* movlhps */
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(1=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_Q(0)));
-            }
-            break;
-        case 0x216: /* movshdup */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, XMM_OFFSET(reg), true);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(1=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_L(1)));
-                gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(3=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_L(3)));
-            }
-            gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(0)),
-                        offsetof(CPUX86State,xmm_regs[reg].ZMM_L(1)));
-            gen_op_movl(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_L(2)),
-                        offsetof(CPUX86State,xmm_regs[reg].ZMM_L(3)));
-            break;
-        case 0x178:
-        case 0x378:
-            CHECK_NO_VEX(s);
-            {
-                int bit_index, field_length;
-
-                if (b1 =3D=3D 1 && reg !=3D 0)
-                    goto illegal_op;
-                field_length =3D x86_ldub_code(env, s) & 0x3F;
-                bit_index =3D x86_ldub_code(env, s) & 0x3F;
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, ZMM_OFFSET(reg));
-                if (b1 =3D=3D 1)
-                    gen_helper_extrq_i(cpu_env, s->ptr0,
-                                       tcg_const_i32(bit_index),
-                                       tcg_const_i32(field_length));
-                else {
-                    if (mod !=3D 3) {
-                        gen_lea_modrm(env, s, modrm);
-                        op2_offset =3D offsetof(CPUX86State, xmm_t0);
-                        gen_ldq_env_A0(s, offsetof(CPUX86State, xmm_t0.ZMM=
_D(0)));
-                    } else {
-                        rm =3D (modrm & 7) | REX_B(s);
-                        op2_offset =3D ZMM_OFFSET(rm);
-                    }
-                    tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                    gen_helper_insertq_i(cpu_env, s->ptr0, s->ptr1,
-                                         tcg_const_i32(bit_index),
-                                         tcg_const_i32(field_length));
-                }
-            }
-            break;
-        case 0x7e: /* movd ea, mm */
-            CHECK_NO_VEX(s);
-#ifdef TARGET_X86_64
-            if (s->dflag =3D=3D MO_64) {
-                tcg_gen_ld_i64(s->T0, cpu_env,
-                               offsetof(CPUX86State,fpregs[reg].mmx));
-                gen_ldst_modrm(env, s, modrm, MO_64, OR_TMP0, 1);
-            } else
-#endif
-            {
-                tcg_gen_ld32u_tl(s->T0, cpu_env,
-                                 offsetof(CPUX86State,fpregs[reg].mmx.MMX_=
L(0)));
-                gen_ldst_modrm(env, s, modrm, MO_32, OR_TMP0, 1);
-            }
-            break;
-        case 0x17e: /* movd ea, xmm */
-#ifdef TARGET_X86_64
-            if (s->dflag =3D=3D MO_64) {
-                tcg_gen_ld_i64(s->T0, cpu_env,
-                               offsetof(CPUX86State,xmm_regs[reg].ZMM_Q(0)=
));
-                gen_ldst_modrm(env, s, modrm, MO_64, OR_TMP0, 1);
-            } else
-#endif
-            {
-                tcg_gen_ld32u_tl(s->T0, cpu_env,
-                                 offsetof(CPUX86State,xmm_regs[reg].ZMM_L(=
0)));
-                gen_ldst_modrm(env, s, modrm, MO_32, OR_TMP0, 1);
-            }
-            break;
-        case 0x27e: /* movq xmm, ea */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_ldq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(0=
)),
-                            offsetof(CPUX86State,xmm_regs[rm].ZMM_Q(0)));
-            }
-            gen_op_movq_env_0(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q=
(1)));
-            break;
-        case 0x7f: /* movq ea, mm */
-            CHECK_NO_VEX(s);
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_stq_env_A0(s, offsetof(CPUX86State, fpregs[reg].mmx));
-            } else {
-                rm =3D (modrm & 7);
-                gen_op_movq(s, offsetof(CPUX86State, fpregs[rm].mmx),
-                            offsetof(CPUX86State,fpregs[reg].mmx));
-            }
-            break;
-        case 0x011: /* movups */
-        case 0x111: /* movupd */
-        case 0x029: /* movaps */
-        case 0x129: /* movapd */
-        case 0x17f: /* movdqa ea, xmm */
-        case 0x27f: /* movdqu ea, xmm */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_sto_env_A0(s, XMM_OFFSET(reg),
-                               /* movaps, movapd, movdqa */
-                               b =3D=3D 0x029 || b =3D=3D 0x129 || b =3D=
=3D 0x17f);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movo(s, XMM_OFFSET(rm), XMM_OFFSET(reg));
-            }
-            break;
-        case 0x211: /* movss ea, xmm */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                tcg_gen_ld32u_tl(s->T0, cpu_env,
-                                 offsetof(CPUX86State, xmm_regs[reg].ZMM_L=
(0)));
-                gen_op_st_v(s, MO_32, s->T0, s->A0);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movl(s, offsetof(CPUX86State, xmm_regs[rm].ZMM_L(0)=
),
-                            offsetof(CPUX86State,xmm_regs[reg].ZMM_L(0)));
-            }
-            break;
-        case 0x311: /* movsd ea, xmm */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_stq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[rm].ZMM_Q(0)=
),
-                            offsetof(CPUX86State,xmm_regs[reg].ZMM_Q(0)));
-            }
-            break;
-        case 0x013: /* movlps */
-        case 0x113: /* movlpd */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_stq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                goto illegal_op;
-            }
-            break;
-        case 0x017: /* movhps */
-        case 0x117: /* movhpd */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_stq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(1)));
-            } else {
-                goto illegal_op;
-            }
-            break;
-        case 0x71: /* shift mm, im */
-        case 0x72:
-        case 0x73:
-        case 0x171: /* shift xmm, im */
-        case 0x172:
-        case 0x173:
-            val =3D x86_ldub_code(env, s);
-            if (is_xmm) {
-                tcg_gen_movi_tl(s->T0, val);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_t0.ZMM_L(0)));
-                tcg_gen_movi_tl(s->T0, 0);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, xmm_t0.ZMM_L(1)));
-                op1_offset =3D offsetof(CPUX86State,xmm_t0);
-            } else {
-                CHECK_NO_VEX(s);
-                tcg_gen_movi_tl(s->T0, val);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, mmx_t0.MMX_L(0)));
-                tcg_gen_movi_tl(s->T0, 0);
-                tcg_gen_st32_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State, mmx_t0.MMX_L(1)));
-                op1_offset =3D offsetof(CPUX86State,mmx_t0);
-            }
-            assert(b1 < 2);
-            SSEFunc_0_eppp fn =3D sse_op_table2[((b - 1) & 3) * 8 +
-                                       (((modrm >> 3)) & 7)][b1];
-            if (!fn) {
-                goto unknown_op;
-            }
-            if (is_xmm) {
-                rm =3D (modrm & 7) | REX_B(s);
-                op2_offset =3D ZMM_OFFSET(rm);
-            } else {
-                rm =3D (modrm & 7);
-                op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
-            }
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, op2_offset);
-            tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-            tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
-            fn(cpu_env, s->ptr0, s->ptr1, s->ptr2);
-            break;
-        case 0x050: /* movmskps */
-            rm =3D (modrm & 7) | REX_B(s);
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, ZMM_OFFSET(rm));
-            gen_helper_movmskps_xmm(s->tmp2_i32, cpu_env, s->ptr0);
-            tcg_gen_extu_i32_tl(cpu_regs[reg], s->tmp2_i32);
-            break;
-        case 0x150: /* movmskpd */
-            rm =3D (modrm & 7) | REX_B(s);
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, ZMM_OFFSET(rm));
-            gen_helper_movmskpd_xmm(s->tmp2_i32, cpu_env, s->ptr0);
-            tcg_gen_extu_i32_tl(cpu_regs[reg], s->tmp2_i32);
-            break;
-        case 0x02a: /* cvtpi2ps */
-        case 0x12a: /* cvtpi2pd */
-            CHECK_NO_VEX(s);
-            gen_helper_enter_mmx(cpu_env);
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                op2_offset =3D offsetof(CPUX86State,mmx_t0);
-                gen_ldq_env_A0(s, op2_offset);
-            } else {
-                rm =3D (modrm & 7);
-                op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
-            }
-            op1_offset =3D ZMM_OFFSET(reg);
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-            tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-            switch(b >> 8) {
-            case 0x0:
-                gen_helper_cvtpi2ps(cpu_env, s->ptr0, s->ptr1);
-                break;
-            default:
-            case 0x1:
-                gen_helper_cvtpi2pd(cpu_env, s->ptr0, s->ptr1);
-                break;
-            }
-            break;
-        case 0x22a: /* cvtsi2ss */
-        case 0x32a: /* cvtsi2sd */
-            ot =3D mo_64_32(s->dflag);
-            gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-            op1_offset =3D ZMM_OFFSET(reg);
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-            if (ot =3D=3D MO_32) {
-                SSEFunc_0_epi sse_fn_epi =3D sse_op_table3ai[(b >> 8) & 1];
-                tcg_gen_trunc_tl_i32(s->tmp2_i32, s->T0);
-                sse_fn_epi(cpu_env, s->ptr0, s->tmp2_i32);
-            } else {
-#ifdef TARGET_X86_64
-                SSEFunc_0_epl sse_fn_epl =3D sse_op_table3aq[(b >> 8) & 1];
-                sse_fn_epl(cpu_env, s->ptr0, s->T0);
-#else
-                goto illegal_op;
-#endif
-            }
-            break;
-        case 0x02c: /* cvttps2pi */
-        case 0x12c: /* cvttpd2pi */
-        case 0x02d: /* cvtps2pi */
-        case 0x12d: /* cvtpd2pi */
-            CHECK_NO_VEX(s);
-            gen_helper_enter_mmx(cpu_env);
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                op2_offset =3D offsetof(CPUX86State, xmm_t0.ZMM_X(0));
-                /* FIXME: should be 64-bit access if b1 =3D=3D 0.  */
-                gen_ldo_env_A0(s, op2_offset, !!b1);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                op2_offset =3D ZMM_OFFSET(rm);
-            }
-            op1_offset =3D offsetof(CPUX86State,fpregs[reg & 7].mmx);
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-            tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-            switch(b) {
-            case 0x02c:
-                gen_helper_cvttps2pi(cpu_env, s->ptr0, s->ptr1);
-                break;
-            case 0x12c:
-                gen_helper_cvttpd2pi(cpu_env, s->ptr0, s->ptr1);
-                break;
-            case 0x02d:
-                gen_helper_cvtps2pi(cpu_env, s->ptr0, s->ptr1);
-                break;
-            case 0x12d:
-                gen_helper_cvtpd2pi(cpu_env, s->ptr0, s->ptr1);
-                break;
-            }
-            break;
-        case 0x22c: /* cvttss2si */
-        case 0x32c: /* cvttsd2si */
-        case 0x22d: /* cvtss2si */
-        case 0x32d: /* cvtsd2si */
-            ot =3D mo_64_32(s->dflag);
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                if ((b >> 8) & 1) {
-                    gen_ldq_env_A0(s, offsetof(CPUX86State, xmm_t0.ZMM_Q(0=
)));
-                } else {
-                    gen_op_ld_v(s, MO_32, s->T0, s->A0);
-                    tcg_gen_st32_tl(s->T0, cpu_env,
-                                    offsetof(CPUX86State, xmm_t0.ZMM_L(0))=
);
-                }
-                op2_offset =3D offsetof(CPUX86State,xmm_t0);
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                op2_offset =3D ZMM_OFFSET(rm);
-            }
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, op2_offset);
-            if (ot =3D=3D MO_32) {
-                SSEFunc_i_ep sse_fn_i_ep =3D
-                    sse_op_table3bi[((b >> 7) & 2) | (b & 1)];
-                sse_fn_i_ep(s->tmp2_i32, cpu_env, s->ptr0);
-                tcg_gen_extu_i32_tl(s->T0, s->tmp2_i32);
-            } else {
-#ifdef TARGET_X86_64
-                SSEFunc_l_ep sse_fn_l_ep =3D
-                    sse_op_table3bq[((b >> 7) & 2) | (b & 1)];
-                sse_fn_l_ep(s->T0, cpu_env, s->ptr0);
-#else
-                goto illegal_op;
-#endif
-            }
-            gen_op_mov_reg_v(s, ot, reg, s->T0);
-            break;
-        case 0xc4: /* pinsrw */
-        case 0x1c4:
-            s->rip_offset =3D 1;
-            gen_ldst_modrm(env, s, modrm, MO_16, OR_TMP0, 0);
-            val =3D x86_ldub_code(env, s);
-            if (b1) {
-                val &=3D 7;
-                tcg_gen_st16_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State,xmm_regs[reg].ZMM_W(v=
al)));
-            } else {
-                CHECK_NO_VEX(s);
-                val &=3D 3;
-                tcg_gen_st16_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State,fpregs[reg].mmx.MMX_W=
(val)));
-            }
-            break;
-        case 0xc5: /* pextrw */
-        case 0x1c5:
-            if (mod !=3D 3)
-                goto illegal_op;
-            ot =3D mo_64_32(s->dflag);
-            val =3D x86_ldub_code(env, s);
-            if (b1) {
-                val &=3D 7;
-                rm =3D (modrm & 7) | REX_B(s);
-                tcg_gen_ld16u_tl(s->T0, cpu_env,
-                                 offsetof(CPUX86State,xmm_regs[rm].ZMM_W(v=
al)));
-            } else {
-                val &=3D 3;
-                rm =3D (modrm & 7);
-                tcg_gen_ld16u_tl(s->T0, cpu_env,
-                                offsetof(CPUX86State,fpregs[rm].mmx.MMX_W(=
val)));
-            }
-            reg =3D ((modrm >> 3) & 7) | REX_R(s);
-            gen_op_mov_reg_v(s, ot, reg, s->T0);
-            break;
-        case 0x1d6: /* movq ea, xmm */
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                gen_stq_env_A0(s, offsetof(CPUX86State,
-                                           xmm_regs[reg].ZMM_Q(0)));
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                gen_op_movq(s, offsetof(CPUX86State, xmm_regs[rm].ZMM_Q(0)=
),
-                            offsetof(CPUX86State,xmm_regs[reg].ZMM_Q(0)));
-                gen_op_movq_env_0(s,
-                                  offsetof(CPUX86State, xmm_regs[rm].ZMM_Q=
(1)));
-            }
-            break;
-        case 0x2d6: /* movq2dq */
-            CHECK_NO_VEX(s);
-            gen_helper_enter_mmx(cpu_env);
-            rm =3D (modrm & 7);
-            gen_op_movq(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q(0)),
-                        offsetof(CPUX86State,fpregs[rm].mmx));
-            gen_op_movq_env_0(s, offsetof(CPUX86State, xmm_regs[reg].ZMM_Q=
(1)));
-            break;
-        case 0x3d6: /* movdq2q */
-            CHECK_NO_VEX(s);
-            gen_helper_enter_mmx(cpu_env);
-            rm =3D (modrm & 7) | REX_B(s);
-            gen_op_movq(s, offsetof(CPUX86State, fpregs[reg & 7].mmx),
-                        offsetof(CPUX86State,xmm_regs[rm].ZMM_Q(0)));
-            break;
-        case 0xd7: /* pmovmskb */
-        case 0x1d7:
-            if (mod !=3D 3)
-                goto illegal_op;
-            if (b1) {
-                rm =3D (modrm & 7) | REX_B(s);
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, ZMM_OFFSET(rm));
-                gen_helper_pmovmskb_xmm(s->tmp2_i32, cpu_env, s->ptr0);
-            } else {
-                CHECK_NO_VEX(s);
-                rm =3D (modrm & 7);
-                tcg_gen_addi_ptr(s->ptr0, cpu_env,
-                                 offsetof(CPUX86State, fpregs[rm].mmx));
-                gen_helper_pmovmskb_mmx(s->tmp2_i32, cpu_env, s->ptr0);
-            }
-            reg =3D ((modrm >> 3) & 7) | REX_R(s);
-            tcg_gen_extu_i32_tl(cpu_regs[reg], s->tmp2_i32);
-            break;
-
-        case 0x138:
-        case 0x038:
-            b =3D modrm;
-            if ((b & 0xf0) =3D=3D 0xf0) {
-                goto do_0f_38_fx;
-            }
-            modrm =3D x86_ldub_code(env, s);
-            rm =3D modrm & 7;
-            reg =3D ((modrm >> 3) & 7) | REX_R(s);
-            mod =3D (modrm >> 6) & 3;
-
-            assert(b1 < 2);
-            op6 =3D &sse_op_table6[b];
-            if (op6->ext_mask =3D=3D 0) {
-                goto unknown_op;
-            }
-            if (!(s->cpuid_ext_features & op6->ext_mask)) {
-                goto illegal_op;
-            }
-
-            if (b1) {
-                op1_offset =3D ZMM_OFFSET(reg);
-                if (mod =3D=3D 3) {
-                    op2_offset =3D ZMM_OFFSET(rm | REX_B(s));
-                } else {
-                    op2_offset =3D offsetof(CPUX86State,xmm_t0);
-                    gen_lea_modrm(env, s, modrm);
-                    switch (b) {
-                    case 0x20: case 0x30: /* pmovsxbw, pmovzxbw */
-                    case 0x23: case 0x33: /* pmovsxwd, pmovzxwd */
-                    case 0x25: case 0x35: /* pmovsxdq, pmovzxdq */
-                        gen_ldq_env_A0(s, op2_offset +
-                                        offsetof(ZMMReg, ZMM_Q(0)));
-                        break;
-                    case 0x21: case 0x31: /* pmovsxbd, pmovzxbd */
-                    case 0x24: case 0x34: /* pmovsxwq, pmovzxwq */
-                        tcg_gen_qemu_ld_i32(s->tmp2_i32, s->A0,
-                                            s->mem_index, MO_LEUL);
-                        tcg_gen_st_i32(s->tmp2_i32, cpu_env, op2_offset +
-                                        offsetof(ZMMReg, ZMM_L(0)));
-                        break;
-                    case 0x22: case 0x32: /* pmovsxbq, pmovzxbq */
-                        tcg_gen_qemu_ld_tl(s->tmp0, s->A0,
-                                           s->mem_index, MO_LEUW);
-                        tcg_gen_st16_tl(s->tmp0, cpu_env, op2_offset +
-                                        offsetof(ZMMReg, ZMM_W(0)));
-                        break;
-                    case 0x2a:            /* movntdqa */
-                        gen_ldo_env_A0(s, op1_offset + offsetof(ZMMReg, ZM=
M_X(0)), true);
-                        return;
-                    default:
-                        gen_ldo_env_A0(s, op2_offset + offsetof(ZMMReg, ZM=
M_X(0)), true);
-                    }
-                }
-                if (!op6->fn[b1].op1) {
-                    goto illegal_op;
-                }
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-                tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                if (op6->flags & SSE_OPF_V0) {
-                    op6->fn[b1].op1(cpu_env, s->ptr0, s->ptr1);
-                } else {
-                    tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
-                    if (op6->flags & SSE_OPF_BLENDV) {
-                        TCGv_ptr mask =3D tcg_temp_new_ptr();
-                        tcg_gen_addi_ptr(mask, cpu_env, ZMM_OFFSET(0));
-                        op6->fn[b1].op3(cpu_env, s->ptr0, s->ptr2, s->ptr1,
-                                       mask);
-                        tcg_temp_free_ptr(mask);
-                    } else {
-                        SSEFunc_0_eppp fn =3D op6->fn[b1].op2;
-                        fn(cpu_env, s->ptr0, s->ptr2, s->ptr1);
-                    }
-                }
-            } else {
-                CHECK_NO_VEX(s);
-                if ((op6->flags & SSE_OPF_MMX) =3D=3D 0) {
-                    goto unknown_op;
-                }
-                op1_offset =3D offsetof(CPUX86State,fpregs[reg].mmx);
-                if (mod =3D=3D 3) {
-                    op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
-                } else {
-                    op2_offset =3D offsetof(CPUX86State,mmx_t0);
-                    gen_lea_modrm(env, s, modrm);
-                    gen_ldq_env_A0(s, op2_offset);
-                }
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-                tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                if (op6->flags & SSE_OPF_V0) {
-                    op6->fn[0].op1(cpu_env, s->ptr0, s->ptr1);
-                } else {
-                    op6->fn[0].op2(cpu_env, s->ptr0, s->ptr0, s->ptr1);
-                }
-            }
-
-            if (op6->flags & SSE_OPF_CMP) {
-                set_cc_op(s, CC_OP_EFLAGS);
-            }
-            break;
-
-        case 0x238:
-        case 0x338:
-        do_0f_38_fx:
-            /* Various integer extensions at 0f 38 f[0-f].  */
-            b =3D modrm | (b1 << 8);
-            modrm =3D x86_ldub_code(env, s);
-            reg =3D ((modrm >> 3) & 7) | REX_R(s);
-
-            switch (b) {
-            case 0x3f0: /* crc32 Gd,Eb */
-            case 0x3f1: /* crc32 Gd,Ey */
-            do_crc32:
-                CHECK_NO_VEX(s);
-                if (!(s->cpuid_ext_features & CPUID_EXT_SSE42)) {
-                    goto illegal_op;
-                }
-                if ((b & 0xff) =3D=3D 0xf0) {
-                    ot =3D MO_8;
-                } else if (s->dflag !=3D MO_64) {
-                    ot =3D (s->prefix & PREFIX_DATA ? MO_16 : MO_32);
-                } else {
-                    ot =3D MO_64;
-                }
-
-                tcg_gen_trunc_tl_i32(s->tmp2_i32, cpu_regs[reg]);
-                gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-                gen_helper_crc32(s->T0, s->tmp2_i32,
-                                 s->T0, tcg_const_i32(8 << ot));
-
-                ot =3D mo_64_32(s->dflag);
-                gen_op_mov_reg_v(s, ot, reg, s->T0);
-                break;
-
-            case 0x1f0: /* crc32 or movbe */
-            case 0x1f1:
-                CHECK_NO_VEX(s);
-                /* For these insns, the f3 prefix is supposed to have prio=
rity
-                   over the 66 prefix, but that's not what we implement ab=
ove
-                   setting b1.  */
-                if (s->prefix & PREFIX_REPNZ) {
-                    goto do_crc32;
-                }
-                /* FALLTHRU */
-            case 0x0f0: /* movbe Gy,My */
-            case 0x0f1: /* movbe My,Gy */
-                CHECK_NO_VEX(s);
-                if (!(s->cpuid_ext_features & CPUID_EXT_MOVBE)) {
-                    goto illegal_op;
-                }
-                if (s->dflag !=3D MO_64) {
-                    ot =3D (s->prefix & PREFIX_DATA ? MO_16 : MO_32);
-                } else {
-                    ot =3D MO_64;
-                }
-
-                gen_lea_modrm(env, s, modrm);
-                if ((b & 1) =3D=3D 0) {
-                    tcg_gen_qemu_ld_tl(s->T0, s->A0,
-                                       s->mem_index, ot | MO_BE);
-                    gen_op_mov_reg_v(s, ot, reg, s->T0);
-                } else {
-                    tcg_gen_qemu_st_tl(cpu_regs[reg], s->A0,
-                                       s->mem_index, ot | MO_BE);
-                }
-                break;
-            case 0x1f6: /* adcx Gy, Ey */
-            case 0x2f6: /* adox Gy, Ey */
-                CHECK_NO_VEX(s);
-                if (!(s->cpuid_7_0_ebx_features & CPUID_7_0_EBX_ADX)) {
-                    goto illegal_op;
-                } else {
-                    TCGv carry_in, carry_out, zero;
-                    int end_op;
-
-                    ot =3D mo_64_32(s->dflag);
-                    gen_ldst_modrm(env, s, modrm, ot, OR_TMP0, 0);
-
-                    /* Re-use the carry-out from a previous round.  */
-                    carry_in =3D NULL;
-                    carry_out =3D (b =3D=3D 0x1f6 ? cpu_cc_dst : cpu_cc_sr=
c2);
-                    switch (s->cc_op) {
-                    case CC_OP_ADCX:
-                        if (b =3D=3D 0x1f6) {
-                            carry_in =3D cpu_cc_dst;
-                            end_op =3D CC_OP_ADCX;
-                        } else {
-                            end_op =3D CC_OP_ADCOX;
-                        }
-                        break;
-                    case CC_OP_ADOX:
-                        if (b =3D=3D 0x1f6) {
-                            end_op =3D CC_OP_ADCOX;
-                        } else {
-                            carry_in =3D cpu_cc_src2;
-                            end_op =3D CC_OP_ADOX;
-                        }
-                        break;
-                    case CC_OP_ADCOX:
-                        end_op =3D CC_OP_ADCOX;
-                        carry_in =3D carry_out;
-                        break;
-                    default:
-                        end_op =3D (b =3D=3D 0x1f6 ? CC_OP_ADCX : CC_OP_AD=
OX);
-                        break;
-                    }
-                    /* If we can't reuse carry-out, get it out of EFLAGS. =
 */
-                    if (!carry_in) {
-                        if (s->cc_op !=3D CC_OP_ADCX && s->cc_op !=3D CC_O=
P_ADOX) {
-                            gen_compute_eflags(s);
-                        }
-                        carry_in =3D s->tmp0;
-                        tcg_gen_extract_tl(carry_in, cpu_cc_src,
-                                           ctz32(b =3D=3D 0x1f6 ? CC_C : C=
C_O), 1);
-                    }
-
-                    switch (ot) {
-#ifdef TARGET_X86_64
-                    case MO_32:
-                        /* If we know TL is 64-bit, and we want a 32-bit
-                           result, just do everything in 64-bit arithmetic=
.  */
-                        tcg_gen_ext32u_i64(cpu_regs[reg], cpu_regs[reg]);
-                        tcg_gen_ext32u_i64(s->T0, s->T0);
-                        tcg_gen_add_i64(s->T0, s->T0, cpu_regs[reg]);
-                        tcg_gen_add_i64(s->T0, s->T0, carry_in);
-                        tcg_gen_ext32u_i64(cpu_regs[reg], s->T0);
-                        tcg_gen_shri_i64(carry_out, s->T0, 32);
-                        break;
-#endif
-                    default:
-                        /* Otherwise compute the carry-out in two steps.  =
*/
-                        zero =3D tcg_const_tl(0);
-                        tcg_gen_add2_tl(s->T0, carry_out,
-                                        s->T0, zero,
-                                        carry_in, zero);
-                        tcg_gen_add2_tl(cpu_regs[reg], carry_out,
-                                        cpu_regs[reg], carry_out,
-                                        s->T0, zero);
-                        tcg_temp_free(zero);
-                        break;
-                    }
-                    set_cc_op(s, end_op);
-                }
-                break;
-
-            }
-            break;
-
-        case 0x03a:
-        case 0x13a:
-            b =3D modrm;
-            modrm =3D x86_ldub_code(env, s);
-            rm =3D modrm & 7;
-            reg =3D ((modrm >> 3) & 7) | REX_R(s);
-            mod =3D (modrm >> 6) & 3;
-
-            assert(b1 < 2);
-            op7 =3D &sse_op_table7[b];
-            if (op7->ext_mask =3D=3D 0) {
-                goto unknown_op;
-            }
-            if (!(s->cpuid_ext_features & op7->ext_mask)) {
-                goto illegal_op;
-            }
-
-            s->rip_offset =3D 1;
-
-            if (op7->flags & SSE_OPF_SPECIAL) {
-                /* None of the "special" ops are valid on mmx registers */
-                if (b1 =3D=3D 0) {
-                    goto illegal_op;
-                }
-                ot =3D mo_64_32(s->dflag);
-                rm =3D (modrm & 7) | REX_B(s);
-                if (mod !=3D 3)
-                    gen_lea_modrm(env, s, modrm);
-                reg =3D ((modrm >> 3) & 7) | REX_R(s);
-                val =3D x86_ldub_code(env, s);
-                switch (b) {
-                case 0x14: /* pextrb */
-                    tcg_gen_ld8u_tl(s->T0, cpu_env, offsetof(CPUX86State,
-                                            xmm_regs[reg].ZMM_B(val & 15))=
);
-                    if (mod =3D=3D 3) {
-                        gen_op_mov_reg_v(s, ot, rm, s->T0);
-                    } else {
-                        tcg_gen_qemu_st_tl(s->T0, s->A0,
-                                           s->mem_index, MO_UB);
-                    }
-                    break;
-                case 0x15: /* pextrw */
-                    tcg_gen_ld16u_tl(s->T0, cpu_env, offsetof(CPUX86State,
-                                            xmm_regs[reg].ZMM_W(val & 7)));
-                    if (mod =3D=3D 3) {
-                        gen_op_mov_reg_v(s, ot, rm, s->T0);
-                    } else {
-                        tcg_gen_qemu_st_tl(s->T0, s->A0,
-                                           s->mem_index, MO_LEUW);
-                    }
-                    break;
-                case 0x16:
-                    if (ot =3D=3D MO_32) { /* pextrd */
-                        tcg_gen_ld_i32(s->tmp2_i32, cpu_env,
-                                        offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_L(val & =
3)));
-                        if (mod =3D=3D 3) {
-                            tcg_gen_extu_i32_tl(cpu_regs[rm], s->tmp2_i32);
-                        } else {
-                            tcg_gen_qemu_st_i32(s->tmp2_i32, s->A0,
-                                                s->mem_index, MO_LEUL);
-                        }
-                    } else { /* pextrq */
-#ifdef TARGET_X86_64
-                        tcg_gen_ld_i64(s->tmp1_i64, cpu_env,
-                                        offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_Q(val & =
1)));
-                        if (mod =3D=3D 3) {
-                            tcg_gen_mov_i64(cpu_regs[rm], s->tmp1_i64);
-                        } else {
-                            tcg_gen_qemu_st_i64(s->tmp1_i64, s->A0,
-                                                s->mem_index, MO_LEUQ);
-                        }
-#else
-                        goto illegal_op;
-#endif
-                    }
-                    break;
-                case 0x17: /* extractps */
-                    tcg_gen_ld32u_tl(s->T0, cpu_env, offsetof(CPUX86State,
-                                            xmm_regs[reg].ZMM_L(val & 3)));
-                    if (mod =3D=3D 3) {
-                        gen_op_mov_reg_v(s, ot, rm, s->T0);
-                    } else {
-                        tcg_gen_qemu_st_tl(s->T0, s->A0,
-                                           s->mem_index, MO_LEUL);
-                    }
-                    break;
-                case 0x20: /* pinsrb */
-                    if (mod =3D=3D 3) {
-                        gen_op_mov_v_reg(s, MO_32, s->T0, rm);
-                    } else {
-                        tcg_gen_qemu_ld_tl(s->T0, s->A0,
-                                           s->mem_index, MO_UB);
-                    }
-                    tcg_gen_st8_tl(s->T0, cpu_env, offsetof(CPUX86State,
-                                            xmm_regs[reg].ZMM_B(val & 15))=
);
-                    break;
-                case 0x21: /* insertps */
-                    if (mod =3D=3D 3) {
-                        tcg_gen_ld_i32(s->tmp2_i32, cpu_env,
-                                        offsetof(CPUX86State,xmm_regs[rm]
-                                                .ZMM_L((val >> 6) & 3)));
-                    } else {
-                        tcg_gen_qemu_ld_i32(s->tmp2_i32, s->A0,
-                                            s->mem_index, MO_LEUL);
-                    }
-                    tcg_gen_st_i32(s->tmp2_i32, cpu_env,
-                                    offsetof(CPUX86State,xmm_regs[reg]
-                                            .ZMM_L((val >> 4) & 3)));
-                    if ((val >> 0) & 1)
-                        tcg_gen_st_i32(tcg_const_i32(0 /*float32_zero*/),
-                                        cpu_env, offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_L(0)));
-                    if ((val >> 1) & 1)
-                        tcg_gen_st_i32(tcg_const_i32(0 /*float32_zero*/),
-                                        cpu_env, offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_L(1)));
-                    if ((val >> 2) & 1)
-                        tcg_gen_st_i32(tcg_const_i32(0 /*float32_zero*/),
-                                        cpu_env, offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_L(2)));
-                    if ((val >> 3) & 1)
-                        tcg_gen_st_i32(tcg_const_i32(0 /*float32_zero*/),
-                                        cpu_env, offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_L(3)));
-                    break;
-                case 0x22:
-                    if (ot =3D=3D MO_32) { /* pinsrd */
-                        if (mod =3D=3D 3) {
-                            tcg_gen_trunc_tl_i32(s->tmp2_i32, cpu_regs[rm]=
);
-                        } else {
-                            tcg_gen_qemu_ld_i32(s->tmp2_i32, s->A0,
-                                                s->mem_index, MO_LEUL);
-                        }
-                        tcg_gen_st_i32(s->tmp2_i32, cpu_env,
-                                        offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_L(val & =
3)));
-                    } else { /* pinsrq */
-#ifdef TARGET_X86_64
-                        if (mod =3D=3D 3) {
-                            gen_op_mov_v_reg(s, ot, s->tmp1_i64, rm);
-                        } else {
-                            tcg_gen_qemu_ld_i64(s->tmp1_i64, s->A0,
-                                                s->mem_index, MO_LEUQ);
-                        }
-                        tcg_gen_st_i64(s->tmp1_i64, cpu_env,
-                                        offsetof(CPUX86State,
-                                                xmm_regs[reg].ZMM_Q(val & =
1)));
-#else
-                        goto illegal_op;
-#endif
-                    }
-                    break;
-                }
-                return;
-            }
-
-            if (b1 =3D=3D 0) {
-                CHECK_NO_VEX(s);
-                /* MMX */
-                if ((op7->flags & SSE_OPF_MMX) =3D=3D 0) {
-                    goto illegal_op;
-                }
-                op1_offset =3D offsetof(CPUX86State,fpregs[reg].mmx);
-                if (mod =3D=3D 3) {
-                    op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
-                } else {
-                    op2_offset =3D offsetof(CPUX86State,mmx_t0);
-                    gen_lea_modrm(env, s, modrm);
-                    gen_ldq_env_A0(s, op2_offset);
-                }
-                val =3D x86_ldub_code(env, s);
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-                tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-
-                /* We only actually have one MMX instuction (palignr) */
-                assert(b =3D=3D 0x0f);
-
-                op7->fn[0].op2(cpu_env, s->ptr0, s->ptr0, s->ptr1,
-                               tcg_const_i32(val));
-                break;
-            }
-
-            /* SSE */
-            op1_offset =3D ZMM_OFFSET(reg);
-            if (mod =3D=3D 3) {
-                op2_offset =3D ZMM_OFFSET(rm | REX_B(s));
-            } else {
-                op2_offset =3D offsetof(CPUX86State, xmm_t0);
-                gen_lea_modrm(env, s, modrm);
-                gen_ldo_env_A0(s, op2_offset + offsetof(ZMMReg, ZMM_X(0)),=
 true);
-            }
-
-            val =3D x86_ldub_code(env, s);
-            if ((b & 0xfc) =3D=3D 0x60) { /* pcmpXstrX */
-                set_cc_op(s, CC_OP_EFLAGS);
-
-                if (s->dflag =3D=3D MO_64) {
-                    /* The helper must use entire 64-bit gp registers */
-                    val |=3D 1 << 8;
-                }
-            }
-
-            tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-            tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-            if (op7->flags & SSE_OPF_V0) {
-                op7->fn[b1].op1(cpu_env, s->ptr0, s->ptr1, tcg_const_i32(v=
al));
-            } else {
-                tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
-                op7->fn[b1].op2(cpu_env, s->ptr0, s->ptr2, s->ptr1,
-                               tcg_const_i32(val));
-            }
-            if (op7->flags & SSE_OPF_CMP) {
-                set_cc_op(s, CC_OP_EFLAGS);
-            }
-            break;
-
-        default:
-        unknown_op:
-            gen_unknown_opcode(env, s);
-            return;
-        }
-    } else {
-        /* generic MMX or SSE operation */
-        switch(b) {
-        case 0x70: /* pshufx insn */
-        case 0xc6: /* pshufx insn */
-        case 0xc2: /* compare insns */
-            s->rip_offset =3D 1;
-            break;
-        default:
-            break;
-        }
-        if (is_xmm) {
-            op1_offset =3D ZMM_OFFSET(reg);
-            if (mod !=3D 3) {
-                int sz =3D 4;
-
-                gen_lea_modrm(env, s, modrm);
-                op2_offset =3D offsetof(CPUX86State, xmm_t0);
-
-                if (sse_op_flags & SSE_OPF_SCALAR) {
-                    if (sse_op_flags & SSE_OPF_CMP) {
-                        /* ucomis[sd], comis[sd] */
-                        if (b1 =3D=3D 0) {
-                            sz =3D 2;
-                        } else {
-                            sz =3D 3;
-                        }
-                    } else {
-                        /* Most sse scalar operations.  */
-                        if (b1 =3D=3D 2) {
-                            sz =3D 2;
-                        } else if (b1 =3D=3D 3) {
-                            sz =3D 3;
-                        }
-                    }
-                }
-
-                switch (sz) {
-                case 2:
-                    /* 32 bit access */
-                    gen_op_ld_v(s, MO_32, s->T0, s->A0);
-                    tcg_gen_st32_tl(s->T0, cpu_env,
-                                    offsetof(CPUX86State, xmm_t0.ZMM_L(0))=
);
-                    break;
-                case 3:
-                    /* 64 bit access */
-                    gen_ldq_env_A0(s, offsetof(CPUX86State, xmm_t0.ZMM_D(0=
)));
-                    break;
-                default:
-                    /* 128 bit access */
-                    gen_ldo_env_A0(s, offsetof(CPUX86State, xmm_t0.ZMM_X(0=
)), true);
-                    break;
-                }
-            } else {
-                rm =3D (modrm & 7) | REX_B(s);
-                op2_offset =3D ZMM_OFFSET(rm);
-            }
-        } else {
-            CHECK_NO_VEX(s);
-            op1_offset =3D offsetof(CPUX86State,fpregs[reg].mmx);
-            if (mod !=3D 3) {
-                gen_lea_modrm(env, s, modrm);
-                op2_offset =3D offsetof(CPUX86State,mmx_t0);
-                gen_ldq_env_A0(s, op2_offset);
-            } else {
-                rm =3D (modrm & 7);
-                op2_offset =3D offsetof(CPUX86State,fpregs[rm].mmx);
-            }
-        }
-
-
-        tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-        tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-        if ((sse_op_flags & SSE_OPF_V0) &&
-            !((sse_op_flags & SSE_OPF_SCALAR) && b1 >=3D 2)) {
-            if (sse_op_flags & SSE_OPF_SHUF) {
-                val =3D x86_ldub_code(env, s);
-                sse_op_fn.op1i(s->ptr0, s->ptr1, tcg_const_i32(val));
-            } else if (b =3D=3D 0xf7) {
-                /* maskmov : we must prepare A0 */
-                if (mod !=3D 3) {
-                    goto illegal_op;
-                }
-                tcg_gen_mov_tl(s->A0, cpu_regs[R_EDI]);
-                gen_extu(s->aflag, s->A0);
-                gen_add_A0_ds_seg(s);
-
-                tcg_gen_addi_ptr(s->ptr0, cpu_env, op1_offset);
-                tcg_gen_addi_ptr(s->ptr1, cpu_env, op2_offset);
-                sse_op_fn.op1t(cpu_env, s->ptr0, s->ptr1, s->A0);
-                /* Does not write to the fist operand */
-                return;
-            } else {
-                sse_op_fn.op1(cpu_env, s->ptr0, s->ptr1);
-            }
-        } else {
-            tcg_gen_addi_ptr(s->ptr2, cpu_env, op1_offset);
-            if (sse_op_flags & SSE_OPF_SHUF) {
-                val =3D x86_ldub_code(env, s);
-                sse_op_fn.op2i(s->ptr0, s->ptr2, s->ptr1,
-                                   tcg_const_i32(val));
-            } else {
-                SSEFunc_0_eppp fn =3D sse_op_fn.op2;
-                if (b =3D=3D 0xc2) {
-                    /* compare insns */
-                    val =3D x86_ldub_code(env, s) & 7;
-                    fn =3D sse_op_table4[val][b1];
-                }
-                fn(cpu_env, s->ptr0, s->ptr2, s->ptr1);
-            }
-        }
-
-        if (sse_op_flags & SSE_OPF_CMP) {
-            set_cc_op(s, CC_OP_EFLAGS);
-        }
-    }
-}
-
 /* convert one instruction. s->base.is_jmp is set if the translation must
    be stopped. Return the next pc value */
 static bool disas_insn(DisasContext *s, CPUState *cpu)
@@ -4686,40 +2997,15 @@ static bool disas_insn(DisasContext *s, CPUState *c=
pu)
=20
     prefixes =3D 0;
=20
-    if (first) first =3D false, limit =3D getenv("LIMIT") ? atol(getenv("L=
IMIT")) : -1;
-    bool use_new =3D true;
-#ifdef CONFIG_USER_ONLY
-    use_new &=3D limit > 0;
-#endif
  next_byte:
     s->prefix =3D prefixes;
     b =3D x86_ldub_code(env, s);
     /* Collect prefixes.  */
     switch (b) {
     default:
-#ifndef CONFIG_USER_ONLY
-        use_new &=3D b <=3D limit;
-#endif
-        if (use_new && 0) {
-            disas_insn_new(s, cpu, b);
-            return s->pc;
-        }
         break;
     case 0x0f:
         b =3D x86_ldub_code(env, s) + 0x100;
-#ifndef CONFIG_USER_ONLY
-        use_new &=3D b <=3D limit;
-#endif
-        if (use_new &&
-            (b =3D=3D 0x138 || b =3D=3D 0x13a ||
-             (b >=3D 0x10e && b <=3D 0x117) ||
-             (b >=3D 0x128 && b <=3D 0x12f) ||
-             (b >=3D 0x150 && b <=3D 0x17f) ||
-             b =3D=3D 0x1c2 || (b >=3D 0x1c4 && b <=3D 0x1c6) ||
-             (b >=3D 0x1d0 && b <=3D 0x1ff))) {
-            disas_insn_new(s, cpu, b + 0x100);
-            return s->pc;
-        }
         break;
     case 0xf3:
         prefixes |=3D PREFIX_REPZ;
@@ -8441,7 +6727,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
=20
         set_cc_op(s, CC_OP_POPCNT);
         break;
-    case 0x110 ... 0x117:
+    case 0x10e ... 0x117:
     case 0x128 ... 0x12f:
     case 0x138 ... 0x13a:
     case 0x150 ... 0x179:
@@ -8449,7 +6735,7 @@ static bool disas_insn(DisasContext *s, CPUState *cpu)
     case 0x1c2:
     case 0x1c4 ... 0x1c6:
     case 0x1d0 ... 0x1fe:
-        gen_sse(env, s, b);
+        disas_insn_new(s, cpu, b);
         break;
     default:
         goto unknown_op;
@@ -8615,9 +6901,6 @@ static void i386_tr_init_disas_context(DisasContextBa=
se *dcbase, CPUState *cpu)
     dc->tmp2_i32 =3D tcg_temp_new_i32();
     dc->tmp3_i32 =3D tcg_temp_new_i32();
     dc->tmp4 =3D tcg_temp_new();
-    dc->ptr0 =3D tcg_temp_new_ptr();
-    dc->ptr1 =3D tcg_temp_new_ptr();
-    dc->ptr2 =3D tcg_temp_new_ptr();
     dc->cc_srcT =3D tcg_temp_local_new();
 }
=20
--=20
2.37.3