From nobody Wed Oct  8 18:13:30 2025
Received: from relay.hostedemail.com (smtprelay0010.hostedemail.com
 [216.40.44.10])
	(using TLSv1.2 with cipher ECDHE-RSA-AES256-GCM-SHA384 (256/256 bits))
	(No client certificate requested)
	by smtp.subspace.kernel.org (Postfix) with ESMTPS id 4BCB325C70D;
	Wed, 25 Jun 2025 23:16:02 +0000 (UTC)
Authentication-Results: smtp.subspace.kernel.org;
 arc=none smtp.client-ip=216.40.44.10
ARC-Seal: i=1; a=rsa-sha256; d=subspace.kernel.org; s=arc-20240116;
	t=1750893367; cv=none;
 b=X3oBcWm0eOKvGZbfTOczeQupsrjoOXUiUAb6fuWodq86w1okxP2XJe7piWQGq7g85lgk+B0ndqy14UQ9eeeUxxFaVrJh6GHOTIO4/AY9YeDJkE7j3U1ghBFA9J5mT+rP7HcEBipWnxowd8if3S3wLGJBwgXPgNMqa2M05FoaGJs=
ARC-Message-Signature: i=1; a=rsa-sha256; d=subspace.kernel.org;
	s=arc-20240116; t=1750893367; c=relaxed/simple;
	bh=+rTgKLCFvOxraEgbiTblmR5PULxVGsrOtOzjisFoLHM=;
	h=Message-ID:Date:From:To:Cc:Subject:References:MIME-Version:
	 Content-Type;
 b=XqbclviwzPlJgf+v+jwDVcIpUaC53xtSUx/yNP8hylyy2JzOBY4LUIoozGW079yS1E7iOCH7ka6j5nJxm11V4fIzWLu40Z1S7KY4j5pMUIfXSvBwXbE8Y/tBAEg4cbE3JSvdp9DFdAkpM0mDhwv5wpIMaAYIo7eFb3cBAmkgojA=
ARC-Authentication-Results: i=1; smtp.subspace.kernel.org;
 dmarc=none (p=none dis=none) header.from=goodmis.org;
 spf=pass smtp.mailfrom=goodmis.org; arc=none smtp.client-ip=216.40.44.10
Authentication-Results: smtp.subspace.kernel.org;
 dmarc=none (p=none dis=none) header.from=goodmis.org
Authentication-Results: smtp.subspace.kernel.org;
 spf=pass smtp.mailfrom=goodmis.org
Received: from omf09.hostedemail.com (a10.router.float.18 [10.200.18.1])
	by unirelay02.hostedemail.com (Postfix) with ESMTP id D2E56121B1F;
	Wed, 25 Jun 2025 23:16:00 +0000 (UTC)
Received: from [HIDDEN] (Authenticated sender: nevets@goodmis.org) by
 omf09.hostedemail.com (Postfix) with ESMTPA id 938462002B;
	Wed, 25 Jun 2025 23:15:57 +0000 (UTC)
Received: from rostedt by gandalf with local (Exim 4.98.2)
	(envelope-from <rostedt@goodmis.org>)
	id 1uUZLq-000000044iE-3TIm;
	Wed, 25 Jun 2025 19:16:22 -0400
Message-ID: <20250625231622.678033124@goodmis.org>
User-Agent: quilt/0.68
Date: Wed, 25 Jun 2025 19:15:47 -0400
From: Steven Rostedt <rostedt@goodmis.org>
To: linux-kernel@vger.kernel.org,
 linux-trace-kernel@vger.kernel.org,
 bpf@vger.kernel.org,
 x86@kernel.org
Cc: Masami Hiramatsu <mhiramat@kernel.org>,
 Mathieu Desnoyers <mathieu.desnoyers@efficios.com>,
 Josh Poimboeuf <jpoimboe@kernel.org>,
 Peter Zijlstra <peterz@infradead.org>,
 Ingo Molnar <mingo@kernel.org>,
 Jiri Olsa <jolsa@kernel.org>,
 Namhyung Kim <namhyung@kernel.org>,
 Thomas Gleixner <tglx@linutronix.de>,
 Andrii Nakryiko <andrii@kernel.org>,
 Indu Bhagat <indu.bhagat@oracle.com>,
 "Jose E. Marchesi" <jemarch@gnu.org>,
 Beau Belgrave <beaub@linux.microsoft.com>,
 Jens Remus <jremus@linux.ibm.com>,
 Linus Torvalds <torvalds@linux-foundation.org>,
 Andrew Morton <akpm@linux-foundation.org>,
 Jens Axboe <axboe@kernel.dk>
Subject: [PATCH v11 06/11] perf: Support deferred user callchains
References: <20250625231541.584226205@goodmis.org>
Precedence: bulk
X-Mailing-List: linux-kernel@vger.kernel.org
List-Id: <linux-kernel.vger.kernel.org>
List-Subscribe: <mailto:linux-kernel+subscribe@vger.kernel.org>
List-Unsubscribe: <mailto:linux-kernel+unsubscribe@vger.kernel.org>
MIME-Version: 1.0
X-Rspamd-Queue-Id: 938462002B
X-Stat-Signature: 3r6zrztoiymeae89i375k9gjs75kmdws
X-Rspamd-Server: rspamout06
X-Session-Marker: 6E657665747340676F6F646D69732E6F7267
X-Session-ID: U2FsdGVkX19qoiGWJfzHzRpsb7YC7Q0R6B0FciYy0vo=
X-HE-Tag: 1750893357-688581
X-HE-Meta: 
 U2FsdGVkX19wK/uCceLPj+sKLU2Msk/dRsKQG7ZUm8HiU5W3teVOW6SKXRg4+Pm6nndx2XdmeLLO785cCHre4H3VGxLo6dz+tvCBx1XRSySYkqMT8PkbNeksjPxkRoX1liNLSQmkTQr0YJ4uZsEv7eda+RcL3EXD4HlomM2j8WsFvw+zlEv/R/zPpfymen5eJlWLOQS+K+AWG0dFMJSp8N1UPDSmFssg6FNgZxXzRIu5nxneyIQhWp6hz1tvkPGQ7NNBLJq8LvKLzLbg9tYMld4Kt9N6Z4V+f2+EEK8xQB8u+djd/eFgd7SR/26KRd5bRXIi3Koab4OS0/9UQhEV22/KykKJuLxPH4iL6xJ1MAk8gyMju/0HP2Y6uBtgogVgJtF6w7TEPild0lBYG9TZbTeqi9E1nfNpko4Bv7JkC8BUlmK0Yt+AL7kENmDnMwNw1Uo6+sgrKHHbexP70GQ6yTIhm/8jvEga/fgfHAXH2Rs=
Content-Transfer-Encoding: quoted-printable
Content-Type: text/plain; charset="utf-8"

From: Josh Poimboeuf <jpoimboe@kernel.org>

Use the new unwind_deferred_trace() interface (if available) to defer
unwinds to task context.  This will allow the use of .sframe (when it
becomes available) and also prevents duplicate userspace unwinds.

Suggested-by: Peter Zijlstra <peterz@infradead.org>
Co-developed-by: Steven Rostedt (Google) <rostedt@goodmis.org>
Signed-off-by: Josh Poimboeuf <jpoimboe@kernel.org>
Signed-off-by: Steven Rostedt (Google) <rostedt@goodmis.org>
---
 include/linux/perf_event.h            |   7 +-
 include/uapi/linux/perf_event.h       |  19 ++-
 kernel/bpf/stackmap.c                 |   4 +-
 kernel/events/callchain.c             |  11 +-
 kernel/events/core.c                  | 168 +++++++++++++++++++++++++-
 tools/include/uapi/linux/perf_event.h |  19 ++-
 6 files changed, 220 insertions(+), 8 deletions(-)

diff --git a/include/linux/perf_event.h b/include/linux/perf_event.h
index 54e0d31afcad..c7d474391e51 100644
--- a/include/linux/perf_event.h
+++ b/include/linux/perf_event.h
@@ -53,6 +53,7 @@
 #include <linux/security.h>
 #include <linux/static_call.h>
 #include <linux/lockdep.h>
+#include <linux/unwind_deferred.h>
=20
 #include <asm/local.h>
=20
@@ -880,6 +881,10 @@ struct perf_event {
 	struct callback_head		pending_task;
 	unsigned int			pending_work;
=20
+	unsigned int			pending_unwind_callback;
+	struct callback_head		pending_unwind_work;
+	struct rcuwait			pending_unwind_wait;
+
 	atomic_t			event_limit;
=20
 	/* address range filters */
@@ -1720,7 +1725,7 @@ extern void perf_callchain_user(struct perf_callchain=
_entry_ctx *entry, struct p
 extern void perf_callchain_kernel(struct perf_callchain_entry_ctx *entry, =
struct pt_regs *regs);
 extern struct perf_callchain_entry *
 get_perf_callchain(struct pt_regs *regs, bool kernel, bool user,
-		   u32 max_stack, bool crosstask, bool add_mark);
+		   u32 max_stack, bool crosstask, bool add_mark, bool defer_user);
 extern int get_callchain_buffers(int max_stack);
 extern void put_callchain_buffers(void);
 extern struct perf_callchain_entry *get_callchain_entry(int *rctx);
diff --git a/include/uapi/linux/perf_event.h b/include/uapi/linux/perf_even=
t.h
index 78a362b80027..184740d1e79d 100644
--- a/include/uapi/linux/perf_event.h
+++ b/include/uapi/linux/perf_event.h
@@ -463,7 +463,8 @@ struct perf_event_attr {
 				inherit_thread :  1, /* children only inherit if cloned with CLONE_THR=
EAD */
 				remove_on_exec :  1, /* event is removed from task on exec */
 				sigtrap        :  1, /* send synchronous SIGTRAP on event */
-				__reserved_1   : 26;
+				defer_callchain:  1, /* generate PERF_RECORD_CALLCHAIN_DEFERRED record=
s */
+				__reserved_1   : 25;
=20
 	union {
 		__u32		wakeup_events;	  /* wake up every n events */
@@ -1239,6 +1240,21 @@ enum perf_event_type {
 	 */
 	PERF_RECORD_AUX_OUTPUT_HW_ID		=3D 21,
=20
+	/*
+	 * This user callchain capture was deferred until shortly before
+	 * returning to user space.  Previous samples would have kernel
+	 * callchains only and they need to be stitched with this to make full
+	 * callchains.
+	 *
+	 * struct {
+	 *	struct perf_event_header	header;
+	 *	u64				nr;
+	 *	u64				ips[nr];
+	 *	struct sample_id		sample_id;
+	 * };
+	 */
+	PERF_RECORD_CALLCHAIN_DEFERRED		=3D 22,
+
 	PERF_RECORD_MAX,			/* non-ABI */
 };
=20
@@ -1269,6 +1285,7 @@ enum perf_callchain_context {
 	PERF_CONTEXT_HV				=3D (__u64)-32,
 	PERF_CONTEXT_KERNEL			=3D (__u64)-128,
 	PERF_CONTEXT_USER			=3D (__u64)-512,
+	PERF_CONTEXT_USER_DEFERRED		=3D (__u64)-640,
=20
 	PERF_CONTEXT_GUEST			=3D (__u64)-2048,
 	PERF_CONTEXT_GUEST_KERNEL		=3D (__u64)-2176,
diff --git a/kernel/bpf/stackmap.c b/kernel/bpf/stackmap.c
index ec3a57a5fba1..339f7cbbcf36 100644
--- a/kernel/bpf/stackmap.c
+++ b/kernel/bpf/stackmap.c
@@ -315,7 +315,7 @@ BPF_CALL_3(bpf_get_stackid, struct pt_regs *, regs, str=
uct bpf_map *, map,
 		max_depth =3D sysctl_perf_event_max_stack;
=20
 	trace =3D get_perf_callchain(regs, kernel, user, max_depth,
-				   false, false);
+				   false, false, false);
=20
 	if (unlikely(!trace))
 		/* couldn't fetch the stack trace */
@@ -452,7 +452,7 @@ static long __bpf_get_stack(struct pt_regs *regs, struc=
t task_struct *task,
 		trace =3D get_callchain_entry_for_task(task, max_depth);
 	else
 		trace =3D get_perf_callchain(regs, kernel, user, max_depth,
-					   crosstask, false);
+					   crosstask, false, false);
=20
 	if (unlikely(!trace) || trace->nr < skip) {
 		if (may_fault)
diff --git a/kernel/events/callchain.c b/kernel/events/callchain.c
index 16eb68f31810..b9080d86e4b3 100644
--- a/kernel/events/callchain.c
+++ b/kernel/events/callchain.c
@@ -218,7 +218,7 @@ static void fixup_uretprobe_trampoline_entries(struct p=
erf_callchain_entry *entr
=20
 struct perf_callchain_entry *
 get_perf_callchain(struct pt_regs *regs, bool kernel, bool user,
-		   u32 max_stack, bool crosstask, bool add_mark)
+		   u32 max_stack, bool crosstask, bool add_mark, bool defer_user)
 {
 	struct perf_callchain_entry *entry;
 	struct perf_callchain_entry_ctx ctx;
@@ -251,6 +251,15 @@ get_perf_callchain(struct pt_regs *regs, bool kernel, =
bool user,
 			regs =3D task_pt_regs(current);
 		}
=20
+		if (defer_user) {
+			/*
+			 * Foretell the coming of PERF_RECORD_CALLCHAIN_DEFERRED
+			 * which can be stitched to this one.
+			 */
+			perf_callchain_store_context(&ctx, PERF_CONTEXT_USER_DEFERRED);
+			goto exit_put;
+		}
+
 		if (add_mark)
 			perf_callchain_store_context(&ctx, PERF_CONTEXT_USER);
=20
diff --git a/kernel/events/core.c b/kernel/events/core.c
index 02ff31af3d8b..1bb76c39ccb1 100644
--- a/kernel/events/core.c
+++ b/kernel/events/core.c
@@ -5582,6 +5582,89 @@ static bool exclusive_event_installable(struct perf_=
event *event,
 	return true;
 }
=20
+static void perf_pending_unwind_sync(struct perf_event *event)
+{
+	might_sleep();
+
+	if (!event->pending_unwind_callback)
+		return;
+
+	/*
+	 * If the task is queued to the current task's queue, we
+	 * obviously can't wait for it to complete. Simply cancel it.
+	 */
+	if (task_work_cancel(current, &event->pending_unwind_work)) {
+		event->pending_unwind_callback =3D 0;
+		local_dec(&event->ctx->nr_no_switch_fast);
+		return;
+	}
+
+	/*
+	 * All accesses related to the event are within the same RCU section in
+	 * perf_event_callchain_deferred(). The RCU grace period before the
+	 * event is freed will make sure all those accesses are complete by then.
+	 */
+	rcuwait_wait_event(&event->pending_unwind_wait, !event->pending_unwind_ca=
llback, TASK_UNINTERRUPTIBLE);
+}
+
+struct perf_callchain_deferred_event {
+	struct perf_event_header	header;
+	u64				nr;
+	u64				ips[];
+};
+
+static void perf_event_callchain_deferred(struct callback_head *work)
+{
+	struct perf_event *event =3D container_of(work, struct perf_event, pendin=
g_unwind_work);
+	struct perf_callchain_deferred_event deferred_event;
+	u64 callchain_context =3D PERF_CONTEXT_USER;
+	struct unwind_stacktrace trace;
+	struct perf_output_handle handle;
+	struct perf_sample_data data;
+	u64 nr;
+
+	if (!event->pending_unwind_callback)
+		return;
+
+	if (unwind_deferred_trace(&trace) < 0)
+		goto out;
+
+	/*
+	 * All accesses to the event must belong to the same implicit RCU
+	 * read-side critical section as the ->pending_unwind_callback reset.
+	 * See comment in perf_pending_unwind_sync().
+	 */
+	guard(rcu)();
+
+	if (current->flags & PF_KTHREAD)
+		goto out;
+
+	nr =3D trace.nr + 1 ; /* '+1' =3D=3D callchain_context */
+
+	deferred_event.header.type =3D PERF_RECORD_CALLCHAIN_DEFERRED;
+	deferred_event.header.misc =3D PERF_RECORD_MISC_USER;
+	deferred_event.header.size =3D sizeof(deferred_event) + (nr * sizeof(u64)=
);
+
+	deferred_event.nr =3D nr;
+
+	perf_event_header__init_id(&deferred_event.header, &data, event);
+
+	if (perf_output_begin(&handle, &data, event, deferred_event.header.size))
+		goto out;
+
+	perf_output_put(&handle, deferred_event);
+	perf_output_put(&handle, callchain_context);
+	perf_output_copy(&handle, trace.entries, trace.nr * sizeof(u64));
+	perf_event__output_id_sample(event, &handle, &data);
+
+	perf_output_end(&handle);
+
+out:
+	event->pending_unwind_callback =3D 0;
+	local_dec(&event->ctx->nr_no_switch_fast);
+	rcuwait_wake_up(&event->pending_unwind_wait);
+}
+
 static void perf_free_addr_filters(struct perf_event *event);
=20
 /* vs perf_event_alloc() error */
@@ -5649,6 +5732,7 @@ static void _free_event(struct perf_event *event)
 {
 	irq_work_sync(&event->pending_irq);
 	irq_work_sync(&event->pending_disable_irq);
+	perf_pending_unwind_sync(event);
=20
 	unaccount_event(event);
=20
@@ -8162,6 +8246,65 @@ static u64 perf_get_page_size(unsigned long addr)
=20
 static struct perf_callchain_entry __empty_callchain =3D { .nr =3D 0, };
=20
+/* Returns the same as deferred_request() below */
+static int deferred_request_nmi(struct perf_event *event)
+{
+	struct callback_head *work =3D &event->pending_unwind_work;
+	int ret;
+
+	if (event->pending_unwind_callback)
+		return 1;
+
+	ret =3D task_work_add(current, work, TWA_NMI_CURRENT);
+	if (ret)
+		return ret;
+
+	event->pending_unwind_callback =3D 1;
+	return 0;
+}
+
+/*
+ * Returns:
+*     > 0 : if already queued.
+ *      0 : if it performed the queuing
+ *    < 0 : if it did not get queued.
+ */
+static int deferred_request(struct perf_event *event)
+{
+	struct callback_head *work =3D &event->pending_unwind_work;
+	int pending;
+	int ret;
+
+	/* Only defer for task events */
+	if (!event->ctx->task)
+		return -EINVAL;
+
+	if ((current->flags & PF_KTHREAD) || !user_mode(task_pt_regs(current)))
+		return -EINVAL;
+
+	if (in_nmi())
+		return deferred_request_nmi(event);
+
+	guard(irqsave)();
+
+	/* callback already pending? */
+	pending =3D READ_ONCE(event->pending_unwind_callback);
+	if (pending)
+		return 1;
+
+	/* Claim the work unless an NMI just now swooped in to do so. */
+	if (!try_cmpxchg(&event->pending_unwind_callback, &pending, 1))
+		return 1;
+
+	/* The work has been claimed, now schedule it. */
+	ret =3D task_work_add(current, work, TWA_RESUME);
+	if (WARN_ON_ONCE(ret)) {
+		WRITE_ONCE(event->pending_unwind_callback, 0);
+		return ret;
+	}
+	return 0;
+}
+
 struct perf_callchain_entry *
 perf_callchain(struct perf_event *event, struct pt_regs *regs)
 {
@@ -8172,6 +8315,8 @@ perf_callchain(struct perf_event *event, struct pt_re=
gs *regs)
 	bool crosstask =3D event->ctx->task && event->ctx->task !=3D current;
 	const u32 max_stack =3D event->attr.sample_max_stack;
 	struct perf_callchain_entry *callchain;
+	bool defer_user =3D IS_ENABLED(CONFIG_UNWIND_USER) && user &&
+			  event->attr.defer_callchain;
=20
 	if (!current->mm)
 		user =3D false;
@@ -8179,8 +8324,21 @@ perf_callchain(struct perf_event *event, struct pt_r=
egs *regs)
 	if (!kernel && !user)
 		return &__empty_callchain;
=20
-	callchain =3D get_perf_callchain(regs, kernel, user,
-				       max_stack, crosstask, true);
+	/* Disallow cross-task callchains. */
+	if (event->ctx->task && event->ctx->task !=3D current)
+		return &__empty_callchain;
+
+	if (defer_user) {
+		int ret =3D deferred_request(event);
+		if (!ret)
+			local_inc(&event->ctx->nr_no_switch_fast);
+		else if (ret < 0)
+			defer_user =3D false;
+	}
+
+	callchain =3D get_perf_callchain(regs, kernel, user, max_stack,
+				       crosstask, true, defer_user);
+
 	return callchain ?: &__empty_callchain;
 }
=20
@@ -12850,6 +13008,8 @@ perf_event_alloc(struct perf_event_attr *attr, int =
cpu,
 	event->pending_disable_irq =3D IRQ_WORK_INIT_HARD(perf_pending_disable);
 	init_task_work(&event->pending_task, perf_pending_task);
=20
+	rcuwait_init(&event->pending_unwind_wait);
+
 	mutex_init(&event->mmap_mutex);
 	raw_spin_lock_init(&event->addr_filters.lock);
=20
@@ -13018,6 +13178,10 @@ perf_event_alloc(struct perf_event_attr *attr, int=
 cpu,
 	if (err)
 		return ERR_PTR(err);
=20
+	if (event->attr.defer_callchain)
+		init_task_work(&event->pending_unwind_work,
+			       perf_event_callchain_deferred);
+
 	/* symmetric to unaccount_event() in _free_event() */
 	account_event(event);
=20
diff --git a/tools/include/uapi/linux/perf_event.h b/tools/include/uapi/lin=
ux/perf_event.h
index 78a362b80027..184740d1e79d 100644
--- a/tools/include/uapi/linux/perf_event.h
+++ b/tools/include/uapi/linux/perf_event.h
@@ -463,7 +463,8 @@ struct perf_event_attr {
 				inherit_thread :  1, /* children only inherit if cloned with CLONE_THR=
EAD */
 				remove_on_exec :  1, /* event is removed from task on exec */
 				sigtrap        :  1, /* send synchronous SIGTRAP on event */
-				__reserved_1   : 26;
+				defer_callchain:  1, /* generate PERF_RECORD_CALLCHAIN_DEFERRED record=
s */
+				__reserved_1   : 25;
=20
 	union {
 		__u32		wakeup_events;	  /* wake up every n events */
@@ -1239,6 +1240,21 @@ enum perf_event_type {
 	 */
 	PERF_RECORD_AUX_OUTPUT_HW_ID		=3D 21,
=20
+	/*
+	 * This user callchain capture was deferred until shortly before
+	 * returning to user space.  Previous samples would have kernel
+	 * callchains only and they need to be stitched with this to make full
+	 * callchains.
+	 *
+	 * struct {
+	 *	struct perf_event_header	header;
+	 *	u64				nr;
+	 *	u64				ips[nr];
+	 *	struct sample_id		sample_id;
+	 * };
+	 */
+	PERF_RECORD_CALLCHAIN_DEFERRED		=3D 22,
+
 	PERF_RECORD_MAX,			/* non-ABI */
 };
=20
@@ -1269,6 +1285,7 @@ enum perf_callchain_context {
 	PERF_CONTEXT_HV				=3D (__u64)-32,
 	PERF_CONTEXT_KERNEL			=3D (__u64)-128,
 	PERF_CONTEXT_USER			=3D (__u64)-512,
+	PERF_CONTEXT_USER_DEFERRED		=3D (__u64)-640,
=20
 	PERF_CONTEXT_GUEST			=3D (__u64)-2048,
 	PERF_CONTEXT_GUEST_KERNEL		=3D (__u64)-2176,
--=20
2.47.2