-
Lấy mẫu song song: Khởi tạo truy vấn đa dạng cho tìm kiếm chủ động
Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search
-
Khi quy tắc học: Một tác nhân tự tiến hóa cho việc tìm kiếm vụ án pháp lý
When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval
-
SkillChain-Gym: Một điểm chuẩn cho kiểm soát sản xuất-hàng tồn kho với sự gián đoạn
SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions
-
Kiểm soát dự báo mô hình dựa trên kỹ năng cho chuỗi cung ứng sản xuất linh hoạt
Skill-Constrained Model Predictive Control for Resilient Manufacturing Supply Chains
-
Không có gì từ không có gì: Liệu một mô hình ngôn ngữ có thể khám phá ra 0?
Nothing from Something: Can a Language Model Discover 0?
-
Đo lường sự nhất quán trong推 lý logic của mô hình ngôn ngữ lớn thông qua不 chắc chắn cấu trúc
Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
-
MemTrace: Khám phá những gì độ chính xác cuối cùng bỏ lỡ trong bộ nhớ dài hạn
MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
-
SpeechDx: Một điểm chuẩn đa nhiệm cho trí tuệ nhân tạo ngôn ngữ lâm sàng
SpeechDx: A Multi-Task Benchmark for Clinical Speech AI
-
Mạng tác nhân tổng quát phân tán: Kiến trúc, cơ chế chính và nguyên mẫu
Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes
-
Hệ Thống Hỗ Trợ Ra Quyết Định Lâm Sàng Thông Minh Thông Qua Mô Phỏng Kép Số
Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation
-
Ưu Thế Của Nhà Cung Cấp Đã Thành Lập: Sự Thể Hiện Của Thiếu Hụt Nhãn Hiệu Và Sự Khai Thác Nhận Thức Trong Hệ Thống Khuyến Nghị LLM
Incumbent Advantage: Brand Bias and Cognitive Manipulation Dynamics in LLM Recommendation Systems
-
Chỉ Số Đồng Bệnh Học Được Học Máy
A Machine-Learned Comorbidity Index
-
MapSatisfyBench: Đánh Giá Các Đại Lý Bản Đồ Thông Qua Các Yếu Tố Quyết Định Ngầm Dựa Trên Hành Vi
MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors
-
Phân Tích Hành Vi Mô Hình Thông Qua Lộ Trình Của Đại Lý
Dissecting model behavior through agent trajectories
-
LLM Có Thể Là CEO? Đánh Giá Phân Bổ Nguồn Lực Chiến Lược Với Mô Phỏng Đại Lý Đa Vai Trò
Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation
-
Định Nghĩa Về Giải Thích Tốt Và Thách Thức Giải Thích Đầu Ra Của LLM
A Definition of Good Explanations and the Challenges Explaining LLM Outputs
-
Dr-DCI: Tăng Tốc Tương Tác Trực Tiếp Với Cơ Sở Dữ Liệu Thông Qua Mở Rộng Không Gian Làm Việc Động
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion
-
Mô hình Causal Cấu trúc Liên quan
Relational Structural Causal Models
-
Sự Tin tưởng Giữa Các Đại lý AI: Đo lường Hình thành, Phá vỡ và Phục hồi
Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems
-
PrologMCP: Giao diện Công cụ Prolog Tiêu chuẩn cho Đại lý LLM
PrologMCP: A Standardized Prolog Tool Interface for LLM Agents
-
Dự báo Thời gian Dòng có Tăng cường Tìm kiếm theo Nghĩa
Semantics-Enhanced Retrieval-Augmented Time Series Forecasting
-
AI Engram: Tìm kiếm Dấu vết Bộ nhớ trong Trí tuệ Nhân tạo
AI Engram: In Search of Memory Traces in Artificial Intelligence
-
Metric Match: Phương pháp Chọn Tập con để Đánh giá Độ tin cậy của LLM Judge
Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability
-
OSGuard: Bộ chuẩn mực An toàn cho Đại lý Sử dụng Máy tính
OSGuard: A Benchmark for Safety in Computer-Use Agents
-
Hợp nhất Không phải Là Một Kích cỡ Cho Tất cả: Cân bằng Đại diện Chéo Modal cho Mô hình Thời gian Sự kiện
Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling
-
Đại lý LLM An toàn Rủi ro cho Truy xuất Dữ liệu Địa không gian: Thiết kế và Đánh giá Đối thủ
Risk-Aware LLM Agents for Geospatial Data Retrieval: Design and Preliminary Adversarial Evaluation
-
Nợ Nhận thức: Trí tuệ Nhân tạo Là Đòn bẩy Trí tuệ và Động lực của Sự Dễ bị Tấn công Hệ thống
Cognitive Debt: AI as Intellectual Leverage and the Dynamics of Systemic Fragility
-
VGPT-RSI: Tiến bộ hình thức trong Giả thuyết Riemann
VGPT-RSI for RH-Adjacent Formal Progress: Boundary Certificates, Verified Finite Lagarias Inequalities, and Explicit Failure Localization
-
Khoa học dữ liệu có thể kiểm chứng: Giải quyết TSQA không đều
Towards Verifiable Agentic Data Science: Solving Irregular TSQA Via Tool-Grounded Reasoning
-
CONCORD: Tích hợp_sparse không đồng bộ cho RAG
CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation
-
Phương pháp Transformer dựa trên Học tăng cường sâu (DRL) để giải quyết vấn đề lịch trình mở
A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem
-
UP-NRPA: Phương pháp thích nghi chính sách cuộn lồng dựa trên chân dung người dùng cho hệ thống đối thoại định hướng mục tiêu
UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems
-
Lịch Sử Của Đồ Họa Trẻ Em Bẩn
History of the Muddy Children Puzzle
-
Orchestra-o1: Điều Hành Đại Diện Omnimodal
Orchestra-o1: Omnimodal Agent Orchestration
-
Sự Tiến Hóa Triplet Mở Mở Ra Nghiên Cứu Sâu
Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher
-
WorkBench Được Xem Xét Lại: Các Đại Diện Nơi Làm Việc Hai Năm Sau
WorkBench Revisited: Workplace Agents Two Years On
-
Từ Chối Ngoài Một Hướng: So Sánh Preliminary Của Diff-in-Means và INLP
Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP
-
YeasierAgent: Khu Vực Tương Tác Xã Hội Đại Diện Là Canvas Cho Sự Tạo Ra Ứng Dụng Đa Nền Tảng
YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications
-
TwinBI: Một Bản Sao Số Đại Diện Cho Tương Tác Hiệu Quả Với Bảng Điều Khiển Trí Tuệ Kinh Doanh
TwinBI: An Agentic Digital Twin for Efficient Augmented Interactions with Business Intelligence Dashboards
-
Khi Lựa Chọn Mẫu Gây Ra Sụp Đổ Mô Hình
When Sample Selection Bias Precipitates Model Collapse
-
Sự Nhận Thức Trí Tuệ Nhân Tạo Hay Sự Ứng Dụng Trí Tuệ Nhân Tạo?
AI Receptivity or AI Adoption Breadth? A Tool-Specific Reanalysis of the Lower-Literacy/Higher-Usage Link
-
MA-ProofBench: Đánh Giá Hai Tầng Của LLMs Cho Chứng Minh Định Lý Trong Phân Tích Toán Học
MA-ProofBench: A Two-Tiered Evaluation of LLMs for Theorem Proving in Mathematical Analysis
-
Poker Arena: Phân tích đa trục về lý luận chiến lược và bộ nhớ trong LLMs
Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs
-
Tính toán siêu chiều cho truy vấn cấu trúc trên dữ liệu bảng
Hyperdimensional computing for structured querying on tabular data embeddings
-
Tối thiểu hóa khả năng như một nguyên tắc an toàn: Cổng causal rủi ro cho các tác nhân LLM tối thiểu đặc quyền
Capability Minimization as a Safety Primitive: Risk-Aware Causal Gating for Least-Privilege LLM Agents
-
ToolSense: Khung Chẩn Đoán Để Kiểm Toán Kiến Thức Công Cụ Tham Số Trong LLM
ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs
-
Arbor: Tìm Kiếm Cây Như Lớp Nhận Thức Cho Tác Nhân Tự Hành
Arbor: Tree Search as a Cognition Layer for Autonomous Agents
-
Hỗ Trợ Quyết Định Chiến Lược Cho Tác Nhân AI
Strategic Decision Support for AI Agents
-
Pythagoras-Prover: Nâng Cao Chứng Minh Hình Thức Hiệu Quả Thông Qua Chuẩn Hóa Lean Tăng Cường
Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation
-
PersonaDrive: Các tác nhân VLA tăng cường truy xuất kiểu con người cho mô phỏng lái xe vòng khép kín
PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation