-
"Bạn có nói dối?" Đánh giá bộ phát hiện lời nói dối qua quy mô mô hình và sinh vật mô hình xác thực niềm tin
"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
-
TrajGenAgent: Tác nhân LLM phân cấp để tạo ra chuỗi di chuyển của con người
TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation
-
Evoflux: Tiến hóa quy trình công cụ thực thi tại thời điểm suy luận cho các tác nhân gọn nhẹ
Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents
-
Từ AGI đến ASI
From AGI to ASI
-
Đánh giá tập trung vào triển khai: Dự đoán rủi ro từ chối truy vấn trong hệ thống LLM lâm sàng
Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System
-
Căn chỉnh định nghĩa trước khi căn chỉnh khả năng: Khung Design-Science để đánh giá tuyên bố về AGI
Definitional alignment before capability alignment: a Design-Science framework for adjudicating claims about AGI
-
Lý thuyết về lợi ích của Theory of Mind: Đặc tả hình thức cơ chế suy đoán tâm lý
The Theory of Mind Utility: Formal Specification of a Mentalizing Mechanism
-
Suy nghĩ lại đánh giá tâm lý học của LLM: Khi nào và tại sao tự khai báo dự đoán hành vi
Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior
-
Đánh giá các tác nhân AI cho các thách thức khoa học trên nhiều quy mô
Benchmarking AI Agents for Addressing Scientific Challenges Across Scales
-
Giảm độ phức tạp của mô hình Deep Learning cho phân tích EEG trên thiết bị đeo
Reducing the Complexity of Deep Learning Models for EEG Analysis on Wearable Devices
-
Từ các yếu tố rõ ràng đến ý định ngầm: Thư viện được định nghĩa trước cho suy luận hành vi có thể kiểm tra
From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference
-
Vị trí: Bộ nhớ rõ ràng của Hippocampal là nền tảng cho Trí tuệ Tổng quát Nhân tạo (AGI)
Position: Hippocampal Explicit Memory Is the Cornerstone for AGI
-
Liệu các tác nhân AI có thể tổng hợp kết luận khoa học?
Can AI Agents Synthesize Scientific Conclusions?
-
Biết khi nào để hỏi: Tự làm rõ cho các tác nhân ngôn ngữ phân cấp
Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents
-
Trọng tài tự động cho đàm phán con người: Giai đoạn tiền trọng tài thông qua đường ống LLM có cấu trúc
Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline
-
INFRAMIND: Điều phối đa tác nhân nhận thức về cơ sở hạ tầng
INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration
-
Dự đoán hành vi tương lai như một nhiệm vụ học tập
Forecasting Future Behavior as a Learning Task
-
Kỷ luật tìm kiếm cho các tác nhân nghiên cứu dài hạn
Search Discipline for Long-Horizon Research Agents
-
MoCA-Agent: Tác nhân mã thị trường cho lý luận tài chính và số
MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning
-
SkillJuror: Đo lường cách tổ chức kỹ năng tác nhân thay đổi hành vi thời gian chạy
SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior
-
HERO: Tự phân tích môi trường để cải thiện học tăng cường
HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation
-
Kiến trúc nhận thức trong học tăng cường
Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning
-
TouchThinker: Mở rộng lý luận cảm ứng đến thế giới mở
TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation
-
TreeSeeker: Tìm kiếm cây cấu trúc trong tìm kiếm sâu
TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search
-
Lung-R1: Mô hình ngôn ngữ lớn cho chẩn đoán bệnh phổi
Lung-R1: A Knowledge Graph-Guided LLM for Pulmonary Diagnostic Reasoning