-
Đánh giá sai lầm: Giao thức đánh giá cho các vấn đề ngược đa phương thức
Pointwise Metrics Mislead: An Evaluation Protocol for Multimodal Inverse Problems
-
Từ dư đến lý do: Sự suy luận cơ chế hướng dẫn bởi LLM từ dữ liệu bảng
From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data
-
FIRMA: Mô hình vòng Fibonacci cho học liên bang bảo mật
FIRMA: FIbonacci Ring Model Aggregation for Privacy-preserving Federated Learning
-
Transcoders theo dõi nền tảng trực quan và ảo giác trong các mô hình ngôn ngữ hình ảnh
Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models
-
Xây dựng hệ thống đề xuất liên bang bảo mật cho thiết bị di động
Building a privacy-preserving Federated Recommender system for mobile devices
-
OpenAI, Grupo Folha và Grupo UOL công bố hợp tác nội dung chiến lược
OpenAI, Grupo Folha and Grupo UOL announce strategic content partnership
-
datasette 1.0a30
-
datasette-agent 0.1a4
-
datasette-fixtures 0.1a0
-
mukul975/Anthropic-Cybersecurity-Skills
-
presenton/presenton
-
NVlabs/LongLive
-
databricks-solutions/ai-dev-kit
-
pydantic/pydantic-ai
-
OpenPipe/ART
-
web-infra-dev/midscene
-
ItzCrazyKns/Vane
-
chenglou/pretext
-
linshenkx/prompt-optimizer
-
GoogleChrome/modern-web-guidance-src
-
CyberTimon/RapidRAW
-
Trích dẫn Armin Ronacher
Quoting Armin Ronacher
-
Mad House — Trò Chơi Máy Tính Rùng Rợn Của Usborne
Mad House — Usborne Creepy Computer Games
-
Về phần tử <dl>
On the
-
Danh sách đọc 05/23/26
Reading List 05/23/26
-
[AINews] Tất cả Model Labs giờ đây đều là Agent Labs
[AINews] All Model Labs are now Agent Labs
-
Đánh giá và cải thiện màn hình cho sự cố không phù hợp trong LLM
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
-
TO-Agents: Đường ống AI đa tác nhân cho tối ưu hóa topo hướng dẫn bởi sở thích
TO-Agents: A Multi-Agent AI Pipeline for Preference-Guided Topology Optimization
-
Hình dạng của lời chứng: Khung khổ có thể mở rộng cho so sánh lưu trữ lịch sử miệng
The Shape of Testimony: A Scalable Framework for Oral History Archive Comparison
-
MindLoom: Tạo mô thức suy nghĩ cho tổng hợp dữ liệu lý lẽ cấp biên giới
MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis
-
AOP-Wiki EMOD 3.0: Mở rộng mô hình dữ liệu và khung khổ đánh giá nội dung
AOP-Wiki EMOD 3.0: Data Model Expansions and Content Evaluation Framework for Using Agentic AI to Improve Integration between AOPs and New Approach Methodologies (NAMs)
-
Điều tra sự phù hợp khái niệm bằng cách sử dụng các thành viên thể loại không hợp lý
Investigating Concept Alignment Using Implausible Category Members
-
Tác động của việc sử dụng AI và tính thông tin đến sự phát triển kỹ năng trong lý lẽ logic
The Impact of AI Usage and Informativeness on Skill Development in Logical Reasoning
-
Các Cuộc Tấn Công Trong Không Gian Ẩn Để Tránh Từ Chối ở Mô Hình Ngôn Ngữ
Latent-space Attacks for Refusal Evasion in Language Models
-
AttuneBench: Bộ Đánh Giá Dựa Trên Hội Thoại Về Trí Tuệ Cảm Xúc của LLM
AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
-
SMDD-Bench: Liệu LLM Có Thể Giải Quyết Các Nhiệm Vụ Thiết Kế Thuốc Phân Tử Nhỏ Thực Tế?
SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?
-
Phương Pháp Lập Luận Nhân Quả Để Giải Thích Mô Hình Học Máy
A Causal Argumentation Method for Explainability of Machine Learning Models
-
AI Sycophancy Là Gì? Phân Loại và Khảo Sát Chuyên Gia Về Một Khái Niệm Phân Mảnh
What Counts as AI Sycophancy? A Taxonomy and Expert Survey of a Fragmented Construct
-
Trace2Skill: Tiến Hóa Kỹ Năng Hướng Dẫn Bởi Bộ Xác Minh Cho Các Tác Nhân EDA Dài Ngữ Cảnh
Trace2Skill: Verifier-Guided Skill Evolution for Long-Context EDA Agents
-
Căn Chỉnh An Toàn Ngầm Từ Sở Thích Cộng Đồng
Implicit Safety Alignment from Crowd Preferences
-
Biến Đổi Đối Chiếu Thời Gian Để Phát Hiện Tội Phạm Tài Chính
Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding
-
Dạy Mô Hình Ngôn Ngữ Dự Đoán Thành Công Nghiên Cứu Qua Đánh Giá Ý Tưởng Tương Đối
Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation
-
Sự Bất Khả Thi Trong Việc Gán Nhờ: Không Có Xếp Hạng Đặc Trưng Nào Trung Thực, Ổn Định Và Đầy Đủ Khi Có Đa Cộng Tuyến
The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity
-
Đừng Nén Các Đặc Trưng Của Bạn: Tại Sao CenterLoss Gây Hại Cho Phát Hiện OOD Và Đa Tỷ Lệ Mahalanobis Vượt Trội
Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins
-
Hiện tượng giảm kép trong nội suy bình phương tối thiểu trên dữ liệu bị nhiễm bẩn: Một nghiên cứu mô phỏng
Double descent for least-squares interpolation on contaminated data: A simulation study
-
HealthCraft: Môi Trường An Toàn Học Cường Độ Cho Y Học Cấp Cứu
HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine
-
Dự Đoán Hiệu Suất Của Chương Trình Biểu Tượng Và Prompt Dựa Trên Ví Dụ
Predicting Performance of Symbolic and Prompt Programs with Examples
-
Các Khung Điều Khiển Cho Việc Căn Chỉnh Thời Gian Suy Luận Trên Các Lộ Trình Thực Thi
Harnesses for Inference-Time Alignment over Execution Trajectories
-
Một Khung AutoML Dựa Trên Nhật Ký Có Thể Tái Lập Cho Tối Ưu Hóa Pipeline Diễn Giải Trong Dự Đoán Nguy Cơ Y Tế
A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction
-
DualOptim+: Kết Nối Trạng Thái Bộ Tối Ưu Chung Và Tách Rời Để Cải Thiện Việc 'Unlearning' Trong Mô Hình Ngôn Ngữ Lớn
DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models