3 1

Steven Dillmann

StevenDillmann

https://stevendillmann.github.io/

AI & ML interests

ai-for-science, foundation models, agentic ai, representation learning, simulation based inference

Recent Activity

updated a dataset about 13 hours ago

harborframework/terminal-bench-science-lfs

new activity 25 days ago

evaleval/EEE_datastore:[Submission] Terminal-Bench 2.0 leaderboard data (schema v0.2.2, eval_library=harbor)

new activity about 1 month ago

evaleval/EEE_datastore:[Submission] Terminal-Bench 2.0 leaderboard data (115 agent+model results)

View all activity

Organizations

updated a dataset about 13 hours ago

harborframework/terminal-bench-science-lfs

Viewer • Updated about 13 hours ago • 13 • 19

New activity in evaleval/EEE_datastore 25 days ago

[Submission] Terminal-Bench 2.0 leaderboard data (schema v0.2.2, eval_library=harbor)

#37 opened 25 days ago by

StevenDillmann

New activity in evaleval/EEE_datastore about 1 month ago

[Submission] Terminal-Bench 2.0 leaderboard data (115 agent+model results)

#27 opened about 1 month ago by

StevenDillmann

[Submission] Terminal-Bench 2.0 leaderboard data (115 agent+model results)

#28 opened about 1 month ago by

StevenDillmann

published a dataset about 2 months ago

harborframework/terminal-bench-science-lfs

Viewer • Updated about 13 hours ago • 13 • 19

upvoted a paper about 2 months ago

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Paper • 2602.12670 • Published Feb 13 • 59

updated 2 datasets 5 months ago

StevenDillmann/chandra_xray_eventfiles

Preview • Updated Nov 5, 2025 • 87

StevenDillmann/chandra_xray_eventfiles_v2

Viewer • Updated Oct 31, 2025 • 95.5k • 6

published a dataset 5 months ago

StevenDillmann/chandra_xray_eventfiles_v2

Viewer • Updated Oct 31, 2025 • 95.5k • 6

updated 11 datasets 6 months ago

mlfoundations-dev/swesmith-sandboxes

Viewer • Updated Oct 4, 2025 • 10 • 9

mlfoundations-dev/tulu-3-sft-personas-algebra-sandboxes-traces-terminus-2

Viewer • Updated Oct 4, 2025 • 9.95k • 8

mlfoundations-dev/tulu-3-sft-personas-math-grade-filtered-sandboxes-traces-terminus-2

Viewer • Updated Oct 4, 2025 • 9.29k • 9

Steven Dillmann

AI & ML interests

Recent Activity

Organizations

StevenDillmann's activity

[Submission] Terminal-Bench 2.0 leaderboard data (schema v0.2.2, eval_library=harbor)

[Submission] Terminal-Bench 2.0 leaderboard data (115 agent+model results)

[Submission] Terminal-Bench 2.0 leaderboard data (115 agent+model results)