CausalLM - Datasets

Choose

Categories:

December 14, 2025

Retrievatar: A Multimodal Dataset for Entity-Centric Retrieval-Augmented Generation

Retrievatar is a multimodal dataset designed to enhance the retrieval-augmented generation capabilities of vision-language models, specifically focusing on fictional anime characters and real-world celebrities.

Retrieval-SFT-Chat: A New Synthetic Dialogue Dataset

Datasets

February 28, 2025

Retrieval-SFT-Chat: A New Synthetic Dialogue Dataset

Retrieval-Based Multi-Turn Chat SFT Synthetic Data, a new 100k entry, multi-turn synthetic dialogue dataset for SFT, building on our work with CausalLM/Refined-Anime-Text.

Unlocking LLM Potential with Our "Special Sauce" for Synthetic Data

Datasets

February 26, 2024

Unlocking LLM Potential with Our "Special Sauce" for Synthetic Data

We introduce our unique recipe for generating high-quality synthetic datasets to boost LLM performance, featuring our new 1M+ entry Anime dataset as a proof of concept.

Language

Research Areas

Connect

About CausalLM

Blog
Category Datasets

Categories:

Retrievatar: A Multimodal Dataset for Entity-Centric Retrieval-Augmented Generation

Retrieval-SFT-Chat: A New Synthetic Dialogue Dataset

Unlocking LLM Potential with Our "Special Sauce" for Synthetic Data

Language

Research Areas

Connect

About CausalLM

Blog Category Datasets

Categories:

Retrievatar: A Multimodal Dataset for Entity-Centric Retrieval-Augmented Generation

Retrieval-SFT-Chat: A New Synthetic Dialogue Dataset

Unlocking LLM Potential with Our "Special Sauce" for Synthetic Data

Blog
Category Datasets