扩展指南

1. 扩展 DataRule

适用于:InputData / OutputData 的数据类型需要扩展,解析数据语义或字段发生变化,需要新的类型标识与 ValidationRule

  1. DataEnum 中增加新值(字符串建议与 CLI 一致)。

  2. DataChecker.rules 中为新 DataEnum 挂载 ValidationRule 子类(rules.py),实现 check() / error_message

  3. 将能消费该数据的 Parser / Visualizer 的类属性 input_type 设为对应 DataEnum

  4. docs/data/data_specification.md 中补充数据形态说明。

2. 扩展 Parser / Visualizer

适用于:在仍使用 OfflineInsightPipeline 的前提下,新增一种解析后端或一种可视化输出。

Parser

  1. 新增模块,例如 rl_insight/parser/my_parser.py

  2. 继承 BaseClusterParser,实现 run() 方法。

  3. @register_cluster_parser("<name>"),保证 get_cluster_parser_cls("<name>") 可用。

  4. 若有配置参数,在 rl_insight/config/config.py 对应场景的 ParserConfig 中添加字段。

  5. 更新相关用户文档。

Visualizer

  1. 新增模块,例如 rl_insight/visualizer/my_visualizer.py

  2. 继承 BaseVisualizer,实现 run() 方法。

  3. @register_cluster_visualizer("<name>"),保证 get_cluster_visualizer_cls("<name>") 可用。

  4. 若有配置参数,在 rl_insight/config/config.py 对应场景的 VisualizerConfig 中添加字段。

  5. 更新相关用户文档。

若输入或中间数据形态变化,需同步按上一节扩展 DataRule

3. 扩展 Pipeline

适用于:全新的处理范式(跳过步骤、插入预处理、多产物、在线多进程流程等)。

  1. rl_insight/pipeline/ 新增类,实现 __init__(self, config)run(self),按需组合 DataCheckerget_cluster_parser_clsget_cluster_visualizer_cls 等。

  2. rl_insight/config/config.pyPipelineConfig.type 默认值或 preset YAML 中注册新 pipeline 类型。

  3. 若数据解析或数据类型发生变化,同步扩展 DataRule / Parser / Visualizer