扩展指南
1. 扩展 DataRule
适用于:InputData / OutputData 的数据类型需要扩展,解析数据语义或字段发生变化,需要新的类型标识与 ValidationRule。
在
DataEnum中增加新值(字符串建议与 CLI 一致)。在
DataChecker.rules中为新DataEnum挂载ValidationRule子类(rules.py),实现check()/error_message。将能消费该数据的 Parser / Visualizer 的类属性
input_type设为对应DataEnum。在
docs/data/data_specification.md中补充数据形态说明。
2. 扩展 Parser / Visualizer
适用于:在仍使用 OfflineInsightPipeline 的前提下,新增一种解析后端或一种可视化输出。
Parser
新增模块,例如
rl_insight/parser/my_parser.py。继承
BaseClusterParser,实现run()方法。@register_cluster_parser("<name>"),保证get_cluster_parser_cls("<name>")可用。若有配置参数,在
rl_insight/config/config.py对应场景的ParserConfig中添加字段。更新相关用户文档。
Visualizer
新增模块,例如
rl_insight/visualizer/my_visualizer.py。继承
BaseVisualizer,实现run()方法。@register_cluster_visualizer("<name>"),保证get_cluster_visualizer_cls("<name>")可用。若有配置参数,在
rl_insight/config/config.py对应场景的VisualizerConfig中添加字段。更新相关用户文档。
若输入或中间数据形态变化,需同步按上一节扩展 DataRule。
3. 扩展 Pipeline
适用于:全新的处理范式(跳过步骤、插入预处理、多产物、在线多进程流程等)。
在
rl_insight/pipeline/新增类,实现__init__(self, config)、run(self),按需组合DataChecker、get_cluster_parser_cls、get_cluster_visualizer_cls等。在
rl_insight/config/config.py的PipelineConfig.type默认值或 preset YAML 中注册新 pipeline 类型。若数据解析或数据类型发生变化,同步扩展 DataRule / Parser / Visualizer。