ИИ и машинное обучение трансформируют медицинские изображения, но обучение этих моделей требует больших, адекватно анонимных наборов данных. В этом руководстве вы узнаете, как подготовить набор данных DICOM для исследований искусственного искусства с помощью полного рабочего потока, который сочетает анонимизацию комплекта с экспортом метаданных JSON для беспроводной интеграции в МЛ трубопроводы.

Таблица контента

Почему AI Research нуждается в анонимных данных DICOM

Медицинские модели изображения ИИ для диагностики, сегментации и обнаружения требуют существенных учебных данных. Эти данные должны быть адекватно анонимны, чтобы соответствовать HIPAA, GDPR и институциональной политике. Кроме того, научно-исследовательские сотрудничества часто охватывают несколько учреждений, делая стандартизированную де-идентификацию необходимым.

Правильная подготовка набора данных включает в себя больше, чем просто удаление имен пациентов. требует систематического обращения со всей идентификационной информацией, последовательного применения правил анонимности по тысячам файлов и конвертации формата, что делает данные доступными к МЛ-рамкам.

Риски неправильной подготовки набор данных

Использование частично анонимных или неправильно структурированных наборов данных создает значительные проблемы. Неполная анонимизация может раскрыть информацию о пациенте, что приводит к нарушению нормативных норм и этических нарушений.Несовместимая анонизация через набор данных может ввести разногласия или проблемы с качеством данных.Безструктурируемые метаданные затрудняют фильтр, запрос и предварительные обработки данных для моделирования.

Эти риски уменьшаются, используя автоматизированные, последовательные трубы анонимности и конвертируя данные в машинно-приятные форматы.

Полный рабочий поток Подготовки

Полный рабочий поток состоит из четырех этапов. Во-первых, комплект анонимизирует исследования DICOM с использованием последовательных профилей. во-вторых, конвертировать анонимные метаданные в JSON для ввода трубопровода. в-третьих, хранить изображения и метаданы для доступа к рамке ML. В-четвертых, поддерживать картографирование между анонизированными и оригинальными ИД в безопасном хранилище.

Давайте реализуем каждый этап с примерами кода.

Батч анонимизация (Batch Anonymization)

Начните с анонимизации вашей коллекции DICOM с последовательным профилем:

using Aspose.Medical.Dicom;
using Aspose.Medical.Dicom.Anonymization;

public class DicomDatasetPreparation
{
    private readonly string _inputFolder;
    private readonly string _outputFolder;
    private readonly string _mappingFile;
    private readonly Anonymizer _anonymizer;
    private readonly List<string> _mappings = new();

    public DicomDatasetPreparation(string inputFolder, string outputFolder)
    {
        _inputFolder = inputFolder;
        _outputFolder = outputFolder;
        _mappingFile = Path.Combine(outputFolder, "id_mapping.csv");

        Directory.CreateDirectory(outputFolder);

        // Create anonymizer with research-appropriate profile
        ConfidentialityProfile profile = ConfidentialityProfile.CreateDefault(
            ConfidentialityProfileOptions.BasicProfile |
            ConfidentialityProfileOptions.RetainPatientChars
        );
        _anonymizer = new Anonymizer(profile);

        _mappings.Add("OriginalFile,AnonymizedFile,Timestamp");
    }

    public async Task ProcessDatasetAsync()
    {
        string[] dicomFiles = Directory.GetFiles(_inputFolder, "*.dcm", SearchOption.AllDirectories);
        Console.WriteLine($"Found {dicomFiles.Length} DICOM files to process.");

        int processed = 0;
        int failed = 0;

        foreach (string filePath in dicomFiles)
        {
            try
            {
                string relativePath = Path.GetRelativePath(_inputFolder, filePath);
                string outputPath = Path.Combine(_outputFolder, "images", relativePath);

                Directory.CreateDirectory(Path.GetDirectoryName(outputPath)!);

                DicomFile dcm = DicomFile.Open(filePath);
                DicomFile anonymizedDcm = _anonymizer.Anonymize(dcm);
                anonymizedDcm.Save(outputPath);

                // Record mapping for audit trail
                _mappings.Add($"\"{relativePath}\",\"{outputPath}\",\"{DateTime.UtcNow:O}\"");

                processed++;
                if (processed % 100 == 0)
                {
                    Console.WriteLine($"Progress: {processed}/{dicomFiles.Length}");
                }
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Error processing {filePath}: {ex.Message}");
                failed++;
            }
        }

        // Save mapping file
        await File.WriteAllLinesAsync(_mappingFile, _mappings);

        Console.WriteLine($"\nAnonymization complete:");
        Console.WriteLine($"  Processed: {processed}");
        Console.WriteLine($"  Failed: {failed}");
        Console.WriteLine($"  Mapping file: {_mappingFile}");
    }
}

Конвертирование метаданных в JSON

После анонимности конвертируйте метаданные в JSON для введения трубопровода ML:

using Aspose.Medical.Dicom;
using Aspose.Medical.Dicom.Serialization;

public class MetadataExporter
{
    public async Task ExportMetadataToJsonAsync(string dicomFolder, string jsonOutputPath)
    {
        string[] dicomFiles = Directory.GetFiles(dicomFolder, "*.dcm", SearchOption.AllDirectories);
        List<Dataset> datasets = new();

        Console.WriteLine($"Extracting metadata from {dicomFiles.Length} files...");

        foreach (string filePath in dicomFiles)
        {
            try
            {
                DicomFile dcm = DicomFile.Open(filePath);
                datasets.Add(dcm.Dataset);
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Skipping {filePath}: {ex.Message}");
            }
        }

        // Serialize all datasets to JSON array
        string jsonArray = DicomJsonSerializer.Serialize(datasets.ToArray(), writeIndented: true);
        await File.WriteAllTextAsync(jsonOutputPath, jsonArray);

        Console.WriteLine($"Exported {datasets.Count} datasets to {jsonOutputPath}");
    }

    public async Task ExportMetadataPerFileAsync(string dicomFolder, string jsonOutputFolder)
    {
        Directory.CreateDirectory(jsonOutputFolder);
        string[] dicomFiles = Directory.GetFiles(dicomFolder, "*.dcm", SearchOption.AllDirectories);

        foreach (string filePath in dicomFiles)
        {
            try
            {
                DicomFile dcm = DicomFile.Open(filePath);
                string json = DicomJsonSerializer.Serialize(dcm, writeIndented: true);

                string jsonFileName = Path.GetFileNameWithoutExtension(filePath) + ".json";
                string jsonPath = Path.Combine(jsonOutputFolder, jsonFileName);
                await File.WriteAllTextAsync(jsonPath, json);
            }
            catch (Exception ex)
            {
                Console.WriteLine($"Error exporting {filePath}: {ex.Message}");
            }
        }

        Console.WriteLine($"Individual JSON files saved to {jsonOutputFolder}");
    }
}

Интеграция с трубопроводами ML

Экспортированный JSON можно загрузить в различные ML-фремы и инструменты.

Загрузка в Python с Pandas

import json
import pandas as pd

# Load the JSON array
with open('dicom_metadata.json', 'r') as f:
    dicom_data = json.load(f)

# Flatten nested structure for analysis
def extract_values(record):
    result = {}
    for tag, data in record.items():
        if 'Value' in data and data['Value']:
            value = data['Value'][0]
            if isinstance(value, dict) and 'Alphabetic' in value:
                result[tag] = value['Alphabetic']
            else:
                result[tag] = value
    return result

flat_data = [extract_values(record) for record in dicom_data]
df = pd.DataFrame(flat_data)

print(df.head())
print(f"Dataset shape: {df.shape}")

Индексирование в Elasticsearch

from elasticsearch import Elasticsearch, helpers

es = Elasticsearch(['http://localhost:9200'])

with open('dicom_metadata.json', 'r') as f:
    dicom_data = json.load(f)

def generate_actions(data):
    for i, record in enumerate(data):
        yield {
            '_index': 'dicom_studies',
            '_id': i,
            '_source': record
        }

helpers.bulk(es, generate_actions(dicom_data))
print(f"Indexed {len(dicom_data)} records to Elasticsearch")

Полный трубопроводный скрипт

Вот полный скрипт C#, который выполняет весь рабочий поток подготовки:

using Aspose.Medical.Dicom;
using Aspose.Medical.Dicom.Anonymization;
using Aspose.Medical.Dicom.Serialization;

class Program
{
    static async Task Main(string[] args)
    {
        string inputFolder = args.Length > 0 ? args[0] : @"C:\DicomSource";
        string outputFolder = args.Length > 1 ? args[1] : @"C:\DicomPrepared";

        Console.WriteLine("=== DICOM Dataset Preparation for AI ===\n");

        // Step 1: Anonymize
        Console.WriteLine("Step 1: Anonymizing DICOM files...");
        var prep = new DicomDatasetPreparation(inputFolder, outputFolder);
        await prep.ProcessDatasetAsync();

        // Step 2: Export metadata to JSON
        Console.WriteLine("\nStep 2: Exporting metadata to JSON...");
        var exporter = new MetadataExporter();
        string anonymizedFolder = Path.Combine(outputFolder, "images");
        string jsonOutput = Path.Combine(outputFolder, "metadata.json");
        await exporter.ExportMetadataToJsonAsync(anonymizedFolder, jsonOutput);

        Console.WriteLine("\n=== Dataset Preparation Complete ===");
        Console.WriteLine($"Anonymized images: {Path.Combine(outputFolder, "images")}");
        Console.WriteLine($"Metadata JSON: {jsonOutput}");
        Console.WriteLine($"ID Mapping: {Path.Combine(outputFolder, "id_mapping.csv")}");
    }
}

«Лучшие практики»

*Безопасное хранилище для картографирования идентификатора является необходимым. картография между анонимными и оригинальными идентитетами должна храниться в безопасном, контролируемом расположении отдельно от анонимизированных данных. Это позволяет повторно идентифицировать, если это необходимо для клинического отслеживания при сохранении конфиденциальности.

Запись всех операций для воспроизведений. Запись, какие файлы были обрабатываны, когда, с каким профилем, и любые ошибки, столкнувшиеся.

Валидируйте выходы образца перед обработкой целых наборов данных.Проверьте анонимные файлы, чтобы убедиться, что профиль работает так, как ожидалось, и что качество изображения сохраняется.

Смотрите распределение данных для больших наборов данных.Организируйте вывод по типу обучения, способу обучения или другим соответствующим критериям, чтобы облегчить подбор подгруппы для различных учебных задач.

Заключение — заключение

Подготовка сетей данных DICOM для искусственного искусства и машинного обучения требует тщательного внимания на конфиденциальность, консистенцию и совместимость формата.С помощью Aspose.Medical для .NET вы можете построить автоматизированные трубы, которые объединяют анонимизацию исследований с последовательными профилями, экспортируют метаданные в JSON для введения в рамки ML и поддерживают аудиторские трассы для воспроизводимости.

Этот рабочий поток гарантирует, что ваши исследовательские данные правильно деидентифицированы, хорошо структурированы и готовы к следующему поколению медицинской иллюстрации.

Для получения дополнительной информации и примеров посетите Aspose.медицинская документацияДля того, чтобы пробовать полные возможности API, Получите бесплатную временную лицензию.

More in this category