Як витягти вміст для пошуку та індексування за допомогою Aspose.Words
Витяг контенту з Word-документів дозволяє розробникам надавати передові можливості пошуку та індексування. Aspose.Words для .NET дозволяє програматично витягувати текст, заголовки, таблиці та метадані для інтеграції в пошукові системи або бази даних.
Вимоги: Інструменти для екстракції контенту з Word-документів
- Install the Створення .NET SDK for your operating system.
- Додайте Aspose.Words до вашого проекту:
dotnet add package Aspose.Words
- Підготуйте Word-документи, що містять текст, таблиці та метадані для тестування.
Крок за кроком Посібник для екстракції контенту з Word-документів
Крок 1: Завантажити документ
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Load the Word document
string filePath = "DocumentToIndex.docx";
Document doc = new Document(filePath);
Console.WriteLine("Document loaded successfully.");
}
}
Пояснення: Цей код завантажує зазначений документ Word в пам’ять.
Крок 2: Витяг тексту
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract text from the document
string text = doc.GetText();
Console.WriteLine("Extracted Text:");
Console.WriteLine(text);
}
}
Пояснення: Цей код витягує весь текст з завантаженого Word-документу.
Крок 3: Екстракт заголовків і метадатів
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract headings
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
{
if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
{
Console.WriteLine($"Heading: {para.GetText().Trim()}");
}
}
// Extract metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
}
}
Пояснення: Цей код витягує з документа заголовки (заголовок1 і заголовок2) та метадані (заголовок і автор).
Крок 4: Екстракт таблиць для індексування
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract tables from the document
foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
{
foreach (Row row in table.Rows)
{
foreach (Cell cell in row.Cells)
{
Console.Write(cell.GetText().Trim() + "\t");
}
Console.WriteLine();
}
}
}
}
Пояснення: Цей код витягує всі таблиці з документа і друкує їх вміст на консолі.
Реальні програми для екстракції контенту
Індекс пошукових двигунів:- Витяг тексту та метадатів для того, щоб дозволити пошук повного тексту в системах управління документами.
аналіз даних:- Витяг таблиць і аналіз структурованих даних для звітів або панелей.
Реєстрація контенту:- Витяг заголовків та ключових розділів для створення резюме документів.
Сценарії розробки для пошуку та індексування
Пошукові рішення компанії:- Інтегруйте екстракцію контенту в пошукові платформи підприємства для швидкого відновлення документів.
Публікаційна інформаційна система:- Використовуйте витягнутий контент для харчування баз даних або моделей машинного навчання для аналізу.
Загальні проблеми та рішення для екстракції контенту
Недосконалий текст екстракції:- Переконайтеся, що формат документа підтримується і правильно завантажено.
Визначення висновків з висновком:- Переконайтеся, що документ використовує послідовні заголовкові стилі (наприклад, заголовки1, заголовки2).
Про це йдеться у повідомленні:- Обробляти поєднані клітини та складні табличні структури з додатковою логікою.
Витягуючи вміст з Aspose.Words в .NET, ви можете активувати потужні функції пошуку та індексування Word-документів у ваших додатках.