Giter VIP home page Giter VIP logo

text-split-explorer's Introduction

Text Split Explorer

fork von Harrison Chase

drawing


Bei vielen der wichtigsten LLM-Anwendungen geht es darum, LLMs mit externen Datenquellen zu verbinden. Eine Voraussetzung dafür ist, dass die Daten in ein Format gebracht werden, in dem LLMs sich leicht mit ihnen verbinden können. In den meisten Fällen bedeutet das, dass die Daten in einen Vektorspeicher gebracht werden. Eine Voraussetzung dafür ist, dass der ursprüngliche Text in kleinere Teile zerlegt wird.

Auch wenn dies trivial erscheinen mag, ist es ein differenzierter und übersehener Schritt. Bei der Aufteilung des Textes müssen Sie sicherstellen, dass jeder Abschnitt zusammenhängende Informationen enthält, d. h. Sie wollen nicht einfach mitten im Satz aufteilen. Was "zusammenhängende Information" bedeutet, kann je nach Textart unterschiedlich sein. Bei Markdown gibt es z. B. Abschnittsbegrenzer (##), die man zusammenhalten möchte, während man beim Aufteilen von Python-Code alle Klassen und Methoden zusammenhalten möchte (wenn möglich).

Dieses Repo (und die dazugehörige Streamlit-App) soll helfen, verschiedene Arten der Textaufteilung zu erkunden. Sie können verschiedene Parameter einstellen und verschiedene Arten von Splittern auswählen. Wenn Sie eine Textdatei einfügen, können Sie den Splitter auf diesen Text anwenden und die resultierenden Aufteilungen sehen. Es wird auch ein Codeschnipsel angezeigt, den Sie kopieren und in Ihrer Anwendung verwenden können.

App auf Streamlit

Die App ist auf Streamlit gehostet: https://langchain-text-splitter.streamlit.app/

App auf lokalem Rechner

Um lokal zu arbeiten, richten Sie zunächst die Umgebung ein, indem Sie das Repo klonen und ausführen:

pip install -r requirements

Führen Sie dann die Streamlit-Anwendung mit:

streamlit run splitter.py

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.