Giter VIP home page Giter VIP logo

stopwords-json's Introduction

stopwords-json Build Status npm Bower

Stopwords for various languages in JSON format. Per Wikipedia:

Stop words are words which are filtered out prior to, or after, processing of natural language data [...] these are some of the most common, short function words, such as the, is, at, which, and on.

You can use all stopwords with stopwords-all.json (keyed by language ISO 639-1 code), or see the below table for individual language stopword files.

Languages

There are a total of 50 supported languages:

Language Stopword count Filename
Afrikaans 51 af.json
Arabic 162 ar.json
Armenian 45 hy.json
Basque 98 eu.json
Bengali 116 bn.json
Breton 126 br.json
Bulgarian 259 bg.json
Catalan 218 ca.json
Chinese 542 zh.json
Croatian 179 hr.json
Czech 346 cs.json
Danish 101 da.json
Dutch 275 nl.json
English 570 en.json
Esperanto 173 eo.json
Estonian 35 et.json
Finnish 772 fi.json
French 606 fr.json
Galician 160 gl.json
German 596 de.json
Greek 75 el.json
Hausa 39 ha.json
Hebrew 194 he.json
Hindi 225 hi.json
Hungarian 781 hu.json
Indonesian 355 id.json
Irish 109 ga.json
Italian 619 it.json
Japanese 109 ja.json
Korean 679 ko.json
Latin 49 la.json
Latvian 161 lv.json
Marathi 99 mr.json
Norwegian 172 no.json
Persian 332 fa.json
Polish 260 pl.json
Portuguese 408 pt.json
Romanian 282 ro.json
Russian 539 ru.json
Slovak 110 sk.json
Slovenian 446 sl.json
Somalia 30 so.json
Southern Sotho 31 st.json
Spanish 577 es.json
Swahili 74 sw.json
Swedish 401 sv.json
Thai 115 th.json
Turkish 279 tr.json
Yoruba 60 yo.json
Zulu 29 zu.json

Sources

License and Copyright

Copyright (c) 2017 Peter Graham, contributors. Released under the Apache-2.0 license.

stopwords-json's People

Contributors

6 avatar dohliam avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

stopwords-json's Issues

Publish on npm

Hello,

thanks for this very handy repo.
Is there any chance you to publish on npm?

The only problem I see is the name collision as someome already employ this package name.
But I guess @6/stopwords would work.

What do you think?

Two Suggestions

Great work so far! Just two suggestions:

  1. The language is more commonly called Slovene, not Slovenian.

  2. NLTK has stopwords listed for four languages not already included here: Azerbaijani (165), Kazakh (324), Nepali (255), and Tajik (163). I've listed the returned values below.

['a', 'ad', 'altı', 'altmış', 'amma', 'arasında', 'artıq', 'ay', 'az', 'bax', 'belə', 'bəli', 'bəlkə', 'beş', 'bəy', 'bəzən', 'bəzi', 'bilər', 'bir', 'biraz', 'biri', 'birşey', 'biz', 'bizim', 'bizlər', 'bu', 'buna', 'bundan', 'bunların', 'bunu', 'bunun', 'buradan', 'bütün', 'ci', 'cı', 'çox', 'cu', 'cü', 'çünki', 'da', 'daha', 'də', 'dedi', 'dək', 'dən', 'dəqiqə', 'deyil', 'dir', 'doqquz', 'doqsan', 'dörd', 'düz', 'ə', 'edən', 'edir', 'əgər', 'əlbəttə', 'elə', 'əlli', 'ən', 'əslində', 'et', 'etdi', 'etmə', 'etmək', 'faiz', 'gilə', 'görə', 'ha', 'haqqında', 'harada', 'hə', 'heç', 'həm', 'həmin', 'həmişə', 'hər', 'ı', 'idi', 'iki', 'il', 'ildə', 'ilə', 'ilk', 'in', 'indi', 'isə', 'istifadə', 'iyirmi', 'ki', 'kim', 'kimə', 'kimi', 'lakin', 'lap', 'məhz', 'mən', 'mənə', 'mirşey', 'nə', 'nəhayət', 'niyə', 'o', 'obirisi', 'of', 'olan', 'olar', 'olaraq', 'oldu', 'olduğu', 'olmadı', 'olmaz', 'olmuşdur', 'olsun', 'olur', 'on', 'ona', 'ondan', 'onlar', 'onlardan', 'onların ', 'onsuzda', 'onu', 'onun', 'oradan', 'otuz', 'öz', 'özü', 'qarşı', 'qədər', 'qırx', 'saat', 'sadəcə', 'saniyə', 'səhv', 'səkkiz', 'səksən', 'sən', 'sənə', 'sənin', 'siz', 'sizin', 'sizlər', 'sonra', 'təəssüf', 'ü', 'üç', 'üçün', 'var', 'və', 'xan', 'xanım', 'xeyr', 'ya', 'yalnız', 'yaxşı', 'yeddi', 'yenə', 'yəni', 'yetmiş', 'yox', 'yoxdur', 'yoxsa', 'yüz', 'zaman']

['ах', 'ох', 'эх', 'ай', 'эй', 'ой', 'тағы', 'тағыда', 'әрине', 'жоқ', 'сондай', 'осындай', 'осылай', 'солай', 'мұндай', 'бұндай', 'мен', 'сен', 'ол', 'біз', 'біздер', 'олар', 'сіз', 'сіздер', 'маған', 'оған', 'саған', 'біздің', 'сіздің', 'оның', 'бізге', 'сізге', 'оларға', 'біздерге', 'сіздерге', 'оларға', 'менімен', 'сенімен', 'онымен', 'бізбен', 'сізбен', 'олармен', 'біздермен', 'сіздермен', 'менің', 'сенің', 'біздің', 'сіздің', 'оның', 'біздердің', 'сіздердің', 'олардың', 'маған', 'саған', 'оған', 'менен', 'сенен', 'одан', 'бізден', 'сізден', 'олардан', 'біздерден', 'сіздерден', 'олардан', 'айтпақшы', 'сонымен', 'сондықтан', 'бұл', 'осы', 'сол', 'анау', 'мынау', 'сонау', 'осынау', 'ана', 'мына', 'сона', 'әні', 'міне', 'өй', 'үйт', 'бүйт', 'біреу', 'кейбіреу', 'кейбір', 'қайсыбір', 'әрбір', 'бірнеше', 'бірдеме', 'бірнеше', 'әркім', 'әрне', 'әрқайсы', 'әрқалай', 'әлдекім', 'әлдене', 'әлдеқайдан', 'әлденеше', 'әлдеқалай', 'әлдеқашан', 'алдақашан', 'еш', 'ешкім', 'ешбір', 'ештеме', 'дәнеңе', 'ешқашан', 'ешқандай', 'ешқайсы', 'емес', 'бәрі', 'барлық', 'барша', 'бар', 'күллі', 'бүкіл', 'түгел', 'өз', 'өзім', 'өзің', 'өзінің', 'өзіме', 'өзіне', 'өзімнің', 'өзі', 'өзге', 'менде', 'сенде', 'онда', 'менен', 'сенен\tонан', 'одан', 'ау', 'па', 'ей', 'әй', 'е', 'уа', 'уау', 'уай', 'я', 'пай', 'ә', 'о', 'оһо', 'ой', 'ие', 'аһа', 'ау', 'беу', 'мәссаған', 'бәрекелді', 'әттегенай', 'жаракімалла', 'масқарай', 'астапыралла', 'япырмай', 'ойпырмай', 'кәне', 'кәнеки', 'ал', 'әйда', 'кәні', 'міне', 'әні', 'сорап', 'қош-қош', 'пфша', 'пішә', 'құрау-құрау', 'шәйт', 'шек', 'моһ', 'тәк', 'құрау', 'құр', 'кә', 'кәһ', 'күшім', 'күшім', 'мышы', 'пырс', 'әукім', 'алақай', 'паһ-паһ', 'бәрекелді', 'ура', 'әттең', 'әттеген-ай', 'қап', 'түге', 'пішту', 'шіркін', 'алатау', 'пай-пай', 'үшін', 'сайын', 'сияқты', 'туралы', 'арқылы', 'бойы', 'бойымен', 'шамалы', 'шақты', 'қаралы', 'ғұрлы', 'ғұрлым', 'шейін', 'дейін', 'қарай', 'таман', 'салым', 'тарта', 'жуық', 'таяу', 'гөрі', 'бері', 'кейін', 'соң', 'бұрын', 'бетер', 'қатар', 'бірге', 'қоса', 'арс', 'гүрс', 'дүрс', 'қорс', 'тарс', 'тырс', 'ырс', 'барқ', 'борт', 'күрт', 'кірт', 'морт', 'сарт', 'шырт', 'дүңк', 'күңк', 'қыңқ', 'мыңқ', 'маңқ', 'саңқ', 'шаңқ', 'шіңк', 'сыңқ', 'таңқ', 'тыңқ', 'ыңқ', 'болп', 'былп', 'жалп', 'желп', 'қолп', 'ірк', 'ырқ', 'сарт-сұрт', 'тарс-тұрс', 'арс-ұрс', 'жалт-жалт', 'жалт-жұлт', 'қалт-қалт', 'қалт-құлт', 'қаңқ-қаңқ', 'қаңқ-құңқ', 'шаңқ-шаңқ', 'шаңқ-шұңқ', 'арбаң-арбаң', 'бүгжең-бүгжең', 'арсалаң-арсалаң', 'ербелең-ербелең', 'батыр-бұтыр', 'далаң-далаң', 'тарбаң-тарбаң', 'қызараң-қызараң', 'қаңғыр-күңгір', 'қайқаң-құйқаң', 'митың-митың', 'салаң-сұлаң', 'ыржың-тыржың', 'бірақ', 'алайда', 'дегенмен', 'әйтпесе', 'әйткенмен', 'себебі', 'өйткені', 'сондықтан', 'үшін', 'сайын', 'сияқты', 'туралы', 'арқылы', 'бойы', 'бойымен', 'шамалы', 'шақты', 'қаралы', 'ғұрлы', 'ғұрлым', 'гөрі', 'бері', 'кейін', 'соң', 'бұрын', 'бетер', 'қатар', 'бірге', 'қоса', 'шейін', 'дейін', 'қарай', 'таман', 'салым', 'тарта', 'жуық', 'таяу', 'арнайы', 'осындай', 'ғана', 'қана', 'тек', 'әншейін']

['छ', 'र', 'पनि', 'छन्', 'लागि', 'भएको', 'गरेको', 'भने', 'गर्न', 'गर्ने', 'हो', 'तथा', 'यो', 'रहेको', 'उनले', 'थियो', 'हुने', 'गरेका', 'थिए', 'गर्दै', 'तर', 'नै', 'को', 'मा', 'हुन्', 'भन्ने', 'हुन', 'गरी', 'त', 'हुन्छ', 'अब', 'के', 'रहेका', 'गरेर', 'छैन', 'दिए', 'भए', 'यस', 'ले', 'गर्नु', 'औं', 'सो', 'त्यो', 'कि', 'जुन', 'यी', 'का', 'गरि', 'ती', 'न', 'छु', 'छौं', 'लाई', 'नि', 'उप', 'अक्सर', 'आदि', 'कसरी', 'क्रमशः', 'चाले', 'अगाडी', 'अझै', 'अनुसार', 'अन्तर्गत', 'अन्य', 'अन्यत्र', 'अन्यथा', 'अरु', 'अरुलाई', 'अर्को', 'अर्थात', 'अर्थात्', 'अलग', 'आए', 'आजको', 'ओठ', 'आत्म', 'आफू', 'आफूलाई', 'आफ्नै', 'आफ्नो', 'आयो', 'उदाहरण', 'उनको', 'उहालाई', 'एउटै', 'एक', 'एकदम', 'कतै', 'कम से कम', 'कसै', 'कसैले', 'कहाँबाट', 'कहिलेकाहीं', 'का', 'किन', 'किनभने', 'कुनै', 'कुरा', 'कृपया', 'केही', 'कोही', 'गए', 'गरौं', 'गर्छ', 'गर्छु', 'गर्नुपर्छ', 'गयौ', 'गैर', 'चार', 'चाहनुहुन्छ', 'चाहन्छु', 'चाहिए', 'छू', 'जताततै', 'जब', 'जबकि', 'जसको', 'जसबाट', 'जसमा', 'जसलाई', 'जसले', 'जस्तै', 'जस्तो', 'जस्तोसुकै', 'जहाँ', 'जान', 'जाहिर', 'जे', 'जो', 'ठीक', 'तत्काल', 'तदनुसार', 'तपाईको', 'तपाई', 'पर्याप्त', 'पहिले', 'पहिलो', 'पहिल्यै', 'पाँच', 'पाँचौं', 'तल', 'तापनी', 'तिनी', 'तिनीहरू', 'तिनीहरुको', 'तिनिहरुलाई', 'तिमी', 'तिर', 'तीन', 'तुरुन्तै', 'तेस्रो', 'तेस्कारण', 'पूर्व', 'प्रति', 'प्रतेक', 'प्लस', 'फेरी', 'बने', 'त्सपछि', 'त्सैले', 'त्यहाँ', 'थिएन', 'दिनुभएको', 'दिनुहुन्छ', 'दुई', 'देखि', 'बरु', 'बारे', 'बाहिर', 'देखिन्छ', 'देखियो', 'देखे', 'देखेको', 'देखेर', 'दोस्रो', 'धेरै', 'नजिकै', 'नत्र', 'नयाँ', 'निम्ति', 'बाहेक', 'बीच', 'बीचमा', 'भन', 'निम्न', 'निम्नानुसार', 'निर्दिष्ट', 'नौ', 'पक्का', 'पक्कै', 'पछि', 'पछिल्लो', 'पटक', 'पर्छ', 'पर्थ्यो', 'भन्छन्', 'भन्', 'भन्छु', 'भन्दा', 'भन्नुभयो', 'भर', 'भित्र', 'भित्री', 'म', 'मलाई', 'मात्र', 'माथि', 'मुख्य', 'मेरो', 'यति', 'यथोचित', 'यदि', 'यद्यपि', 'यसको', 'यसपछि', 'यसबाहेक', 'यसरी', 'यसो', 'यस्तो', 'यहाँ', 'यहाँसम्म', 'या', 'रही', 'राखे', 'राख्छ', 'राम्रो', 'रूप', 'लगभग', 'वरीपरी', 'वास्तवमा', 'बिरुद्ध', 'बिशेष', 'सायद', 'शायद', 'संग', 'संगै', 'सक्छ', 'सट्टा', 'सधै', 'सबै', 'सबैलाई', 'समय', 'सम्भव', 'सम्म', 'सही', 'साँच्चै', 'सात', 'साथ', 'साथै', 'सारा', 'सोही', 'स्पष्ट', 'हरे', 'हरेक']

['аз', 'дар', 'ба', 'бо', 'барои', 'бе', 'то', 'ҷуз', 'пеши', 'назди', 'рӯйи', 'болои ', 'паси', 'ғайри', 'ҳамон', 'ҳамоно', 'инҷониб', 'замон', 'замоно', 'эътиборан', 'пеш', 'қабл', 'дида', 'сар карда', 'агар ', 'агар ки', 'валекин ', 'ки', 'лекин', 'аммо', 'вале', 'балки', 'ва', 'ҳарчанд', 'чунки', 'зеро', 'зеро ки', 'вақте ки', 'то вақте ки', 'барои он ки', 'бо нияти он ки', 'лекин ва ҳол он ки', 'ё', 'ё ин ки ', 'бе он ки ', 'дар ҳолате ки', 'то даме ки ', 'баъд аз он ки', 'даме ки', 'ба тразе ки ', 'аз баҳри он ки', 'гар ', 'ар', 'ба шарте', 'азбаски ', 'модоме ки', 'агар чи', 'гарчанде ки ', 'бо вуҷуди он ки', 'гӯё', 'аз-баски ', 'чун-ки', 'агар-чанд', 'агар-чи ', 'гар-чи', 'то ки', 'чунон ки', 'то даме ки', 'ҳар қадар ки', 'магар ', 'оё', 'наход', 'ҳатто ', 'ҳам ', 'бале ', 'оре ', 'хуб ', 'хуш', 'хайр', 'не', 'на', 'мана', 'э', 'фақат', 'танҳо', 'кошки ', 'мабодо', 'ҳтимол', 'ана ҳамин', 'наход ки', 'ҳатто ки', 'аз афташ', 'майлаш куя', 'ана', 'ҳа', 'канӣ', 'гӯё ки', 'ҳо ана', 'на ин ки', 'ваҳ', 'ҳой', 'и', 'а', 'о', 'эҳ', 'ҳе', 'ҳу', 'аҳа', 'оҳе', 'уҳа', 'ҳм', 'нм', 'оббо', 'ӯббо', 'ҳой-ҳой ', 'вой-вой', 'ту-ту', 'ҳмм', 'эҳа', 'тавба', 'ӯҳӯ', 'аҷабо', 'ало', 'аё', 'ой', 'ӯим ', 'ором', 'хом?ш', 'ҳай-ҳай ', 'бай-бай', 'аз ', 'он', 'баъд', 'азбаски', 'ӯ', 'ҳангоми', 'чӣ', 'кадом', 'ин', 'ҷо', 'ҳам', 'ё ки', 'бояд', 'аст', 'чанд', 'ҳар', 'бар', 'чаро ки', 'агар', 'то кӣ', 'бинобар', 'бинобар ин', 'ҳаргиз', 'асло', 'нахот', 'нахот ки', 'кошкӣ', 'шояд', 'шояд ки', 'охир', 'аз рӯи', 'аз рӯйи ', 'рӯ']

Coverage for African languages

Great project! I noticed there are currently no African languages included, so I've started the more-stoplists project to rectify that.

We are in the process of creating approximately 50-60 lists of stopwords from the ASP corpus. Swahili and Afrikaans are already complete, and the rest will follow gradually as we go through the process of manually checking each of the automatically generated lists.

Would it be okay if I submitted a PR with the extra languages? In commit 900b3fa I have added af.json and sw.json, and updated the stopwords-all.json and README.md files. I could start with these and submit the others as they are completed. Let me know what you think!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.