#

corpus-linguistics

Here are 326 public repositories matching this topic...

BLKSerene / Wordless

An Integrated Corpus Tool With Multilingual Support for the Study of Language, Literature, and Translation

translation tokenizer corpus linguistics tagger literature dependency-parser corpus-linguistics lemmatizer corpus-tools corpus-processing corpus-search corpus-statistics stopword corpus-analysis

Updated Dec 5, 2024
Python

JiashuWu / Books

louisowen6 / NLP_bahasa_resources

A Curated List of Dataset and Usable Library Resources for NLP in Bahasa Indonesia

nlp natural-language-processing library sentiment-analysis packages corpus dataset corpus-linguistics indonesian-language bahasa-indonesia indonesian sentiment-analysis-dataset nlp-bahasa-resources

Updated Feb 17, 2023

adbar / German-NLP

Curated list of open-access/open-source/off-the-shelf resources and tools developed with a particular focus on German

nlp natural-language-processing text-mining computational-linguistics corpus-linguistics german-language

Updated Oct 30, 2024

kmkurn / id-nlp-resource

A list of Indonesian NLP resources.

natural-language-processing corpus-linguistics indonesian-language

Updated Jan 18, 2022

OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora

russian-specific linguistics corpora corpus-linguistics

Updated Aug 26, 2023
PHP

kirralabs / indonesian-NLP-resources

data resource untuk NLP bahasa indonesia

nlp crawler sentiment-analysis corpus dataset named-entity-recognition dependency-parser corpus-linguistics indonesian-language pos-tagging parallel-corpus indonesian

Updated Sep 19, 2020

oroszgy / awesome-hungarian-nlp

A curated list of NLP resources for Hungarian

Updated Oct 31, 2023

google / corpuscrawler

Crawler for linguistic corpora

crawling linguistics corpus-linguistics corpus-builder minority-language

Updated Dec 5, 2023
Python

oscar-project / ungoliant

🕷️ The pipeline for the OSCAR corpus

nlp crawler corpus-linguistics fasttext oscar commoncrawl common-crawl language-classification

Updated Dec 18, 2023
Rust

scriptin / kanji-frequency

Kanji usage frequency data collected from various sources

data japanese corpus data-visualization cjk kanji japanese-language corpus-linguistics frequency-lists cjk-characters kanji-frequency

Updated Dec 18, 2024
Astro

OliverHellwig / sanskrit

Data for the quantitative study of (Vedic) Sanskrit

corpus-linguistics sanskrit historical-linguistics ancient-languages

Updated Oct 29, 2024
Python

oscar-project / goclassy

An asynchronous concurrent pipeline for classifying Common Crawl based on fastText's pipeline.

nlp corpus-linguistics fasttext common-crawl language-classification

Updated Apr 21, 2021
Go

islamAndAi / QURAN-NLP

Quran, Hadith, Translations, Tafaseer, Corpus Linguistics. Everything for NLP

nlp search-engine translation ai chatbot transliteration corpus quran corpus-linguistics islam hadith tafsir hadees tafaseer islamandai

Updated Apr 9, 2024
Jupyter Notebook

czcorpus / kontext

An advanced, extensible web front-end for the Manatee-open corpus search engine

user-interface corpora corpus-linguistics corpus-tools

Updated Dec 13, 2024
TypeScript

nerus

natasha / nerus

Large silver standart Russian corpus with NER, morphology and syntax markup

python nlp syntax morphology russian corpus-linguistics ner

Updated Jul 24, 2023
Python

JonathanReeve / corpus-db

A textual corpus database for the digital humanities.

natural-language-processing text-analysis literature digital-humanities corpus-linguistics literary-studies literary-analysis literary-criticism

Updated Jul 26, 2020
Jupyter Notebook

lennes / spect

SpeCT - Speech Corpus Toolkit for Praat. Documentation: https://lennes.github.io/spect/

annotation analysis speech transcript corpus-linguistics transcription spoken-language praat corpus-tools speech-analysis conversational-speech speech-corpus spect

Updated Aug 11, 2023
HTML

STRZGR / Natural-Language-Processing-with-Python-Analyzing-Text-with-the-Natural-Language-Toolkit

My solutions to selected exercises to "Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit" by Steven Bird, Ewan Klein, and Edward Loper.

nlp text-analysis python3 linguistics nltk gutenberg corpus-linguistics linguistic-analysis

Updated Dec 5, 2019
Jupyter Notebook

LanguageMachines / PICCL

A set of workflows for corpus building through OCR, post-correction and normalisation

nlp workflow ocr computational-linguistics corpus-linguistics folia corpus-tools

Updated Sep 7, 2022
Python

Improve this page

Add a description, image, and links to the corpus-linguistics topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the corpus-linguistics topic, visit your repo's landing page and select "manage topics."