Spell Checker

Краен срок:: 14.01.2020 17:00
Точки:: 20

Срокът за предаване на решения е отминал

use std::collections::HashSet;

use solution::*;

#[test]

fn test_empty_counter() {

    let counter = WordCounter::new();

    assert_eq!(counter.get(&String::from("Foobar")), 0);

    assert_eq!(counter.get("another"), 0);

    assert_eq!(counter.get(&String::from("")), 0);

    let counter = WordCounter::new();

    assert_eq!(counter.get(&String::from("Foobar")), 0);

    assert_eq!(counter.get("another"), 0);

    assert_eq!(counter.get(&String::new()), 0);

    assert_eq!(counter.total_count(), 0);

#[test]

fn test_counting() {

    let mut counter = WordCounter::new();

    counter.add("One");

    counter.add(&String::from("Two"));

    counter.add("Two");

    counter.add("Three");

    counter.add("Three");

    counter.add(&String::from("Three"));

    assert_eq!(counter.get("one"), 1);

    assert_eq!(counter.get("two"), 2);

    assert_eq!(counter.get(&String::from("three")), 3);

    assert_eq!(counter.get(&String::from("zero")), 0);

    assert_eq!(counter.total_count(), 6);

#[test]

fn test_display() {

    let mut counter = WordCounter::new();

    assert_eq!(counter.to_string(), "WordCounter, total count: 0\n");

    counter.add("One");

    assert_eq!(counter.to_string(), "WordCounter, total count: 1\none: 1\n");

    counter.add("Two"); counter.add("Two");

    assert_eq!(counter.to_string(), "WordCounter, total count: 3\ntwo: 2\none: 1\n");

    counter.add("Three"); counter.add("Three"); counter.add("Three");

    assert_eq!(counter.to_string(), "WordCounter, total count: 6\nthree: 3\ntwo: 2\none: 1\n");

#[test]

fn test_clean_line_removes_punctuation() {

    assert_eq!(clean_line("foo, bar, baz"), String::from("foo bar baz"));

    assert_eq!(clean_line("ала,  бала'ница"), String::from("ала  бала'ница"));

    assert_eq!(clean_line("-+/"), String::from("-"));

#[test]

fn test_clean_line_trims_the_input() {

    assert_eq!(clean_line(" foo  "), String::from("foo"));

    assert_eq!(clean_line("\tfoo"), String::from("foo"));

    assert_eq!(clean_line("  "), String::from(""));

    assert_eq!(clean_line(""), String::from(""));

#[test]

fn test_from_empty_str() {

    let source = String::from("");

    let counter = WordCounter::from_str(&source);

    let words: Vec<_> = counter.words().into_iter().map(|w| w.as_str()).collect();

    assert_eq!(words.len(), 0);

#[test]

fn test_from_str() {

    let source = String::from("Любов,  любов,   варен картоф.\nОбелих го, а той суров");

    let counter = WordCounter::from_str(&source);

    let words: Vec<_> = counter.words().into_iter().map(|w| w.as_str()).collect();

    assert_eq!(words, vec!["а", "варен", "го", "картоф", "любов", "обелих", "суров", "той"]);

#[test]

fn test_probability() {

    let spell_checker = SpellChecker::new("one one two two", "");

    assert_eq!(spell_checker.probability(&String::from("one")), 0.5);

    assert_eq!(spell_checker.probability(&String::from("two")), 0.5);

    assert_eq!(spell_checker.probability(&String::from("three")), 0.0);

    let spell_checker = SpellChecker::new("three four four four", "");

    assert_eq!(spell_checker.probability(&String::from("three")), 0.25);

    assert_eq!(spell_checker.probability(&String::from("four")), 0.75);

    assert_eq!(spell_checker.probability(&String::from("five")), 0.0);

    let spell_checker = SpellChecker::new("one", "");

    assert_eq!(spell_checker.probability(&String::from("one")), 1.0);

#[test]

fn test_edits1() {

    let edits = SpellChecker::new("", "влпу").edits1("три");

    // deletions

    assert!(edits.contains("ти"));

    assert!(edits.contains("тр"));

    assert!(edits.contains("ри"));

    assert!(!edits.contains("р"));

    // transposes

    assert!(edits.contains("тир"));

    assert!(edits.contains("рти"));

    assert!(!edits.contains("ирт"));

    // replaces

    assert!(edits.contains("тли"));

    assert!(edits.contains("тру"));

    assert!(!edits.contains("тлу"));

    // inserts

    assert!(edits.contains("трип"));

    assert!(edits.contains("втри"));

    assert!(!edits.contains("втрип"));

#[test]

fn test_edits2() {

    let edits = SpellChecker::new("", "авезийпсц").edits2("три");

    // deletions

    assert!(edits.contains("т"));

    assert!(edits.contains("р"));

    assert!(edits.contains("и"));

    assert!(!edits.contains("з"));

    // transposes

    assert!(edits.contains("итр"));

    // replaces

    assert!(edits.contains("спи"));

    assert!(edits.contains("таз"));

    assert!(!edits.contains("две"));

    // inserts

    assert!(edits.contains("втрий"));

    assert!(edits.contains("тирц"));

    assert!(!edits.contains("тирцц"));

#[test]

fn test_known_words() {

    let spell_checker = SpellChecker::new("one two three four", "abcdefghijklmnopqrstuvwxyz");

    let words: HashSet<_> = vec![

        String::from("one"),

        String::from("seven"),

        String::from("thre"),

        String::from("four")

    ].into_iter().collect();

    let mut known_words = spell_checker.known(&words);

    known_words.sort();

    assert_eq!(known_words, vec![&String::from("four"), &String::from("one")]);

#[test]

fn test_correction() {

    let spell_checker = SpellChecker::new("Любов, любов, варен картоф", "вюф");

    let word = String::from("либоф");

    assert_eq!(spell_checker.correction(&word), "любов");

    let word = String::from("картов");

    assert_eq!(spell_checker.correction(&word), "картоф");

#[test]

fn test_correction_normalizes_case() {

    let spell_checker = SpellChecker::new("Любов, любов, варен картоф", "вюф");

    let word = String::from("Либоф");

    assert_eq!(spell_checker.correction(&word), "любов");

    let word = String::from("Картов");

    assert_eq!(spell_checker.correction(&word), "картоф");

#[test]

fn test_correction_fails_to_produce_new_result() {

    let spell_checker = SpellChecker::new("Любов, любов, варен картоф", "");

    let word = String::from("Либоф");

    assert_eq!(spell_checker.correction(&word), "либоф");

    let spell_checker = SpellChecker::new("Любов, любов, варен картоф", "abcdefghijklmnopqrstuvwxyz");

    let word = String::from("Либоф");

    assert_eq!(spell_checker.correction(&word), "либоф");

    let spell_checker = SpellChecker::new("либофф", "ф");

    let word = String::from("Либоф");

    assert_eq!(spell_checker.correction(&word), "либофф");

#[test]

fn test_best_word_is_returned() {

    // Most probability:

    let spell_checker = SpellChecker::new("boat boot boot boot", "abcdefghijklmnopqrstuvwxyz");

    assert_eq!(spell_checker.correction("beet"), "boot");

    let spell_checker = SpellChecker::new("boat boat boat boot", "abcdefghijklmnopqrstuvwxyz");

    assert_eq!(spell_checker.correction("beet"), "boat");

    // One edit away, instead of two

    let spell_checker = SpellChecker::new("own pawns pawns pawns", "abcdefghijklmnopqrstuvwxyz");

    assert_eq!(spell_checker.correction("pwn"), "own");

Spell Checker

В тази задачка ще имплементираме простия spell checker на Peter Norvig: цък. На питон кода е 30тина реда, но в Rust ще ни се наложи да попишем малко повече.

В линка може да намерите по-дълго обяснение на това как работи, но краткия вариант се свежда до:

Вземаме някакъв дълъг текст, разбиваме го на думи и броим колко пъти се среща всяка дума. По-често срещаните думи ще бъдат по-вероятно правилни. Този текст ще наричаме "корпус" по-надолу. Думите, които се срещат в корпуса ще наричаме "познати" (known).
Получаваме дума, която искаме да коригираме.
Позната ли е тази дума? Ако да, направо я връщаме, валидна е.
Пробваме всички възможни други думи на една буква разлика. Познати ли са някои от тези думи? Ако да, връщаме тази, която се среща най-често в корпуса.
Пробваме всички възможни други думи на две букви разлика по същия начин.
В краен случай, връщаме оригиналната дума, не знаем как да я коригираме.

Приемаме, че няма да се подават празни низове или невалидни думи.

Ще започнем имплементацията с една помощна функция:

/// Тази функция премахва всякакви специални символи от низа, освен:
///
/// - Азбучни символи (`char::is_alphabetical`)
/// - Празни символи (`char::is_whitespace`)
/// - Апостроф и тиренце (`'`, `-`)
///
/// Тоест, целта е да сведе един низ до само думи и празни разстояния между тях. Казва се
/// `clean_line`, защото се очаква да бъде викана с по един ред at a time, без нови редове.
///
/// Функцията също се очаква да премахне начален и краен whitespace от низа (Използвайте `.trim`,
/// basically).
///
pub fn clean_line(input: &str) -> String {
    unimplemented!()
}

Ще ни трябва и имплементация на Counter класа, който идва със питонската стандартна библиотека. Или поне нещо подобно.

pub struct WordCounter {
    // ...
}

impl WordCounter {
    /// Конструира нов `WordCounter` без никакви данни.
    ///
    pub fn new() -> Self {
        unimplemented!()
    }

    /// Прочита входния низ, ред по ред, обработва всеки ред с `clean_line`, разбива го на думи и
    /// конструира нов WordCounter, който ще брои думите на този низ.
    ///
    /// Нормализира думите по същия начин както `add` по-долу.
    ///
    pub fn from_str(input: &str) -> Self {
        unimplemented!()
    }

    /// Връща (references към) всички съхранени думи във вектор, сортиран по азбучен ред.
    ///
    pub fn words(&self) -> Vec<&String> {
        unimplemented!()
    }

    /// Брои думата с WordCounter-а. Очаква се входа да бъде:
    ///
    /// - Изчистен от всякакъв начален и краен whitespace
    /// - Сведен до малки букви
    ///
    /// Тоест:
    ///
    /// `counter.add("Foo")` е еквивалентно на
    /// `counter.add("foo")` е еквивалентно на
    /// `counter.add(" foo ")`
    ///
    pub fn add(&mut self, item: &str) {
        unimplemented!()
    }

    /// Връща колко пъти е бил преброена дадената дума.
    ///
    pub fn get(&self, word: &str) -> u32 {
        unimplemented!()
    }

    /// Връща колко общо думи са били преброени. Тоест:
    ///
    ///     counter.add("foo");
    ///     counter.add("foo");
    ///     counter.add("bar");
    ///
    /// се очаква да ни даде `total_count()` 3.
    ///
    pub fn total_count(&self) -> u32 {
        unimplemented!()
    }
}

/// Искаме да можем да напечатаме един `WordCounter` с цел дебъгване.
///
/// - Първи ред: `WordCounter, total count: {}`, форматирано с `total_count`.
/// - Останалите редове: Всяка една дума, изчистена както е описано горе с `add`, с брой на
/// срещането ѝ, примерно: "foo: 13"
///
/// Всеки ред се очаква да завършва с `\n`, включително последния. Думите трябва да са сортирани по
/// брой на срещанията, най-честите трябва да са първи. Примерно:
///
///     WordCounter, total count: 25
///     foo: 13
///     bar: 12
///
impl std::fmt::Display for WordCounter {
    fn fmt(&self, f: &mut fmt::Formatter) -> std::fmt::Result {
        unimplemented!()
    }
}

Накрая, стигаме до самия spell checker:

use std::collections::HashSet;

/// Тези две константи са за удобство -- ще ги използваме в тестовете, свободни сте да ги
/// използвате във вашите.
pub const ALPHABET_EN: &'static str = "abcdefghijklmnopqrstuvwxyz";
pub const ALPHABET_BG: &'static str = "абвгдежзийклмнопрстуфхцчшщъьюя";

pub struct SpellChecker {
    // ...
}

impl SpellChecker {
    /// Създава нов SpellChecker с дадените параметри:
    ///
    /// - corpus: големия текст, който ще се използва за проверяване на познати думи и тяхната
    ///   вероятност
    /// - alphabet: буквите, които ще добавяме или заместваме, за да получим нови потенциални думи.
    ///   Примерно, да spell-check-ваме български или английски изисква различни азбуки.
    ///
    pub fn new(corpus: &str, alphabet: &str) -> Self {
        unimplemented!()
    }

    /// Най-вероятната поправка на тази дума. Както описахме по-горе:
    ///
    /// - Позната ли е тази дума? Ако да, направо я връщаме, валидна е.
    /// - Пробваме всички възможни други думи на една буква разлика. Познати ли са някои от тези
    ///   думи? Ако да, връщаме тази, която се среща най-често в корпуса.
    /// - Пробваме всички възможни други думи на две букви разлика по същия начин.
    /// - В краен случай, връщаме оригиналната дума, не знаем как да я коригираме.
    ///
    /// Очакваме trim + downcase на входа, тоест
    /// `spell_checker.correction(" Foo ")` е еквивалентно на
    /// `spell_checker.correction("foo")`
    ///
    /// (Бележка: Би имало смисъл това да е единствения публичен метод -- всички по-надолу биха
    /// могли да бъдат private API което се използва от този метод, но искаме да ти тестваме в
    /// отделен файл, so here we are.)
    ///
    pub fn correction(&self, word: &str) -> String {
        unimplemented!()
    }

    /// Каква е вероятността тази дума да се срещне в оригиналния текст? Броя срещания на тази
    /// дума, разделен на броя думи в текста.
    ///
    pub fn probability(&self, word: &str) -> f64 {
        unimplemented!()
    }

    /// Кои думи от този Set са познати (присъстват в подадения корпус)?
    ///
    pub fn known<'a>(&self, words: &'a HashSet<String>) -> Vec<&'a String> {
        unimplemented!()
    }

    /// Всички познати кандидати за поправка на тази дума:
    ///
    /// - Ако думата е позната, директно връщаме вектор с нея.
    /// - Намираме познатите edits1 на тази дума -- ако има такива, връщаме ги.
    /// - Намираме познатите edits2 на тази дума -- ако има такива, връщаме ги.
    /// - Иначе, връщаме вектор с думата.
    ///
    pub fn candidates(&self, word: &str) -> Vec<String> {
        unimplemented!()
    }

    /// Всички думи, които са на една промяна разстояние от дадената дума:
    ///
    /// - Една буква изтрита на коя да е позиция
    /// - Две букви разменени (една до друга)
    /// - Една буква от азбуката замества коя да е буква от думата
    /// - Една буква от азбуката добавена в думата на която и да е позиция
    ///
    /// Изхода е HashSet, понеже две различни промени е възможно да продуцират един и същ резултат,
    /// а дубликати не ни интересуват.
    ///
    pub fn edits1(&self, word: &str) -> HashSet<String> {
        unimplemented!()
    }

    /// Всички думи, които са на две промени разстояние от дадената дума. Вижте инструкциите на
    /// edits1 за това какво е "промяна" и направете тези промени по променените веднъж думи.
    ///
    pub fn edits2(&self, word: &str) -> HashSet<String> {
        unimplemented!()
    }
}

Бележки:

Тествайте с кирилица.
Забележете, че f64 не имплементира Ord, което е мега досадно, но е fact of life. Възможно е едно от числата да е NaN (примерно ако разделите 0 на 0), което за целите на домашното приемаме, че няма да се случи. Типа имплементира PartialOrd, обаче.

Имате reference имплементация в горния питонски код, което би трябвало да ви улесни. Ако видите нещо в питона, което не се съгласува с това условие, питайте.

Базов тест (доста базов, колкото да провери, че се компилират нещата): https://github.com/fmi/rust-homework/blob/master/03/test_basic.rs

Задължително прочетете (или си припомнете): Указания за предаване на домашни

Програмиране с Rust

Курс във Факултета по Математика и Информатика към СУ

Spell Checker

Spell Checker