Spaces:

amirhosseinkarami
/

MovieRecommender

Sleeping

App Files Files Community

amirhosseinkarami commited on Jul 7, 2023

Commit

e12639d

1 Parent(s): 6010e28

Simple Recommender complete

Browse files

Files changed (3) hide show

App/app.py +0 -0
App/tfidfrecommender.py +4 -1
app.py +26 -5

App/app.py DELETED Viewed

File without changes

App/tfidfrecommender.py CHANGED Viewed

@@ -82,7 +82,7 @@ class TfidfRecommender :
             lambda x: self.__clean_text(x, for_BERT)
         )
-    def tokenize_text (self, ngram_range=(1, 3), min_df=0) :
         """Tokenize the input text.
         Args:
@@ -181,11 +181,14 @@ class TfidfRecommender :
         return self.stop_words
     def recommend_k_items (self, title, k) :
         idx = self.df[self.df['title'] == title].index[0]
         cosine_sim = cosine_similarity(self.tfidf_matrix[int(idx)], self.tfidf_matrix)
         similarity_scores = list(enumerate(cosine_sim[0]))
         similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
         similarity_scores = similarity_scores[1: k + 1]
         movie_indices = [i[0] for i in similarity_scores]
         return self.df.iloc[movie_indices]['id']

             lambda x: self.__clean_text(x, for_BERT)
         )
+    def tokenize_text (self, ngram_range=(1, 3), min_df=0.0) :
         """Tokenize the input text.
         Args:
         return self.stop_words
     def recommend_k_items (self, title, k) :
+        print("jjj")
         idx = self.df[self.df['title'] == title].index[0]
+        print("ppp")
         cosine_sim = cosine_similarity(self.tfidf_matrix[int(idx)], self.tfidf_matrix)
         similarity_scores = list(enumerate(cosine_sim[0]))
         similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
         similarity_scores = similarity_scores[1: k + 1]
+        print("lol")
         movie_indices = [i[0] for i in similarity_scores]
         return self.df.iloc[movie_indices]['id']

app.py CHANGED Viewed

@@ -10,24 +10,45 @@ desc = pd.read_csv('App/data/descriptions.csv')
 rec = TfidfRecommender(desc, 'id', 'description' , "none")
 def initialize_and_tokenize(tokenizer):
     rec.tokenization_method = tokenizer
     rec.tokenize_text()
 names = []
 def recommend (movies, tok) :
-    initialize_and_tokenize(tok)
     pool = concurrent.futures.ThreadPoolExecutor(max_workers=10)
     futures = [pool.submit(rec.recommend_k_items, movie, 5) for movie in movies]
-    idss = [f.result() for f in futures]
     ids = [id for ids in idss for id in ids]
     ids = list(set(ids))
     names = desc[desc['id'].isin(ids)]['title'].to_list()
     return ', '.join(names)
-demo = gr.Interface(fn=recommend,
-             inputs=[gr.Dropdown(choices = list(desc['title']), multiselect=True, max_choices=3, label="Movies"),
                      gr.Radio(["bert", "scibert", "nltk" , "none"], value="none", label="Tokenization and text preprocess")],
-             outputs=gr.Textbox())
 demo.launch()

 rec = TfidfRecommender(desc, 'id', 'description' , "none")
 def initialize_and_tokenize(tokenizer):
+    print("tok")
     rec.tokenization_method = tokenizer
     rec.tokenize_text()
 names = []
 def recommend (movies, tok) :
+    rec.tokenization_method = tok
+    tf, vecs = rec.tokenize_text()
+    rec.fit(tf, vecs)
+    print("rec")
     pool = concurrent.futures.ThreadPoolExecutor(max_workers=10)
     futures = [pool.submit(rec.recommend_k_items, movie, 5) for movie in movies]
+    idss = []
+    print("after submit")
+    for i in range(len(futures)):
+        print("res")
+        idss.append(futures[i].result())
+    print("shutdown")
+    pool.shutdown(wait=True)
     ids = [id for ids in idss for id in ids]
     ids = list(set(ids))
     names = desc[desc['id'].isin(ids)]['title'].to_list()
     return ', '.join(names)
+def recom(movies, tok):
+    rec.tokenization_method = tok
+    tf, vecs = rec.tokenize_text()
+    rec.fit(tf, vecs)
+    print(movies[0])
+    ids = rec.recommend_k_items(movies[0], 5)
+    print("reccc")
+    # ids = list(set(ids))
+    names = desc[desc['id'].isin(ids)]['title'].to_list()
+    return ', '.join(names)
+demo = gr.Interface(fn=recom,
+             inputs=[gr.Dropdown(choices = list(desc['title'][:20]), multiselect=True, max_choices=3, label="Movies"),
                      gr.Radio(["bert", "scibert", "nltk" , "none"], value="none", label="Tokenization and text preprocess")],
+             outputs=gr.Textbox(label="Recommended"))
 demo.launch()