Mentre la maggior parte delle aziende mira a monopolizzare l'attenzione dei propri utenti, noi di CityFALCON cerchiamo di ridurre il carico di attenzione in modo che gli utenti possano partecipare in modo più efficiente ed efficace ai mercati. Il raggruppamento di storie simili ci fa fare un passo in quella direzione, in modo che gli utenti possano dedicare meno tempo alla dovuta diligenza e più tempo a prendere decisioni, stare con amici e familiari e dedicarsi ai propri hobby.

Ogni volta che si verifica un evento importante, sia i media tradizionali che i social media si accendono con rapporti, tweet e post sugli avvenimenti. Nei casi internazionali, questi sono solitamente pubblicati anche in più lingue. La maggior parte dei rapporti, specialmente quando le notizie sono dell'ultima ora, possono essere articoli stub che dicono fatti di base molto simili. Col passare del tempo, vengono fuori più informazioni e la quantità di informazioni si espande, facendo sì che le fonti di notizie divergano leggermente nelle loro riprese. Tuttavia, il messaggio di fondo sulle piattaforme di notizie tende a rimanere molto simile, supponendo che non vengano presentate notizie false. 

Questa conformità può sprecare tempo prezioso per la ricerca e la due diligence perché le storie ripetono le stesse informazioni. Con il raggruppamento di storie simili, CityFALCON elimina la necessità di setacciare più interpretazioni simili dello stesso problema.

D'altra parte, alcuni partecipanti al mercato temono di perdere differenze chiave sottili o oscurate che potrebbero portare a una migliore decisione di investimento. Tali partecipanti cercano tutti i contenuti simili disponibili per ottenere una migliore comprensione del problema (incluso quello in altre lingue) e questo approccio è altamente raccomandato a chiunque stia per prendere una decisione finanziaria o commerciale. 

Il raggruppamento di storie simili aiuta questi utenti raggruppando tutti i contenuti in un unico posto, in modo che più istanze di informazioni simili possano essere trovate contemporaneamente in un'unica posizione. Ciò impedisce di trascurare differenze importanti cercando a casaccio contenuti simili nel feed delle notizie. Inoltre, quando sono coinvolte più lingue, CityFALCON acquisisce e raggruppa i contenuti multilingue insieme.

Aspetto e vantaggi del raggruppamento di storie simili

Storie simili compaiono su tutti i canali di consegna CityFALCON: le app mobili, il sito Web e l'API. Nelle precedenti iterazioni della nostra piattaforma, tutte le storie occupavano le proprie schede delle storie, ogni storia o Tweet la propria riga con tutte le informazioni associate. Con argomenti molto popolari o quando si sono verificati importanti eventi di ultime notizie, il feed potrebbe inondarsi di articoli di notizie dopo articoli di notizie (e sicuramente Tweet dopo Tweet) che riportano la stessa cosa. 

Similar Stories condensa tutte quelle singole schede contenenti contenuti simili in un'unica scheda con un titolo rappresentativo. Il contenuto simile è stampato nella stessa carta per un rapido accesso alla scrematura ma senza occupare così tanto spazio.

La cura dei contenuti – registrando se ti piace, non ti piace o trovi le storie irrilevanti – ora può essere eseguita anche per tutti i contenuti simili in un'unica azione. La selezione aiuta le nostre macchine a comprendere meglio le tue esigenze per aumentare la pertinenza dei contenuti che ti vengono offerti. Con questa azione a clic singolo per più storie, puoi aiutare gli algoritmi ad apprendere più velocemente. Se vuoi curare le storie individualmente, dovrai separare i contenuti simili.

In questo contesto, lo strumento di cura "nascondi" ti consente di nascondere tutti i contenuti simili in modo da poter passare all'idea successiva senza incontrare costantemente informazioni che hai già interiorizzato.

Scheda Storie simili con gli strumenti di selezione evidenziati

Il feed di notizie predefinito su CityFALCON ora condensa contenuti simili in schede come questa. Se vuoi tornare alla vecchia visualizzazione, disattiva semplicemente l'interruttore a levetta per Raggruppa contenuti simili. Ciò costringerà ogni storia a essere presentata su una propria scheda individuale nel feed.

Vedere solo la storia più rappresentativa – ovvero nascondere tutti i contenuti simili raccolti in fondo alla scheda raggruppata – si può disattivare Mostra contenuti simili nel feed. Questo è utile per esaminare le notizie senza essere distratti dalla lettura di troppi titoli simili che potrebbero attirare la tua attenzione. Tieni presente che questo nasconde qualsiasi contenuto etichettato come "simile", ad eccezione del contenuto più rappresentativo, che sarà il titolo della scheda.

Insomma, se vuoi dare una scorsa alle notizie e leggere di tanti argomenti diversi, spegni Mostra contenuti simili nel feed. Se vuoi approfondire o vuoi semplicemente mantenere altri titoli in giro per le loro interpretazioni leggermente diverse degli eventi, mantieni attivate entrambe le opzioni per contenuti simili.

Come lo facciamo

Per raggruppare le storie, i nostri algoritmi analizzano ogni titolo della storia, meta descrizione e, se disponibile come articolo full-text sulla nostra piattaforma, la storia stessa. Analizziamo anche i Tweet. Quindi, con tutte queste informazioni, vettorizziamo il contenuto e inseriamo storie e tweet in cluster. Successivamente, utilizzando gli stessi dati di analisi ma un diverso algoritmo di elaborazione del linguaggio naturale (NLP), scegliamo la storia più rappresentativa per quel gruppo. Se ci sono ancora troppe storie, si ripete il processo di raggruppamento e scelta di un rappresentante.

Infine, le storie più rappresentative vengono fornite agli utenti come storia principale della carta e quelle nel cluster sono presentate come storie simili. Aggiungendo un valore significativo rispetto ad alcuni operatori storici come Google News, i nostri modelli NLP di apprendimento automatico ci consentono di raggruppare e confrontare indipendentemente dalla lingua del contenuto. Quindi, se ci sono più lingue che discutono dello stesso argomento, CityFALCON le raggrupperà insieme, purché supportiamo la lingua per il raggruppamento. A partire da giugno 2020, questo supporto copre 16 lingue, con un massimo di 93 entro la fine dell'anno.

Raggruppamento e perdita di informazioni

L'uso della tecnologia per condensare le informazioni linguistiche in un insieme più piccolo solleva alcune domande comuni. Quanto è accurato? Come faccio a sapere che i raggruppamenti sono davvero "simili"? Questo approccio condensa troppo le informazioni in modo da perdere informazioni importanti?

Cominciamo con la precisione. Almeno per le lingue che parli, è facile confermare che il contenuto contrassegnato come simile è veramente simile. Puoi ancora leggere i titoli e puoi verificare immediatamente se è simile o meno. Sebbene l'apprendimento automatico significhi che la precisione non sarà 100%, abbiamo rilasciato questa funzione solo dopo che test, formazione e perfezionamento hanno portato a una precisione pratica. Perfino gli umani non sono in grado di essere accurati al 100% e gli umani non possono leggere 1 milione di storie e tweet al giorno per trovare somiglianze come fanno i nostri algoritmi. Quindi, anche se la precisione potrebbe non essere 100%, è sufficientemente elevata per l'uso pratico. Se noti imprecisioni estreme, faccelo sapere in modo che possiamo migliorare i nostri sistemi.

Allo stesso modo dell'accuratezza, è facile verificare che i raggruppamenti siano realmente simili, poiché i titoli sono presentati per l'ispezione.

Infine, finché le altre notizie vengono visualizzate nel feed delle notizie sotto il file Contenuto simile header, gli utenti non perderanno importanti sottigliezze nella formulazione di titoli e storie, perché il contenuto può essere verificato direttamente. Quindi, se vuoi approfondire un argomento, mantieni il file Mostra contenuti simili nel feed opzione attivata. Questo è altamente raccomandato prima di prendere una decisione di investimento o commerciale. Altrimenti, se vuoi solo esaminare ciò che sta accadendo oggi, perdere le sottigliezze nella formulazione del titolo non sarà problematico e puoi disattivare il Mostra contenuti simili nel feed interruttore.

Progettato per scalabilità e prestazioni

Similar Stories è un'impresa estremamente intensiva in termini di calcolo. Nei giorni di alta attività, possiamo elaborare milioni di contenuti nella pipeline CityFALCON, mentre anche durante i periodi più lenti ne elaboriamo regolarmente fino a un milione al giorno. Dopo l'aggregazione e l'elaborazione, tutto quel contenuto deve essere confrontato con tutto il contenuto che abbiamo già elaborato e archiviato nei giorni passati per determinare la somiglianza. Il processo di confronto vettorializza molte dimensioni di ciascun contenuto, quindi confronta il contenuto dimensione per dimensione e per vettori incrociati. La necessità di calcolo risultante è sbalorditiva.

Questo requisito di calcolo ha reso alcuni linguaggi popolari come Java e Python troppo ingombranti per gestire gli enormi flussi di dati. Per questo motivo, abbiamo scritto il nostro componente di raggruppamento di storie simili in C++, un linguaggio forte per prestazioni e basso sovraccarico. Minore è l'overhead, più rapida ed efficiente sarà l'elaborazione e, in questo scenario, avevamo bisogno di qualsiasi vantaggio in termini di efficienza che potessimo ottenere. Inoltre, la flessibilità di indirizzare l'utilizzo delle risorse in C++ lo rende ideale per controllare strettamente i costi di calcolo e delle risorse, in particolare l'utilizzo della memoria.

Dopo un bel po' di lavoro di ricerca e sviluppo, abbiamo prodotto una versione altamente efficiente che offre agli utenti ciò di cui hanno bisogno e mantiene i nostri costi di elaborazione gestibili.

Man mano che il sistema si ridimensiona, l'utilizzo di C++ a basso overhead garantisce che la scalabilità non venga compromessa, quindi tutti i client CityFALCON, dagli utenti API ad alta potenza agli utenti consumer a basso volume, sperimentano una distribuzione dei contenuti fluida e accurata.

Riduci il tuo tempo di ricerca oggi

Ci aspettiamo che la maggior parte degli utenti tragga vantaggio da questa funzione, quindi la attiviamo per impostazione predefinita. Prova la nuova funzionalità su argomenti molto popolari, come quelli su questo lista di controllo che evidenzia i titoli popolari. Quindi goditi più tempo per fare affari, stare con amici e familiari o perseguire altri usi del tuo tempo piuttosto che guadare contenuti quasi identici riguardanti i tuoi investimenti.